1. Trong phân tích dữ liệu lớn (Big Data), thách thức `tính biến đổi` (variability) đề cập đến điều gì?
A. Số lượng dữ liệu khổng lồ.
B. Tốc độ tạo ra dữ liệu rất nhanh.
C. Sự đa dạng về loại và nguồn dữ liệu.
D. Sự không nhất quán và thay đổi của dữ liệu theo thời gian hoặc giữa các nguồn.
2. Kiểm định Chi-bình phương (Chi-squared test) thường được sử dụng để kiểm định điều gì?
A. Trung bình của một tổng thể.
B. Phương sai của một tổng thể.
C. Sự độc lập giữa hai biến định tính hoặc sự phù hợp của dữ liệu với một phân phối lý thuyết.
D. Mối quan hệ tuyến tính giữa hai biến định lượng.
3. `Hồi quy tuyến tính đa biến` (multiple linear regression) khác với `hồi quy tuyến tính đơn biến` (simple linear regression) ở điểm nào?
A. Hồi quy đa biến chỉ sử dụng dữ liệu định tính.
B. Hồi quy đa biến có nhiều biến phụ thuộc.
C. Hồi quy đa biến có nhiều biến độc lập.
D. Hồi quy đơn biến không sử dụng phương trình đường thẳng.
4. Loại thang đo nào cho phép xác định thứ tự và khoảng cách bằng nhau giữa các giá trị, nhưng không có điểm 0 tuyệt đối?
A. Định danh (Nominal).
B. Thứ bậc (Ordinal).
C. Khoảng (Interval).
D. Tỷ lệ (Ratio).
5. Mục tiêu chính của `khai phá dữ liệu` (data mining) là gì?
A. Thu thập dữ liệu từ nhiều nguồn khác nhau.
B. Làm sạch và chuẩn hóa dữ liệu.
C. Phát hiện các mẫu, quy luật, và thông tin hữu ích ẩn chứa trong dữ liệu lớn.
D. Trình bày dữ liệu một cách trực quan.
6. Giá trị trung bình cộng (mean) bị ảnh hưởng nhiều nhất bởi:
A. Số lượng quan sát.
B. Độ lệch chuẩn.
C. Giá trị ngoại lai (outliers).
D. Vị trí trung tâm của dữ liệu.
7. Phương pháp lấy mẫu ngẫu nhiên đơn giản (simple random sampling) đảm bảo điều gì?
A. Mỗi phần tử trong tổng thể có cơ hội được chọn vào mẫu như nhau.
B. Mẫu thu được chắc chắn đại diện cho tổng thể.
C. Giảm thiểu sai số lấy mẫu hoàn toàn.
D. Chỉ chọn những phần tử dễ tiếp cận nhất.
8. Phương pháp `bootstrap` trong thống kê được sử dụng để làm gì?
A. Tăng kích thước mẫu ban đầu.
B. Ước tính phân phối lấy mẫu của một thống kê bằng cách lấy mẫu lại có hoàn lại từ mẫu ban đầu.
C. Kiểm định giả thuyết về trung bình tổng thể.
D. Phân tích phương sai giữa các nhóm.
9. Histogram thường được sử dụng để biểu diễn loại dữ liệu nào?
A. Dữ liệu định tính (qualitative).
B. Dữ liệu định lượng liên tục (continuous quantitative).
C. Dữ liệu định lượng rời rạc (discrete quantitative) với ít giá trị.
D. Dữ liệu thứ bậc (ordinal).
10. Phân phối nhị thức (binomial distribution) mô tả điều gì?
A. Xác suất của các sự kiện liên tục.
B. Số lần thành công trong một số lượng cố định các phép thử độc lập Bernoulli.
C. Thời gian giữa các sự kiện.
D. Phân phối của trung bình mẫu.
11. Thống kê mô tả tập trung vào việc:
A. Đưa ra kết luận về tổng thể dựa trên mẫu.
B. Trình bày và tóm tắt dữ liệu.
C. Dự đoán các giá trị tương lai.
D. Xây dựng mô hình toán học cho dữ liệu.
12. Trong thống kê Bayes, `xác suất tiên nghiệm` (prior probability) là gì?
A. Xác suất được tính toán từ dữ liệu mẫu.
B. Xác suất ban đầu về một giả thuyết hoặc tham số trước khi xem xét dữ liệu.
C. Xác suất sau khi đã cập nhật thông tin từ dữ liệu mẫu.
D. Xác suất của dữ liệu mẫu.
13. Mức ý nghĩa (significance level) alpha (α) trong kiểm định giả thuyết thể hiện điều gì?
A. Xác suất mắc lỗi loại II.
B. Xác suất bác bỏ giả thuyết không khi nó thực sự đúng (lỗi loại I).
C. Xác suất chấp nhận giả thuyết không khi nó thực sự sai (lỗi loại II).
D. Xác suất giả thuyết không là đúng.
14. Phân phối Poisson mô tả điều gì?
A. Xác suất của các sự kiện liên tục.
B. Số lần thành công trong một số lượng cố định các phép thử.
C. Số sự kiện xảy ra trong một khoảng thời gian hoặc không gian nhất định.
D. Phân phối của trung bình mẫu.
15. Hệ số tương quan (correlation coefficient) đo lường điều gì?
A. Độ mạnh và hướng của mối quan hệ tuyến tính giữa hai biến định lượng.
B. Mức độ phân tán của dữ liệu.
C. Giá trị trung bình của hai biến.
D. Sự khác biệt giữa hai biến.
16. Phân tích ANOVA (Analysis of Variance) được sử dụng để làm gì?
A. Đo lường mối quan hệ giữa hai biến định lượng.
B. So sánh trung bình của hai nhóm.
C. So sánh trung bình của ba hoặc nhiều nhóm.
D. Dự đoán giá trị của một biến dựa trên biến khác.
17. Trong kiểm định giả thuyết, `giả thuyết không` (null hypothesis) thường biểu thị điều gì?
A. Điều mà nhà nghiên cứu mong muốn chứng minh.
B. Một tuyên bố mặc định hoặc không có hiệu ứng/khác biệt.
C. Một giả thuyết luôn đúng.
D. Một giả thuyết chỉ áp dụng cho mẫu chứ không phải tổng thể.
18. Giá trị p (p-value) trong kiểm định giả thuyết là gì?
A. Xác suất giả thuyết không là đúng.
B. Xác suất quan sát được kết quả cực đoan như kết quả mẫu (hoặc cực đoan hơn) nếu giả thuyết không là đúng.
C. Xác suất mắc lỗi loại I.
D. Xác suất mắc lỗi loại II.
19. Khoảng tin cậy (confidence interval) cung cấp thông tin gì?
A. Giá trị chính xác của tham số tổng thể.
B. Một khoảng giá trị mà chúng ta tin rằng tham số tổng thể có khả năng nằm trong đó, với một mức độ tin cậy nhất định.
C. Xác suất tham số tổng thể nằm trong khoảng ước lượng.
D. Độ lệch chuẩn của mẫu.
20. Định lý giới hạn trung tâm (Central Limit Theorem) phát biểu điều gì?
A. Trung bình mẫu luôn bằng trung bình tổng thể.
B. Với kích thước mẫu đủ lớn, phân phối lấy mẫu của trung bình mẫu sẽ xấp xỉ phân phối chuẩn, bất kể hình dạng phân phối của tổng thể.
C. Độ lệch chuẩn của mẫu luôn bằng độ lệch chuẩn của tổng thể.
D. Mẫu lớn luôn tốt hơn mẫu nhỏ trong mọi trường hợp.
21. Độ lệch chuẩn của mẫu (sample standard deviation) được sử dụng để ước tính điều gì?
A. Giá trị trung bình của tổng thể.
B. Độ lệch chuẩn của tổng thể.
C. Phương sai của mẫu.
D. Kích thước mẫu cần thiết.
22. Phân phối chuẩn (normal distribution) có những đặc điểm chính nào?
A. Lệch trái, một đỉnh.
B. Đối xứng, hình chuông, một đỉnh, trung bình = trung vị = mốt.
C. Hai đỉnh, đối xứng.
D. Phẳng, đều.
23. Khi nào nên sử dụng trung vị (median) thay vì trung bình cộng (mean) để đo lường xu hướng trung tâm?
A. Khi dữ liệu phân phối chuẩn.
B. Khi dữ liệu có giá trị ngoại lai.
C. Khi muốn tính tổng các giá trị.
D. Khi dữ liệu là định lượng liên tục.
24. Phương sai (variance) đo lường điều gì?
A. Giá trị trung tâm của dữ liệu.
B. Mức độ phân tán của dữ liệu xung quanh giá trị trung bình.
C. Hình dạng phân phối của dữ liệu.
D. Mối quan hệ giữa hai biến số.
25. Sai số chuẩn của trung bình mẫu (standard error of the mean) đo lường điều gì?
A. Độ lệch chuẩn của mẫu.
B. Độ biến động của trung bình mẫu giữa các mẫu khác nhau.
C. Sai số do đo lường không chính xác.
D. Kích thước mẫu cần thiết để đạt độ chính xác mong muốn.
26. Lấy mẫu phân tầng (stratified sampling) phù hợp nhất khi nào?
A. Tổng thể đồng nhất.
B. Tổng thể có các nhóm con (strata) khác biệt rõ rệt.
C. Không cần tính đại diện của mẫu.
D. Chi phí lấy mẫu là yếu tố duy nhất cần xem xét.
27. Sai số loại II (Type II error) xảy ra khi nào?
A. Bác bỏ giả thuyết không khi nó thực sự đúng.
B. Chấp nhận giả thuyết không khi nó thực sự sai.
C. Không đưa ra quyết định về giả thuyết không.
D. Chọn sai mức ý nghĩa alpha.
28. Phân tích hồi quy (regression analysis) được sử dụng để:
A. Tóm tắt dữ liệu bằng đồ thị.
B. Dự đoán giá trị của một biến phụ thuộc dựa trên một hoặc nhiều biến độc lập.
C. Kiểm định sự khác biệt giữa các nhóm.
D. Tính toán độ phân tán của dữ liệu.
29. Biểu đồ hộp (boxplot) chủ yếu thể hiện thông tin gì về phân phối dữ liệu?
A. Tần số xuất hiện của mỗi giá trị.
B. Hình dạng phân phối (ví dụ: đối xứng, lệch).
C. Giá trị trung bình và độ lệch chuẩn.
D. Mối quan hệ giữa hai biến.
30. Khi nào thì kiểm định phi tham số (non-parametric test) phù hợp hơn kiểm định tham số (parametric test)?
A. Khi dữ liệu tuân theo phân phối chuẩn.
B. Khi kích thước mẫu rất lớn.
C. Khi các giả định của kiểm định tham số (ví dụ: phân phối chuẩn) không được đáp ứng hoặc khi dữ liệu là thứ bậc (ordinal).
D. Khi muốn tăng độ mạnh của kiểm định.