1. Biểu đồ phân tán (scatterplot) được sử dụng để làm gì?
A. Hiển thị phân phối tần số của một biến duy nhất.
B. So sánh trung bình của nhiều nhóm.
C. Khám phá mối quan hệ giữa hai biến định lượng.
D. Hiển thị xu hướng theo thời gian.
2. Trong kiểm định giả thuyết, lỗi Loại I xảy ra khi nào?
A. Bác bỏ giả thuyết null khi nó thực sự đúng.
B. Không bác bỏ giả thuyết null khi nó thực sự sai.
C. Chấp nhận giả thuyết đối khi nó thực sự sai.
D. Chấp nhận giả thuyết null khi nó thực sự đúng.
3. Trong thống kê Bayes, `prior` (tiền nghiệm) đề cập đến điều gì?
A. Dữ liệu mẫu được thu thập.
B. Phân phối xác suất ban đầu của tham số quan tâm trước khi xem xét dữ liệu.
C. Phân phối xác suất của dữ liệu.
D. Phân phối xác suất sau khi xem xét dữ liệu.
4. Ưu điểm chính của việc sử dụng trung vị thay vì trung bình làm thước đo trung tâm là gì?
A. Trung vị dễ tính toán hơn trung bình.
B. Trung vị nhạy cảm hơn với giá trị ngoại lai so với trung bình.
C. Trung vị ít bị ảnh hưởng bởi giá trị ngoại lai hơn so với trung bình.
D. Trung vị luôn là giá trị thực tế trong tập dữ liệu.
5. Phương pháp nào sau đây được sử dụng để kiểm tra sự khác biệt về trung bình giữa hai nhóm độc lập?
A. Kiểm định Chi-bình phương
B. Phân tích phương sai (ANOVA)
C. Kiểm định t độc lập
D. Hồi quy tuyến tính
6. Hệ số tương quan Pearson đo lường điều gì?
A. Độ mạnh và hướng của mối quan hệ tuyến tính giữa hai biến định lượng.
B. Độ mạnh của mối quan hệ phi tuyến tính giữa hai biến định lượng.
C. Mối quan hệ nhân quả giữa hai biến định tính.
D. Sự khác biệt giữa trung bình của hai biến định lượng.
7. Mục tiêu chính của phân tích phương sai (ANOVA) là gì?
A. Kiểm tra mối quan hệ tuyến tính giữa hai biến.
B. So sánh phương sai giữa các mẫu khác nhau.
C. So sánh trung bình của nhiều nhóm (hơn hai nhóm).
D. Dự đoán giá trị của biến phụ thuộc dựa trên biến độc lập.
8. Phương pháp lấy mẫu nào đảm bảo rằng mọi đơn vị trong quần thể đều có cơ hội được chọn như nhau?
A. Lấy mẫu phân tầng
B. Lấy mẫu cụm
C. Lấy mẫu ngẫu nhiên đơn giản
D. Lấy mẫu thuận tiện
9. Điều gì xảy ra với độ rộng của khoảng tin cậy khi kích thước mẫu tăng lên (giả sử các yếu tố khác không đổi)?
A. Độ rộng khoảng tin cậy tăng lên.
B. Độ rộng khoảng tin cậy giảm đi.
C. Độ rộng khoảng tin cậy không đổi.
D. Không thể xác định được sự thay đổi.
10. Sai số chuẩn của trung bình (standard error of the mean) đo lường điều gì?
A. Độ lệch chuẩn của mẫu.
B. Độ lệch chuẩn của quần thể.
C. Độ lệch chuẩn của phân phối lấy mẫu của trung bình mẫu.
D. Sai số ngẫu nhiên trong dữ liệu.
11. Thống kê mô tả (descriptive statistics) chủ yếu tập trung vào điều gì?
A. Dự đoán về quần thể dựa trên mẫu.
B. Tóm tắt và mô tả các đặc điểm chính của tập dữ liệu.
C. Kiểm định giả thuyết về quần thể.
D. Ước lượng khoảng tin cậy cho tham số quần thể.
12. Biểu đồ hộp (boxplot) thường được sử dụng để hiển thị điều gì về một tập dữ liệu?
A. Tần số của từng giá trị trong dữ liệu.
B. Dạng phân phối, độ lệch và giá trị ngoại lai của dữ liệu.
C. Mối quan hệ giữa hai biến định lượng.
D. Xu hướng theo thời gian của dữ liệu.
13. Phân phối nào sau đây thường được sử dụng để mô hình hóa số lần một sự kiện hiếm gặp xảy ra trong một khoảng thời gian hoặc không gian nhất định?
A. Phân phối chuẩn
B. Phân phối nhị thức
C. Phân phối Poisson
D. Phân phối đều
14. Loại biến nào sau đây là biến định tính?
A. Chiều cao (cm)
B. Cân nặng (kg)
C. Màu mắt (xanh, nâu, đen)
D. Thu nhập (VNĐ)
15. Giá trị ngoại lai (outlier) là gì trong thống kê?
A. Giá trị xuất hiện thường xuyên nhất trong dữ liệu.
B. Giá trị nằm ở trung tâm của dữ liệu.
C. Giá trị khác biệt đáng kể so với phần lớn các giá trị khác trong dữ liệu.
D. Giá trị trung bình của dữ liệu.
16. Trong phân tích hồi quy đa biến, hiện tượng đa cộng tuyến (multicollinearity) đề cập đến vấn đề gì?
A. Mối quan hệ phi tuyến tính giữa các biến.
B. Sự tương quan cao giữa các biến độc lập với nhau.
C. Phương sai sai số thay đổi.
D. Dữ liệu bị thiếu.
17. Phương pháp nào sau đây giúp giảm chiều dữ liệu (dimensionality reduction) trong phân tích dữ liệu lớn?
A. Hồi quy tuyến tính.
B. Phân tích thành phần chính (PCA).
C. Kiểm định t.
D. Thống kê mô tả.
18. Khi nào thì nên sử dụng kiểm định một đuôi (one-tailed test) thay vì kiểm định hai đuôi (two-tailed test) trong kiểm định giả thuyết?
A. Khi không có giả thuyết đối cụ thể.
B. Khi quan tâm đến sự khác biệt theo cả hai hướng (lớn hơn hoặc nhỏ hơn).
C. Khi chỉ quan tâm đến sự khác biệt theo một hướng cụ thể (lớn hơn hoặc nhỏ hơn).
D. Khi kích thước mẫu lớn.
19. Trong thống kê, `phân phối` đề cập đến điều gì?
A. Giá trị trung bình của một tập dữ liệu.
B. Cách dữ liệu được trải rộng hoặc phân bổ.
C. Độ lệch chuẩn của một tập dữ liệu.
D. Kích thước mẫu của một nghiên cứu.
20. Sai số lấy mẫu (sampling error) là gì?
A. Lỗi do sai sót trong quá trình nhập liệu.
B. Lỗi do thiết kế nghiên cứu sai.
C. Sự khác biệt giữa thống kê mẫu và tham số quần thể do tính ngẫu nhiên của việc lấy mẫu.
D. Lỗi do sử dụng phương pháp thống kê không phù hợp.
21. Đại lượng nào sau đây đo lường mức độ phân tán của dữ liệu xung quanh giá trị trung bình?
A. Trung vị
B. Độ lệch chuẩn
C. Mốt
D. Tứ phân vị
22. Trong phân tích dữ liệu, `làm sạch dữ liệu` (data cleaning) bao gồm những công việc gì?
A. Thu thập dữ liệu từ nhiều nguồn khác nhau.
B. Tóm tắt dữ liệu bằng các thống kê mô tả.
C. Xử lý dữ liệu thiếu, loại bỏ giá trị ngoại lai và sửa lỗi dữ liệu.
D. Trực quan hóa dữ liệu bằng biểu đồ.
23. Trong kiểm định giả thuyết, mức ý nghĩa (alpha, α) thường được đặt ở 0.05. Điều này có nghĩa là gì?
A. Có 5% cơ hội giả thuyết null là đúng.
B. Có 5% cơ hội mắc lỗi Loại II.
C. Có 5% cơ hội bác bỏ giả thuyết null khi nó thực sự đúng (lỗi Loại I).
D. Có 95% cơ hội giả thuyết đối là đúng.
24. Nguyên tắc 68-95-99.7 trong phân phối chuẩn (quy tắc kinh nghiệm) nói về điều gì?
A. Tỷ lệ phần trăm dữ liệu nằm trong các khoảng khác nhau xung quanh trung vị.
B. Tỷ lệ phần trăm dữ liệu nằm trong 1, 2 và 3 độ lệch chuẩn của trung bình trong phân phối chuẩn.
C. Xác suất mắc lỗi Loại I và Loại II.
D. Khoảng tin cậy cho trung bình quần thể.
25. Hệ số xác định (R-squared) trong hồi quy tuyến tính đo lường điều gì?
A. Độ mạnh của mối quan hệ tuyến tính.
B. Tỷ lệ phương sai của biến phụ thuộc được giải thích bởi mô hình hồi quy.
C. Độ dốc của đường hồi quy.
D. Sai số chuẩn của mô hình.
26. Trong phân tích hồi quy tuyến tính, hệ số chặn (intercept) biểu thị điều gì?
A. Độ thay đổi trung bình của biến phụ thuộc khi biến độc lập tăng lên một đơn vị.
B. Giá trị trung bình của biến phụ thuộc khi tất cả biến độc lập bằng 0.
C. Mức độ phù hợp của mô hình hồi quy.
D. Sai số ngẫu nhiên trong mô hình.
27. Khi nào thì nên sử dụng thống kê phi tham số thay vì thống kê tham số?
A. Khi dữ liệu tuân theo phân phối chuẩn.
B. Khi kích thước mẫu rất lớn.
C. Khi dữ liệu không tuân theo các giả định của thống kê tham số (ví dụ: phân phối không chuẩn).
D. Khi cần tính toán trung bình và độ lệch chuẩn.
28. Ước lượng điểm (point estimate) là gì trong thống kê?
A. Một khoảng giá trị có khả năng chứa tham số quần thể.
B. Một giá trị duy nhất được sử dụng để ước tính tham số quần thể.
C. Một thước đo độ phân tán của dữ liệu mẫu.
D. Một phương pháp kiểm định giả thuyết.
29. Giá trị P (p-value) trong kiểm định giả thuyết biểu thị điều gì?
A. Xác suất giả thuyết null là đúng.
B. Xác suất quan sát được kết quả cực đoan như kết quả đã quan sát, giả sử giả thuyết null là đúng.
C. Xác suất giả thuyết đối là đúng.
D. Mức ý nghĩa của kiểm định.
30. Phương pháp nào sau đây thường được sử dụng để khám phá mối quan hệ giữa hai biến định tính?
A. Hệ số tương quan Pearson.
B. Kiểm định t độc lập.
C. Bảng chéo (bảng tần số ghép) và kiểm định Chi-bình phương.
D. Phân tích hồi quy tuyến tính.