1. Khi nào nên sử dụng kiểm định Chi-bình phương (Chi-square test) về tính độc lập?
A. Để so sánh trung bình của hai nhóm.
B. Để kiểm tra sự phù hợp của dữ liệu với một phân phối lý thuyết.
C. Để kiểm tra xem có mối quan hệ giữa hai biến phân loại hay không.
D. Để dự đoán giá trị của một biến liên tục.
2. Trong phân tích phương sai (ANOVA), mục đích chính là gì?
A. Kiểm tra sự khác biệt giữa trung bình của hai quần thể.
B. Kiểm tra sự khác biệt giữa phương sai của hai quần thể.
C. Kiểm tra sự khác biệt giữa trung bình của ba hoặc nhiều hơn quần thể.
D. Đo lường mức độ tương quan giữa các biến.
3. Phân phối xác suất nào sau đây thường được sử dụng để mô hình hóa số lần một sự kiện hiếm xảy ra trong một khoảng thời gian hoặc không gian nhất định?
A. Phân phối chuẩn
B. Phân phối nhị thức
C. Phân phối Poisson
D. Phân phối đều
4. Phân phối chuẩn (Normal distribution) còn được gọi là:
A. Phân phối nhị thức
B. Phân phối Poisson
C. Phân phối Gaussian
D. Phân phối mũ
5. Sai số loại II (Type II error) trong kiểm định giả thuyết xảy ra khi:
A. Bác bỏ giả thuyết null khi nó thực sự đúng.
B. Không bác bỏ giả thuyết null khi nó thực sự sai.
C. Chọn mẫu không đại diện.
D. Tính toán sai giá trị thống kê kiểm định.
6. Khi cỡ mẫu tăng lên, độ rộng của khoảng tin cậy (confidence interval) sẽ:
A. Tăng lên
B. Giảm xuống
C. Không đổi
D. Thay đổi không dự đoán được
7. Độ lệch chuẩn (standard deviation) là căn bậc hai của:
A. Giá trị trung bình
B. Trung vị
C. Phương sai
D. Khoảng biến thiên
8. Trong thống kê phi tham số, chúng ta thường sử dụng các phương pháp khi:
A. Dữ liệu tuân theo phân phối chuẩn.
B. Cỡ mẫu rất lớn.
C. Các giả định về phân phối của dữ liệu không được đáp ứng.
D. Chúng ta muốn tính toán trung bình quần thể.
9. Khái niệm nào sau đây mô tả tập hợp tất cả các kết quả có thể xảy ra của một phép thử ngẫu nhiên?
A. Biến cố
B. Không gian mẫu
C. Xác suất
D. Phân phối xác suất
10. Giá trị p (p-value) trong kiểm định giả thuyết biểu thị:
A. Xác suất giả thuyết null là đúng.
B. Xác suất quan sát được dữ liệu (hoặc dữ liệu cực đoan hơn) nếu giả thuyết null là đúng.
C. Mức ý nghĩa của kiểm định.
D. Sai số loại I.
11. Đại lượng thống kê nào đo lường mức độ phân tán của dữ liệu xung quanh giá trị trung bình?
A. Trung vị
B. Phương sai
C. Mốt
D. Tứ phân vị
12. Phương pháp lấy mẫu nào mà mỗi phần tử của quần thể có cơ hội được chọn vào mẫu như nhau?
A. Lấy mẫu phân tầng
B. Lấy mẫu cụm
C. Lấy mẫu ngẫu nhiên đơn giản
D. Lấy mẫu thuận tiện
13. Hệ số tương quan (correlation coefficient) có giá trị nằm trong khoảng nào?
A. 0 đến 1
B. -1 đến 1
C. 0 đến vô cùng
D. - vô cùng đến vô cùng
14. Biểu đồ hộp (boxplot) thường được sử dụng để:
A. Hiển thị tần số của các giá trị.
B. So sánh trung bình của các nhóm.
C. Hiển thị phân phối và các giá trị ngoại lệ của dữ liệu.
D. Mô tả mối quan hệ giữa hai biến.
15. Trong thống kê suy diễn, `khoảng tin cậy` (confidence interval) cung cấp:
A. Một giá trị điểm ước lượng chính xác cho tham số.
B. Một khoảng giá trị mà tham số có khả năng cao nằm trong đó.
C. Xác suất mà tham số bằng một giá trị cụ thể.
D. Độ lệch chuẩn của mẫu.
16. Trong kiểm định giả thuyết một đuôi (one-tailed test), vùng bác bỏ (rejection region) nằm ở:
A. Cả hai đuôi của phân phối.
B. Một đuôi của phân phối.
C. Giữa của phân phối.
D. Tùy thuộc vào mức ý nghĩa.
17. Trong phân tích hồi quy đa biến, hiện tượng đa cộng tuyến (multicollinearity) đề cập đến:
A. Mối quan hệ tuyến tính giữa biến phụ thuộc và biến độc lập.
B. Mối quan hệ tuyến tính mạnh mẽ giữa các biến độc lập.
C. Sự biến đổi của phương sai theo giá trị của biến độc lập.
D. Sai số ngẫu nhiên không tuân theo phân phối chuẩn.
18. Trong phân tích hồi quy tuyến tính, hệ số hồi quy (regression coefficient) cho biết:
A. Mức độ phù hợp của mô hình hồi quy.
B. Mức độ tương quan giữa các biến.
C. Mức độ thay đổi của biến phụ thuộc khi biến độc lập thay đổi một đơn vị.
D. Giá trị trung bình của biến phụ thuộc.
19. Biến ngẫu nhiên nào sau đây là biến ngẫu nhiên rời rạc?
A. Chiều cao của sinh viên
B. Nhiệt độ phòng
C. Số lượng sách trong thư viện
D. Thời gian hoàn thành bài kiểm tra
20. Đặc điểm nào sau đây KHÔNG phải là đặc điểm của phân phối chuẩn?
A. Đối xứng
B. Đơn đỉnh
C. Lệch phải
D. Hình chuông
21. Trong kiểm định giả thuyết, mức ý nghĩa (significance level) thường được ký hiệu là alpha (α) đại diện cho:
A. Xác suất mắc sai số loại II.
B. Xác suất mắc sai số loại I.
C. Độ mạnh của kiểm định.
D. Giá trị p.
22. Trong phân tích dữ liệu định tính, `mã hóa` (coding) thường được sử dụng để:
A. Tính toán giá trị trung bình.
B. Phân loại và tổ chức dữ liệu thành các chủ đề.
C. Kiểm định giả thuyết.
D. Dự đoán xu hướng tương lai.
23. Giá trị kỳ vọng (expected value) của một biến ngẫu nhiên rời rạc được tính bằng:
A. Tổng của tất cả các giá trị có thể.
B. Giá trị trung bình của mẫu.
C. Tổng của tích của mỗi giá trị với xác suất tương ứng của nó.
D. Giá trị trung vị của phân phối.
24. Loại biểu đồ nào phù hợp nhất để so sánh tỷ lệ phần trăm giữa các danh mục khác nhau?
A. Biểu đồ đường
B. Biểu đồ cột
C. Biểu đồ tròn
D. Biểu đồ tán xạ
25. Nếu P(A) = 0.6 và P(B) = 0.3, và A và B là hai biến cố độc lập, thì P(A và B) bằng:
A. 0.9
B. 0.3
C. 0.18
D. 0.2
26. Trong lý thuyết xác suất, quy tắc cộng xác suất được áp dụng cho:
A. Các biến cố độc lập.
B. Các biến cố xung khắc.
C. Xác suất có điều kiện.
D. Xác suất giao.
27. Công thức Bayes` theorem được sử dụng để tính:
A. Xác suất của biến cố hợp.
B. Xác suất của biến cố giao.
C. Xác suất có điều kiện.
D. Xác suất biên.
28. Phương pháp thống kê nào thường được sử dụng để dự đoán giá trị của một biến phụ thuộc dựa trên một hoặc nhiều biến độc lập?
A. Phân tích phương sai (ANOVA)
B. Kiểm định t (t-test)
C. Phân tích hồi quy (Regression analysis)
D. Kiểm định Chi-bình phương (Chi-square test)
29. Trong lý thuyết xác suất, `biến cố xung khắc` (mutually exclusive events) có nghĩa là:
A. Các biến cố không thể xảy ra đồng thời.
B. Các biến cố phải xảy ra đồng thời.
C. Xác suất của các biến cố này bằng nhau.
D. Các biến cố này độc lập với nhau.
30. Giá trị trung vị (median) của một tập dữ liệu là:
A. Giá trị xuất hiện nhiều nhất.
B. Giá trị trung bình cộng.
C. Giá trị ở giữa khi dữ liệu được sắp xếp.
D. Giá trị có tần số thấp nhất.