1. Trong phân tích dữ liệu định tính, phương pháp mã hóa (coding) được sử dụng để làm gì?
A. Chuyển đổi dữ liệu định tính thành dữ liệu định lượng.
B. Tóm tắt dữ liệu bằng các thống kê mô tả.
C. Phân loại và gán nhãn cho các đoạn dữ liệu theo chủ đề hoặc ý nghĩa.
D. Kiểm định giả thuyết về mối quan hệ giữa các biến.
2. Trong một hộp có 5 bi đỏ và 3 bi xanh. Nếu bạn chọn ngẫu nhiên 2 bi mà không hoàn lại, xác suất để cả hai bi đều màu đỏ là bao nhiêu?
A. 5/14
B. 10/28
C. 10/56
D. 10/21
3. Phân phối nào sau đây có tính chất `không trí nhớ` (memoryless property)?
A. Phân phối chuẩn.
B. Phân phối nhị thức.
C. Phân phối mũ.
D. Phân phối Poisson.
4. Trong phân tích hồi quy đa biến, hiện tượng đa cộng tuyến (multicollinearity) đề cập đến vấn đề gì?
A. Sự tương quan mạnh giữa biến phụ thuộc và biến độc lập.
B. Sự tương quan mạnh giữa các biến độc lập với nhau.
C. Sự không tuyến tính trong mối quan hệ giữa biến phụ thuộc và biến độc lập.
D. Sự thay đổi phương sai của sai số theo giá trị của biến độc lập.
5. Độ lệch chuẩn (Standard deviation) đo lường điều gì về một tập dữ liệu?
A. Giá trị trung bình của dữ liệu.
B. Mức độ tập trung của dữ liệu xung quanh trung vị.
C. Mức độ phân tán của dữ liệu xung quanh giá trị trung bình.
D. Giá trị lớn nhất của dữ liệu.
6. Phân phối nào sau đây thường được sử dụng để mô hình hóa số lần thành công trong một số lượng thử nghiệm Bernoulli cố định, độc lập?
A. Phân phối Poisson
B. Phân phối chuẩn
C. Phân phối nhị thức
D. Phân phối mũ
7. Khoảng tin cậy (Confidence interval) cho biết điều gì về tham số tổng thể?
A. Giá trị chính xác của tham số tổng thể.
B. Một khoảng giá trị mà tham số tổng thể có khả năng cao nằm trong đó.
C. Giá trị trung bình của mẫu.
D. Độ lệch chuẩn của mẫu.
8. Biến ngẫu nhiên liên tục khác với biến ngẫu nhiên rời rạc ở điểm nào?
A. Biến liên tục chỉ nhận giá trị nguyên, biến rời rạc nhận giá trị bất kỳ.
B. Biến liên tục có thể nhận vô số giá trị trong một khoảng, biến rời rạc chỉ nhận một số hữu hạn hoặc đếm được các giá trị.
C. Biến liên tục có giá trị kỳ vọng luôn bằng 0, biến rời rạc thì không.
D. Biến liên tục luôn có phân phối chuẩn, biến rời rạc có phân phối bất kỳ.
9. Trong kiểm định giả thuyết, p-value là gì?
A. Xác suất của việc giả thuyết null là đúng.
B. Xác suất quan sát được kết quả cực đoan ít nhất bằng kết quả mẫu, giả sử giả thuyết null là đúng.
C. Xác suất của việc giả thuyết thay thế là đúng.
D. Ngưỡng ý nghĩa (significance level) của kiểm định.
10. Điều kiện nào sau đây KHÔNG phải là điều kiện cần để áp dụng định lý giới hạn trung tâm (Central Limit Theorem)?
A. Các mẫu được chọn phải độc lập.
B. Kích thước mẫu phải đủ lớn (thường n ≥ 30).
C. Tổng thể gốc phải có phân phối chuẩn.
D. Các mẫu được chọn phải ngẫu nhiên.
11. Trong kiểm định giả thuyết thống kê, lỗi loại I (Type I error) xảy ra khi nào?
A. Chấp nhận giả thuyết null khi nó sai.
B. Bác bỏ giả thuyết null khi nó đúng.
C. Không bác bỏ giả thuyết null khi nó sai.
D. Bác bỏ giả thuyết null khi nó sai.
12. Ý nghĩa của việc `chuẩn hóa dữ liệu` (data standardization) trong thống kê là gì?
A. Chuyển đổi dữ liệu về dạng số nguyên.
B. Loại bỏ các giá trị ngoại lai (outliers).
C. Biến đổi dữ liệu để có trung bình bằng 0 và độ lệch chuẩn bằng 1.
D. Sắp xếp dữ liệu theo thứ tự tăng dần.
13. Trong thống kê mô tả, `mode` (mốt) là gì?
A. Giá trị trung bình cộng của tập dữ liệu.
B. Giá trị ở giữa tập dữ liệu đã sắp xếp.
C. Giá trị xuất hiện nhiều lần nhất trong tập dữ liệu.
D. Độ lệch chuẩn của tập dữ liệu.
14. Khi kích thước mẫu tăng lên, điều gì thường xảy ra với khoảng tin cậy (confidence interval) cho trung bình tổng thể?
A. Khoảng tin cậy trở nên rộng hơn.
B. Khoảng tin cậy trở nên hẹp hơn.
C. Khoảng tin cậy không thay đổi.
D. Không thể xác định được sự thay đổi của khoảng tin cậy.
15. Phép kiểm định One-tailed test (kiểm định một phía) khác với Two-tailed test (kiểm định hai phía) như thế nào?
A. One-tailed test chỉ kiểm định cho một phía của phân phối, Two-tailed test kiểm định cho cả hai phía.
B. One-tailed test sử dụng mức ý nghĩa (alpha) nhỏ hơn, Two-tailed test sử dụng mức ý nghĩa lớn hơn.
C. One-tailed test luôn mạnh hơn Two-tailed test.
D. One-tailed test chỉ dùng cho mẫu nhỏ, Two-tailed test dùng cho mẫu lớn.
16. Hệ số tương quan (Correlation coefficient) đo lường điều gì giữa hai biến số định lượng?
A. Mức độ phụ thuộc tuyến tính và chiều hướng của mối quan hệ.
B. Mức độ khác biệt giữa giá trị trung bình của hai biến.
C. Độ mạnh của mối quan hệ nhân quả giữa hai biến.
D. Mức độ phân tán của dữ liệu của hai biến.
17. Giá trị trung vị (Median) của một tập dữ liệu là gì?
A. Giá trị trung bình cộng của tất cả các giá trị.
B. Giá trị xuất hiện nhiều nhất trong tập dữ liệu.
C. Giá trị ở giữa tập dữ liệu khi đã sắp xếp theo thứ tự.
D. Tổng của tất cả các giá trị chia cho số lượng giá trị.
18. Khi nào thì phương sai (Variance) của một biến ngẫu nhiên bằng 0?
A. Khi biến ngẫu nhiên có phân phối chuẩn.
B. Khi biến ngẫu nhiên chỉ nhận một giá trị duy nhất.
C. Khi biến ngẫu nhiên có giá trị kỳ vọng bằng 0.
D. Khi biến ngẫu nhiên có phân phối đều.
19. Trong phân tích hồi quy, hệ số xác định R-squared (R²) cho biết điều gì?
A. Độ mạnh của mối quan hệ nhân quả giữa biến độc lập và biến phụ thuộc.
B. Tỷ lệ phương sai của biến phụ thuộc được giải thích bởi mô hình hồi quy.
C. Mức độ phù hợp của mô hình hồi quy với dữ liệu.
D. Cả 2 và 3 đều đúng.
20. Giá trị kỳ vọng (Expected value) của một biến ngẫu nhiên rời rạc được tính bằng công thức nào?
A. Tổng của bình phương mỗi giá trị nhân với xác suất của nó.
B. Tổng của mỗi giá trị nhân với bình phương xác suất của nó.
C. Tổng của mỗi giá trị nhân với xác suất của nó.
D. Tổng của mỗi giá trị chia cho xác suất của nó.
21. Trong lý thuyết xác suất, quy tắc cộng xác suất (addition rule) được áp dụng cho các biến cố như thế nào?
A. Các biến cố độc lập.
B. Các biến cố xung khắc (loại trừ lẫn nhau).
C. Các biến cố có điều kiện.
D. Tất cả các loại biến cố.
22. Trong phân tích phương sai (ANOVA), giả thuyết null (H0) thường là gì?
A. Tất cả các trung bình nhóm đều khác nhau.
B. Ít nhất một cặp trung bình nhóm khác nhau.
C. Tất cả các trung bình nhóm đều bằng nhau.
D. Phương sai giữa các nhóm lớn hơn phương sai trong nhóm.
23. Trong phân tích hồi quy tuyến tính đơn giản, đường hồi quy được tìm kiếm để tối thiểu hóa điều gì?
A. Tổng bình phương các giá trị dự đoán.
B. Tổng các sai số tuyệt đối.
C. Tổng bình phương các sai số (residuals).
D. Tổng các giá trị quan sát được.
24. Phương pháp lấy mẫu nào mà mỗi phần tử của tổng thể đều có cơ hội được chọn vào mẫu như nhau?
A. Lấy mẫu phân tầng.
B. Lấy mẫu cụm.
C. Lấy mẫu ngẫu nhiên đơn giản.
D. Lấy mẫu thuận tiện.
25. Công thức nào sau đây KHÔNG phải là một thước đo độ phân tán của dữ liệu?
A. Phương sai (Variance).
B. Độ lệch chuẩn (Standard Deviation).
C. Giá trị trung bình (Mean).
D. Khoảng biến thiên (Range).
26. Biến cố nào sau đây là biến cố sơ cấp trong không gian mẫu khi gieo một con xúc xắc 6 mặt?
A. Mặt xuất hiện là số chẵn.
B. Mặt xuất hiện là số lẻ.
C. Mặt xuất hiện là số nguyên tố.
D. Mặt xuất hiện là mặt 4 chấm.
27. Sai số chuẩn của trung bình mẫu (Standard error of the mean) đo lường điều gì?
A. Độ lệch chuẩn của tổng thể.
B. Độ lệch chuẩn của mẫu.
C. Độ lệch chuẩn của phân phối trung bình mẫu.
D. Sai số do đo lường không chính xác.
28. Khi nào thì sử dụng kiểm định khi bình phương (Chi-square test) trong thống kê?
A. Để so sánh trung bình của hai mẫu độc lập.
B. Để kiểm tra sự phù hợp của dữ liệu với một phân phối lý thuyết.
C. Để ước lượng khoảng tin cậy cho trung bình tổng thể.
D. Để đo lường mối quan hệ tuyến tính giữa hai biến định lượng.
29. Khi nào thì sử dụng kiểm định t (t-test) thay vì kiểm định z (z-test) để so sánh trung bình mẫu với trung bình tổng thể?
A. Khi kích thước mẫu lớn (n > 30).
B. Khi phương sai tổng thể đã biết.
C. Khi phương sai tổng thể chưa biết và kích thước mẫu nhỏ (thường n < 30).
D. Khi dữ liệu có phân phối chuẩn.
30. Phân phối Poisson thường được sử dụng để mô hình hóa hiện tượng nào?
A. Chiều cao của người trưởng thành.
B. Số cuộc gọi đến tổng đài trong một giờ.
C. Thời gian sống của bóng đèn.
D. Điểm thi của học sinh trong một kỳ thi.