1. Trong kiểm định giả thuyết thống kê, lỗi loại I (Type I error) xảy ra khi nào?
A. Chấp nhận giả thuyết null khi nó thực sự đúng.
B. Bác bỏ giả thuyết null khi nó thực sự đúng.
C. Chấp nhận giả thuyết null khi nó thực sự sai.
D. Bác bỏ giả thuyết null khi nó thực sự sai.
2. Phương pháp lấy mẫu ngẫu nhiên đơn giản (simple random sampling) đảm bảo điều gì?
A. Mỗi phần tử trong quần thể có cơ hội được chọn vào mẫu là khác nhau.
B. Mẫu thu được luôn đại diện hoàn hảo cho quần thể.
C. Mỗi phần tử trong quần thể có cơ hội được chọn vào mẫu là như nhau.
D. Chỉ những phần tử có đặc điểm nhất định mới được chọn vào mẫu.
3. Phân phối chuẩn (normal distribution) có đặc điểm quan trọng nào?
A. Nó không đối xứng.
B. Trung bình, trung vị và mốt của nó khác nhau.
C. Nó được xác định bởi hai tham số: trung bình (μ) và độ lệch chuẩn (σ).
D. Diện tích dưới đường cong mật độ xác suất của nó lớn hơn 1.
4. Ý nghĩa của `phương sai mẫu hiệu chỉnh` (sample variance with Bessel`s correction) là gì?
A. Nó luôn bằng với phương sai quần thể.
B. Nó là một ước tính chệch (biased) của phương sai quần thể.
C. Nó là một ước tính không chệch (unbiased) của phương sai quần thể.
D. Nó được sử dụng khi kích thước quần thể rất nhỏ.
5. Trong ANOVA (phân tích phương sai), mục đích chính là gì?
A. So sánh trung bình của hai quần thể.
B. So sánh phương sai của hai quần thể.
C. So sánh trung bình của ba hoặc nhiều hơn quần thể.
D. Xác định mối quan hệ tuyến tính giữa các biến.
6. Khi nào thì nên sử dụng kiểm định phi tham số (non-parametric test) thay vì kiểm định tham số (parametric test)?
A. Khi kích thước mẫu rất lớn.
B. Khi dữ liệu tuân theo phân phối chuẩn.
C. Khi các giả định của kiểm định tham số không được đáp ứng (ví dụ, dữ liệu không tuân theo phân phối chuẩn).
D. Khi muốn tăng độ mạnh của kiểm định.
7. Khi nào thì nên sử dụng biểu đồ hộp (boxplot) để trực quan hóa dữ liệu?
A. Chỉ khi dữ liệu tuân theo phân phối chuẩn.
B. Để so sánh phân phối của một biến số giữa các nhóm khác nhau hoặc để xác định giá trị ngoại lệ.
C. Để thể hiện tần suất của các giá trị trong dữ liệu.
D. Để mô tả mối quan hệ giữa hai biến liên tục.
8. Phân phối Poisson thường được sử dụng để mô hình hóa loại sự kiện nào?
A. Thời gian giữa các sự kiện liên tiếp.
B. Số lần thành công trong một số lượng phép thử cố định.
C. Số sự kiện xảy ra trong một khoảng thời gian hoặc không gian nhất định.
D. Tổng số kết quả có thể trong một thí nghiệm.
9. Trong bài toán kiểm định giả thuyết, `mức ý nghĩa` (significance level - α) đại diện cho điều gì?
A. Xác suất mắc lỗi loại II.
B. Xác suất chấp nhận giả thuyết null khi nó sai.
C. Xác suất bác bỏ giả thuyết null khi nó đúng (lỗi loại I).
D. Xác suất chấp nhận giả thuyết null khi nó đúng.
10. Giá trị trung vị (median) thể hiện điều gì trong một tập dữ liệu?
A. Giá trị trung bình của tập dữ liệu.
B. Giá trị xuất hiện nhiều nhất trong tập dữ liệu.
C. Giá trị nằm ở vị trí chính giữa của tập dữ liệu đã sắp xếp.
D. Tổng của tất cả các giá trị trong tập dữ liệu chia cho số lượng giá trị.
11. Độ lệch chuẩn (standard deviation) đo lường điều gì?
A. Giá trị trung bình của dữ liệu.
B. Mức độ tập trung của dữ liệu xung quanh trung vị.
C. Mức độ phân tán của dữ liệu xung quanh giá trị trung bình.
D. Giá trị lớn nhất trừ giá trị nhỏ nhất của dữ liệu.
12. Sự khác biệt chính giữa phân tích hồi quy tuyến tính và hồi quy logistic là gì?
A. Hồi quy tuyến tính sử dụng biến phụ thuộc định tính, trong khi hồi quy logistic sử dụng biến phụ thuộc định lượng.
B. Hồi quy tuyến tính sử dụng biến phụ thuộc định lượng (thường liên tục), trong khi hồi quy logistic sử dụng biến phụ thuộc định tính (thường nhị phân).
C. Hồi quy tuyến tính chỉ sử dụng một biến độc lập, trong khi hồi quy logistic sử dụng nhiều biến độc lập.
D. Hồi quy logistic giả định dữ liệu tuân theo phân phối chuẩn, trong khi hồi quy tuyến tính không có giả định này.
13. Khoảng tin cậy (confidence interval) được sử dụng để ước lượng điều gì?
A. Giá trị chính xác của tham số quần thể.
B. Một khoảng giá trị mà tham số quần thể có khả năng cao nằm trong đó.
C. Mức độ tin cậy của dữ liệu mẫu.
D. Xác suất mắc lỗi loại I.
14. Hạn chế chính của việc sử dụng trung bình (mean) làm thước đo trung tâm là gì?
A. Nó khó tính toán.
B. Nó không phản ánh sự phân tán của dữ liệu.
C. Nó rất nhạy cảm với các giá trị ngoại lệ (outliers).
D. Nó chỉ áp dụng cho dữ liệu định tính.
15. Mối quan hệ giữa phương sai (variance) và độ lệch chuẩn (standard deviation) là gì?
A. Độ lệch chuẩn là bình phương của phương sai.
B. Phương sai là căn bậc hai của độ lệch chuẩn.
C. Độ lệch chuẩn là căn bậc hai của phương sai.
D. Phương sai và độ lệch chuẩn là hai khái niệm hoàn toàn độc lập.
16. Trong phân tích hồi quy tuyến tính, mục tiêu chính là gì?
A. Dự đoán giá trị của biến độc lập từ biến phụ thuộc.
B. Mô tả mối quan hệ phi tuyến giữa các biến.
C. Mô hình hóa và dự đoán giá trị của biến phụ thuộc dựa trên một hoặc nhiều biến độc lập.
D. Tính toán độ lệch chuẩn của biến phụ thuộc.
17. Phân phối nào sau đây thường được sử dụng để mô hình hóa thời gian sống hoặc thời gian cho đến khi một sự kiện xảy ra?
A. Phân phối nhị thức (Binomial distribution).
B. Phân phối Poisson.
C. Phân phối mũ (Exponential distribution).
D. Phân phối chuẩn.
18. Giá trị kỳ vọng (expected value) của một biến ngẫu nhiên rời rạc được tính như thế nào?
A. Trung bình cộng của tất cả các giá trị có thể.
B. Tổng của mỗi giá trị có thể nhân với xác suất xảy ra của giá trị đó.
C. Giá trị xuất hiện nhiều nhất.
D. Giá trị ở giữa dãy số liệu đã sắp xếp.
19. Phương pháp kiểm định Chi-bình phương (Chi-squared test) thường được sử dụng để làm gì?
A. So sánh trung bình của hai nhóm.
B. Kiểm tra sự phù hợp của một phân phối lý thuyết với dữ liệu quan sát được hoặc kiểm tra tính độc lập giữa các biến định tính.
C. Ước lượng khoảng tin cậy cho trung bình quần thể.
D. Phân tích phương sai giữa các nhóm.
20. Trong phân tích hồi quy đa biến (multiple regression), hệ số hồi quy riêng phần (partial regression coefficient) thể hiện điều gì?
A. Ảnh hưởng của tất cả các biến độc lập lên biến phụ thuộc.
B. Ảnh hưởng của một biến độc lập cụ thể lên biến phụ thuộc, khi các biến độc lập khác được giữ không đổi.
C. Tỷ lệ phương sai được giải thích bởi mô hình hồi quy.
D. Mức độ tương quan giữa các biến độc lập.
21. Trong lý thuyết xác suất, hai biến cố được gọi là độc lập khi nào?
A. Khi chúng không thể xảy ra cùng một lúc.
B. Khi xác suất xảy ra của biến cố này ảnh hưởng đến xác suất xảy ra của biến cố kia.
C. Khi xác suất xảy ra của biến cố này không ảnh hưởng đến xác suất xảy ra của biến cố kia.
D. Khi tổng xác suất của chúng bằng 1.
22. Trong lý thuyết xác suất, biến cố sơ cấp (elementary event) là gì?
A. Một tập hợp con của không gian mẫu.
B. Một kết quả duy nhất có thể xảy ra của một phép thử.
C. Một biến cố không thể xảy ra.
D. Một biến cố chắc chắn xảy ra.
23. Trong phân tích chuỗi thời gian, thành phần `xu hướng` (trend) mô tả điều gì?
A. Biến động ngắn hạn và ngẫu nhiên.
B. Sự biến động theo mùa lặp đi lặp lại.
C. Sự thay đổi dài hạn và nhất quán trong dữ liệu theo thời gian.
D. Sự biến động không thể dự đoán được.
24. Phân phối Bernoulli mô tả loại thí nghiệm ngẫu nhiên nào?
A. Thí nghiệm có nhiều hơn hai kết quả có thể.
B. Thí nghiệm có đúng hai kết quả có thể, thường được gọi là `thành công` và `thất bại`.
C. Thí nghiệm liên tục theo thời gian.
D. Thí nghiệm mà kết quả là một số thực bất kỳ.
25. Giả sử bạn thực hiện một phép thử giả thuyết một phía (one-tailed test) với mức ý nghĩa α = 0.05. Giá trị p (p-value) nào sau đây sẽ dẫn đến việc bác bỏ giả thuyết null?
A. p = 0.10
B. p = 0.06
C. p = 0.05
D. p = 0.02
26. Phương pháp `bootstrap` trong thống kê là gì?
A. Một phương pháp kiểm định giả thuyết cụ thể.
B. Một kỹ thuật lấy mẫu lại (resampling) để ước lượng phân phối lấy mẫu của một thống kê.
C. Một phương pháp phân tích chuỗi thời gian.
D. Một loại biểu đồ thống kê.
27. Điều gì xảy ra với sai số chuẩn (standard error) của trung bình mẫu khi kích thước mẫu tăng lên?
A. Sai số chuẩn tăng lên.
B. Sai số chuẩn không đổi.
C. Sai số chuẩn giảm xuống.
D. Sai số chuẩn dao động không theo quy luật.
28. Hệ số tương quan (correlation coefficient) Pearson đo lường điều gì?
A. Độ mạnh của mối quan hệ nhân quả giữa hai biến.
B. Độ mạnh và hướng của mối quan hệ tuyến tính giữa hai biến định lượng.
C. Sự khác biệt giữa giá trị trung bình của hai biến.
D. Mức độ biến động của từng biến riêng lẻ.
29. Điều gì xảy ra với độ rộng của khoảng tin cậy khi kích thước mẫu tăng lên (giả sử mức độ tin cậy không đổi)?
A. Độ rộng của khoảng tin cậy tăng lên.
B. Độ rộng của khoảng tin cậy không đổi.
C. Độ rộng của khoảng tin cậy giảm xuống.
D. Không có mối quan hệ rõ ràng giữa kích thước mẫu và độ rộng khoảng tin cậy.
30. Trong thống kê Bayesian, `prior probability` (xác suất tiên nghiệm) đề cập đến điều gì?
A. Xác suất của dữ liệu quan sát được.
B. Xác suất ban đầu của một giả thuyết trước khi xem xét dữ liệu mới.
C. Xác suất được tính toán sau khi xem xét dữ liệu.
D. Mức độ tin cậy của kết quả thống kê.