1. Phương pháp lấy mẫu nào sau đây đảm bảo mọi thành viên của quần thể đều có cơ hội được chọn vào mẫu như nhau?
A. Lấy mẫu thuận tiện (Convenience sampling)
B. Lấy mẫu phân tầng (Stratified sampling)
C. Lấy mẫu ngẫu nhiên đơn giản (Simple random sampling)
D. Lấy mẫu theo cụm (Cluster sampling)
2. Trong phân tích hồi quy bội (multiple regression), hệ số hồi quy riêng phần (partial regression coefficient) đo lường điều gì?
A. Ảnh hưởng tổng thể của tất cả các biến độc lập lên biến phụ thuộc.
B. Ảnh hưởng của một biến độc lập cụ thể lên biến phụ thuộc, khi các biến độc lập khác được giữ không đổi.
C. Mức độ tương quan giữa các biến độc lập.
D. Phần trăm phương sai của biến phụ thuộc được giải thích bởi mô hình.
3. Giá trị p (p-value) trong kiểm định giả thuyết biểu thị điều gì?
A. Xác suất giả thuyết null là đúng.
B. Xác suất quan sát được kết quả kiểm định (hoặc kết quả cực đoan hơn) nếu giả thuyết null là đúng.
C. Xác suất giả thuyết đối thuyết là đúng.
D. Mức ý nghĩa thống kê của kiểm định.
4. Trong lý thuyết xác suất, quy tắc cộng (addition rule) được sử dụng để tính xác suất của sự kiện nào?
A. Xác suất của giao của hai sự kiện.
B. Xác suất của hợp của hai sự kiện.
C. Xác suất có điều kiện của một sự kiện.
D. Xác suất của phần bù của một sự kiện.
5. Sự khác biệt chính giữa `xác suất có điều kiện` và `xác suất biên` là gì?
A. Xác suất có điều kiện chỉ áp dụng cho biến rời rạc, trong khi xác suất biên áp dụng cho biến liên tục.
B. Xác suất có điều kiện tính xác suất của một sự kiện khi biết một sự kiện khác đã xảy ra, trong khi xác suất biên tính xác suất của một sự kiện mà không cần thông tin về các sự kiện khác.
C. Xác suất có điều kiện luôn lớn hơn xác suất biên.
D. Xác suất biên được tính bằng cách nhân các xác suất có điều kiện.
6. Phân phối nào sau đây là phân phối liên tục và thường được sử dụng để mô hình hóa tỷ lệ?
A. Phân phối nhị thức (Binomial distribution)
B. Phân phối Poisson (Poisson distribution)
C. Phân phối Beta (Beta distribution)
D. Phân phối chuẩn (Normal distribution)
7. Điều gì là mục tiêu chính của thống kê suy diễn (inferential statistics)?
A. Mô tả và tóm tắt dữ liệu.
B. Thu thập và tổ chức dữ liệu.
C. Đưa ra kết luận hoặc dự đoán về quần thể dựa trên dữ liệu mẫu.
D. Trực quan hóa dữ liệu bằng đồ thị và biểu đồ.
8. Tính chất nào sau đây KHÔNG phải là tính chất của phân phối chuẩn?
A. Đối xứng qua giá trị trung bình.
B. Có hai đỉnh (bimodal).
C. Tổng diện tích dưới đường cong bằng 1.
D. Xác định bởi trung bình và độ lệch chuẩn.
9. Khi nào thì nên sử dụng kiểm định t (t-test) thay vì kiểm định z (z-test) để so sánh trung bình mẫu với trung bình quần thể đã biết?
A. Khi kích thước mẫu lớn (n > 30).
B. Khi độ lệch chuẩn quần thể đã biết.
C. Khi độ lệch chuẩn quần thể chưa biết và kích thước mẫu nhỏ (n < 30).
D. Khi dữ liệu không tuân theo phân phối chuẩn.
10. Trong phân tích phương sai (ANOVA), mục đích chính của việc so sánh F-statistic với giá trị F tới hạn (critical F-value) là gì?
A. Để xác định xem có mối tương quan tuyến tính giữa các biến hay không.
B. Để kiểm tra xem phương sai của các mẫu có bằng nhau hay không.
C. Để xác định xem có sự khác biệt đáng kể giữa trung bình của ba hoặc nhiều nhóm hay không.
D. Để ước lượng khoảng tin cậy cho trung bình quần thể.
11. Loại biểu đồ nào sau đây thường được sử dụng để hiển thị phân phối tần suất của dữ liệu định lượng liên tục?
A. Biểu đồ cột (Bar chart)
B. Biểu đồ tròn (Pie chart)
C. Biểu đồ tần suất (Histogram)
D. Biểu đồ hộp (Box plot)
12. Khái niệm `hiệu ứng trung bình hồi quy` (regression to the mean) mô tả hiện tượng gì?
A. Xu hướng các giá trị cực đoan trong một mẫu có xu hướng trở nên ít cực đoan hơn khi đo lường lại.
B. Xu hướng dữ liệu hồi quy về giá trị trung bình của biến độc lập.
C. Xu hướng các giá trị trung bình mẫu hội tụ về trung bình quần thể khi kích thước mẫu tăng.
D. Xu hướng mô hình hồi quy phù hợp tốt hơn với dữ liệu khi thêm nhiều biến độc lập.
13. Trong phân tích hồi quy tuyến tính, ý nghĩa của hệ số chặn (intercept) là gì?
A. Độ thay đổi của biến phụ thuộc khi biến độc lập tăng lên một đơn vị.
B. Giá trị dự đoán của biến phụ thuộc khi tất cả các biến độc lập bằng 0.
C. Sai số ngẫu nhiên trong mô hình.
D. Mức độ phù hợp của mô hình hồi quy.
14. Phương pháp nào sau đây được sử dụng để đánh giá độ tin cậy nội tại (internal consistency reliability) của một thang đo đa mục?
A. Độ tin cậy kiểm tra-kiểm tra lại (Test-retest reliability)
B. Độ tin cậy giữa các người đánh giá (Inter-rater reliability)
C. Cronbach`s alpha
D. Độ tin cậy song song (Parallel forms reliability)
15. Trong thống kê mô tả, `trung vị` (median) là gì?
A. Giá trị trung bình cộng của tập dữ liệu.
B. Giá trị xuất hiện nhiều nhất trong tập dữ liệu.
C. Giá trị nằm ở vị trí chính giữa của tập dữ liệu đã sắp xếp.
D. Hiệu giữa giá trị lớn nhất và nhỏ nhất trong tập dữ liệu.
16. Phân phối nào sau đây thường được sử dụng để mô hình hóa thời gian cho đến khi một sự kiện xảy ra?
A. Phân phối nhị thức (Binomial distribution)
B. Phân phối Poisson (Poisson distribution)
C. Phân phối mũ (Exponential distribution)
D. Phân phối chuẩn (Normal distribution)
17. Trong thống kê Bayes, `ước lượng Bayes` (Bayesian estimator) được tính toán dựa trên yếu tố nào?
A. Dữ liệu mẫu hiện tại và phân phối tiên nghiệm (prior distribution).
B. Chỉ dữ liệu mẫu hiện tại.
C. Chỉ phân phối tiên nghiệm.
D. Dữ liệu mẫu trong quá khứ.
18. Trong phân tích chuỗi thời gian (time series analysis), thành phần `tính mùa vụ` (seasonality) đề cập đến điều gì?
A. Xu hướng dài hạn của chuỗi thời gian.
B. Sự biến động ngẫu nhiên trong chuỗi thời gian.
C. Mô hình lặp lại có chu kỳ cố định trong chuỗi thời gian.
D. Sự thay đổi đột ngột và bất thường trong chuỗi thời gian.
19. Sai số chuẩn của trung bình mẫu (standard error of the mean) giảm khi nào?
A. Khi phương sai quần thể tăng.
B. Khi kích thước mẫu giảm.
C. Khi kích thước mẫu tăng.
D. Khi độ tin cậy của ước lượng tăng.
20. Phân phối nào sau đây thường được sử dụng để mô hình hóa số lượng sự kiện xảy ra trong một khoảng thời gian hoặc không gian cố định?
A. Phân phối chuẩn (Normal distribution)
B. Phân phối nhị thức (Binomial distribution)
C. Phân phối Poisson (Poisson distribution)
D. Phân phối mũ (Exponential distribution)
21. Khi nào thì nên sử dụng kiểm định phi tham số (non-parametric test) thay vì kiểm định tham số (parametric test)?
A. Khi kích thước mẫu lớn.
B. Khi dữ liệu tuân theo phân phối chuẩn.
C. Khi dữ liệu không tuân theo phân phối chuẩn hoặc có thang đo thứ bậc (ordinal).
D. Khi cần ước lượng tham số quần thể.
22. Trong lý thuyết quyết định (decision theory), `giá trị kỳ vọng` (expected value) được tính toán như thế nào?
A. Tổng các kết quả có thể xảy ra.
B. Trung bình cộng của các kết quả có thể xảy ra.
C. Tổng của tích các kết quả có thể xảy ra với xác suất tương ứng của chúng.
D. Kết quả có khả năng xảy ra cao nhất.
23. Nguyên lý của `Luật số lớn` (Law of Large Numbers) phát biểu điều gì?
A. Trung bình mẫu hội tụ về trung bình quần thể khi kích thước mẫu tăng.
B. Phương sai mẫu hội tụ về phương sai quần thể khi kích thước mẫu tăng.
C. Tổng của các biến ngẫu nhiên độc lập có phân phối chuẩn khi số lượng biến lớn.
D. Xác suất của một sự kiện hiếm trở nên chắc chắn hơn khi số lần thử tăng.
24. Điều gì xảy ra với khoảng tin cậy (confidence interval) của trung bình quần thể khi kích thước mẫu tăng lên, với độ tin cậy không đổi?
A. Khoảng tin cậy trở nên rộng hơn.
B. Khoảng tin cậy trở nên hẹp hơn.
C. Khoảng tin cậy không thay đổi.
D. Khoảng tin cậy dao động ngẫu nhiên.
25. Đâu là định nghĩa chính xác nhất về `biến ngẫu nhiên` trong lý thuyết xác suất?
A. Một biến số có giá trị thay đổi ngẫu nhiên trong một khoảng xác định.
B. Một hàm số gán một giá trị số thực cho mỗi kết quả có thể có trong không gian mẫu.
C. Một sự kiện không thể đoán trước được kết quả.
D. Một tập hợp các kết quả có thể xảy ra của một thí nghiệm ngẫu nhiên.
26. Trong kiểm định giả thuyết thống kê, lỗi loại I (Type I error) xảy ra khi nào?
A. Bác bỏ giả thuyết null khi nó thực sự đúng.
B. Chấp nhận giả thuyết null khi nó thực sự sai.
C. Không bác bỏ giả thuyết null khi nó thực sự đúng.
D. Bác bỏ giả thuyết đối thuyết khi nó thực sự sai.
27. Phương pháp nào sau đây được sử dụng để giảm chiều dữ liệu (dimensionality reduction) trong thống kê và học máy?
A. Phân tích phương sai (ANOVA)
B. Phân tích hồi quy (Regression analysis)
C. Phân tích thành phần chính (Principal Component Analysis - PCA)
D. Kiểm định khi bình phương (Chi-square test)
28. Khi nào thì nên sử dụng kiểm định khi bình phương (Chi-square test) cho tính độc lập?
A. Để so sánh trung bình của hai quần thể.
B. Để kiểm tra xem có mối quan hệ phụ thuộc giữa hai biến định tính hay không.
C. Để kiểm tra xem một mẫu có tuân theo một phân phối lý thuyết cụ thể hay không.
D. Để ước lượng khoảng tin cậy cho tỷ lệ quần thể.
29. Hệ số tương quan (correlation coefficient) Pearson đo lường điều gì?
A. Độ mạnh của mối quan hệ nhân quả giữa hai biến.
B. Độ mạnh và hướng của mối quan hệ tuyến tính giữa hai biến định lượng.
C. Độ mạnh của mối quan hệ phi tuyến tính giữa hai biến.
D. Sự khác biệt giữa giá trị trung bình của hai biến.
30. Độ lệch chuẩn (standard deviation) đo lường điều gì?
A. Giá trị trung bình của một tập dữ liệu.
B. Mức độ phân tán của dữ liệu xung quanh giá trị trung bình.
C. Giá trị lớn nhất trong một tập dữ liệu.
D. Vị trí trung tâm của một tập dữ liệu.