1. Trong thống kê Bayes, `prior probability` (xác suất tiên nghiệm) đề cập đến điều gì?
A. Xác suất của dữ liệu quan sát được.
B. Xác suất ban đầu về giả thuyết hoặc tham số trước khi xem xét dữ liệu.
C. Xác suất của giả thuyết sau khi xem xét dữ liệu.
D. Mức ý nghĩa thống kê.
2. Khi nào thì kiểm định phi tham số (non-parametric test) được ưu tiên sử dụng hơn kiểm định tham số (parametric test)?
A. Khi dữ liệu tuân theo phân phối chuẩn.
B. Khi kích thước mẫu rất lớn.
C. Khi các giả định về phân phối của kiểm định tham số không được đáp ứng (ví dụ: dữ liệu không phân phối chuẩn).
D. Khi muốn tính toán khoảng tin cậy.
3. Trong thống kê ứng dụng, `dữ liệu bảng` (panel data) khác biệt so với `dữ liệu chuỗi thời gian` (time series data) và `dữ liệu cắt ngang` (cross-sectional data) như thế nào?
A. Dữ liệu bảng chỉ thu thập tại một thời điểm duy nhất.
B. Dữ liệu bảng theo dõi nhiều đơn vị quan sát theo thời gian, kết hợp cả chiều không gian và thời gian.
C. Dữ liệu bảng chỉ chứa các biến định tính.
D. Dữ liệu bảng không thể sử dụng cho phân tích hồi quy.
4. Ứng dụng của thống kê trong lĩnh vực tài chính thường bao gồm:
A. Nghiên cứu ảnh hưởng của biến đổi khí hậu.
B. Phân tích rủi ro đầu tư và dự báo giá cổ phiếu.
C. Đo lường mức độ hài lòng của khách hàng.
D. Kiểm soát chất lượng sản phẩm.
5. Khi nào thì sử dụng kiểm định t ghép cặp (paired t-test) thay vì kiểm định t độc lập (independent t-test)?
A. Khi so sánh trung bình của hai nhóm độc lập.
B. Khi so sánh trung bình của cùng một nhóm trước và sau can thiệp, hoặc giữa các cặp quan sát có liên quan.
C. Khi kích thước mẫu lớn hơn 30.
D. Khi dữ liệu không tuân theo phân phối chuẩn.
6. Lỗi phổ biến khi sử dụng thống kê trong thực tế là gì?
A. Luôn sử dụng kiểm định tham số.
B. Diễn giải tương quan (correlation) thành nhân quả (causation).
C. Chỉ sử dụng thống kê mô tả mà không suy diễn.
D. Thu thập quá nhiều dữ liệu.
7. Trong thống kê ứng dụng, `metadata` (siêu dữ liệu) có vai trò gì?
A. Là dữ liệu chính được sử dụng để phân tích.
B. Là dữ liệu mô tả về dữ liệu, cung cấp thông tin về nguồn gốc, định dạng, chất lượng và ngữ cảnh của dữ liệu.
C. Là kết quả phân tích dữ liệu.
D. Là dữ liệu đã được trực quan hóa.
8. Khi nào thì việc sử dụng trung vị (median) thích hợp hơn so với trung bình (mean) để đo xu hướng trung tâm?
A. Khi dữ liệu phân phối chuẩn.
B. Khi dữ liệu có giá trị ngoại lệ (outliers).
C. Khi muốn tính tổng của tất cả các giá trị.
D. Khi dữ liệu là rời rạc.
9. Giá trị R-squared trong phân tích hồi quy tuyến tính bội (multiple linear regression) đo lường điều gì?
A. Độ mạnh của mối quan hệ giữa biến phụ thuộc và từng biến độc lập riêng lẻ.
B. Tỷ lệ phương sai của biến phụ thuộc được giải thích bởi mô hình hồi quy.
C. Độ chính xác của các hệ số hồi quy ước lượng.
D. Ý nghĩa thống kê của từng biến độc lập trong mô hình.
10. Phương pháp thống kê nào phù hợp để kiểm tra sự độc lập giữa hai biến định tính?
A. Kiểm định t-test.
B. Phân tích phương sai (ANOVA).
C. Kiểm định Chi-square (χ²).
D. Phân tích hồi quy tuyến tính.
11. Trong phân tích dữ liệu lớn (Big Data), thống kê ứng dụng đóng vai trò quan trọng nhất trong giai đoạn nào?
A. Thu thập dữ liệu.
B. Làm sạch và tiền xử lý dữ liệu.
C. Phân tích và mô hình hóa dữ liệu.
D. Trực quan hóa dữ liệu.
12. Phân tích hồi quy tuyến tính được sử dụng để làm gì?
A. Mô tả đặc điểm của một biến duy nhất.
B. Xác định mối quan hệ nhân quả duy nhất giữa hai biến.
C. Mô hình hóa mối quan hệ tuyến tính giữa một biến phụ thuộc và một hoặc nhiều biến độc lập.
D. So sánh trung bình của hai nhóm độc lập.
13. Khoảng tin cậy (confidence interval) 95% cho trung bình tổng thể có nghĩa là gì?
A. 95% các giá trị trong mẫu nằm trong khoảng này.
B. Có 95% xác suất trung bình mẫu nằm trong khoảng này.
C. Nếu lặp lại quá trình lấy mẫu nhiều lần, khoảng 95% các khoảng tin cậy được xây dựng sẽ chứa trung bình tổng thể thực sự.
D. Xác suất trung bình tổng thể thực sự nằm trong khoảng này là 95%.
14. Biểu đồ hộp (boxplot) thường được sử dụng để thể hiện điều gì về phân phối dữ liệu?
A. Mối quan hệ giữa hai biến định lượng.
B. Tần suất của các giá trị rời rạc.
C. Tóm tắt năm số (minimum, Q1, median, Q3, maximum) và phát hiện giá trị ngoại lệ.
D. Xu hướng theo thời gian của một biến.
15. Hiện tượng đa cộng tuyến (multicollinearity) trong hồi quy bội đề cập đến vấn đề gì?
A. Mối quan hệ phi tuyến tính giữa các biến.
B. Mối tương quan cao giữa các biến độc lập trong mô hình.
C. Phương sai sai số thay đổi theo giá trị của biến độc lập.
D. Sự thiếu vắng biến quan trọng trong mô hình.
16. Phương pháp nào sau đây thường được sử dụng để giảm chiều dữ liệu (dimensionality reduction) trong thống kê ứng dụng, đặc biệt khi làm việc với dữ liệu nhiều chiều?
A. Phân tích phương sai (ANOVA).
B. Phân tích thành phần chính (Principal Component Analysis - PCA).
C. Phân tích hồi quy tuyến tính.
D. Kiểm định giả thuyết.
17. Sai số loại II (Type II error) trong kiểm định giả thuyết xảy ra khi nào?
A. Bác bỏ giả thuyết null khi nó thực sự đúng.
B. Không bác bỏ giả thuyết null khi nó thực sự sai.
C. Chọn một mức ý nghĩa thống kê quá cao.
D. Mẫu kích thước quá nhỏ.
18. Một nhà nghiên cứu muốn so sánh hiệu quả của ba phương pháp giảng dạy khác nhau lên điểm số bài kiểm tra của sinh viên. Phương pháp thống kê nào phù hợp nhất để sử dụng?
A. Kiểm định t ghép cặp.
B. Kiểm định t độc lập.
C. Phân tích phương sai một yếu tố (One-way ANOVA).
D. Phân tích hồi quy tuyến tính.
19. Trong thống kê ứng dụng, loại biểu đồ nào thường được sử dụng để thể hiện tần suất xuất hiện của các giá trị trong một tập dữ liệu liên tục?
A. Biểu đồ tròn (Pie chart)
B. Biểu đồ cột (Bar chart)
C. Biểu đồ tần suất (Histogram)
D. Biểu đồ đường (Line chart)
20. Phương pháp `bootstrap` trong thống kê ứng dụng được sử dụng để làm gì?
A. Kiểm định giả thuyết về trung bình tổng thể.
B. Ước lượng độ chính xác (ví dụ: sai số chuẩn, khoảng tin cậy) của các thống kê mẫu bằng cách lấy mẫu lại có hoàn lại từ mẫu gốc.
C. Giảm chiều dữ liệu.
D. Phân tích dữ liệu chuỗi thời gian.
21. Phương pháp thống kê nào sau đây được sử dụng để ước lượng giá trị trung bình của một tổng thể dựa trên dữ liệu mẫu?
A. Thống kê mô tả
B. Thống kê suy diễn
C. Thống kê phi tham số
D. Thống kê Bayes
22. Phương pháp lấy mẫu ngẫu nhiên phân tầng (stratified random sampling) nhằm mục đích gì?
A. Đảm bảo mỗi phần tử trong tổng thể có cơ hội được chọn bằng nhau.
B. Giảm sai số lấy mẫu và tăng tính đại diện của mẫu, đặc biệt khi tổng thể có các nhóm (strata) khác biệt.
C. Tiết kiệm chi phí và thời gian thu thập dữ liệu.
D. Đơn giản hóa quá trình phân tích dữ liệu.
23. Hệ số tương quan Pearson đo lường điều gì?
A. Độ mạnh của mối quan hệ phi tuyến tính giữa hai biến.
B. Độ mạnh và hướng của mối quan hệ tuyến tính giữa hai biến định lượng.
C. Sự khác biệt giữa trung bình của hai mẫu.
D. Độ phân tán của dữ liệu xung quanh giá trị trung bình.
24. Độ lệch chuẩn (standard deviation) đo lường điều gì?
A. Giá trị trung bình của tập dữ liệu.
B. Vị trí trung tâm của tập dữ liệu.
C. Độ phân tán hoặc biến động của dữ liệu xung quanh giá trị trung bình.
D. Mức độ bất đối xứng của phân phối.
25. Trong phân tích tỷ lệ sống sót (survival analysis), hàm `hazard function` (hàm nguy cơ) mô tả điều gì?
A. Xác suất sống sót sau một khoảng thời gian nhất định.
B. Tỷ lệ bệnh nhân sống sót tại thời điểm cuối cùng của nghiên cứu.
C. Tỷ lệ tức thời của sự kiện (ví dụ: tử vong, tái phát bệnh) xảy ra tại một thời điểm nhất định, trong số những người có nguy cơ tại thời điểm đó.
D. Thời gian sống sót trung bình.
26. Khi nào thì kiểm định Mann-Whitney U (Wilcoxon rank-sum test) được sử dụng?
A. Để so sánh trung bình của hai mẫu ghép cặp.
B. Để so sánh trung bình của hai mẫu độc lập khi giả định phân phối chuẩn không được đáp ứng.
C. Để kiểm tra sự độc lập giữa hai biến định tính.
D. Để so sánh phương sai của hai mẫu.
27. Trong phân tích phương sai (ANOVA), giả thuyết null thường là gì?
A. Có ít nhất một cặp trung bình nhóm khác nhau.
B. Tất cả các trung bình nhóm đều bằng nhau.
C. Phương sai của tất cả các nhóm đều khác nhau.
D. Có mối tương quan tuyến tính giữa các biến.
28. Trong kiểm định giả thuyết, giá trị p (p-value) thể hiện điều gì?
A. Xác suất giả thuyết null là đúng.
B. Ngưỡng ý nghĩa thống kê được chọn trước.
C. Xác suất quan sát được kết quả cực đoan như mẫu, giả định giả thuyết null là đúng.
D. Sai số loại I.
29. Trong phân tích chuỗi thời gian, thành phần `tính mùa vụ` (seasonality) đề cập đến điều gì?
A. Xu hướng dài hạn của chuỗi thời gian.
B. Biến động ngẫu nhiên không thể dự đoán được.
C. Các biến động lặp lại trong khoảng thời gian cố định, thường là hàng năm, hàng quý hoặc hàng tháng.
D. Các sự kiện bất thường, đột ngột ảnh hưởng đến chuỗi thời gian.
30. Ứng dụng của thống kê trong lĩnh vực y tế thường bao gồm:
A. Dự báo thị trường chứng khoán.
B. Phân tích hiệu quả của thuốc và phương pháp điều trị.
C. Thiết kế cầu đường.
D. Quản lý chuỗi cung ứng.