1. Điều gì là hạn chế chính của việc sử dụng `mốt` (mode) làm thước đo trung tâm?
A. Mốt chỉ có thể được sử dụng cho dữ liệu định tính.
B. Mốt rất nhạy cảm với giá trị ngoại lệ.
C. Một tập dữ liệu có thể không có mốt hoặc có nhiều hơn một mốt.
D. Mốt luôn khác với trung bình và trung vị.
2. Trong thống kê ứng dụng, `dữ liệu thứ cấp` (secondary data) khác với `dữ liệu sơ cấp` (primary data) như thế nào?
A. Dữ liệu thứ cấp luôn có chất lượng thấp hơn dữ liệu sơ cấp.
B. Dữ liệu thứ cấp được thu thập cho mục đích nghiên cứu hiện tại, trong khi dữ liệu sơ cấp đã được thu thập trước đó cho mục đích khác.
C. Dữ liệu sơ cấp do nhà nghiên cứu tự thu thập trực tiếp, còn dữ liệu thứ cấp đã được thu thập bởi người khác.
D. Dữ liệu sơ cấp chỉ bao gồm dữ liệu định lượng, còn dữ liệu thứ cấp bao gồm cả định tính và định lượng.
3. Sai lầm `tương quan không phải là nhân quả` (correlation does not imply causation) cảnh báo về điều gì trong thống kê ứng dụng?
A. Việc tính toán hệ số tương quan luôn không chính xác.
B. Việc hai biến có tương quan thống kê không tự động chứng minh rằng một biến gây ra sự thay đổi ở biến kia.
C. Tương quan chỉ có thể được sử dụng cho dữ liệu định lượng.
D. Nhân quả chỉ có thể được xác định bằng thực nghiệm ngẫu nhiên.
4. Điều gì xảy ra với độ rộng của khoảng tin cậy khi kích thước mẫu tăng lên (giả sử các yếu tố khác không đổi)?
A. Độ rộng khoảng tin cậy tăng lên.
B. Độ rộng khoảng tin cậy giảm xuống.
C. Độ rộng khoảng tin cậy không thay đổi.
D. Không thể xác định được sự thay đổi.
5. Trong phân tích hồi quy, hệ số xác định R-squared (R²) đo lường điều gì?
A. Độ mạnh của mối quan hệ tuyến tính.
B. Tỷ lệ phương sai của biến phụ thuộc được giải thích bởi mô hình hồi quy.
C. Giá trị p của mô hình hồi quy.
D. Độ dốc của đường hồi quy.
6. Trong thống kê, `phương sai` (variance) được định nghĩa là gì?
A. Giá trị trung bình của tập dữ liệu.
B. Căn bậc hai của độ lệch chuẩn.
C. Trung bình của bình phương độ lệch của mỗi giá trị so với trung bình.
D. Khoảng cách giữa giá trị lớn nhất và nhỏ nhất trong dữ liệu.
7. Trong phân tích dữ liệu, `làm sạch dữ liệu` (data cleaning) bao gồm các bước nào?
A. Chỉ thu thập dữ liệu.
B. Xác định câu hỏi nghiên cứu và thu thập dữ liệu.
C. Xử lý các giá trị thiếu, loại bỏ dữ liệu trùng lặp, và sửa lỗi dữ liệu.
D. Chỉ phân tích dữ liệu và rút ra kết luận.
8. Trong phân tích hồi quy tuyến tính đơn giản, hệ số hồi quy (regression coefficient) cho biết điều gì?
A. Mức độ phù hợp của mô hình với dữ liệu.
B. Giá trị dự đoán của biến phụ thuộc khi biến độc lập bằng 0.
C. Mức độ thay đổi của biến phụ thuộc khi biến độc lập tăng lên một đơn vị.
D. Mức độ tương quan giữa biến độc lập và biến phụ thuộc.
9. Kỹ thuật `phân tích thành phần chính` (Principal Component Analysis - PCA) thường được sử dụng cho mục đích nào?
A. Phân loại dữ liệu vào các nhóm khác nhau.
B. Giảm chiều dữ liệu bằng cách tìm ra các thành phần chính giải thích phần lớn phương sai trong dữ liệu.
C. Dự đoán giá trị của biến phụ thuộc dựa trên biến độc lập.
D. Kiểm định giả thuyết về trung bình của quần thể.
10. Một nhà nghiên cứu quan sát thấy mối tương quan dương mạnh giữa số lượng kem bán được và số vụ đuối nước xảy ra tại một bãi biển. Kết luận nào sau đây là hợp lý nhất?
A. Ăn kem gây ra đuối nước.
B. Đuối nước làm tăng nhu cầu ăn kem.
C. Có thể có một biến thứ ba, chẳng hạn như thời tiết nóng, ảnh hưởng đến cả doanh số bán kem và số vụ đuối nước.
D. Không có mối quan hệ thực sự giữa doanh số bán kem và đuối nước.
11. Phương pháp `bootstrap` trong thống kê ứng dụng thường được sử dụng để làm gì?
A. Tính toán trung bình cộng của quần thể.
B. Ước lượng độ tin cậy của ước lượng thống kê (ví dụ: khoảng tin cậy) thông qua việc lấy mẫu lại có hoàn lại từ dữ liệu mẫu ban đầu.
C. Kiểm định sự khác biệt giữa trung bình của hai quần thể.
D. Phân tích mối quan hệ tuyến tính giữa các biến.
12. Hệ số tương quan Pearson (Pearson correlation coefficient) đo lường điều gì giữa hai biến định lượng?
A. Sức mạnh và hướng của mối quan hệ tuyến tính.
B. Sự khác biệt về trung bình giữa hai biến.
C. Mức độ phân tán của dữ liệu của mỗi biến.
D. Mối quan hệ nhân quả giữa hai biến.
13. Trong thống kê Bayes (Bayesian statistics), khái niệm `phân phối tiên nghiệm` (prior distribution) đề cập đến điều gì?
A. Phân phối của dữ liệu mẫu.
B. Niềm tin ban đầu (trước khi có dữ liệu) về tham số quần thể.
C. Phân phối của thống kê mẫu.
D. Phân phối của sai số trong mô hình.
14. Phương pháp thống kê nào sau đây thường được sử dụng để mô tả và tóm tắt các đặc điểm chính của một tập dữ liệu?
A. Thống kê suy diễn (Inferential statistics).
B. Thống kê mô tả (Descriptive statistics).
C. Phân tích hồi quy (Regression analysis).
D. Kiểm định giả thuyết (Hypothesis testing).
15. Khi nào thì việc sử dụng `trung vị` (median) thích hợp hơn `trung bình cộng` (mean) để mô tả giá trị trung tâm của dữ liệu?
A. Khi dữ liệu phân phối chuẩn.
B. Khi dữ liệu có tính đối xứng.
C. Khi dữ liệu bị lệch (skewed) hoặc có giá trị ngoại lệ.
D. Khi kích thước mẫu nhỏ.
16. Khi nào việc sử dụng `trung bình cộng` (mean) trở thành một thước đo kém tin cậy để đại diện cho giá trị trung tâm của dữ liệu?
A. Khi dữ liệu phân phối chuẩn (normal distribution).
B. Khi kích thước mẫu lớn.
C. Khi dữ liệu có giá trị ngoại lệ (outliers).
D. Khi dữ liệu là biến định tính.
17. Khái niệm `khoảng tin cậy` (confidence interval) trong thống kê suy diễn nhằm mục đích gì?
A. Ước lượng giá trị chính xác của tham số quần thể.
B. Cung cấp một khoảng giá trị mà tham số quần thể có khả năng nằm trong đó với một độ tin cậy nhất định.
C. Kiểm định giả thuyết về tham số quần thể.
D. Đo lường độ phân tán của dữ liệu mẫu.
18. Phương pháp thống kê nào thường được dùng để kiểm tra sự độc lập giữa hai biến định tính?
A. Phân tích hồi quy tuyến tính.
B. Kiểm định t-test.
C. Kiểm định Chi-bình phương (Chi-square test).
D. Phân tích phương sai (ANOVA).
19. Phương pháp lấy mẫu nào đảm bảo mỗi phần tử của quần thể đều có cơ hội được chọn vào mẫu như nhau?
A. Lấy mẫu phân tầng (Stratified sampling).
B. Lấy mẫu cụm (Cluster sampling).
C. Lấy mẫu ngẫu nhiên đơn giản (Simple random sampling).
D. Lấy mẫu thuận tiện (Convenience sampling).
20. Trong phân tích phương sai (ANOVA), mục đích chính của việc so sánh các phương sai giữa các nhóm (between-group variance) và phương sai trong nội bộ nhóm (within-group variance) là gì?
A. Xác định trung bình của mỗi nhóm.
B. Kiểm tra xem có sự khác biệt đáng kể về trung bình giữa các nhóm hay không.
C. Tính độ lệch chuẩn của mỗi nhóm.
D. Xác định mối tương quan giữa các biến.
21. Khi nào nên sử dụng biểu đồ tần suất (histogram) thay vì biểu đồ cột (bar chart) để trực quan hóa dữ liệu?
A. Khi dữ liệu là biến định tính.
B. Khi muốn so sánh các danh mục khác nhau.
C. Khi dữ liệu là biến định lượng liên tục.
D. Khi muốn thể hiện tỷ lệ phần trăm.
22. Độ lệch chuẩn (standard deviation) đo lường điều gì về một tập dữ liệu?
A. Giá trị trung bình của dữ liệu.
B. Mức độ phân tán của dữ liệu xung quanh giá trị trung bình.
C. Giá trị lớn nhất trừ giá trị nhỏ nhất của dữ liệu.
D. Vị trí trung tâm của dữ liệu.
23. Ưu điểm chính của việc sử dụng phương pháp `phi tham số` (non-parametric methods) trong thống kê là gì?
A. Luôn cho kết quả chính xác hơn phương pháp tham số.
B. Ít bị ảnh hưởng bởi các giả định về phân phối dữ liệu (ví dụ: phân phối chuẩn).
C. Dễ tính toán và diễn giải hơn phương pháp tham số.
D. Chỉ có thể sử dụng cho dữ liệu định tính.
24. Trong kiểm định giả thuyết, `giả thuyết null` (null hypothesis) thường biểu thị điều gì?
A. Giả thuyết mà nhà nghiên cứu muốn chứng minh là đúng.
B. Giả thuyết về sự khác biệt hoặc hiệu ứng.
C. Giả thuyết mặc định về việc không có sự khác biệt hoặc không có hiệu ứng.
D. Giả thuyết thay thế cho giả thuyết nghiên cứu.
25. Phân tích hồi quy đa biến (multiple regression) khác biệt so với hồi quy tuyến tính đơn giản (simple linear regression) ở điểm nào?
A. Hồi quy đa biến chỉ sử dụng biến định tính.
B. Hồi quy đa biến dự đoán biến phụ thuộc dựa trên nhiều biến độc lập.
C. Hồi quy đa biến không thể sử dụng dữ liệu số.
D. Hồi quy đa biến luôn cho kết quả chính xác hơn.
26. Phân tích `thời gian sống` (survival analysis) được sử dụng chủ yếu trong lĩnh vực nào?
A. Marketing và bán hàng.
B. Tài chính và kinh tế.
C. Y tế và sinh học.
D. Kỹ thuật và sản xuất.
27. Trong thống kê ứng dụng, thuật ngữ `biến định tính` (qualitative variable) thường được dùng để chỉ loại dữ liệu nào?
A. Dữ liệu số có thể đo lường được.
B. Dữ liệu thể hiện thuộc tính hoặc đặc điểm, không phải số.
C. Dữ liệu thời gian được thu thập theo chuỗi.
D. Dữ liệu thứ tự có khoảng cách bằng nhau giữa các giá trị.
28. Giá trị p (p-value) trong kiểm định giả thuyết thể hiện điều gì?
A. Xác suất giả thuyết null là đúng.
B. Xác suất quan sát được kết quả hiện tại hoặc kết quả cực đoan hơn nếu giả thuyết null là đúng.
C. Mức độ quan trọng thực tế của kết quả.
D. Xác suất mắc lỗi Loại II.
29. Lỗi Loại I (Type I error) trong kiểm định giả thuyết xảy ra khi nào?
A. Chấp nhận giả thuyết null khi nó thực sự đúng.
B. Bác bỏ giả thuyết null khi nó thực sự sai.
C. Bác bỏ giả thuyết null khi nó thực sự đúng.
D. Chấp nhận giả thuyết null khi nó thực sự sai.
30. Khi thực hiện kiểm định giả thuyết, mức ý nghĩa (significance level) α thường được chọn là 0.05. Điều này có nghĩa là gì?
A. Xác suất mắc lỗi Loại II là 5%.
B. Chúng ta chấp nhận giả thuyết null với xác suất 95%.
C. Chúng ta sẵn sàng chấp nhận rủi ro 5% mắc lỗi Loại I (bác bỏ giả thuyết null đúng).
D. Xác suất giả thuyết null là đúng là 5%.