1. Biến định tính (qualitative variable) khác với biến định lượng (quantitative variable) ở điểm nào?
A. Biến định tính có thể đo lường bằng số, biến định lượng thì không.
B. Biến định tính biểu thị thuộc tính hoặc phẩm chất, biến định lượng biểu thị số lượng.
C. Biến định tính luôn rời rạc, biến định lượng luôn liên tục.
D. Biến định tính chỉ dùng trong thống kê mô tả, biến định lượng dùng trong thống kê suy luận.
2. Hệ số tương quan (correlation coefficient) đo lường điều gì?
A. Sự khác biệt giữa hai biến số.
B. Mức độ phụ thuộc tuyến tính giữa hai biến số.
C. Xu hướng tăng hoặc giảm của một biến số.
D. Giá trị trung bình của hai biến số.
3. Thống kê mô tả tập trung vào việc nào sau đây?
A. Dự đoán giá trị tương lai dựa trên dữ liệu quá khứ.
B. Đưa ra kết luận về tổng thể dựa trên mẫu.
C. Tóm tắt và trình bày dữ liệu một cách có ý nghĩa.
D. Xây dựng mô hình toán học để giải thích hiện tượng.
4. Phương pháp lấy mẫu ngẫu nhiên đơn giản (simple random sampling) đảm bảo điều gì?
A. Mỗi phần tử trong tổng thể có cơ hội được chọn vào mẫu khác nhau.
B. Các phần tử được chọn vào mẫu phải đại diện cho các nhóm khác nhau trong tổng thể.
C. Mỗi phần tử trong tổng thể có cơ hội được chọn vào mẫu như nhau.
D. Việc chọn mẫu được thực hiện một cách hệ thống theo quy luật nhất định.
5. Phương pháp thống kê nào phù hợp để kiểm tra mối quan hệ giữa hai biến định tính?
A. Hệ số tương quan Pearson.
B. Phân tích phương sai (ANOVA).
C. Kiểm định Chi-bình phương (Chi-square test).
D. Hồi quy tuyến tính.
6. Phân tích phương sai (ANOVA) được sử dụng để làm gì?
A. Kiểm định sự khác biệt giữa trung bình của hai nhóm.
B. Kiểm định sự khác biệt giữa phương sai của hai nhóm.
C. Kiểm định sự khác biệt giữa trung bình của ba nhóm trở lên.
D. Đo lường mối quan hệ tuyến tính giữa hai biến số.
7. Hồi quy tuyến tính (linear regression) được sử dụng để làm gì?
A. Phân loại dữ liệu vào các nhóm khác nhau.
B. Dự đoán giá trị của một biến phụ thuộc dựa trên một hoặc nhiều biến độc lập.
C. Kiểm định sự khác biệt giữa trung bình của các nhóm.
D. Tóm tắt và mô tả dữ liệu.
8. Sai lầm loại II (Type II error) trong kiểm định giả thuyết là gì?
A. Bác bỏ giả thuyết không khi nó thực sự đúng.
B. Chấp nhận giả thuyết không khi nó thực sự đúng.
C. Chấp nhận giả thuyết không khi nó thực sự sai.
D. Bác bỏ giả thuyết không khi nó thực sự sai.
9. Loại thang đo nào cho phép xác định thứ tự và khoảng cách bằng nhau giữa các giá trị, nhưng không có điểm 0 tuyệt đối?
A. Định danh (Nominal).
B. Thứ bậc (Ordinal).
C. Khoảng (Interval).
D. Tỷ lệ (Ratio).
10. Trong phân tích hồi quy đa biến, hiện tượng đa cộng tuyến (multicollinearity) đề cập đến điều gì?
A. Mối quan hệ tuyến tính mạnh mẽ giữa biến phụ thuộc và biến độc lập.
B. Mối quan hệ tuyến tính mạnh mẽ giữa các biến độc lập với nhau.
C. Sự phân tán của dữ liệu xung quanh đường hồi quy.
D. Sự không tuyến tính trong mối quan hệ giữa các biến.
11. Giá trị p (p-value) trong kiểm định giả thuyết thể hiện điều gì?
A. Xác suất giả thuyết không là đúng.
B. Xác suất quan sát được kết quả như mẫu (hoặc cực đoan hơn) nếu giả thuyết không là đúng.
C. Mức ý nghĩa thống kê được chọn trước.
D. Độ lớn của hiệu ứng nghiên cứu.
12. Phương pháp lấy mẫu phân tầng (stratified sampling) được sử dụng khi nào?
A. Khi tổng thể là đồng nhất và không có sự khác biệt giữa các nhóm.
B. Khi tổng thể có thể chia thành các nhóm (tầng) khác nhau và muốn đảm bảo mỗi tầng đều được đại diện trong mẫu.
C. Khi không có danh sách đầy đủ các phần tử của tổng thể.
D. Khi muốn chọn mẫu một cách nhanh chóng và tiện lợi.
13. Sai lầm loại I (Type I error) trong kiểm định giả thuyết là gì?
A. Chấp nhận giả thuyết không khi nó thực sự sai.
B. Bác bỏ giả thuyết không khi nó thực sự đúng.
C. Không bác bỏ giả thuyết không khi nó thực sự đúng.
D. Bác bỏ giả thuyết không khi nó thực sự sai.
14. Phân tích thành phần chính (Principal Component Analysis - PCA) là một kỹ thuật:
A. Phân loại dữ liệu.
B. Giảm chiều dữ liệu bằng cách tìm ra các thành phần chính giữ lại phần lớn phương sai của dữ liệu.
C. Dự đoán giá trị tương lai.
D. Kiểm định sự khác biệt giữa các nhóm.
15. Phương pháp thống kê Bayesian khác với phương pháp thống kê tần suất (frequentist) chủ yếu ở điểm nào?
A. Thống kê Bayesian chỉ sử dụng dữ liệu mẫu, thống kê tần suất sử dụng toàn bộ dữ liệu tổng thể.
B. Thống kê Bayesian dựa trên xác suất chủ quan và thông tin tiên nghiệm, thống kê tần suất dựa trên tần suất xuất hiện của sự kiện.
C. Thống kê Bayesian chỉ dùng cho biến định tính, thống kê tần suất chỉ dùng cho biến định lượng.
D. Thống kê Bayesian không sử dụng giả thuyết không, thống kê tần suất luôn sử dụng giả thuyết không.
16. Biểu đồ hộp (boxplot) thường được sử dụng để:
A. Hiển thị tần số của các giá trị trong dữ liệu.
B. So sánh trung bình giữa các nhóm.
C. Mô tả sự phân bố và các giá trị ngoại lệ của một biến số định lượng.
D. Thể hiện mối quan hệ giữa hai biến số định lượng.
17. Khoảng tin cậy (confidence interval) cho trung bình tổng thể được sử dụng để:
A. Kiểm định giả thuyết về trung bình tổng thể.
B. Ước lượng một khoảng giá trị mà trung bình tổng thể có khả năng nằm trong đó với một độ tin cậy nhất định.
C. Tính toán giá trị trung bình mẫu.
D. Xác định độ lệch chuẩn của tổng thể.
18. Ý nghĩa của việc `chuẩn hóa dữ liệu` (data normalization) trong thống kê là gì?
A. Loại bỏ giá trị ngoại lệ khỏi dữ liệu.
B. Chuyển đổi dữ liệu về cùng một thang đo để so sánh hoặc phân tích dễ dàng hơn.
C. Sắp xếp dữ liệu theo thứ tự tăng dần hoặc giảm dần.
D. Tính toán các thống kê mô tả cho dữ liệu.
19. Kỹ thuật `bootstrap` trong thống kê được sử dụng để làm gì?
A. Tăng kích thước mẫu dữ liệu.
B. Ước lượng độ chính xác của thống kê mẫu (ví dụ: sai số chuẩn, khoảng tin cậy) bằng cách lấy mẫu lại có hoàn lại từ mẫu gốc.
C. Kiểm định giả thuyết về trung bình tổng thể.
D. Chuẩn hóa dữ liệu.
20. Trong phân tích dữ liệu lớn (big data), thuật ngữ `4Vs` thường được dùng để mô tả các đặc trưng chính, bao gồm:
A. Validity, Variety, Velocity, Volume.
B. Volume, Velocity, Variety, Veracity.
C. Value, Variance, Velocity, Volume.
D. Volatility, Volume, Variety, Veracity.
21. Trong kiểm định giả thuyết thống kê, `giả thuyết không` (null hypothesis) thường biểu thị điều gì?
A. Giả thuyết mà nhà nghiên cứu muốn chứng minh là đúng.
B. Giả thuyết về sự khác biệt hoặc hiệu ứng đáng kể.
C. Giả thuyết về việc không có sự khác biệt hoặc không có hiệu ứng.
D. Giả thuyết được chấp nhận nếu p-value nhỏ hơn mức ý nghĩa alpha.
22. Mức ý nghĩa (alpha level) trong kiểm định giả thuyết thường được chọn là bao nhiêu?
A. 0.5
B. 0.1
C. 0.05
D. 1.0
23. Định lý giới hạn trung tâm (Central Limit Theorem) phát biểu rằng:
A. Trung bình mẫu luôn bằng trung bình tổng thể.
B. Phương sai mẫu luôn bằng phương sai tổng thể.
C. Phân phối của trung bình mẫu sẽ xấp xỉ phân phối chuẩn khi kích thước mẫu đủ lớn, bất kể phân phối gốc của tổng thể.
D. Tổng của các biến ngẫu nhiên độc lập luôn tuân theo phân phối chuẩn.
24. Giá trị ngoại lệ (outlier) trong dữ liệu là gì?
A. Giá trị xuất hiện nhiều nhất trong tập dữ liệu.
B. Giá trị nằm ở vị trí chính giữa của tập dữ liệu.
C. Giá trị khác biệt đáng kể so với các giá trị còn lại trong tập dữ liệu.
D. Giá trị trung bình của tập dữ liệu.
25. Phân phối chuẩn (normal distribution) có đặc điểm gì?
A. Dữ liệu phân bố đều trên toàn bộ phạm vi giá trị.
B. Dạng hình chữ nhật và đối xứng.
C. Dạng hình chuông, đối xứng và xác định bởi trung bình và độ lệch chuẩn.
D. Luôn có trung bình bằng 0 và độ lệch chuẩn bằng 1.
26. Trong thống kê, `mẫu` (sample) được hiểu là:
A. Toàn bộ các đối tượng được quan tâm nghiên cứu.
B. Một tập hợp con được chọn ra từ tổng thể để nghiên cứu.
C. Giá trị trung bình của một tập dữ liệu.
D. Độ lệch chuẩn của một tập dữ liệu.
27. Độ lệch chuẩn (standard deviation) đo lường điều gì?
A. Mức độ tập trung của dữ liệu xung quanh giá trị trung bình.
B. Mức độ phân tán của dữ liệu xung quanh giá trị trung bình.
C. Giá trị trung bình của tập dữ liệu.
D. Giá trị lớn nhất trừ giá trị nhỏ nhất.
28. Trong hồi quy tuyến tính, hệ số hồi quy (regression coefficient) cho biết điều gì?
A. Độ mạnh của mối quan hệ giữa các biến.
B. Mức độ phân tán của dữ liệu.
C. Mức độ thay đổi của biến phụ thuộc khi biến độc lập thay đổi một đơn vị.
D. Giá trị trung bình của biến phụ thuộc.
29. Trong thống kê, `phân phối lấy mẫu` (sampling distribution) của một thống kê là gì?
A. Phân phối của dữ liệu mẫu.
B. Phân phối của tổng thể.
C. Phân phối xác suất của thống kê đó (ví dụ: trung bình mẫu) khi lấy mẫu lặp đi lặp lại từ tổng thể.
D. Phân phối của sai số chuẩn.
30. Giá trị trung vị (median) của một tập dữ liệu thể hiện điều gì?
A. Giá trị xuất hiện nhiều nhất trong tập dữ liệu.
B. Giá trị trung bình cộng của tất cả các giá trị.
C. Giá trị nằm ở vị trí chính giữa của tập dữ liệu đã sắp xếp.
D. Khoảng cách giữa giá trị lớn nhất và nhỏ nhất.