1. Độ lệch chuẩn (standard deviation) đo lường điều gì?
A. Mức độ tập trung của dữ liệu xung quanh trung vị.
B. Mức độ phân tán của dữ liệu xung quanh giá trị trung bình.
C. Giá trị lớn nhất trừ giá trị nhỏ nhất trong dữ liệu.
D. Số lượng giá trị trong tập dữ liệu.
2. Sai số loại I (Type I error) trong kiểm định giả thuyết xảy ra khi:
A. Bác bỏ giả thuyết null khi nó thực sự sai.
B. Không bác bỏ giả thuyết null khi nó thực sự đúng.
C. Bác bỏ giả thuyết null khi nó thực sự đúng.
D. Không bác bỏ giả thuyết null khi nó thực sự sai.
3. Phân tích ANOVA (Analysis of Variance) được sử dụng để:
A. Kiểm tra mối quan hệ giữa hai biến định lượng.
B. So sánh trung bình của hai nhóm.
C. So sánh trung bình của ba nhóm trở lên.
D. Đo lường độ mạnh của mối quan hệ tuyến tính.
4. Giá trị trung vị (median) của một tập dữ liệu thể hiện điều gì?
A. Giá trị trung bình cộng của tất cả các giá trị.
B. Giá trị xuất hiện nhiều nhất trong tập dữ liệu.
C. Giá trị ở vị trí chính giữa của tập dữ liệu đã sắp xếp.
D. Tổng của tất cả các giá trị chia cho số lượng giá trị.
5. Phương pháp lấy mẫu phân tầng (stratified sampling) hữu ích khi nào?
A. Tổng thể đồng nhất.
B. Tổng thể rất lớn và khó tiếp cận.
C. Tổng thể có thể chia thành các nhóm (tầng) đồng nhất bên trong nhưng khác biệt giữa các tầng.
D. Chúng ta cần lấy mẫu một cách nhanh chóng và dễ dàng.
6. Mức ý nghĩa (significance level, alpha) trong kiểm định giả thuyết thường được đặt ở mức:
A. 10%.
B. 20%.
C. 5%.
D. 50%.
7. Hệ số tương quan (correlation coefficient) đo lường điều gì?
A. Sức mạnh của mối quan hệ nhân quả giữa hai biến.
B. Mức độ biến thiên của một biến so với biến khác.
C. Hướng và độ mạnh của mối quan hệ tuyến tính giữa hai biến định lượng.
D. Sự khác biệt giữa trung bình của hai biến.
8. Giá trị ngoại lai (outlier) trong dữ liệu là gì?
A. Giá trị trung bình của tập dữ liệu.
B. Giá trị xuất hiện nhiều nhất trong tập dữ liệu.
C. Giá trị khác biệt đáng kể so với các giá trị khác trong tập dữ liệu.
D. Giá trị ở vị trí chính giữa của tập dữ liệu.
9. Trong phân tích hồi quy tuyến tính, R-squared (R bình phương) thể hiện điều gì?
A. Độ dốc của đường hồi quy.
B. Sai số chuẩn của ước lượng.
C. Tỷ lệ phương sai của biến phụ thuộc được giải thích bởi mô hình hồi quy.
D. Mức ý nghĩa của mô hình hồi quy.
10. Biến ngẫu nhiên rời rạc (discrete random variable) là gì?
A. Biến có thể nhận bất kỳ giá trị nào trong một khoảng liên tục.
B. Biến chỉ có thể nhận một số hữu hạn giá trị hoặc vô hạn đếm được các giá trị.
C. Biến luôn có phân phối chuẩn.
D. Biến đo lường thời gian.
11. Thống kê mô tả tập trung vào việc:
A. Dự đoán giá trị tương lai.
B. Khái quát hóa mẫu thành tổng thể.
C. Tóm tắt và trình bày dữ liệu.
D. Kiểm định các giả thuyết thống kê.
12. Khoảng tin cậy (confidence interval) cung cấp điều gì?
A. Giá trị điểm ước lượng chính xác của tham số tổng thể.
B. Một khoảng giá trị mà tham số tổng thể có khả năng cao nằm trong đó.
C. Xác suất tham số tổng thể nằm trong một khoảng giá trị cụ thể.
D. Sai số chuẩn của trung bình mẫu.
13. Biểu đồ phân tán (scatterplot) thường được sử dụng để:
A. Thể hiện phân phối tần suất của một biến.
B. So sánh trung bình của các nhóm khác nhau.
C. Khám phá mối quan hệ giữa hai biến định lượng.
D. Thể hiện dữ liệu theo thời gian.
14. Trong kiểm định giả thuyết, `giá trị p` (p-value) thể hiện điều gì?
A. Xác suất giả thuyết null là đúng.
B. Mức ý nghĩa thống kê được chọn trước.
C. Xác suất quan sát được kết quả cực đoan như (hoặc cực đoan hơn) kết quả đã quan sát, giả sử giả thuyết null là đúng.
D. Sai số loại I.
15. Phân phối chuẩn (normal distribution) còn được gọi là:
A. Phân phối Poisson.
B. Phân phối nhị thức.
C. Phân phối Gaussian.
D. Phân phối mũ.
16. Trong phân tích hồi quy đa biến, `đa cộng tuyến` (multicollinearity) đề cập đến vấn đề gì?
A. Mối quan hệ phi tuyến tính giữa các biến.
B. Sự tương quan cao giữa các biến độc lập.
C. Sự phụ thuộc của biến phụ thuộc vào nhiều biến độc lập.
D. Sự phân tán của dữ liệu xung quanh đường hồi quy.
17. Thống kê suy diễn (inferential statistics) chủ yếu liên quan đến:
A. Mô tả dữ liệu mẫu.
B. Thu thập dữ liệu.
C. Khái quát hóa kết quả từ mẫu lên tổng thể.
D. Trình bày dữ liệu bằng biểu đồ.
18. Phương pháp nào sau đây KHÔNG phải là một phương pháp lấy mẫu ngẫu nhiên?
A. Lấy mẫu ngẫu nhiên đơn giản.
B. Lấy mẫu phân tầng.
C. Lấy mẫu cụm.
D. Lấy mẫu thuận tiện.
19. Trong thống kê phi tham số, chúng ta thường sử dụng các phương pháp khi:
A. Dữ liệu có phân phối chuẩn.
B. Kích thước mẫu rất lớn.
C. Các giả định về phân phối của dữ liệu không được đáp ứng.
D. Chúng ta muốn tính toán trung bình và độ lệch chuẩn.
20. Trong phân tích dữ liệu lớn (big data analytics), kỹ thuật `khai phá dữ liệu` (data mining) thường được sử dụng để:
A. Mô tả đặc điểm cơ bản của dữ liệu.
B. Thu thập và làm sạch dữ liệu.
C. Phát hiện ra các mẫu, xu hướng và kiến thức tiềm ẩn từ lượng lớn dữ liệu.
D. Trực quan hóa dữ liệu bằng biểu đồ.
21. Khi nào nên sử dụng kiểm định t (t-test) độc lập?
A. Để so sánh trung bình của một mẫu với một giá trị đã biết.
B. Để so sánh trung bình của hai mẫu phụ thuộc.
C. Để so sánh trung bình của hai mẫu độc lập.
D. Để so sánh phương sai của hai mẫu.
22. Biến định tính (qualitative variable) còn được gọi là:
A. Biến liên tục.
B. Biến số.
C. Biến phân loại.
D. Biến định lượng.
23. Phương sai (variance) là bình phương của:
A. Trung bình.
B. Trung vị.
C. Độ lệch chuẩn.
D. Khoảng biến thiên.
24. Biểu đồ hộp (boxplot) thường được sử dụng để:
A. Thể hiện tần suất của các giá trị rời rạc.
B. So sánh trung bình của nhiều nhóm.
C. Mô tả phân phối và sự phân tán của dữ liệu liên tục.
D. Thể hiện mối quan hệ giữa hai biến số liên tục.
25. Định lý giới hạn trung tâm (Central Limit Theorem) phát biểu rằng:
A. Trung bình mẫu luôn bằng trung bình tổng thể.
B. Phương sai mẫu luôn bằng phương sai tổng thể.
C. Phân phối của trung bình mẫu sẽ xấp xỉ phân phối chuẩn khi kích thước mẫu đủ lớn, bất kể dạng phân phối của tổng thể.
D. Tổng thể phải có phân phối chuẩn.
26. Trong các loại thang đo sau, thang đo nào cho phép xác định thứ tự và khoảng cách có ý nghĩa giữa các giá trị, nhưng không có điểm gốc 0 tuyệt đối?
A. Thang đo danh nghĩa.
B. Thang đo thứ bậc.
C. Thang đo khoảng.
D. Thang đo tỷ lệ.
27. Khi kiểm định giả thuyết một đuôi (one-tailed test) được sử dụng thay vì kiểm định hai đuôi (two-tailed test)?
A. Khi chúng ta không có giả định về hướng của hiệu ứng.
B. Khi chúng ta chỉ quan tâm đến hiệu ứng theo một hướng cụ thể (lớn hơn hoặc nhỏ hơn).
C. Khi mức ý nghĩa (alpha) nhỏ hơn 0.05.
D. Khi kích thước mẫu nhỏ.
28. Trong phân tích tần suất (frequency analysis), chúng ta thường quan tâm đến:
A. Trung bình và độ lệch chuẩn của dữ liệu.
B. Số lần xuất hiện của mỗi giá trị hoặc nhóm giá trị trong dữ liệu.
C. Mối quan hệ giữa các biến số.
D. Dự đoán giá trị tương lai.
29. Khi kích thước mẫu tăng lên, điều gì thường xảy ra với sai số chuẩn của trung bình mẫu?
A. Tăng lên.
B. Không đổi.
C. Giảm xuống.
D. Thay đổi không theo quy luật.
30. Mục tiêu chính của việc chuẩn hóa dữ liệu (data normalization) là gì?
A. Loại bỏ giá trị ngoại lai.
B. Chuyển đổi dữ liệu về cùng một thang đo để so sánh và phân tích dễ dàng hơn.
C. Thay đổi phân phối của dữ liệu thành phân phối chuẩn.
D. Tăng kích thước mẫu.