1. Mức ý nghĩa (significance level, α) thường được sử dụng trong kiểm định giả thuyết là:
A. 10%.
B. 5%.
C. 1%.
D. Tất cả các đáp án trên đều có thể, tùy thuộc vào ngữ cảnh.
2. Khi nào thì nên sử dụng kiểm định phi tham số (non-parametric test) thay vì kiểm định tham số (parametric test)?
A. Khi kích thước mẫu lớn.
B. Khi dữ liệu tuân theo phân phối chuẩn.
C. Khi các giả định của kiểm định tham số không được đáp ứng (ví dụ: dữ liệu không phân phối chuẩn hoặc kích thước mẫu nhỏ).
D. Khi muốn tính toán khoảng tin cậy.
3. Khi so sánh hai mẫu độc lập, kiểm định t (independent samples t-test) giả định rằng:
A. Phương sai của hai tổng thể phải khác nhau.
B. Kích thước của hai mẫu phải bằng nhau.
C. Dữ liệu từ cả hai mẫu phải tuân theo phân phối chuẩn và phương sai gần bằng nhau.
D. Chỉ cần dữ liệu từ một mẫu tuân theo phân phối chuẩn.
4. Khi nào thì trung bình mẫu (sample mean) là một ước tính không chệch (unbiased estimator) của trung bình tổng thể (population mean)?
A. Luôn luôn.
B. Chỉ khi kích thước mẫu rất lớn.
C. Khi mẫu được lấy ngẫu nhiên từ tổng thể.
D. Chỉ khi dữ liệu tuân theo phân phối chuẩn.
5. Điều gì xảy ra với độ rộng của khoảng tin cậy khi kích thước mẫu tăng lên (giả sử các yếu tố khác không đổi)?
A. Khoảng tin cậy trở nên rộng hơn.
B. Khoảng tin cậy trở nên hẹp hơn.
C. Độ rộng của khoảng tin cậy không thay đổi.
D. Không thể xác định được sự thay đổi.
6. Loại biến số nào sau đây là biến định tính (qualitative variable)?
A. Chiều cao của sinh viên.
B. Cân nặng của sản phẩm.
C. Màu sắc ưa thích.
D. Số lượng sách trong thư viện.
7. Giả sử bạn muốn nghiên cứu mối quan hệ giữa thu nhập và trình độ học vấn. Loại phân tích thống kê nào phù hợp nhất?
A. Thống kê mô tả đơn thuần.
B. Phân tích hồi quy (Regression analysis).
C. Kiểm định t (t-test).
D. Phân tích phương sai (ANOVA).
8. Đại lượng nào sau đây đo lường mức độ phân tán của dữ liệu xung quanh giá trị trung bình?
A. Trung vị (Median).
B. Mốt (Mode).
C. Độ lệch chuẩn (Standard deviation).
D. Trung bình (Mean).
9. Giá trị tới hạn (critical value) trong kiểm định giả thuyết là:
A. Giá trị của thống kê kiểm định được tính từ dữ liệu mẫu.
B. Giá trị phân định vùng bác bỏ và vùng không bác bỏ của giả thuyết null.
C. Giá trị p nhỏ nhất có thể chấp nhận được.
D. Giá trị trung bình của phân phối lấy mẫu.
10. Phương pháp nào sau đây được sử dụng để giảm kích thước dữ liệu (dimensionality reduction) trong thống kê?
A. Phân tích phương sai (ANOVA).
B. Phân tích hồi quy (Regression analysis).
C. Phân tích thành phần chính (Principal Component Analysis - PCA).
D. Kiểm định t (t-test).
11. Trong phân tích hồi quy tuyến tính đơn giản, hệ số góc (slope coefficient) cho biết:
A. Giá trị trung bình của biến phụ thuộc khi biến độc lập bằng 0.
B. Mức độ thay đổi của biến phụ thuộc khi biến độc lập tăng lên 1 đơn vị.
C. Mức độ phù hợp của mô hình hồi quy.
D. Phương sai của sai số.
12. Phân phối chuẩn (Normal distribution) thường được mô tả bởi:
A. Trung bình và phương sai.
B. Trung vị và khoảng tứ phân vị.
C. Mốt và độ lệch chuẩn.
D. Trung bình và độ lệch tuyệt đối trung bình.
13. Điều gì sau đây KHÔNG phải là một biện pháp đo lường xu hướng trung tâm (measures of central tendency)?
A. Trung bình (Mean).
B. Trung vị (Median).
C. Mốt (Mode).
D. Phương sai (Variance).
14. Trong thống kê suy diễn (inferential statistics), chúng ta sử dụng thông tin từ mẫu để:
A. Mô tả dữ liệu mẫu.
B. Suy luận và đưa ra kết luận về tổng thể.
C. Tính toán các thống kê mô tả.
D. Trực quan hóa dữ liệu.
15. Biến số nào sau đây là biến định lượng liên tục (continuous quantitative variable)?
A. Số người trong một gia đình.
B. Điểm kiểm tra.
C. Nhiệt độ phòng.
D. Thứ hạng trong cuộc thi.
16. Trong kiểm định giả thuyết, lỗi loại I (Type I error) xảy ra khi:
A. Chấp nhận giả thuyết null khi nó thực sự đúng.
B. Bác bỏ giả thuyết null khi nó thực sự sai.
C. Bác bỏ giả thuyết null khi nó thực sự đúng.
D. Chấp nhận giả thuyết null khi nó thực sự sai.
17. Trong phân tích phương sai (ANOVA), mục tiêu chính là:
A. Xác định mối quan hệ tuyến tính giữa các biến.
B. So sánh phương sai của hai mẫu.
C. So sánh trung bình của ba nhóm trở lên.
D. Đo lường độ phân tán của dữ liệu.
18. Box plot (biểu đồ hộp) hữu ích nhất trong việc:
A. Hiển thị mối quan hệ giữa hai biến.
B. So sánh trung bình của nhiều nhóm.
C. Xác định các giá trị ngoại lai (outliers) trong dữ liệu.
D. Hiển thị phân phối tần số chi tiết.
19. Trong phân tích hồi quy đa biến (multiple regression), hệ số hồi quy riêng phần (partial regression coefficient) thể hiện:
A. Ảnh hưởng tổng thể của tất cả các biến độc lập lên biến phụ thuộc.
B. Ảnh hưởng của một biến độc lập cụ thể lên biến phụ thuộc, khi các biến độc lập khác được giữ không đổi.
C. Mức độ tương quan giữa các biến độc lập.
D. Sai số chuẩn của ước lượng.
20. Sự khác biệt chính giữa thống kê tham số và phi tham số là gì?
A. Thống kê tham số sử dụng mẫu lớn hơn, trong khi phi tham số sử dụng mẫu nhỏ hơn.
B. Thống kê tham số giả định về phân phối của dữ liệu tổng thể, trong khi phi tham số không có hoặc có ít giả định hơn.
C. Thống kê tham số chỉ sử dụng dữ liệu định lượng, trong khi phi tham số chỉ sử dụng dữ liệu định tính.
D. Thống kê tham số luôn chính xác hơn phi tham số.
21. Thống kê mô tả (Descriptive statistics) chủ yếu tập trung vào:
A. Đưa ra kết luận về tổng thể dựa trên mẫu.
B. Mô tả và tóm tắt dữ liệu đã thu thập.
C. Dự đoán giá trị tương lai của biến số.
D. Kiểm định giả thuyết về các tham số của tổng thể.
22. Mục đích của việc chuẩn hóa dữ liệu (data normalization) là gì?
A. Loại bỏ giá trị ngoại lai.
B. Chuyển đổi dữ liệu về cùng một thang đo để so sánh hoặc phân tích.
C. Đảm bảo dữ liệu tuân theo phân phối chuẩn.
D. Tăng kích thước mẫu.
23. Hệ số tương quan (Correlation coefficient) đo lường:
A. Mối quan hệ nhân quả giữa hai biến.
B. Độ mạnh và hướng của mối quan hệ tuyến tính giữa hai biến.
C. Sự khác biệt giữa trung bình của hai nhóm.
D. Mức độ phân tán của dữ liệu.
24. Histogram thường được sử dụng để trực quan hóa:
A. Mối quan hệ giữa hai biến định lượng.
B. Phân phối tần số của một biến định lượng.
C. So sánh các nhóm khác nhau dựa trên biến định tính.
D. Sự thay đổi của một biến theo thời gian.
25. Phương pháp lấy mẫu nào đảm bảo mỗi phần tử của tổng thể đều có cơ hội được chọn vào mẫu như nhau?
A. Lấy mẫu thuận tiện (Convenience sampling).
B. Lấy mẫu phân tầng (Stratified sampling).
C. Lấy mẫu ngẫu nhiên đơn giản (Simple random sampling).
D. Lấy mẫu theo cụm (Cluster sampling).
26. Khoảng tin cậy (Confidence interval) được sử dụng để:
A. Ước lượng một giá trị điểm cho tham số tổng thể.
B. Ước lượng một khoảng giá trị có khả năng chứa tham số tổng thể.
C. Kiểm định giả thuyết về tham số tổng thể.
D. Tính toán giá trị p.
27. Giá trị p (p-value) trong kiểm định giả thuyết thể hiện:
A. Xác suất giả thuyết null là đúng.
B. Xác suất quan sát được kết quả hoặc kết quả cực đoan hơn nếu giả thuyết null là đúng.
C. Mức ý nghĩa (significance level) của kiểm định.
D. Sai số chuẩn (standard error) của thống kê kiểm định.
28. Trong kiểm định giả thuyết một phía (one-tailed test), vùng bác bỏ (rejection region) nằm ở:
A. Cả hai phía của phân phối lấy mẫu.
B. Chỉ một phía của phân phối lấy mẫu.
C. Trung tâm của phân phối lấy mẫu.
D. Không có vùng bác bỏ trong kiểm định một phía.
29. Sai số chuẩn của trung bình mẫu (standard error of the mean) đo lường:
A. Độ lệch chuẩn của tổng thể.
B. Độ lệch chuẩn của mẫu.
C. Độ biến động của trung bình mẫu từ mẫu này sang mẫu khác.
D. Trung bình của các sai số.
30. Điều gì xảy ra với sai số loại II (Type II error) khi mức ý nghĩa (α) giảm xuống (giả sử các yếu tố khác không đổi)?
A. Sai số loại II giảm xuống.
B. Sai số loại II tăng lên.
C. Sai số loại II không thay đổi.
D. Không thể xác định được sự thay đổi.