1. Khi nào nên sử dụng kiểm định phi tham số (Non-parametric test) thay vì kiểm định tham số (Parametric test)?
A. Khi dữ liệu tuân theo phân phối chuẩn.
B. Khi kích thước mẫu rất lớn.
C. Khi các giả định của kiểm định tham số không được đáp ứng (ví dụ: dữ liệu không phân phối chuẩn, kích thước mẫu nhỏ).
D. Khi cần tính toán nhanh kết quả.
2. Phương pháp lấy mẫu nào đảm bảo rằng mọi thành viên của quần thể đều có cơ hội được chọn vào mẫu như nhau?
A. Lấy mẫu phân tầng (Stratified sampling)
B. Lấy mẫu cụm (Cluster sampling)
C. Lấy mẫu ngẫu nhiên đơn giản (Simple random sampling)
D. Lấy mẫu thuận tiện (Convenience sampling)
3. Trong thống kê ứng dụng, `phân tích độ nhạy` (Sensitivity analysis) được sử dụng để làm gì?
A. Đo lường mức độ chính xác của dữ liệu đầu vào.
B. Đánh giá mức độ ảnh hưởng của sự thay đổi trong các giả định hoặc đầu vào đến kết quả của mô hình.
C. Xác định giá trị tối ưu của các biến quyết định.
D. Kiểm tra tính hợp lệ của mô hình thống kê.
4. Trong phân tích chuỗi thời gian (Time series analysis), mục đích của việc phân tích thành phần thời vụ (Seasonal component) là gì?
A. Loại bỏ xu hướng dài hạn khỏi dữ liệu.
B. Xác định và loại bỏ các biến động có tính chu kỳ hoặc lặp lại theo thời gian.
C. Dự đoán giá trị tương lai của chuỗi thời gian.
D. Đo lường mức độ biến động ngẫu nhiên trong dữ liệu.
5. Trong kiểm định giả thuyết thống kê, `giá trị p` (p-value) thể hiện điều gì?
A. Xác suất giả thuyết null là đúng.
B. Xác suất quan sát được kết quả cực đoan ít nhất bằng kết quả hiện tại, giả sử giả thuyết null là đúng.
C. Mức độ ý nghĩa thống kê được chọn trước.
D. Xác suất mắc lỗi Loại II.
6. Trong phân tích hồi quy tuyến tính, hệ số R bình phương (R-squared) đo lường điều gì?
A. Độ mạnh của mối quan hệ tuyến tính giữa các biến.
B. Tỷ lệ phương sai của biến phụ thuộc được giải thích bởi mô hình hồi quy.
C. Mức độ ý nghĩa thống kê của các hệ số hồi quy.
D. Sai số chuẩn của ước lượng hồi quy.
7. Khi nào thì việc sử dụng trung vị (Median) thích hợp hơn so với trung bình (Mean) để đo lường xu hướng trung tâm của dữ liệu?
A. Khi dữ liệu phân phối chuẩn (Normal distribution).
B. Khi dữ liệu có giá trị ngoại lệ (Outliers) đáng kể.
C. Khi dữ liệu có dạng rời rạc (Discrete data).
D. Khi dữ liệu có tính liên tục (Continuous data).
8. Phương pháp nào được sử dụng để đánh giá độ tin cậy (Reliability) của một thang đo hoặc bảng câu hỏi trong nghiên cứu?
A. Phân tích hồi quy (Regression analysis)
B. Hệ số Cronbach`s Alpha (Cronbach`s Alpha coefficient)
C. Phân tích phương sai (ANOVA)
D. Kiểm định t (t-test)
9. Trong phân tích dữ liệu lớn (Big data analytics), thống kê ứng dụng được sử dụng như thế nào?
A. Chỉ để mô tả dữ liệu.
B. Để khám phá mẫu, xu hướng, và mối quan hệ ẩn trong lượng lớn dữ liệu, cũng như dự đoán và ra quyết định.
C. Để thay thế hoàn toàn các phương pháp thống kê truyền thống.
D. Chỉ để tạo ra các báo cáo trực quan hóa dữ liệu.
10. Khái niệm `khoảng tin cậy` (Confidence interval) trong thống kê ứng dụng dùng để làm gì?
A. Ước tính giá trị chính xác của tham số quần thể.
B. Cung cấp một khoảng giá trị mà tham số quần thể có khả năng nằm trong đó, với một mức độ tin cậy nhất định.
C. Xác định kích thước mẫu cần thiết cho một nghiên cứu.
D. Kiểm định giả thuyết về tham số quần thể.
11. Phương pháp nào thường được sử dụng để xử lý dữ liệu bị thiếu (Missing data) trong phân tích thống kê?
A. Luôn loại bỏ tất cả các quan sát có dữ liệu bị thiếu.
B. Thay thế dữ liệu bị thiếu bằng giá trị trung bình của biến.
C. Sử dụng các phương pháp thay thế dữ liệu (Imputation) hoặc phân tích dữ liệu bị thiếu một cách trực tiếp (ví dụ: Maximum Likelihood).
D. Bỏ qua vấn đề dữ liệu bị thiếu và tiến hành phân tích như bình thường.
12. Trong thống kê ứng dụng, `ngoại suy` (Extrapolation) và `nội suy` (Interpolation) khác nhau như thế nào?
A. Ngoại suy là ước tính giá trị bên trong phạm vi dữ liệu đã biết, nội suy là ước tính giá trị bên ngoài phạm vi đó.
B. Ngoại suy là ước tính giá trị bên ngoài phạm vi dữ liệu đã biết, nội suy là ước tính giá trị bên trong phạm vi đó.
C. Nội suy sử dụng mô hình tuyến tính, ngoại suy sử dụng mô hình phi tuyến tính.
D. Không có sự khác biệt, cả hai đều là phương pháp ước tính giá trị dựa trên dữ liệu đã biết.
13. Trong thiết kế thử nghiệm, nhóm đối chứng (Control group) có vai trò gì?
A. Nhận phương pháp điều trị hoặc can thiệp đang được thử nghiệm.
B. Không nhận phương pháp điều trị và được sử dụng làm cơ sở so sánh.
C. Được chọn ngẫu nhiên từ quần thể nghiên cứu.
D. Được sử dụng để tăng kích thước mẫu.
14. Độ lệch chuẩn (Standard deviation) đo lường điều gì?
A. Xu hướng trung tâm của dữ liệu.
B. Độ phân tán hoặc biến động của dữ liệu xung quanh giá trị trung bình.
C. Mức độ bất đối xứng của phân phối dữ liệu.
D. Giá trị lớn nhất và nhỏ nhất trong tập dữ liệu.
15. Thống kê mô tả (Descriptive statistics) chủ yếu tập trung vào điều gì?
A. Đưa ra kết luận về quần thể dựa trên mẫu.
B. Tóm tắt và mô tả các đặc điểm chính của dữ liệu mẫu.
C. Dự đoán các giá trị tương lai dựa trên dữ liệu quá khứ.
D. Xác định mối quan hệ nhân quả giữa các biến.
16. Ứng dụng của `thống kê Bayes` (Bayesian statistics) khác biệt so với `thống kê tần suất` (Frequentist statistics) chủ yếu ở điểm nào?
A. Thống kê Bayes chỉ sử dụng dữ liệu mẫu.
B. Thống kê Bayes kết hợp thông tin tiên nghiệm (prior beliefs) với dữ liệu để đưa ra kết luận.
C. Thống kê tần suất sử dụng xác suất chủ quan.
D. Thống kê Bayes không sử dụng giá trị p.
17. Loại dữ liệu nào là dữ liệu định tính, có thứ tự xếp hạng?
A. Dữ liệu định danh (Nominal data)
B. Dữ liệu thứ bậc (Ordinal data)
C. Dữ liệu khoảng (Interval data)
D. Dữ liệu tỷ lệ (Ratio data)
18. Khi nào thì kiểm định Chi-bình phương (Chi-squared test) được sử dụng?
A. Để so sánh trung bình của hai nhóm.
B. Để kiểm tra sự độc lập giữa hai biến định tính.
C. Để kiểm tra sự khác biệt giữa phương sai của hai nhóm.
D. Để dự đoán giá trị của một biến liên tục.
19. Trong thống kê ứng dụng, thuật ngữ nào mô tả giá trị trung bình cộng của một tập dữ liệu?
A. Trung vị (Median)
B. Trung bình (Mean)
C. Mốt (Mode)
D. Độ lệch chuẩn (Standard Deviation)
20. Phương pháp thống kê nào thường được sử dụng để giảm chiều dữ liệu (Dimensionality reduction) trong học máy và phân tích dữ liệu?
A. Phân tích hồi quy (Regression analysis)
B. Phân tích thành phần chính (Principal Component Analysis - PCA)
C. Phân tích phương sai (ANOVA)
D. Kiểm định t (t-test)
21. Khi nào thì kiểm định t độc lập (Independent t-test) được sử dụng?
A. Để so sánh trung bình của hai nhóm độc lập.
B. Để so sánh trung bình của cùng một nhóm trước và sau can thiệp.
C. Để kiểm tra mối quan hệ giữa hai biến định tính.
D. Để kiểm tra sự phù hợp của dữ liệu với phân phối chuẩn.
22. Trong thống kê ứng dụng, thuật ngữ `đa cộng tuyến` (Multicollinearity) đề cập đến vấn đề gì trong mô hình hồi quy đa biến?
A. Sự thiếu tuyến tính trong mối quan hệ giữa các biến.
B. Mối tương quan cao giữa các biến độc lập trong mô hình.
C. Sự không đồng nhất phương sai của sai số.
D. Sự vi phạm giả định về phân phối chuẩn của sai số.
23. Lỗi Loại I trong kiểm định giả thuyết xảy ra khi nào?
A. Bác bỏ giả thuyết null khi nó thực sự đúng.
B. Không bác bỏ giả thuyết null khi nó thực sự sai.
C. Chọn mẫu không đại diện cho quần thể.
D. Tính toán sai giá trị thống kê kiểm định.
24. Phân phối nào thường được sử dụng để mô hình hóa số lần một sự kiện hiếm gặp xảy ra trong một khoảng thời gian hoặc không gian nhất định?
A. Phân phối chuẩn (Normal distribution)
B. Phân phối nhị thức (Binomial distribution)
C. Phân phối Poisson (Poisson distribution)
D. Phân phối mũ (Exponential distribution)
25. Ứng dụng của thống kê trong lĩnh vực y tế công cộng (Public health) bao gồm:
A. Chỉ theo dõi dịch bệnh.
B. Theo dõi dịch bệnh, đánh giá hiệu quả can thiệp y tế, phân tích yếu tố nguy cơ sức khỏe và dự báo xu hướng sức khỏe cộng đồng.
C. Chỉ phân tích dữ liệu bệnh viện.
D. Chỉ nghiên cứu về dược phẩm.
26. Biểu đồ nào thích hợp nhất để hiển thị sự phân bố tần số của dữ liệu liên tục?
A. Biểu đồ cột (Bar chart)
B. Biểu đồ tròn (Pie chart)
C. Biểu đồ tần suất (Histogram)
D. Biểu đồ hộp (Box plot)
27. Trong phân tích phương sai (ANOVA), mục đích chính của kiểm định F là gì?
A. So sánh trung bình của hai nhóm.
B. So sánh phương sai của hai nhóm.
C. So sánh trung bình của ba nhóm trở lên.
D. Đo lường mối quan hệ tuyến tính giữa các biến.
28. Tại sao việc lựa chọn kích thước mẫu (Sample size) phù hợp lại quan trọng trong nghiên cứu thống kê?
A. Để giảm chi phí thu thập dữ liệu.
B. Để đảm bảo tính đại diện của mẫu và độ chính xác của ước tính.
C. Để đơn giản hóa quá trình phân tích dữ liệu.
D. Để tăng tốc độ thu thập dữ liệu.
29. Biểu đồ hộp (Box plot) cung cấp thông tin gì về một tập dữ liệu?
A. Chỉ giá trị trung bình và độ lệch chuẩn.
B. Giá trị trung vị, các tứ phân vị, và giá trị ngoại lệ.
C. Phân phối tần số chi tiết của dữ liệu.
D. Mối quan hệ giữa hai biến liên tục.
30. Sai lầm phổ biến khi diễn giải mối tương quan (Correlation) là gì?
A. Cho rằng tương quan bằng với nhân quả (Causation).
B. Không tính đến các biến số gây nhiễu.
C. Chỉ sử dụng tương quan cho dữ liệu tuyến tính.
D. Tất cả các đáp án trên.