1. Trong phân tích không gian (spatial analysis), tự tương quan không gian (spatial autocorrelation) đề cập đến điều gì?
A. Sự tương quan giữa các biến thời gian
B. Mức độ tương tự của các giá trị quan sát được ở các vị trí không gian gần nhau
C. Sự ngẫu nhiên hoàn toàn trong phân phối không gian
D. Sự tương quan giữa dữ liệu không gian và dữ liệu phi không gian
2. Khi nào thì việc sử dụng trung vị (median) phù hợp hơn trung bình (mean) để đo lường xu hướng trung tâm?
A. Khi dữ liệu có phân phối chuẩn
B. Khi dữ liệu có giá trị ngoại lệ
C. Khi dữ liệu là biến định tính
D. Khi kích thước mẫu lớn
3. Phương pháp `cross-validation` (kiểm định chéo) được sử dụng để giải quyết vấn đề gì trong mô hình hóa thống kê?
A. Tăng kích thước mẫu
B. Đánh giá khả năng khái quát hóa của mô hình và tránh overfitting
C. Đơn giản hóa mô hình
D. Xử lý dữ liệu bị thiếu
4. Phương pháp `bootstrap` trong thống kê được sử dụng để làm gì?
A. Giảm kích thước mẫu
B. Ước lượng sai số chuẩn và khoảng tin cậy bằng cách lấy mẫu lại có hoàn lại từ dữ liệu gốc
C. Kiểm tra tính phân phối chuẩn của dữ liệu
D. Phân tích dữ liệu dạng văn bản
5. Phân tích hồi quy tuyến tính được sử dụng để làm gì?
A. So sánh trung bình của hai nhóm
B. Đo lường mức độ phân tán của dữ liệu
C. Mô hình hóa mối quan hệ giữa một biến phụ thuộc và một hoặc nhiều biến độc lập
D. Phân loại dữ liệu vào các nhóm khác nhau
6. Hệ số tương quan (correlation coefficient) đo lường điều gì?
A. Sức mạnh của mối quan hệ nhân quả giữa hai biến
B. Sức mạnh và hướng của mối quan hệ tuyến tính giữa hai biến định lượng
C. Sự khác biệt giữa trung bình của hai nhóm
D. Mức độ phân tán của dữ liệu
7. Ứng dụng của thống kê Bayesian khác biệt so với thống kê tần suất (frequentist statistics) chủ yếu ở điểm nào?
A. Thống kê Bayesian không sử dụng dữ liệu
B. Thống kê Bayesian cho phép kết hợp kiến thức tiên nghiệm (prior knowledge) vào phân tích
C. Thống kê tần suất chính xác hơn thống kê Bayesian
D. Thống kê Bayesian chỉ dùng cho dữ liệu định tính
8. Giá trị trung bình (mean) bị ảnh hưởng nhiều nhất bởi yếu tố nào sau đây?
A. Số lượng quan sát
B. Giá trị trung vị
C. Giá trị ngoại lệ (outlier)
D. Độ lệch chuẩn
9. Lỗi phổ biến khi sử dụng thống kê là `khai thác dữ liệu` (data dredging) hoặc `đa kiểm định` (multiple testing). Điều này dẫn đến vấn đề gì?
A. Giảm kích thước mẫu
B. Tăng nguy cơ mắc lỗi Loại I (dương tính giả)
C. Tăng nguy cơ mắc lỗi Loại II (âm tính giả)
D. Giảm độ tin cậy của kết quả
10. Phương pháp giảm chiều dữ liệu (dimensionality reduction) như Phân tích thành phần chính (PCA) được sử dụng để làm gì?
A. Tăng số lượng biến trong dữ liệu
B. Giảm số lượng biến trong dữ liệu trong khi vẫn giữ lại phần lớn thông tin quan trọng
C. Tạo ra dữ liệu mới
D. Phân tích dữ liệu định tính
11. Trong phân tích dữ liệu lớn (Big Data), thống kê đóng vai trò gì?
A. Không quan trọng vì dữ liệu quá lớn để phân tích
B. Giúp tóm tắt, mô hình hóa và rút ra thông tin có giá trị từ lượng lớn dữ liệu
C. Chỉ được sử dụng để tạo biểu đồ đẹp mắt
D. Chỉ giới hạn ở việc tính trung bình và độ lệch chuẩn
12. Sai lầm loại I (Type I error) trong kiểm định giả thuyết xảy ra khi nào?
A. Bác bỏ giả thuyết null khi nó thực sự đúng
B. Không bác bỏ giả thuyết null khi nó thực sự sai
C. Chọn kích thước mẫu quá nhỏ
D. Sử dụng kiểm định thống kê không phù hợp
13. Độ lệch chuẩn đo lường điều gì về một tập dữ liệu?
A. Giá trị trung tâm của dữ liệu
B. Mức độ phân tán của dữ liệu xung quanh giá trị trung bình
C. Giá trị lớn nhất trong dữ liệu
D. Giá trị nhỏ nhất trong dữ liệu
14. Biểu đồ hộp (boxplot) thường được sử dụng để hiển thị những thông tin thống kê mô tả nào?
A. Trung bình và độ lệch chuẩn
B. Trung vị, các tứ phân vị, và giá trị ngoại lệ
C. Tần số và phần trăm
D. Hệ số tương quan
15. Trong phân tích phương sai (ANOVA), mục đích chính là gì?
A. Kiểm tra mối quan hệ giữa hai biến định lượng
B. So sánh phương sai của hai quần thể
C. So sánh trung bình của ba nhóm trở lên
D. Đo lường độ lệch chuẩn của một mẫu
16. Trong thống kê, `độ mạnh kiểm định` (statistical power) đề cập đến điều gì?
A. Xác suất mắc lỗi Loại I
B. Xác suất mắc lỗi Loại II
C. Xác suất bác bỏ đúng giả thuyết null khi nó thực sự sai
D. Xác suất không bác bỏ giả thuyết null khi nó thực sự đúng
17. Khi báo cáo kết quả nghiên cứu thống kê, điều quan trọng nhất cần đảm bảo là gì?
A. Sử dụng thuật ngữ thống kê phức tạp để gây ấn tượng
B. Trình bày kết quả một cách rõ ràng, trung thực và dễ hiểu, bao gồm cả hạn chế của nghiên cứu
C. Chỉ tập trung vào kết quả có ý nghĩa thống kê và bỏ qua kết quả không có ý nghĩa
D. Biến tất cả kết quả thành biểu đồ và bảng
18. Khi thiết kế một nghiên cứu khảo sát, điều gì quan trọng nhất để đảm bảo tính đại diện của mẫu?
A. Chọn mẫu có kích thước lớn nhất có thể
B. Sử dụng phương pháp chọn mẫu ngẫu nhiên
C. Khảo sát tất cả mọi người trong quần thể
D. Chọn mẫu chỉ từ một nhóm cụ thể
19. Một nhà nghiên cứu thực hiện kiểm định giả thuyết với mức ý nghĩa α = 0.05. Họ thu được giá trị p = 0.03. Kết luận nào sau đây là đúng?
A. Không bác bỏ giả thuyết null
B. Bác bỏ giả thuyết null và kết luận có ý nghĩa thống kê ở mức α = 0.05
C. Bác bỏ giả thuyết null nhưng kết luận không có ý nghĩa thống kê
D. Cần thêm thông tin để đưa ra kết luận
20. Trong thống kê y tế, `Tỷ số rủi ro` (Hazard Ratio) thường được sử dụng trong loại phân tích nào?
A. Phân tích hồi quy tuyến tính
B. Phân tích sống còn (Survival analysis)
C. Phân tích phương sai (ANOVA)
D. Phân tích tương quan
21. Khi nào thì kiểm định Chi-bình phương (Chi-squared test) được sử dụng?
A. Để so sánh trung bình của hai nhóm độc lập
B. Để kiểm tra mối quan hệ giữa hai biến định tính
C. Để đo lường độ phân tán của dữ liệu
D. Để dự đoán giá trị của một biến định lượng
22. Trong kiểm định giả thuyết, `giá trị p` (p-value) thể hiện điều gì?
A. Xác suất giả thuyết null là đúng
B. Xác suất quan sát được kết quả hiện tại hoặc kết quả cực đoan hơn nếu giả thuyết null là đúng
C. Mức độ quan trọng thực tế của kết quả
D. Kích thước của hiệu ứng quan sát được
23. Trong mô hình hóa thống kê, `overfitting` (quá khớp) là hiện tượng gì?
A. Mô hình quá đơn giản và không nắm bắt được các mẫu trong dữ liệu
B. Mô hình quá phức tạp và khớp quá sát với dữ liệu mẫu, dẫn đến khả năng khái quát hóa kém cho dữ liệu mới
C. Mô hình khớp hoàn hảo với dữ liệu mẫu và dữ liệu mới
D. Mô hình không thể hội tụ
24. Trong thống kê ứng dụng, loại biến nào thường được biểu diễn bằng biểu đồ cột hoặc biểu đồ tròn?
A. Biến định lượng liên tục
B. Biến định lượng rời rạc
C. Biến định tính
D. Biến thứ bậc
25. Trong phân tích chuỗi thời gian (time series analysis), `tính dừng` (stationarity) của chuỗi thời gian là gì?
A. Chuỗi thời gian có xu hướng tăng hoặc giảm theo thời gian
B. Các thuộc tính thống kê của chuỗi thời gian (ví dụ: trung bình, phương sai) không thay đổi theo thời gian
C. Chuỗi thời gian có tính chu kỳ rõ ràng
D. Chuỗi thời gian có giá trị bằng 0 ở mọi thời điểm
26. Phân phối chuẩn (normal distribution) có đặc điểm quan trọng nào trong thống kê?
A. Nó chỉ áp dụng cho biến định tính
B. Nhiều phương pháp thống kê suy diễn dựa trên giả định dữ liệu tuân theo phân phối chuẩn hoặc xấp xỉ chuẩn
C. Nó luôn đối xứng và có trung bình bằng 0
D. Nó không quan trọng trong thống kê ứng dụng
27. Khi dữ liệu không tuân theo phân phối chuẩn, phương pháp kiểm định phi tham số (non-parametric tests) thường được sử dụng thay vì kiểm định tham số (parametric tests). Ví dụ nào sau đây là kiểm định phi tham số?
A. Kiểm định t-Student (t-test)
B. Kiểm định ANOVA
C. Kiểm định Mann-Whitney U
D. Phân tích hồi quy tuyến tính
28. Ứng dụng nào sau đây KHÔNG phải là ứng dụng của thống kê trong kinh doanh?
A. Dự báo doanh số bán hàng
B. Phân tích rủi ro tài chính
C. Nghiên cứu thị trường và phân khúc khách hàng
D. Đo nhiệt độ cơ thể bệnh nhân
29. Sự khác biệt chính giữa thống kê mô tả (descriptive statistics) và thống kê suy diễn (inferential statistics) là gì?
A. Thống kê mô tả sử dụng số liệu, thống kê suy diễn sử dụng đồ thị
B. Thống kê mô tả tóm tắt và mô tả dữ liệu, thống kê suy diễn đưa ra kết luận về quần thể dựa trên mẫu
C. Thống kê mô tả dễ hơn thống kê suy diễn
D. Thống kê mô tả chỉ dùng cho dữ liệu định tính, thống kê suy diễn chỉ dùng cho dữ liệu định lượng
30. Kích thước mẫu lớn hơn thường dẫn đến điều gì trong thống kê suy diễn?
A. Độ lệch chuẩn của mẫu lớn hơn
B. Khoảng tin cậy rộng hơn
C. Ước lượng tham số chính xác hơn
D. Giá trị p lớn hơn