1. Trong thống kê, `độ tin cậy` (reliability) và `tính hiệu lực` (validity) của một phép đo là gì?
A. Độ tin cậy đo lường tính chính xác, tính hiệu lực đo lường tính nhất quán
B. Độ tin cậy đo lường tính nhất quán, tính hiệu lực đo lường đo lường đúng cái cần đo
C. Cả độ tin cậy và tính hiệu lực đều đo lường tính chính xác của phép đo
D. Cả độ tin cậy và tính hiệu lực đều đo lường tính nhất quán của phép đo
2. Phương pháp kiểm định Chi-bình phương (Chi-squared test) thường được sử dụng để kiểm định điều gì?
A. Trung bình của một quần thể
B. Phương sai của một quần thể
C. Sự độc lập giữa hai biến định tính
D. Mối quan hệ tuyến tính giữa hai biến định lượng
3. Phương pháp Bootstrap trong thống kê là gì?
A. Một phương pháp kiểm định giả thuyết dựa trên phân phối chuẩn
B. Một phương pháp lấy mẫu lại (resampling) để ước tính phân phối lấy mẫu của một thống kê
C. Một kỹ thuật giảm chiều dữ liệu
D. Một phương pháp trực quan hóa dữ liệu đa chiều
4. Trong phân tích dữ liệu lớn (Big Data), thống kê đóng vai trò gì?
A. Giảm kích thước dữ liệu để dễ quản lý hơn
B. Cung cấp công cụ để trích xuất thông tin, mô hình hóa và đưa ra quyết định dựa trên lượng lớn dữ liệu
C. Thay thế các phương pháp phân tích dữ liệu truyền thống
D. Chỉ tập trung vào mô tả dữ liệu, không suy luận
5. Hiện tượng `đa cộng tuyến` (multicollinearity) trong hồi quy bội xảy ra khi nào?
A. Khi biến phụ thuộc có phân phối chuẩn
B. Khi các biến độc lập có tương quan cao với nhau
C. Khi kích thước mẫu quá nhỏ
D. Khi mô hình hồi quy không tuyến tính
6. Sai số chuẩn (Standard error) của trung bình mẫu đo lường điều gì?
A. Độ lệch chuẩn của quần thể
B. Độ lệch chuẩn của mẫu
C. Độ lệch chuẩn của phân phối lấy mẫu của trung bình mẫu
D. Sai số ngẫu nhiên trong phép đo
7. Phân tích phương sai (ANOVA) được sử dụng để làm gì?
A. Đo lường mối quan hệ giữa hai biến định lượng
B. So sánh trung bình của hai nhóm độc lập
C. So sánh trung bình của ba hoặc nhiều hơn nhóm độc lập
D. Phân tích sự thay đổi của một biến theo thời gian
8. Trong thống kê Bayesian, khái niệm `prior probability` (xác suất tiên nghiệm) đề cập đến điều gì?
A. Xác suất của dữ liệu quan sát được
B. Xác suất ban đầu của giả thuyết trước khi xem xét dữ liệu
C. Xác suất của giả thuyết sau khi xem xét dữ liệu
D. Xác suất của lỗi Loại I
9. Thống kê phi tham số (Non-parametric statistics) thường được sử dụng khi nào?
A. Khi dữ liệu tuân theo phân phối chuẩn
B. Khi kích thước mẫu lớn
C. Khi các giả định về phân phối dữ liệu không được đáp ứng
D. Khi cần tính toán các tham số quần thể
10. Trong phân tích hồi quy tuyến tính, đường hồi quy tuyến tính tốt nhất được xác định bằng cách tối thiểu hóa đại lượng nào?
A. Tổng giá trị tuyệt đối của sai số
B. Tổng bình phương sai số
C. Giá trị trung bình của sai số
D. Giá trị lớn nhất của sai số
11. Phương pháp `cross-validation` (kiểm định chéo) được sử dụng chủ yếu trong lĩnh vực nào của thống kê?
A. Thống kê mô tả
B. Kiểm định giả thuyết
C. Học máy và xây dựng mô hình dự đoán
D. Lấy mẫu thống kê
12. Khoảng tin cậy (Confidence interval) được sử dụng để làm gì trong thống kê suy luận?
A. Kiểm định giả thuyết về một tham số quần thể
B. Ước lượng một khoảng giá trị có khả năng chứa tham số quần thể thực sự
C. Đo lường mức độ phân tán của dữ liệu mẫu
D. Mô tả đặc điểm của dữ liệu mẫu
13. Trong thống kê mô tả, đại lượng nào đo lường độ phân tán của dữ liệu xung quanh giá trị trung bình, thể hiện mức độ biến động của các giá trị trong tập dữ liệu?
A. Trung vị
B. Phương sai
C. Tần số
D. Phần trăm
14. Nguyên lý thống kê nào tập trung vào việc mô tả và tóm tắt các đặc điểm chính của một tập dữ liệu, mà không cố gắng suy luận về quần thể lớn hơn?
A. Thống kê suy luận
B. Thống kê mô tả
C. Thống kê ứng dụng
D. Thống kê lý thuyết
15. Khi nào thì cần sử dụng phép kiểm định `t-test` cho mẫu độc lập?
A. Khi so sánh trung bình của ba nhóm trở lên
B. Khi so sánh trung bình của hai nhóm độc lập và dữ liệu tuân theo phân phối chuẩn (hoặc gần chuẩn)
C. Khi phân tích mối quan hệ giữa hai biến định tính
D. Khi kiểm định phương sai của một quần thể
16. Lỗi `sinh tồn` (survivorship bias) là loại bias nào trong thống kê?
A. Bias do chọn mẫu không ngẫu nhiên
B. Bias do bỏ qua các đối tượng hoặc mẫu không `sống sót` hoặc không thành công trong quá trình quan sát
C. Bias do sai số đo lường
D. Bias do diễn giải sai kết quả thống kê
17. Biến định tính (Categorical variable) khác với biến định lượng (Numerical variable) ở điểm nào?
A. Biến định tính có thể được đo bằng số, biến định lượng không thể
B. Biến định tính biểu thị thuộc tính hoặc nhóm, biến định lượng biểu thị số lượng hoặc đo lường
C. Biến định tính luôn có thứ tự, biến định lượng thì không
D. Biến định tính có thể thực hiện các phép toán số học, biến định lượng thì không
18. Ứng dụng quan trọng của thống kê trong lĩnh vực y tế là gì?
A. Dự báo thời tiết
B. Phân tích thị trường chứng khoán
C. Đánh giá hiệu quả của các phương pháp điều trị và nghiên cứu dịch tễ học
D. Thiết kế cầu đường
19. Trong thống kê, khái niệm `độ tự do` (degrees of freedom) thường liên quan đến điều gì?
A. Kích thước mẫu
B. Số lượng biến trong mô hình
C. Số lượng giá trị trong dữ liệu có thể thay đổi tự do mà không vi phạm các ràng buộc nhất định
D. Mức độ tin cậy của một ước tính
20. Độ mạnh của kiểm định (Statistical power) là gì?
A. Xác suất mắc lỗi Loại I
B. Xác suất mắc lỗi Loại II
C. Xác suất bác bỏ đúng giả thuyết null khi nó thực sự sai
D. Xác suất không bác bỏ giả thuyết null khi nó thực sự đúng
21. Hệ số tương quan (Correlation coefficient) đo lường điều gì giữa hai biến định lượng?
A. Mức độ phụ thuộc nhân quả giữa hai biến
B. Mức độ mạnh và hướng của mối quan hệ tuyến tính giữa hai biến
C. Sự khác biệt về giá trị trung bình giữa hai biến
D. Độ phân tán của dữ liệu của từng biến riêng lẻ
22. Phân phối chuẩn (Normal distribution) còn được gọi là phân phối nào?
A. Phân phối Poisson
B. Phân phối nhị thức
C. Phân phối Gaussian
D. Phân phối mũ
23. Mục tiêu chính của việc trực quan hóa dữ liệu (Data visualization) trong thống kê là gì?
A. Thay thế phân tích thống kê bằng hình ảnh
B. Làm cho dữ liệu phức tạp trở nên dễ hiểu và dễ truyền đạt thông tin hơn
C. Tăng độ chính xác của dữ liệu
D. Giảm kích thước dữ liệu
24. Trong kiểm định giả thuyết thống kê, lỗi Loại I (Type I error) xảy ra khi nào?
A. Bác bỏ giả thuyết null khi nó thực sự đúng
B. Chấp nhận giả thuyết null khi nó thực sự sai
C. Không bác bỏ giả thuyết null khi nó thực sự đúng
D. Bác bỏ giả thuyết đối thuyết khi nó thực sự đúng
25. Phương pháp lấy mẫu ngẫu nhiên đơn giản (Simple random sampling) đảm bảo điều gì?
A. Mỗi phần tử trong quần thể có cơ hội được chọn khác nhau
B. Mỗi phần tử trong quần thể có cơ hội được chọn bằng nhau
C. Mẫu thu được luôn đại diện hoàn hảo cho quần thể
D. Mẫu thu được không có sai số lấy mẫu
26. Khái niệm `phân phối lấy mẫu` (sampling distribution) đề cập đến điều gì?
A. Phân phối của dữ liệu mẫu ban đầu
B. Phân phối lý thuyết của một thống kê (ví dụ: trung bình mẫu) được tính từ tất cả các mẫu có thể có cùng kích thước được rút ra từ quần thể
C. Phân phối của quần thể gốc
D. Phân phối của sai số lấy mẫu
27. Giá trị p (p-value) trong kiểm định giả thuyết thống kê thể hiện điều gì?
A. Xác suất giả thuyết null là đúng
B. Xác suất quan sát được kết quả kiểm định, hoặc kết quả cực đoan hơn, nếu giả thuyết null là đúng
C. Mức ý nghĩa thống kê của kiểm định
D. Xác suất mắc lỗi Loại II
28. Khi nào việc sử dụng trung vị (median) thích hợp hơn so với giá trị trung bình (mean) để đo lường xu hướng trung tâm của dữ liệu?
A. Khi dữ liệu phân phối chuẩn
B. Khi dữ liệu có giá trị ngoại lai (outliers)
C. Khi dữ liệu có tính đối xứng
D. Khi dữ liệu rời rạc
29. Nguyên tắc `Occam`s Razor` (Dao cạo Occam) trong thống kê và mô hình hóa dữ liệu khuyến khích điều gì?
A. Sử dụng mô hình phức tạp nhất có thể để nắm bắt mọi chi tiết của dữ liệu
B. Ưu tiên mô hình đơn giản nhất có thể giải thích dữ liệu một cách đầy đủ
C. Luôn chọn mô hình có độ chính xác dự đoán cao nhất, bất kể độ phức tạp
D. Chỉ sử dụng các mô hình tuyến tính vì chúng đơn giản và dễ hiểu
30. Trong thống kê, `bias` (thiên vị) có nghĩa là gì?
A. Sai số ngẫu nhiên trong phép đo
B. Sai số hệ thống có xu hướng làm cho kết quả ước tính lệch lạc khỏi giá trị thực tế
C. Độ phân tán của dữ liệu
D. Sự thiếu chính xác trong tính toán