1. Trong thống kê ứng dụng, `phương sai` (variance) đo lường điều gì?
A. Giá trị trung bình của dữ liệu
B. Mức độ phân tán của dữ liệu xung quanh giá trị trung bình (bình phương độ lệch chuẩn)
C. Vị trí trung tâm của dữ liệu
D. Giá trị lớn nhất trừ giá trị nhỏ nhất của dữ liệu
2. Trong phân tích tương quan, hệ số tương quan Pearson (Pearson correlation coefficient) đo lường điều gì?
A. Mối quan hệ nhân quả giữa hai biến
B. Mức độ tuyến tính và hướng của mối quan hệ giữa hai biến định lượng
C. Sự khác biệt giữa trung bình của hai biến
D. Tỷ lệ phương sai chung giữa hai biến
3. Khi dữ liệu không tuân theo phân phối chuẩn và kích thước mẫu nhỏ, kiểm định phi tham số nào sau đây có thể được sử dụng thay thế cho kiểm định t độc lập?
A. Kiểm định ANOVA
B. Kiểm định Mann-Whitney U
C. Kiểm định Chi-bình phương
D. Hồi quy tuyến tính
4. Ứng dụng thống kê nào sau đây thường được sử dụng trong lĩnh vực tài chính để dự báo giá cổ phiếu?
A. Kiểm định Chi-bình phương
B. Phân tích chuỗi thời gian và mô hình ARIMA
C. Phân tích phương sai (ANOVA)
D. Hồi quy logistic
5. Trong thống kê ứng dụng, khái niệm `khoảng tin cậy` (confidence interval) dùng để làm gì?
A. Đo lường mức độ chính xác của một điểm ước lượng tham số tổng thể
B. Ước tính một khoảng giá trị mà tham số tổng thể có khả năng nằm trong đó với một độ tin cậy nhất định
C. Xác định kích thước mẫu cần thiết cho một nghiên cứu
D. Kiểm tra giả thuyết về tham số tổng thể
6. Trong phân tích phương sai (ANOVA), mục đích chính của việc so sánh `phương sai giữa các nhóm` với `phương sai trong nhóm` là gì?
A. Xác định xem tổng phương sai của dữ liệu là bao nhiêu
B. Đo lường mức độ tương quan giữa các biến
C. Kiểm tra xem có sự khác biệt đáng kể giữa trung bình của các nhóm hay không
D. Tính toán độ lệch chuẩn của tổng thể
7. Khi thực hiện kiểm định giả thuyết một đuôi (one-tailed test) thay vì kiểm định hai đuôi (two-tailed test), điều gì thay đổi chính?
A. Mức ý nghĩa (alpha) được chia đôi
B. Vùng bác bỏ giả thuyết null chỉ nằm ở một phía của phân phối
C. Giá trị p trở nên nhỏ hơn
D. Kích thước mẫu cần phải lớn hơn
8. Ứng dụng thống kê nào sau đây thường được sử dụng trong lĩnh vực y tế để nghiên cứu hiệu quả của thuốc mới?
A. Phân tích chuỗi thời gian
B. Thử nghiệm lâm sàng ngẫu nhiên có đối chứng (Randomized Controlled Trial - RCT)
C. Phân tích cụm (Cluster Analysis)
D. Mô hình hóa phương trình cấu trúc (Structural Equation Modeling)
9. Trong kiểm định giả thuyết, mức ý nghĩa (alpha) thường được đặt ở 0.05. Điều này có nghĩa là gì?
A. Xác suất mắc sai số loại II là 5%
B. Chúng ta chấp nhận rủi ro 5% bác bỏ giả thuyết null khi nó thực sự đúng (sai số loại I)
C. Độ tin cậy của kết quả là 95%
D. Giá trị p phải nhỏ hơn 0.05 để chấp nhận giả thuyết null
10. Phương pháp thống kê nào sau đây phù hợp để phân loại khách hàng thành các nhóm dựa trên đặc điểm mua hàng của họ?
A. Hồi quy tuyến tính
B. Phân tích cụm (Cluster Analysis)
C. Kiểm định t
D. Phân tích phương sai (ANOVA)
11. Trong phân tích chuỗi thời gian, thành phần `xu hướng` (trend) mô tả điều gì?
A. Biến động ngắn hạn và ngẫu nhiên
B. Sự biến động theo mùa
C. Sự thay đổi dài hạn và có hệ thống theo thời gian
D. Sự biến động theo chu kỳ kinh tế
12. Phương pháp lấy mẫu nào đảm bảo rằng mỗi thành viên của tổng thể có cơ hội được chọn vào mẫu như nhau?
A. Lấy mẫu thuận tiện
B. Lấy mẫu phân tầng
C. Lấy mẫu ngẫu nhiên đơn giản
D. Lấy mẫu cụm
13. Trong thống kê ứng dụng, loại biểu đồ nào thường được sử dụng để thể hiện tần suất xuất hiện của các giá trị trong một tập dữ liệu liên tục?
A. Biểu đồ tròn
B. Biểu đồ cột
C. Biểu đồ tần suất (Histogram)
D. Biểu đồ đường
14. Trong thống kê ứng dụng, khái niệm `ngoại lệ` (outlier) thường được hiểu là gì?
A. Giá trị xuất hiện thường xuyên nhất trong dữ liệu
B. Giá trị nằm gần trung vị của dữ liệu
C. Giá trị rất khác biệt so với phần lớn các giá trị khác trong dữ liệu
D. Giá trị trung bình của dữ liệu
15. Mục đích chính của việc chuẩn hóa dữ liệu (data normalization) trong thống kê ứng dụng là gì?
A. Giảm kích thước tập dữ liệu
B. Đưa các biến về cùng một thang đo để so sánh và phân tích
C. Loại bỏ giá trị ngoại lệ
D. Thay đổi phân phối dữ liệu thành phân phối chuẩn
16. Trong phân tích hồi quy tuyến tính, hệ số xác định (R-squared) đo lường điều gì?
A. Mức độ mạnh yếu của mối quan hệ tuyến tính
B. Phần trăm phương sai của biến phụ thuộc được giải thích bởi mô hình
C. Độ dốc của đường hồi quy
D. Sai số chuẩn của ước lượng
17. Độ lệch chuẩn (Standard Deviation) đo lường điều gì trong một tập dữ liệu?
A. Giá trị trung bình của dữ liệu
B. Mức độ phân tán của dữ liệu xung quanh giá trị trung bình
C. Giá trị lớn nhất trong dữ liệu
D. Vị trí trung tâm của dữ liệu
18. Giá trị p (p-value) trong kiểm định giả thuyết thống kê thể hiện điều gì?
A. Xác suất giả thuyết null là đúng
B. Xác suất quan sát được kết quả hiện tại (hoặc kết quả cực đoan hơn) nếu giả thuyết null là đúng
C. Mức độ ý nghĩa thống kê của kết quả
D. Kích thước của hiệu ứng
19. Lựa chọn nào sau đây là một ví dụ về ứng dụng thống kê mô tả (descriptive statistics)?
A. Dự đoán doanh số bán hàng trong tương lai dựa trên dữ liệu quá khứ
B. Ước lượng khoảng tin cậy cho trung bình chiều cao của sinh viên
C. Tính toán trung bình và độ lệch chuẩn của điểm thi
D. Kiểm tra xem có sự khác biệt về mức độ hài lòng giữa hai nhóm khách hàng hay không
20. Phương pháp nào sau đây được sử dụng để giảm số chiều của dữ liệu trong thống kê ứng dụng, ví dụ như từ nhiều biến xuống còn ít biến hơn nhưng vẫn giữ được thông tin quan trọng?
A. Hồi quy tuyến tính
B. Phân tích thành phần chính (Principal Component Analysis - PCA)
C. Phân tích cụm (Cluster Analysis)
D. Kiểm định t
21. Ứng dụng thống kê nào sau đây thường được sử dụng trong lĩnh vực marketing để phân tích hiệu quả của các chiến dịch quảng cáo?
A. Phân tích rủi ro
B. Phân tích A/B testing và kiểm định giả thuyết
C. Phân tích đường dẫn tới mục tiêu (Path analysis)
D. Phân tích sinh tồn (Survival analysis)
22. Phân tích hồi quy đa biến (Multiple Regression) khác biệt với hồi quy tuyến tính đơn giản (Simple Linear Regression) ở điểm nào?
A. Hồi quy đa biến chỉ sử dụng biến định tính
B. Hồi quy đa biến dự đoán một biến phụ thuộc dựa trên nhiều biến độc lập
C. Hồi quy đa biến không có hệ số chặn
D. Hồi quy đa biến luôn cho kết quả chính xác hơn
23. Trong phân tích hồi quy logistic (logistic regression), biến phụ thuộc có đặc điểm gì?
A. Biến định lượng liên tục
B. Biến định tính có thứ bậc
C. Biến nhị phân (binary) hoặc biến định tính
D. Biến thời gian
24. Phương pháp thống kê nào thường được sử dụng để kiểm tra sự khác biệt có ý nghĩa thống kê giữa trung bình của hai nhóm độc lập?
A. Phân tích phương sai (ANOVA)
B. Kiểm định t (t-test) độc lập
C. Hồi quy tuyến tính
D. Kiểm định Chi-bình phương
25. Khi nào thì việc sử dụng phương pháp thống kê phi tham số thích hợp hơn so với phương pháp tham số?
A. Khi dữ liệu có phân phối chuẩn
B. Khi kích thước mẫu lớn
C. Khi giả định về phân phối của dữ liệu không được đáp ứng
D. Khi muốn tính trung bình mẫu
26. Trong phân tích dữ liệu định tính (qualitative data), phương pháp thống kê nào sau đây có thể được sử dụng để xác định xem có mối liên hệ giữa hai biến định tính hay không?
A. Kiểm định t
B. Hồi quy tuyến tính
C. Kiểm định Chi-bình phương
D. Phân tích phương sai (ANOVA)
27. Sai số loại II (Type II error) trong kiểm định giả thuyết thống kê xảy ra khi nào?
A. Bác bỏ giả thuyết null khi nó thực sự đúng
B. Không bác bỏ giả thuyết null khi nó thực sự sai
C. Chọn mẫu không đại diện
D. Tính toán sai giá trị p
28. Lỗi phổ biến nào trong thống kê ứng dụng liên quan đến việc suy rộng kết quả từ mẫu lên tổng thể mà không xem xét tính đại diện của mẫu?
A. Sai số đo lường
B. Sai số chọn mẫu
C. Thiên vị xác nhận (confirmation bias)
D. Suy luận thống kê không hợp lý
29. Trong phân tích dữ liệu khảo sát, sai số chọn mẫu (sampling error) phát sinh do đâu?
A. Câu hỏi khảo sát được thiết kế kém
B. Người tham gia khảo sát trả lời không trung thực
C. Mẫu được chọn không hoàn toàn đại diện cho tổng thể
D. Lỗi nhập liệu trong quá trình xử lý dữ liệu
30. Khi nào thì việc sử dụng trung vị (median) làm thước đo trung tâm thích hợp hơn so với trung bình (mean)?
A. Khi dữ liệu có phân phối chuẩn
B. Khi dữ liệu có nhiều giá trị ngoại lệ
C. Khi kích thước mẫu lớn
D. Khi muốn tính tổng các giá trị