1. Phân phối chuẩn (Normal distribution) có đặc điểm nào sau đây?
A. Lệch trái.
B. Lệch phải.
C. Đối xứng và có hình chuông.
D. Phẳng và đồng đều.
2. Thống kê mô tả tập trung vào việc:
A. Dự đoán các giá trị tương lai dựa trên dữ liệu quá khứ.
B. Đưa ra kết luận về tổng thể dựa trên mẫu.
C. Tóm tắt và trình bày dữ liệu một cách có ý nghĩa.
D. Xác định mối quan hệ nhân quả giữa các biến.
3. Phương pháp lấy mẫu ngẫu nhiên đơn giản (Simple random sampling) đảm bảo rằng:
A. Mỗi phần tử trong tổng thể có cơ hội được chọn vào mẫu như nhau.
B. Mẫu phản ánh chính xác tỷ lệ các nhóm trong tổng thể.
C. Các phần tử được chọn từ các nhóm khác nhau trong tổng thể.
D. Việc lấy mẫu được thực hiện một cách hệ thống.
4. Khi thực hiện kiểm định t (t-test) cho hai mẫu độc lập, giả định quan trọng nào cần được kiểm tra?
A. Dữ liệu phải tuân theo phân phối nhị thức.
B. Phương sai của hai tổng thể phải bằng nhau (hoặc gần bằng nhau).
C. Kích thước mẫu phải lớn hơn 30.
D. Các mẫu phải được lấy từ cùng một tổng thể.
5. Khoảng tin cậy (Confidence interval) cung cấp:
A. Một giá trị duy nhất ước tính cho tham số tổng thể.
B. Một khoảng giá trị mà tham số tổng thể có khả năng nằm trong đó với một độ tin cậy nhất định.
C. Xác suất giả thuyết null là đúng.
D. Mức độ phân tán của dữ liệu mẫu.
6. Phương sai (Variance) đo lường điều gì?
A. Giá trị trung tâm của dữ liệu.
B. Mức độ phân tán của dữ liệu xung quanh giá trị trung bình.
C. Hình dạng phân phối của dữ liệu.
D. Mối quan hệ giữa hai biến.
7. Phân tích chuỗi thời gian (Time series analysis) tập trung vào:
A. So sánh dữ liệu từ các nhóm khác nhau tại một thời điểm.
B. Nghiên cứu dữ liệu được thu thập theo thời gian và các xu hướng, mùa vụ trong dữ liệu đó.
C. Phân tích mối quan hệ giữa nhiều biến tại một thời điểm.
D. Tóm tắt dữ liệu bằng các số mô tả đơn giản.
8. Trong thống kê Bayes, `prior probability` (xác suất tiên nghiệm) là:
A. Xác suất của dữ liệu quan sát được.
B. Xác suất của giả thuyết sau khi xem xét dữ liệu.
C. Xác suất ban đầu của giả thuyết trước khi có dữ liệu.
D. Xác suất của lỗi loại II.
9. Loại thang đo nào sau đây là định lượng và có giá trị 0 tuyệt đối?
A. Thang đo thứ bậc (Ordinal scale)
B. Thang đo khoảng (Interval scale)
C. Thang đo tỷ lệ (Ratio scale)
D. Thang đo danh nghĩa (Nominal scale)
10. Sai số chuẩn (Standard error) của trung bình mẫu đo lường:
A. Độ lệch chuẩn của tổng thể.
B. Độ lệch chuẩn của mẫu.
C. Độ biến động của trung bình mẫu từ mẫu này sang mẫu khác.
D. Sai số loại I trong kiểm định giả thuyết.
11. Phương pháp `Bootstrap` trong thống kê được sử dụng chủ yếu để:
A. Giảm kích thước dữ liệu.
B. Ước tính độ chính xác của các thống kê mẫu (ví dụ: sai số chuẩn, khoảng tin cậy) bằng cách lấy mẫu lại từ dữ liệu mẫu.
C. Kiểm định giả thuyết về trung bình tổng thể.
D. Phân tích dữ liệu chuỗi thời gian.
12. Trong phân tích phương sai (ANOVA), giả thuyết null thường là:
A. Có sự khác biệt đáng kể giữa các trung bình nhóm.
B. Không có sự khác biệt đáng kể giữa các trung bình nhóm.
C. Phương sai giữa các nhóm lớn hơn phương sai trong nhóm.
D. Phương sai trong nhóm lớn hơn phương sai giữa các nhóm.
13. Phương pháp lấy mẫu phân tầng (Stratified sampling) được sử dụng khi:
A. Tổng thể đồng nhất.
B. Muốn đảm bảo mỗi phần tử có cơ hội chọn như nhau.
C. Tổng thể có thể chia thành các nhóm (tầng) khác nhau và muốn đảm bảo đại diện từ mỗi nhóm.
D. Việc lấy mẫu cần thực hiện nhanh chóng và tiết kiệm chi phí.
14. Giá trị trung vị (Median) thường được ưu tiên sử dụng hơn giá trị trung bình (Mean) khi:
A. Dữ liệu có phân phối chuẩn.
B. Mục tiêu là tính toán nhanh chóng.
C. Dữ liệu có giá trị ngoại lai (outliers).
D. Kích thước mẫu lớn.
15. Thống kê suy diễn (Inferential statistics) chủ yếu liên quan đến:
A. Trình bày dữ liệu bằng biểu đồ và đồ thị.
B. Tính toán các số mô tả như trung bình và độ lệch chuẩn.
C. Đưa ra kết luận hoặc dự đoán về tổng thể dựa trên dữ liệu mẫu.
D. Sắp xếp và phân loại dữ liệu.
16. Mục tiêu của việc chuẩn hóa dữ liệu (Data normalization) trước khi áp dụng các thuật toán học máy là:
A. Tăng kích thước dữ liệu.
B. Giảm độ phức tạp của dữ liệu.
C. Đưa các biến về cùng một thang đo, tránh việc các biến có phạm vi giá trị lớn hơn ảnh hưởng quá mức đến mô hình.
D. Loại bỏ các giá trị ngoại lai.
17. Mục đích chính của việc kiểm định giả thuyết là:
A. Tính toán các số mô tả mẫu.
B. Đưa ra quyết định về giả thuyết null dựa trên bằng chứng mẫu.
C. Ước lượng tham số tổng thể.
D. Trình bày dữ liệu một cách trực quan.
18. Phân tích hồi quy (Regression analysis) được sử dụng để:
A. Tóm tắt dữ liệu định tính.
B. Kiểm định sự khác biệt giữa các nhóm.
C. Mô hình hóa và dự đoán mối quan hệ giữa một biến phụ thuộc và một hoặc nhiều biến độc lập.
D. Đo lường độ phân tán của dữ liệu.
19. Biến định tính (Categorical variable) là biến:
A. Có thể đo lường bằng số và có thứ tự.
B. Có thể đo lường bằng số và không có thứ tự.
C. Biểu thị các thuộc tính hoặc nhóm và không có thứ tự số học.
D. Luôn luôn là số nguyên.
20. Trong thống kê không gian (Spatial statistics), `autocorrelation` (tự tương quan) đề cập đến:
A. Mối quan hệ giữa hai biến không gian khác nhau.
B. Mức độ tương tự giữa các giá trị của một biến tại các vị trí không gian khác nhau.
C. Phương sai của dữ liệu không gian.
D. Phân phối của dữ liệu không gian.
21. Đa cộng tuyến (Multicollinearity) trong hồi quy đa biến đề cập đến:
A. Mối quan hệ tuyến tính giữa biến phụ thuộc và biến độc lập.
B. Mối quan hệ tuyến tính mạnh mẽ giữa các biến độc lập với nhau.
C. Mối quan hệ phi tuyến tính giữa các biến.
D. Sự phân tán của các điểm dữ liệu xung quanh đường hồi quy.
22. Độ lệch chuẩn (Standard deviation) là căn bậc hai của:
A. Trung bình.
B. Trung vị.
C. Phương sai.
D. Khoảng biến thiên.
23. Hệ số tương quan (Correlation coefficient) Pearson đo lường:
A. Mức độ khác biệt giữa hai biến.
B. Độ mạnh và hướng của mối quan hệ tuyến tính giữa hai biến định lượng.
C. Mối quan hệ phi tuyến tính giữa hai biến.
D. Mối quan hệ nhân quả giữa hai biến.
24. Phân tích thành phần chính (Principal Component Analysis - PCA) là một kỹ thuật:
A. Phân loại dữ liệu.
B. Hồi quy dữ liệu.
C. Giảm chiều dữ liệu.
D. Phân tích chuỗi thời gian.
25. Trong kiểm định giả thuyết, lỗi loại I (Type I error) xảy ra khi:
A. Bác bỏ giả thuyết null khi nó thực sự đúng.
B. Không bác bỏ giả thuyết null khi nó thực sự sai.
C. Chọn mẫu không đại diện.
D. Tính toán sai giá trị thống kê kiểm định.
26. Ma trận nhầm lẫn (Confusion matrix) thường được sử dụng để đánh giá hiệu suất của mô hình:
A. Hồi quy tuyến tính.
B. Phân cụm (Clustering).
C. Phân loại (Classification).
D. Giảm chiều dữ liệu.
27. Giá trị p (p-value) trong kiểm định giả thuyết thể hiện:
A. Xác suất giả thuyết null là đúng.
B. Xác suất quan sát được kết quả như mẫu, hoặc kết quả cực đoan hơn, nếu giả thuyết null là đúng.
C. Mức ý nghĩa thống kê được chọn.
D. Kích thước của hiệu ứng.
28. Kích thước mẫu càng lớn thì:
A. Sai số chuẩn của trung bình mẫu càng lớn.
B. Khoảng tin cậy càng rộng.
C. Ước lượng điểm càng kém chính xác.
D. Sai số chuẩn của trung bình mẫu càng nhỏ.
29. Trong phân tích dữ liệu lớn (Big Data), `Volume, Velocity, Variety, Veracity, Value` thường được gọi là:
A. Các loại biến dữ liệu.
B. Các bước trong quy trình phân tích dữ liệu.
C. 5Vs của Big Data, mô tả các đặc trưng chính của dữ liệu lớn.
D. Các phương pháp thống kê suy diễn phổ biến.
30. Khi nào nên sử dụng kiểm định phi tham số thay vì kiểm định tham số?
A. Khi kích thước mẫu lớn.
B. Khi dữ liệu tuân theo phân phối chuẩn.
C. Khi giả định về phân phối của dữ liệu không được đáp ứng.
D. Khi muốn tính toán khoảng tin cậy.