1. Giá trị trung vị (Median) của một tập dữ liệu thể hiện điều gì?
A. Giá trị trung bình cộng của tất cả các số liệu.
B. Giá trị xuất hiện nhiều lần nhất trong tập dữ liệu.
C. Giá trị nằm chính giữa tập dữ liệu khi đã được sắp xếp.
D. Độ lệch chuẩn của tập dữ liệu.
2. Trong thống kê ứng dụng, `data mining` (khai phá dữ liệu) là gì?
A. Quá trình thu thập dữ liệu.
B. Quá trình làm sạch dữ liệu.
C. Quá trình khám phá các mẫu và thông tin ẩn từ lượng lớn dữ liệu.
D. Quá trình trình bày dữ liệu bằng biểu đồ.
3. Trong phân tích phương sai (ANOVA), mục đích chính là gì?
A. So sánh trung bình của hai nhóm.
B. So sánh phương sai của hai nhóm.
C. So sánh trung bình của ba nhóm trở lên.
D. Phân tích mối quan hệ giữa hai biến định lượng.
4. Biểu đồ tần suất (Histogram) thường được sử dụng để biểu diễn loại dữ liệu nào?
A. Dữ liệu định tính (categorical data).
B. Dữ liệu định lượng liên tục (continuous numerical data).
C. Dữ liệu thứ bậc (ordinal data).
D. Dữ liệu nhị phân (binary data).
5. Phương pháp Bootstrap trong thống kê ứng dụng để làm gì?
A. Giảm thiểu sai số loại I.
B. Ước lượng độ chính xác của thống kê mẫu bằng cách lấy mẫu lại có hoàn lại từ mẫu ban đầu.
C. Kiểm tra tính chuẩn của dữ liệu.
D. Tăng kích thước mẫu ban đầu.
6. Khi nào thì phép kiểm định t-test hai mẫu độc lập (independent samples t-test) được sử dụng?
A. So sánh trung bình của một mẫu với một giá trị cố định.
B. So sánh trung bình của hai mẫu phụ thuộc (paired samples).
C. So sánh trung bình của hai mẫu độc lập.
D. So sánh phương sai của hai mẫu độc lập.
7. P-value trong kiểm định giả thuyết thể hiện điều gì?
A. Xác suất giả thuyết null là đúng.
B. Xác suất quan sát được kết quả hiện tại hoặc kết quả cực đoan hơn nếu giả thuyết null là đúng.
C. Mức ý nghĩa được chọn trước cho kiểm định.
D. Kích thước của hiệu ứng thực tế.
8. Khi báo cáo kết quả kiểm định giả thuyết, điều quan trọng nhất cần trình bày bên cạnh p-value là gì?
A. Mức ý nghĩa α đã chọn.
B. Kích thước mẫu.
C. Kích thước hiệu ứng (effect size).
D. Độ lệch chuẩn của mẫu.
9. Phân phối chuẩn (Normal distribution) có đặc điểm quan trọng nào trong thống kê ứng dụng?
A. Luôn là phân phối rời rạc.
B. Có dạng bất đối xứng.
C. Phổ biến trong tự nhiên và là nền tảng cho nhiều kiểm định thống kê.
D. Chỉ áp dụng cho dữ liệu định tính.
10. Phương pháp `cross-validation` (kiểm định chéo) được sử dụng để làm gì trong mô hình hóa thống kê?
A. Tăng kích thước tập huấn luyện.
B. Đánh giá hiệu suất của mô hình trên dữ liệu mới, chưa từng được sử dụng để huấn luyện.
C. Giảm thiểu hiện tượng đa cộng tuyến.
D. Tối ưu hóa các tham số của mô hình.
11. Khi nào thì nên sử dụng kiểm định phi tham số (non-parametric tests) thay vì kiểm định tham số (parametric tests)?
A. Khi dữ liệu tuân theo phân phối chuẩn.
B. Khi kích thước mẫu rất lớn.
C. Khi các giả định về phân phối của dữ liệu không được đáp ứng.
D. Khi muốn tăng độ mạnh của kiểm định.
12. Trong phân tích hồi quy đa biến, hiện tượng đa cộng tuyến (multicollinearity) đề cập đến vấn đề gì?
A. Mối quan hệ tuyến tính mạnh mẽ giữa biến phụ thuộc và các biến độc lập.
B. Mối quan hệ tuyến tính mạnh mẽ giữa các biến độc lập với nhau.
C. Sự thay đổi phương sai của sai số hồi quy.
D. Sự thiếu tuyến tính trong mối quan hệ giữa biến phụ thuộc và biến độc lập.
13. Trong thống kê ứng dụng, `outlier` (giá trị ngoại lệ) là gì?
A. Giá trị trung bình của tập dữ liệu.
B. Giá trị xuất hiện nhiều nhất trong tập dữ liệu.
C. Giá trị cực đoan, khác biệt đáng kể so với các giá trị khác trong tập dữ liệu.
D. Giá trị nằm chính giữa tập dữ liệu.
14. Phương pháp lấy mẫu ngẫu nhiên đơn giản (Simple Random Sampling) đảm bảo điều gì?
A. Mỗi phần tử trong tổng thể có cơ hội được chọn vào mẫu khác nhau.
B. Mẫu thu được luôn đại diện hoàn hảo cho tổng thể.
C. Mỗi phần tử trong tổng thể có cơ hội được chọn vào mẫu như nhau.
D. Chỉ chọn các phần tử dễ tiếp cận nhất vào mẫu.
15. Phân tích `survival analysis` (phân tích sống sót) được sử dụng chủ yếu trong lĩnh vực nào?
A. Marketing.
B. Tài chính.
C. Y sinh học và y tế công cộng.
D. Kỹ thuật.
16. Trong kiểm định giả thuyết, mức ý nghĩa (significance level) thường được ký hiệu là α (alpha) đại diện cho điều gì?
A. Xác suất mắc lỗi loại II.
B. Xác suất mắc lỗi loại I.
C. Mức độ tin cậy của ước lượng khoảng.
D. Giá trị p-value tới hạn để bác bỏ giả thuyết null.
17. Trong thống kê ứng dụng, `robust statistics` (thống kê mạnh) có đặc điểm gì?
A. Rất nhạy cảm với giá trị ngoại lệ.
B. Ít bị ảnh hưởng bởi giá trị ngoại lệ và vi phạm các giả định.
C. Chỉ áp dụng cho dữ liệu phân phối chuẩn.
D. Luôn cho kết quả chính xác tuyệt đối.
18. Phương pháp kiểm định Chi-bình phương (Chi-squared test) thường được dùng để làm gì?
A. So sánh trung bình của hai nhóm.
B. Kiểm tra sự phù hợp của dữ liệu với một phân phối lý thuyết.
C. Đo lường mối quan hệ tuyến tính giữa hai biến định lượng.
D. Ước lượng khoảng tin cậy cho trung bình tổng thể.
19. Trong thống kê ứng dụng, loại biểu đồ nào thích hợp nhất để so sánh tỷ lệ phần trăm của các danh mục khác nhau trong một tổng thể?
A. Biểu đồ đường
B. Biểu đồ cột
C. Biểu đồ tròn
D. Biểu đồ hộp
20. Sai số loại II (Type II error) trong kiểm định giả thuyết xảy ra khi nào?
A. Bác bỏ giả thuyết null khi nó thực sự đúng.
B. Không bác bỏ giả thuyết null khi nó thực sự sai.
C. Chấp nhận giả thuyết null khi nó thực sự đúng.
D. Không chấp nhận giả thuyết đối (alternative hypothesis) khi nó thực sự đúng.
21. Lỗi `sampling bias` (sai lệch mẫu) xảy ra khi nào?
A. Kích thước mẫu quá nhỏ.
B. Phương pháp lấy mẫu không đảm bảo tính ngẫu nhiên và đại diện cho tổng thể.
C. Dữ liệu bị thiếu ngẫu nhiên.
D. Sai số đo lường dữ liệu.
22. Độ lệch chuẩn (Standard Deviation) đo lường điều gì về một tập dữ liệu?
A. Giá trị trung bình của dữ liệu.
B. Độ phân tán của dữ liệu so với giá trị trung bình.
C. Giá trị lớn nhất trừ giá trị nhỏ nhất trong dữ liệu.
D. Vị trí trung tâm của dữ liệu.
23. Hệ số tương quan (Correlation coefficient) đo lường điều gì giữa hai biến số định lượng?
A. Mức độ biến thiên của một biến khi biến kia thay đổi.
B. Độ mạnh và hướng của mối quan hệ tuyến tính.
C. Sự khác biệt trung bình giữa hai biến.
D. Tỷ lệ phần trăm thay đổi của một biến so với biến kia.
24. Trong thống kê, `mẫu` (sample) khác với `tổng thể` (population) như thế nào?
A. Mẫu là tập hợp tất cả các đối tượng quan tâm, còn tổng thể là một phần nhỏ của nó.
B. Tổng thể là tập hợp tất cả các đối tượng quan tâm, còn mẫu là một phần nhỏ được chọn ra từ tổng thể.
C. Mẫu luôn có kích thước lớn hơn tổng thể.
D. Tổng thể chỉ áp dụng cho dữ liệu định tính, mẫu chỉ áp dụng cho dữ liệu định lượng.
25. Trong thống kê ứng dụng, thuật ngữ `degrees of freedom` (bậc tự do) thường liên quan đến điều gì?
A. Số lượng biến trong mô hình.
B. Kích thước mẫu.
C. Số lượng giá trị độc lập có thể thay đổi trong một tính toán thống kê.
D. Mức ý nghĩa của kiểm định.
26. Sai số chuẩn của trung bình mẫu (Standard Error of the Mean) giảm khi nào?
A. Khi phương sai của tổng thể tăng.
B. Khi kích thước mẫu giảm.
C. Khi kích thước mẫu tăng.
D. Khi giá trị trung bình của tổng thể tăng.
27. Phương pháp hồi quy tuyến tính đơn giản được sử dụng để làm gì?
A. Dự đoán giá trị của biến phụ thuộc dựa trên nhiều biến độc lập.
B. Mô tả mối quan hệ tuyến tính giữa hai biến số.
C. Phân loại dữ liệu vào các nhóm khác nhau.
D. Đo lường sự tương quan giữa các biến định tính.
28. Phân tích `time series` (chuỗi thời gian) tập trung vào việc nghiên cứu loại dữ liệu nào?
A. Dữ liệu thu thập tại một thời điểm duy nhất.
B. Dữ liệu được sắp xếp theo thời gian.
C. Dữ liệu không có thứ tự thời gian cụ thể.
D. Dữ liệu định tính.
29. Ước lượng khoảng tin cậy (Confidence Interval) cung cấp thông tin gì?
A. Giá trị điểm chính xác của tham số tổng thể.
B. Khoảng giá trị mà tham số tổng thể có khả năng nằm trong với một độ tin cậy nhất định.
C. Sai số chuẩn của ước lượng.
D. Kích thước mẫu cần thiết để ước lượng.
30. Trong phân tích dữ liệu lớn (Big Data), thống kê ứng dụng đóng vai trò như thế nào?
A. Không còn quan trọng do dữ liệu đã quá lớn.
B. Chỉ giới hạn trong việc mô tả dữ liệu.
C. Cực kỳ quan trọng trong việc khai thác thông tin, tìm ra mô hình và đưa ra quyết định dựa trên dữ liệu.
D. Chỉ được sử dụng để làm sạch dữ liệu.