1. Trong kiểm định giả thuyết, `giả thuyết không` thường biểu thị điều gì?
A. Giả thuyết mà nhà nghiên cứu muốn chứng minh.
B. Giả thuyết mặc định, thường là không có hiệu ứng hoặc không có sự khác biệt.
C. Giả thuyết được chấp nhận nếu p-value nhỏ.
D. Giả thuyết luôn đúng trong thực tế.
2. Ý nghĩa của việc `chuẩn hóa dữ liệu` (data normalization) là gì trong thống kê?
A. Biến đổi dữ liệu để tuân theo phân phối chuẩn.
B. Loại bỏ các giá trị ngoại lai.
C. Chuyển đổi dữ liệu về cùng một thang đo, thường từ 0 đến 1 hoặc có trung bình bằng 0 và độ lệch chuẩn bằng 1.
D. Sắp xếp dữ liệu theo thứ tự.
3. Điều gì xảy ra với độ rộng của khoảng tin cậy khi kích thước mẫu tăng lên (giữ nguyên mức độ tin cậy)?
A. Độ rộng khoảng tin cậy tăng lên.
B. Độ rộng khoảng tin cậy giảm xuống.
C. Độ rộng khoảng tin cậy không thay đổi.
D. Không thể dự đoán được sự thay đổi.
4. Trong thống kê Bayesian, khái niệm `prior` (tiền nghiệm) đề cập đến điều gì?
A. Dữ liệu mẫu thu thập được.
B. Phân phối xác suất của tham số quan tâm trước khi xem xét dữ liệu.
C. Phân phối xác suất của tham số sau khi xem xét dữ liệu.
D. Giả thuyết không trong kiểm định giả thuyết.
5. Thống kê suy diễn (inferential statistics) chủ yếu dùng để làm gì?
A. Mô tả dữ liệu mẫu.
B. Suy luận về tổng thể dựa trên dữ liệu mẫu.
C. Trực quan hóa dữ liệu bằng biểu đồ.
D. Sắp xếp và tổ chức dữ liệu.
6. Sai số chuẩn (standard error) của trung bình mẫu đo lường điều gì?
A. Độ lệch chuẩn của quần thể.
B. Độ lệch chuẩn của mẫu.
C. Độ lệch chuẩn của phân phối các trung bình mẫu.
D. Sai số ngẫu nhiên trong dữ liệu.
7. Khi nào thì nên sử dụng thống kê phi tham số (non-parametric statistics) thay vì thống kê tham số (parametric statistics)?
A. Khi dữ liệu tuân theo phân phối chuẩn.
B. Khi kích thước mẫu rất lớn.
C. Khi các giả định của thống kê tham số không được đáp ứng (ví dụ, dữ liệu không phân phối chuẩn, mẫu nhỏ).
D. Khi muốn tính trung bình cộng.
8. Giá trị ngoại lai (outlier) trong dữ liệu là gì?
A. Giá trị xuất hiện nhiều nhất.
B. Giá trị nằm gần trung bình cộng.
C. Giá trị khác biệt đáng kể so với các giá trị khác trong tập dữ liệu.
D. Giá trị luôn luôn sai và cần loại bỏ.
9. Khi nào thì sử dụng kiểm định Chi-bình phương (Chi-squared test)?
A. Để so sánh trung bình của hai nhóm độc lập.
B. Để kiểm tra sự khác biệt giữa phương sai của hai quần thể.
C. Để kiểm tra tính độc lập giữa hai biến phân loại hoặc để kiểm định sự phù hợp của phân phối quan sát với phân phối kỳ vọng.
D. Để phân tích mối quan hệ tuyến tính giữa hai biến định lượng.
10. Phương pháp lấy mẫu phân tầng (stratified sampling) được sử dụng khi nào?
A. Khi muốn đảm bảo mỗi phần tử có cơ hội chọn như nhau.
B. Khi quần thể đồng nhất.
C. Khi quần thể có thể chia thành các nhóm (tầng) khác nhau và muốn đảm bảo mỗi tầng được đại diện đầy đủ trong mẫu.
D. Khi không có danh sách đầy đủ của quần thể.
11. Trung vị (median) là giá trị đo lường xu hướng trung tâm nào?
A. Giá trị trung bình cộng.
B. Giá trị chính giữa của tập dữ liệu đã sắp xếp.
C. Giá trị xuất hiện nhiều nhất.
D. Tổng tất cả các giá trị chia cho số lượng giá trị.
12. Thống kê mô tả tập trung vào việc nào sau đây?
A. Đưa ra kết luận về tổng thể dựa trên mẫu.
B. Thu thập, tổ chức, tóm tắt và trình bày dữ liệu.
C. Ước lượng xác suất xảy ra của các sự kiện.
D. Xây dựng mô hình toán học để dự báo.
13. Đại lượng nào sau đây là thước đo độ phân tán của dữ liệu?
A. Trung bình cộng.
B. Trung vị.
C. Phương sai.
D. Mốt.
14. Giá trị p (p-value) trong kiểm định giả thuyết thể hiện điều gì?
A. Xác suất giả thuyết không là đúng.
B. Xác suất quan sát được kết quả thống kê (hoặc cực đoan hơn) nếu giả thuyết không là đúng.
C. Ngưỡng ý nghĩa thống kê được đặt trước.
D. Sai số loại I.
15. Khoảng tin cậy (confidence interval) cho biết điều gì?
A. Xác suất tham số quần thể nằm trong khoảng đó.
B. Khoảng giá trị mà tham số quần thể có khả năng cao nằm trong.
C. Khoảng giá trị chắc chắn chứa tham số quần thể.
D. Độ rộng của phân phối mẫu.
16. Độ lệch chuẩn (standard deviation) đo lường điều gì?
A. Xu hướng trung tâm của dữ liệu.
B. Độ phân tán trung bình của các giá trị dữ liệu xung quanh trung bình cộng.
C. Giá trị lớn nhất trừ giá trị nhỏ nhất.
D. Vị trí trung tâm của dữ liệu đã sắp xếp.
17. Phương pháp lấy mẫu ngẫu nhiên đơn giản (simple random sampling) đảm bảo điều gì?
A. Mỗi phần tử trong quần thể có cơ hội được chọn khác nhau.
B. Mẫu thu được chắc chắn đại diện cho quần thể.
C. Mỗi phần tử trong quần thể có cơ hội được chọn như nhau.
D. Chỉ chọn các phần tử dễ tiếp cận nhất.
18. Loại dữ liệu nào sau đây là dữ liệu định tính (qualitative)?
A. Chiều cao (cm).
B. Cân nặng (kg).
C. Màu sắc mắt.
D. Số lượng sách.
19. Điều gì có thể làm giảm sai số lấy mẫu (sampling error)?
A. Sử dụng phương pháp lấy mẫu phi ngẫu nhiên.
B. Tăng kích thước mẫu.
C. Giảm kích thước mẫu.
D. Sử dụng thống kê mô tả.
20. Mức ý nghĩa thống kê (alpha, α) thường được sử dụng là bao nhiêu trong nhiều nghiên cứu?
A. 0.1.
B. 0.05.
C. 0.2.
D. 0.5.
21. Phân phối t-Student được sử dụng khi nào, đặc biệt trong kiểm định trung bình?
A. Khi kích thước mẫu rất lớn (n > 1000).
B. Khi độ lệch chuẩn quần thể đã biết.
C. Khi kích thước mẫu nhỏ và/hoặc độ lệch chuẩn quần thể chưa biết.
D. Khi dữ liệu tuân theo phân phối chuẩn hoàn hảo.
22. Phân phối chuẩn (normal distribution) có đặc điểm quan trọng nào sau đây?
A. Luôn luôn lệch phải.
B. Đối xứng và hình chuông.
C. Có hai đỉnh.
D. Chỉ áp dụng cho dữ liệu định tính.
23. Trong ngữ cảnh thống kê, `bậc tự do` (degrees of freedom) thường liên quan đến điều gì?
A. Số lượng biến trong một tập dữ liệu.
B. Số lượng quan sát trong mẫu.
C. Số lượng giá trị trong một phép tính có thể tự do biến đổi.
D. Mức ý nghĩa thống kê.
24. Trong phân tích hồi quy tuyến tính, đường hồi quy tốt nhất (best-fit line) được xác định bằng cách nào?
A. Vẽ đường thẳng qua hai điểm dữ liệu bất kỳ.
B. Minh họa bằng mắt thường để đường thẳng trông phù hợp nhất.
C. Tối thiểu hóa tổng bình phương các sai số (residual sum of squares).
D. Tối đa hóa hệ số tương quan.
25. Trong phân tích phương sai (ANOVA), giả thuyết không thường là gì?
A. Có ít nhất một cặp trung bình quần thể khác nhau.
B. Tất cả các trung bình quần thể đều bằng nhau.
C. Phương sai của các nhóm khác nhau.
D. Các nhóm có phân phối khác nhau.
26. Khi hai biến định lượng có hệ số tương quan Pearson gần bằng 0, điều đó có nghĩa là gì?
A. Có mối quan hệ tuyến tính mạnh mẽ giữa hai biến.
B. Không có mối quan hệ nào giữa hai biến.
C. Có thể có mối quan hệ phi tuyến tính, nhưng không có mối quan hệ tuyến tính đáng kể.
D. Hai biến này hoàn toàn phụ thuộc vào nhau.
27. Ưu điểm chính của việc sử dụng biểu đồ hộp (boxplot) là gì?
A. Hiển thị tần số của từng giá trị.
B. Dễ dàng so sánh trung bình giữa các nhóm.
C. Trực quan hóa phân phối dữ liệu, xác định giá trị ngoại lai, và so sánh phân phối giữa các nhóm.
D. Thể hiện mối quan hệ giữa hai biến định lượng.
28. Hệ số tương quan (correlation coefficient) đo lường điều gì?
A. Mức độ biến thiên của một biến.
B. Mức độ phụ thuộc tuyến tính giữa hai biến định lượng.
C. Mức độ khác biệt giữa hai nhóm.
D. Xu hướng trung tâm của dữ liệu.
29. Mục đích chính của việc kiểm định giả thuyết thống kê là gì?
A. Chứng minh giả thuyết nghiên cứu là đúng.
B. Xác định giá trị chính xác của tham số quần thể.
C. Đánh giá bằng chứng ủng hộ hoặc chống lại một giả thuyết về quần thể dựa trên dữ liệu mẫu.
D. Mô tả các đặc điểm của dữ liệu mẫu.
30. Sai số loại II (Type II error) xảy ra khi nào?
A. Bác bỏ giả thuyết không khi nó thực sự đúng.
B. Không bác bỏ giả thuyết không khi nó thực sự sai.
C. Chấp nhận giả thuyết đối thuyết khi nó sai.
D. Tính toán sai p-value.