1. Phân phối chuẩn (normal distribution) có đặc điểm gì quan trọng trong thống kê?
A. Luôn có dạng hình chữ nhật
B. Đối xứng, có hình chuông, và nhiều thống kê suy luận dựa trên giả định dữ liệu tuân theo phân phối chuẩn
C. Chỉ áp dụng cho dữ liệu định tính
D. Không có giá trị trung bình và độ lệch chuẩn xác định
2. Sai số loại I (Type I error) trong kiểm định giả thuyết xảy ra khi nào?
A. Bác bỏ giả thuyết null khi nó thực sự đúng
B. Không bác bỏ giả thuyết null khi nó thực sự sai
C. Chọn mẫu không đại diện
D. Tính toán sai giá trị p
3. Phương pháp nào sau đây KHÔNG phải là phương pháp lấy mẫu xác suất?
A. Lấy mẫu ngẫu nhiên đơn giản (simple random sampling)
B. Lấy mẫu phân tầng (stratified sampling)
C. Lấy mẫu cụm (cluster sampling)
D. Lấy mẫu thuận tiện (convenience sampling)
4. Trong phân tích dữ liệu, `làm sạch dữ liệu` (data cleaning) bao gồm các bước nào?
A. Chỉ nhập dữ liệu vào phần mềm thống kê
B. Xác định và xử lý dữ liệu thiếu, dữ liệu ngoại lệ, và dữ liệu không nhất quán
C. Chỉ tính toán thống kê mô tả
D. Trình bày dữ liệu bằng biểu đồ
5. Trong phân tích phương sai (ANOVA), giả thuyết null thường là gì?
A. Có sự khác biệt đáng kể giữa trung bình của tất cả các nhóm
B. Không có sự khác biệt đáng kể giữa trung bình của ít nhất hai nhóm
C. Không có sự khác biệt đáng kể giữa trung bình của tất cả các nhóm
D. Các nhóm có phương sai khác nhau
6. Hệ số tương quan Pearson (Pearson correlation coefficient) đo lường điều gì?
A. Mức độ phụ thuộc phi tuyến tính giữa hai biến
B. Mức độ quan hệ nhân quả giữa hai biến
C. Mức độ quan hệ tuyến tính giữa hai biến
D. Sự khác biệt về trung bình giữa hai nhóm
7. Trong thống kê mô tả, độ lệch chuẩn (standard deviation) đo lường điều gì?
A. Giá trị trung bình của dữ liệu
B. Mức độ phân tán của dữ liệu xung quanh giá trị trung bình
C. Giá trị trung vị của dữ liệu
D. Độ nhọn của phân phối dữ liệu
8. Thang đo nào sau đây là thang đo định danh (nominal scale)?
A. Thứ hạng trong một cuộc thi chạy
B. Nhiệt độ đo bằng độ C
C. Giới tính (Nam, Nữ, Khác)
D. Điểm kiểm tra
9. Lỗi phổ biến khi diễn giải kết quả tương quan (correlation) là gì?
A. Cho rằng tương quan bằng quan hệ nhân quả
B. Bỏ qua giá trị p
C. Không kiểm tra độ tin cậy của dữ liệu
D. Sử dụng sai loại hệ số tương quan
10. Ý nghĩa thống kê (statistical significance) có nghĩa là gì?
A. Kết quả nghiên cứu chắc chắn đúng trong thực tế
B. Kết quả nghiên cứu có ý nghĩa quan trọng về mặt thực tiễn
C. Kết quả nghiên cứu ít có khả năng xảy ra do ngẫu nhiên
D. Kết quả nghiên cứu chứng minh được quan hệ nhân quả
11. Phân tích hồi quy (regression analysis) được sử dụng để làm gì trong khoa học xã hội?
A. Mô tả đặc điểm của một biến số duy nhất
B. Xác định sự khác biệt giữa các nhóm
C. Dự đoán giá trị của một biến phụ thuộc dựa trên một hoặc nhiều biến độc lập
D. Đo lường độ phân tán của dữ liệu
12. Khi báo cáo kết quả kiểm định giả thuyết, điều gì là quan trọng nhất cần phải trình bày bên cạnh giá trị p?
A. Kích thước mẫu
B. Giá trị thống kê kiểm định (ví dụ: t, F, Chi-square)
C. Độ lớn của hiệu ứng (effect size) và khoảng tin cậy
D. Phương pháp lấy mẫu
13. Sai số lấy mẫu (sampling error) là gì?
A. Sai sót trong quá trình nhập liệu dữ liệu
B. Sự khác biệt giữa thống kê mẫu và tham số tổng thể do tính ngẫu nhiên của việc chọn mẫu
C. Sai sót do thiết kế nghiên cứu không phù hợp
D. Sai sót do người tham gia nghiên cứu trả lời không trung thực
14. Trong phân tích hồi quy đa biến (multiple regression), hệ số hồi quy riêng phần (partial regression coefficient) cho biết điều gì?
A. Mức độ quan hệ tuyến tính giữa tất cả các biến độc lập và biến phụ thuộc
B. Sự thay đổi trung bình trong biến phụ thuộc khi một biến độc lập thay đổi một đơn vị, giữ các biến độc lập khác không đổi
C. Tổng ảnh hưởng của tất cả các biến độc lập lên biến phụ thuộc
D. Mức độ quan trọng của một biến độc lập trong mô hình
15. Độ tin cậy (reliability) của một công cụ đo lường trong nghiên cứu khoa học xã hội đề cập đến điều gì?
A. Mức độ công cụ đo lường đo lường chính xác khái niệm cần đo
B. Mức độ nhất quán và ổn định của kết quả đo lường khi sử dụng công cụ nhiều lần
C. Mức độ dễ sử dụng và dễ hiểu của công cụ đo lường
D. Mức độ phù hợp của công cụ đo lường với văn hóa và bối cảnh nghiên cứu
16. Trong thiết kế nghiên cứu thử nghiệm (experimental design), vai trò của nhóm kiểm soát (control group) là gì?
A. Nhóm nhận can thiệp hoặc điều trị đang được nghiên cứu
B. Nhóm không nhận can thiệp hoặc điều trị, dùng làm cơ sở so sánh để đánh giá hiệu quả của can thiệp
C. Nhóm được chọn ngẫu nhiên từ tổng thể
D. Nhóm có đặc điểm giống hệt nhóm can thiệp
17. Khi nào thì việc sử dụng số trung vị (median) thích hợp hơn số trung bình (mean) để đo lường xu hướng trung tâm?
A. Khi dữ liệu có phân phối chuẩn
B. Khi dữ liệu có giá trị ngoại lệ (outliers)
C. Khi dữ liệu có tính đối xứng
D. Khi dữ liệu được thu thập từ một mẫu lớn
18. Giá trị p (p-value) trong kiểm định giả thuyết thể hiện điều gì?
A. Xác suất giả thuyết null là đúng
B. Xác suất quan sát được kết quả như vậy (hoặc cực đoan hơn) nếu giả thuyết null là đúng
C. Xác suất giả thuyết thay thế là đúng
D. Mức độ quan trọng thực tế của kết quả
19. Giả sử bạn thực hiện một nghiên cứu về mối quan hệ giữa trình độ học vấn và thu nhập. Biến `trình độ học vấn` nên được coi là biến gì trong phân tích hồi quy?
A. Biến phụ thuộc
B. Biến độc lập
C. Biến nhiễu
D. Biến kiểm soát
20. Khi nào thì kiểm định phi tham số (non-parametric test) được ưu tiên sử dụng hơn kiểm định tham số (parametric test)?
A. Khi cỡ mẫu lớn
B. Khi dữ liệu tuân theo phân phối chuẩn
C. Khi dữ liệu không tuân theo phân phối chuẩn hoặc thang đo không phải là khoảng hoặc tỷ lệ
D. Khi muốn tăng độ mạnh của kiểm định
21. Phương pháp thống kê nào sau đây phù hợp nhất để phân tích mối quan hệ giữa hai biến thứ bậc (ordinal)?
A. Hệ số tương quan Pearson
B. Hệ số tương quan Spearman (Spearman`s rho)
C. Phân tích hồi quy tuyến tính
D. Kiểm định t độc lập
22. Ưu điểm chính của việc sử dụng cỡ mẫu lớn trong nghiên cứu thống kê là gì?
A. Giảm chi phí thu thập dữ liệu
B. Tăng tính đại diện của mẫu cho tổng thể và giảm sai số lấy mẫu
C. Đơn giản hóa phân tích dữ liệu
D. Loại bỏ hoàn toàn sai số trong nghiên cứu
23. Thống kê nào sau đây thường được sử dụng để kiểm tra sự độc lập giữa hai biến định tính?
A. T-test
B. Phân tích hồi quy tuyến tính
C. Kiểm định Chi-bình phương (Chi-square test)
D. Hệ số tương quan Pearson
24. Khi nào thì nên sử dụng kiểm định t (t-test) độc lập?
A. Để so sánh trung bình của hai biến số trên cùng một nhóm đối tượng
B. Để so sánh trung bình của hai nhóm độc lập
C. Để kiểm tra mối quan hệ giữa hai biến định tính
D. Để phân tích phương sai của nhiều nhóm
25. Trong ngữ cảnh thống kê, `biến nhiễu` (confounding variable) là gì?
A. Một biến số được đo lường không chính xác
B. Một biến số gây ra sai số ngẫu nhiên
C. Một biến số có liên quan đến cả biến độc lập và biến phụ thuộc, gây ra mối quan hệ giả tạo giữa chúng
D. Một biến số không có ảnh hưởng đến kết quả nghiên cứu
26. `Khoảng tin cậy` (confidence interval) được sử dụng để làm gì?
A. Kiểm định giả thuyết null
B. Ước tính một khoảng giá trị mà tham số tổng thể có khả năng nằm trong đó với một độ tin cậy nhất định
C. Đo lường độ lệch chuẩn của mẫu
D. Tính giá trị p
27. `Độ giá trị` (validity) của một nghiên cứu khoa học xã hội đề cập đến điều gì?
A. Tính nhất quán của kết quả nghiên cứu
B. Mức độ kết quả nghiên cứu phản ánh đúng sự thật trong thế giới thực và khái quát hóa được cho tổng thể lớn hơn
C. Tính dễ dàng thực hiện và chi phí thấp của nghiên cứu
D. Mức độ được công nhận và trích dẫn của nghiên cứu trong cộng đồng khoa học
28. `Phương sai` (variance) là gì?
A. Giá trị trung bình của dữ liệu
B. Căn bậc hai của độ lệch chuẩn
C. Trung bình của bình phương độ lệch so với giá trị trung bình
D. Giá trị xuất hiện nhiều nhất trong dữ liệu
29. Trong bối cảnh phân tích dữ liệu định tính, thống kê có vai trò như thế nào?
A. Thống kê không có vai trò trong phân tích dữ liệu định tính
B. Thống kê chỉ được sử dụng để mô tả dữ liệu định tính
C. Thống kê có thể hỗ trợ định lượng hóa một số khía cạnh của dữ liệu định tính và kiểm tra các giả thuyết
D. Thống kê là phương pháp duy nhất để phân tích dữ liệu định tính
30. Phương pháp lấy mẫu ngẫu nhiên phân tầng (stratified random sampling) được sử dụng khi nào?
A. Khi muốn đảm bảo mỗi cá nhân trong tổng thể có cơ hội được chọn như nhau
B. Khi tổng thể có các nhóm con (strata) và muốn đảm bảo mỗi nhóm được đại diện tương xứng trong mẫu
C. Khi không có danh sách đầy đủ về tổng thể nghiên cứu
D. Khi muốn thu thập dữ liệu định tính