1. Sai số chuẩn (Standard Error) của trung bình mẫu đo lường điều gì?
A. Độ lệch chuẩn của quần thể
B. Độ lệch chuẩn của mẫu
C. Mức độ biến động của trung bình mẫu từ mẫu này sang mẫu khác
D. Giá trị trung bình của các mẫu
2. Phương pháp thống kê nào thích hợp để kiểm tra mối liên hệ giữa hai biến định tính?
A. Kiểm định t-test
B. Phân tích phương sai (ANOVA)
C. Kiểm định Chi-bình phương (Chi-squared test)
D. Phân tích hồi quy tuyến tính
3. Trong thống kê ứng dụng, `ngoại lệ` (outlier) là gì?
A. Giá trị trung bình của tập dữ liệu
B. Giá trị xuất hiện thường xuyên nhất
C. Giá trị cực đoan, khác biệt đáng kể so với các giá trị khác trong tập dữ liệu
D. Giá trị nằm ở vị trí trung tâm của dữ liệu
4. Trong phân tích hồi quy đa biến (multiple regression), chúng ta mô hình hóa mối quan hệ giữa...
A. Một biến phụ thuộc và một biến độc lập
B. Hai biến định tính
C. Một biến phụ thuộc và hai hoặc nhiều biến độc lập
D. Hai hoặc nhiều biến phụ thuộc và một biến độc lập
5. Trong thống kê ứng dụng, `dữ liệu thứ cấp` (secondary data) khác với `dữ liệu sơ cấp` (primary data) như thế nào?
A. Dữ liệu thứ cấp được thu thập trực tiếp bởi nhà nghiên cứu cho mục đích nghiên cứu hiện tại, trong khi dữ liệu sơ cấp được thu thập bởi người khác cho mục đích khác
B. Dữ liệu sơ cấp được thu thập trực tiếp bởi nhà nghiên cứu cho mục đích nghiên cứu hiện tại, trong khi dữ liệu thứ cấp đã được thu thập bởi người khác cho mục đích khác
C. Dữ liệu thứ cấp luôn có chất lượng cao hơn dữ liệu sơ cấp
D. Dữ liệu sơ cấp chỉ bao gồm dữ liệu định tính, trong khi dữ liệu thứ cấp chỉ bao gồm dữ liệu định lượng
6. Phương pháp thống kê nào được sử dụng để dự đoán giá trị của một biến phụ thuộc dựa trên giá trị của một hoặc nhiều biến độc lập?
A. Thống kê mô tả
B. Phân tích hồi quy
C. Kiểm định giả thuyết
D. Phân tích phương sai
7. Khái niệm `phân phối lấy mẫu` (sampling distribution) đề cập đến điều gì?
A. Phân phối của dữ liệu mẫu gốc
B. Phân phối của một thống kê mẫu (ví dụ: trung bình mẫu) được tính từ nhiều mẫu ngẫu nhiên khác nhau của cùng kích thước, được lấy từ cùng một quần thể
C. Phân phối của quần thể gốc
D. Phân phối của sai số chuẩn
8. Trong kiểm định giả thuyết thống kê, `giá trị p` (p-value) thể hiện điều gì?
A. Xác suất giả thuyết null là đúng
B. Ngưỡng ý nghĩa của kiểm định
C. Xác suất quan sát được kết quảExtreme như kết quả đã quan sát hoặc hơn, giả sử giả thuyết null là đúng
D. Sai số loại II
9. Trong thống kê ứng dụng, `độ tin cậy` (reliability) đề cập đến điều gì?
A. Mức độ đo lường chính xác những gì cần đo
B. Mức độ nhất quán và ổn định của kết quả đo lường
C. Kích thước mẫu sử dụng trong nghiên cứu
D. Tính dễ dàng áp dụng phương pháp nghiên cứu
10. Biểu đồ hộp (boxplot) thường được sử dụng để hiển thị điều gì về một tập dữ liệu?
A. Xu hướng theo thời gian
B. Mối quan hệ giữa hai biến
C. Phân phối và các giá trị ngoại lệ của dữ liệu
D. Tỷ lệ phần trăm của các danh mục khác nhau
11. Phương pháp thống kê nào thường được sử dụng để tóm tắt và mô tả các đặc điểm chính của một tập dữ liệu?
A. Thống kê suy luận
B. Thống kê mô tả
C. Phân tích hồi quy
D. Kiểm định giả thuyết
12. Loại biểu đồ nào thích hợp nhất để so sánh các phần của một tổng thể?
A. Biểu đồ đường
B. Biểu đồ phân tán
C. Biểu đồ tròn
D. Biểu đồ hộp
13. Trong thống kê ứng dụng, thuật ngữ `tính giá trị` (validity) đề cập đến điều gì?
A. Mức độ nhất quán của kết quả đo lường
B. Mức độ đo lường chính xác những gì cần đo
C. Kích thước mẫu sử dụng trong nghiên cứu
D. Sự dễ dàng thu thập dữ liệu
14. Khoảng tin cậy (Confidence Interval) cung cấp thông tin gì?
A. Giá trị điểm ước lượng chính xác của tham số quần thể
B. Khoảng giá trị mà chúng ta tin rằng tham số quần thể thực sự nằm trong đó, với một mức độ tin cậy nhất định
C. Xác suất giả thuyết null là đúng
D. Sai số chuẩn của trung bình mẫu
15. Giá trị trung vị (Median) đo lường điều gì trong một tập dữ liệu?
A. Giá trị trung bình cộng của tất cả các quan sát
B. Giá trị xuất hiện nhiều nhất trong tập dữ liệu
C. Giá trị nằm ở vị trí chính giữa của tập dữ liệu đã sắp xếp
D. Độ lệch chuẩn của tập dữ liệu
16. Phân tích dữ liệu lớn (Big Data Analytics) tập trung vào việc xử lý và phân tích loại dữ liệu nào?
A. Dữ liệu có cấu trúc nhỏ gọn
B. Dữ liệu từ các cuộc khảo sát truyền thống
C. Dữ liệu có khối lượng lớn, tốc độ cao và đa dạng (Volume, Velocity, Variety)
D. Dữ liệu chỉ từ một nguồn duy nhất
17. Phân tích hồi quy tuyến tính đơn giản được sử dụng để làm gì?
A. So sánh trung bình của hai nhóm
B. Đo lường mối quan hệ giữa hai biến định tính
C. Mô hình hóa mối quan hệ tuyến tính giữa một biến phụ thuộc và một biến độc lập
D. Dự đoán xác suất của một sự kiện
18. Độ lệch chuẩn (Standard Deviation) đo lường điều gì về một tập dữ liệu?
A. Giá trị trung tâm của dữ liệu
B. Mức độ phân tán hoặc biến động của dữ liệu xung quanh giá trị trung bình
C. Hình dạng phân phối của dữ liệu
D. Phần trăm dữ liệu nằm trong một khoảng cụ thể
19. Khi kích thước mẫu tăng lên, điều gì thường xảy ra với khoảng tin cậy (confidence interval)?
A. Khoảng tin cậy trở nên rộng hơn
B. Khoảng tin cậy trở nên hẹp hơn
C. Khoảng tin cậy không thay đổi
D. Khoảng tin cậy trở nên không xác định
20. Biểu đồ nào sau đây thích hợp nhất để hiển thị phân phối tần số của dữ liệu định lượng liên tục?
A. Biểu đồ cột
B. Biểu đồ tròn
C. Biểu đồ hộp
D. Biểu đồ tần suất (Histogram)
21. Trong phân tích phương sai (ANOVA), mục tiêu chính là gì?
A. So sánh phương sai của hai quần thể
B. So sánh trung bình của hai quần thể
C. So sánh trung bình của ba hoặc nhiều hơn các quần thể
D. Đo lường mối quan hệ giữa hai biến định lượng
22. Giá trị của hệ số tương quan tuyến tính Pearson (r) nằm trong khoảng nào?
A. Từ 0 đến 1
B. Từ -1 đến 0
C. Từ -1 đến 1
D. Từ 0 đến vô cùng
23. Trong kiểm định giả thuyết, `mức ý nghĩa` (alpha level) thường được đặt ở giá trị nào?
A. 0.5
B. 0.1
C. 0.05
D. 1.0
24. Phương pháp lấy mẫu nào đảm bảo rằng mọi cá thể trong quần thể đều có cơ hội được chọn vào mẫu như nhau?
A. Lấy mẫu thuận tiện
B. Lấy mẫu phân tầng
C. Lấy mẫu ngẫu nhiên đơn giản
D. Lấy mẫu theo cụm
25. Sai số loại I trong kiểm định giả thuyết xảy ra khi nào?
A. Bác bỏ giả thuyết null khi nó thực sự đúng
B. Không bác bỏ giả thuyết null khi nó thực sự sai
C. Chọn mẫu không đại diện
D. Tính toán sai giá trị p
26. Hệ số tương quan (correlation coefficient) đo lường điều gì giữa hai biến định lượng?
A. Sự khác biệt trung bình giữa hai biến
B. Độ mạnh và hướng của mối quan hệ tuyến tính
C. Mức độ biến động của mỗi biến
D. Nguyên nhân và kết quả giữa hai biến
27. Khi nào thì kiểm định phi tham số (non-parametric test) thường được ưu tiên hơn kiểm định tham số (parametric test)?
A. Khi dữ liệu tuân theo phân phối chuẩn
B. Khi kích thước mẫu lớn
C. Khi các giả định của kiểm định tham số không được đáp ứng (ví dụ: dữ liệu không tuân theo phân phối chuẩn)
D. Khi muốn tăng độ mạnh của kiểm định
28. Trong thống kê ứng dụng, loại dữ liệu nào thường được sử dụng để biểu diễn các thuộc tính định tính hoặc phân loại?
A. Dữ liệu định lượng
B. Dữ liệu thứ cấp
C. Dữ liệu định tính
D. Dữ liệu thời gian
29. Phương pháp nào thường được sử dụng để giảm chiều dữ liệu trong thống kê ứng dụng, đặc biệt là khi làm việc với dữ liệu nhiều chiều?
A. Phân tích phương sai (ANOVA)
B. Phân tích thành phần chính (PCA - Principal Component Analysis)
C. Phân tích hồi quy tuyến tính
D. Kiểm định t-test
30. Trong phân tích dữ liệu thời gian (time series analysis), mục tiêu chính là gì?
A. So sánh dữ liệu giữa các nhóm khác nhau tại một thời điểm
B. Phân tích dữ liệu thu thập tại một thời điểm duy nhất
C. Phân tích dữ liệu được thu thập theo thời gian để tìm kiếm xu hướng, mùa vụ và các mẫu khác
D. Dự đoán giá trị trung bình của dữ liệu