Đề 6 - Bài tập, đề thi trắc nghiệm online Khoa học dữ liệu trong kinh tế và kinh doanh
1. Chỉ số đánh giá mô hình phân loại nào đo lường tỷ lệ dự đoán đúng các trường hợp dương tính thực sự trên tổng số trường hợp được dự đoán là dương tính?
A. Độ chính xác (Accuracy)
B. Độ thu hồi (Recall)
C. Độ chuẩn xác (Precision)
D. F1-score
2. Khái niệm `feature engineering` (kỹ thuật tạo đặc trưng) trong Khoa học dữ liệu đề cập đến điều gì?
A. Quá trình chọn lựa thuật toán học máy phù hợp nhất.
B. Quá trình làm sạch dữ liệu bị thiếu hoặc nhiễu.
C. Quá trình tạo ra các biến mới hoặc biến đổi các biến hiện có để cải thiện hiệu suất mô hình.
D. Quá trình trực quan hóa dữ liệu để trình bày kết quả phân tích.
3. Mô hình học máy nào sau đây phù hợp nhất cho bài toán dự đoán giá nhà dựa trên các đặc điểm như diện tích, vị trí và số phòng ngủ?
A. Phân loại Logistic
B. Cây quyết định phân loại
C. Hồi quy tuyến tính
D. K-Means Clustering
4. Công cụ lập trình nào phổ biến nhất trong cộng đồng Khoa học dữ liệu kinh tế và kinh doanh?
A. Java
B. C++
C. Python
D. Assembly
5. Đâu là một thách thức đạo đức quan trọng liên quan đến việc sử dụng thuật toán AI trong tuyển dụng nhân sự?
A. Tăng tốc độ quá trình tuyển dụng.
B. Giảm chi phí tuyển dụng.
C. Thuật toán có thể vô tình duy trì hoặc khuếch đại sự thiên vị giới tính hoặc chủng tộc.
D. Cải thiện tính khách quan tuyệt đối trong quá trình đánh giá ứng viên.
6. Ưu điểm chính của việc sử dụng Khoa học dữ liệu trong kinh doanh là gì?
A. Giảm chi phí nhân công
B. Tăng cường khả năng ra quyết định dựa trên dữ liệu
C. Loại bỏ hoàn toàn sự cần thiết của kinh nghiệm và trực giác
D. Đơn giản hóa mọi quy trình kinh doanh
7. Trong kinh doanh, `churn rate` (tỷ lệ khách hàng rời bỏ) thường được dự đoán bằng kỹ thuật học máy nào?
A. Phân tích hồi quy
B. Phân loại (Classification)
C. Phân tích chuỗi thời gian
D. Giảm chiều dữ liệu
8. Phương pháp nào sau đây có thể giúp giảm thiểu vấn đề `đa cộng tuyến` (multicollinearity) trong mô hình hồi quy?
A. Tăng kích thước mẫu dữ liệu.
B. Loại bỏ một trong các biến độc lập có tương quan cao.
C. Sử dụng mô hình cây quyết định.
D. Chuẩn hóa dữ liệu (data normalization).
9. Trong các giai đoạn của quy trình Khoa học dữ liệu, giai đoạn nào tập trung vào việc làm sạch, chuyển đổi và tích hợp dữ liệu thô?
A. Thu thập dữ liệu
B. Chuẩn bị dữ liệu
C. Phân tích dữ liệu
D. Triển khai mô hình
10. Công cụ nào thường được sử dụng để trực quan hóa dữ liệu trong Python?
A. Pandas
B. NumPy
C. Matplotlib và Seaborn
D. Scikit-learn
11. Trong bối cảnh đạo đức của Khoa học dữ liệu, `bias` (thiên vị) trong thuật toán có thể dẫn đến hậu quả gì trong kinh doanh?
A. Tăng cường sự công bằng và minh bạch trong quyết định kinh doanh.
B. Cải thiện hiệu suất mô hình và độ chính xác dự đoán.
C. Đưa ra các quyết định phân biệt đối xử hoặc không công bằng đối với một số nhóm người.
D. Giảm chi phí vận hành hệ thống Khoa học dữ liệu.
12. Trong mô hình hóa dữ liệu, `validation set` (tập kiểm chứng) được sử dụng để làm gì?
A. Huấn luyện mô hình học máy.
B. Đánh giá hiệu suất cuối cùng của mô hình sau khi huấn luyện.
C. Tinh chỉnh siêu tham số (hyperparameters) của mô hình.
D. Thu thập dữ liệu mới.
13. Loại hình phân tích dữ liệu nào tập trung vào việc tìm hiểu `điều gì đã xảy ra` trong quá khứ?
A. Phân tích mô tả (Descriptive Analytics)
B. Phân tích dự đoán (Predictive Analytics)
C. Phân tích quy định (Prescriptive Analytics)
D. Phân tích chẩn đoán (Diagnostic Analytics)
14. Trong lĩnh vực Marketing, Khoa học dữ liệu được sử dụng để cá nhân hóa trải nghiệm khách hàng bằng cách nào?
A. Tăng giá sản phẩm cho tất cả khách hàng.
B. Gửi email marketing hàng loạt giống nhau cho tất cả khách hàng.
C. Phân tích hành vi và sở thích của khách hàng để cung cấp sản phẩm và thông điệp phù hợp.
D. Giảm ngân sách marketing tổng thể.
15. Đâu KHÔNG phải là một ứng dụng phổ biến của Khoa học dữ liệu trong lĩnh vực tài chính?
A. Phát hiện gian lận giao dịch
B. Định giá tài sản và quản lý rủi ro
C. Tối ưu hóa chuỗi cung ứng sản xuất
D. Phân tích danh mục đầu tư
16. Đâu là một ví dụ về dữ liệu `phi cấu trúc` (unstructured data) thường được sử dụng trong Khoa học dữ liệu kinh doanh?
A. Dữ liệu giao dịch bán hàng trong cơ sở dữ liệu quan hệ.
B. Bảng thống kê kinh tế vĩ mô.
C. Bài đăng trên mạng xã hội và đánh giá sản phẩm trực tuyến.
D. Dữ liệu nhân khẩu học khách hàng trong file CSV.
17. Trong lĩnh vực quản lý chuỗi cung ứng, Khoa học dữ liệu có thể được sử dụng để làm gì?
A. Tăng chi phí vận chuyển hàng hóa.
B. Dự đoán nhu cầu và tối ưu hóa tồn kho.
C. Làm chậm quá trình sản xuất.
D. Giảm chất lượng sản phẩm.
18. Phương pháp thống kê nào thường được sử dụng để phân tích mối quan hệ giữa một biến phụ thuộc và một hoặc nhiều biến độc lập trong kinh tế lượng và Khoa học dữ liệu?
A. Phân tích phương sai (ANOVA)
B. Phân tích hồi quy (Regression Analysis)
C. Kiểm định t-test
D. Phân tích thành phần chính (PCA)
19. Trong Khoa học dữ liệu, `ensemble methods` (phương pháp kết hợp) như Random Forest và Gradient Boosting hoạt động dựa trên nguyên tắc nào?
A. Sử dụng một mô hình học máy duy nhất rất mạnh.
B. Kết hợp dự đoán của nhiều mô hình học máy yếu hơn để tạo ra mô hình mạnh hơn.
C. Giảm chiều dữ liệu trước khi huấn luyện mô hình.
D. Tăng cường tính giải thích của mô hình học máy.
20. Phương pháp nào sau đây KHÔNG thuộc về học máy có giám sát (supervised learning)?
A. Hồi quy tuyến tính
B. Cây quyết định phân loại
C. Phân cụm K-Means
D. Mạng nơ-ron (Neural Networks) cho phân loại
21. Đâu là thách thức chính khi làm việc với dữ liệu lớn (Big Data) trong kinh tế và kinh doanh?
A. Sự thiếu hụt các công cụ phần mềm phân tích dữ liệu.
B. Đảm bảo chất lượng dữ liệu và xử lý độ phức tạp của dữ liệu.
C. Chi phí thu thập dữ liệu quá thấp.
D. Khó khăn trong việc tìm kiếm nhân sự có kỹ năng thống kê cơ bản.
22. Trong phân tích chuỗi thời gian (time series analysis), thành phần nào KHÔNG phải là thành phần chính của chuỗi thời gian?
A. Xu hướng (Trend)
B. Tính mùa vụ (Seasonality)
C. Tính ngẫu nhiên (Randomness)
D. Tính chủ quan (Subjectivity)
23. Kỹ thuật học máy nào phù hợp để phát hiện các giao dịch gian lận thẻ tín dụng?
A. Phân tích thành phần chính (PCA)
B. Phát hiện dị thường (Anomaly Detection)
C. Phân tích hồi quy tuyến tính
D. Phân cụm K-Means
24. Kỹ thuật phân tích dữ liệu nào thường được sử dụng để phân nhóm khách hàng dựa trên hành vi mua sắm của họ?
A. Hồi quy tuyến tính
B. Phân cụm (Clustering)
C. Phân tích chuỗi thời gian
D. Kiểm định giả thuyết
25. Trong ngữ cảnh Khoa học dữ liệu kinh doanh, `A/B testing` (thử nghiệm A/B) được sử dụng chủ yếu cho mục đích gì?
A. Dự báo xu hướng thị trường tổng thể.
B. Đánh giá hiệu quả của hai phiên bản khác nhau của một yếu tố kinh doanh (ví dụ: trang web, quảng cáo).
C. Phân tích cấu trúc chi phí của doanh nghiệp.
D. Xác định rủi ro tín dụng của khách hàng.
26. Phương pháp nào sau đây được sử dụng để xử lý dữ liệu bị thiếu (missing data)?
A. Phân tích tương quan
B. Điền giá trị trung bình (Mean Imputation)
C. Phân tích hồi quy
D. Phân tích thành phần chính
27. Đâu là một ví dụ về ứng dụng của xử lý ngôn ngữ tự nhiên (NLP) trong kinh doanh?
A. Dự đoán giá cổ phiếu.
B. Phân tích cảm xúc từ phản hồi của khách hàng.
C. Phân cụm khách hàng theo nhân khẩu học.
D. Phát hiện gian lận thẻ tín dụng.
28. Mục tiêu của việc giảm chiều dữ liệu (dimensionality reduction) trong Khoa học dữ liệu là gì?
A. Tăng số lượng biến trong tập dữ liệu.
B. Giảm số lượng biến trong tập dữ liệu trong khi vẫn giữ được thông tin quan trọng.
C. Tăng tốc độ thu thập dữ liệu.
D. Cải thiện độ chính xác của dữ liệu đầu vào.
29. Đâu là định nghĩa chính xác nhất về Khoa học dữ liệu trong bối cảnh kinh tế và kinh doanh?
A. Một lĩnh vực chỉ tập trung vào việc thu thập và lưu trữ dữ liệu lớn.
B. Một ngành khoa học nghiên cứu về lập trình máy tính và phát triển phần mềm.
C. Một lĩnh vực liên ngành sử dụng các phương pháp khoa học để trích xuất kiến thức và insights giá trị từ dữ liệu nhằm hỗ trợ quyết định kinh tế và kinh doanh.
D. Một tập hợp các công cụ phần mềm để tạo báo cáo và trực quan hóa dữ liệu.
30. Trong Khoa học dữ liệu, khái niệm `overfitting` (quá khớp) mô tả tình huống nào?
A. Mô hình học máy hoạt động kém trên cả dữ liệu huấn luyện và dữ liệu kiểm tra.
B. Mô hình học máy hoạt động rất tốt trên dữ liệu huấn luyện nhưng kém trên dữ liệu kiểm tra mới.
C. Mô hình học máy hoạt động tốt trên cả dữ liệu huấn luyện và dữ liệu kiểm tra.
D. Mô hình học máy không thể học được từ dữ liệu huấn luyện.