Đề 9 - Bài tập, đề thi trắc nghiệm online Khoa học dữ liệu trong kinh tế và kinh doanh
1. Trong phân tích dữ liệu chuỗi thời gian (time series analysis) trong kinh tế, mô hình ARIMA được sử dụng để làm gì?
A. Phân loại khách hàng
B. Dự báo giá trị tương lai dựa trên dữ liệu quá khứ theo thời gian
C. Phân tích mối quan hệ giữa các biến kinh tế khác nhau tại cùng một thời điểm
D. Phát hiện gian lận trong giao dịch tài chính
2. Thuật ngữ `feature engineering` trong học máy đề cập đến quá trình nào?
A. Chọn thuật toán học máy phù hợp nhất
B. Tối ưu hóa hiệu suất phần cứng
C. Biến đổi và tạo ra các đặc trưng (features) phù hợp từ dữ liệu thô
D. Đánh giá độ chính xác của mô hình
3. Yếu tố nào sau đây KHÔNG phải là một thành phần chính của quy trình khoa học dữ liệu?
A. Thu thập dữ liệu
B. Phân tích dữ liệu
C. Triển khai mô hình
D. Sao chép dữ liệu thủ công
4. Trong khoa học dữ liệu, `cross-validation` (kiểm định chéo) được sử dụng để làm gì?
A. Tăng tốc độ huấn luyện mô hình
B. Ước lượng hiệu suất của mô hình trên dữ liệu mới và tránh overfitting
C. Giảm kích thước dữ liệu huấn luyện
D. Trực quan hóa dữ liệu
5. Khoa học dữ liệu trong kinh tế và kinh doanh chủ yếu tập trung vào việc sử dụng phương pháp nào để đưa ra quyết định và giải quyết vấn đề?
A. Trực giác và kinh nghiệm cá nhân
B. Phân tích dữ liệu và mô hình hóa
C. Theo dõi hành vi của đối thủ cạnh tranh
D. Tham khảo ý kiến chuyên gia
6. Khi phân tích dữ liệu văn bản (text data) trong kinh doanh (ví dụ: đánh giá của khách hàng), kỹ thuật `phân tích cảm xúc` (sentiment analysis) được sử dụng để làm gì?
A. Dịch văn bản sang ngôn ngữ khác
B. Tóm tắt nội dung văn bản
C. Xác định thái độ, cảm xúc (tích cực, tiêu cực, trung lập) thể hiện trong văn bản
D. Tìm kiếm thông tin cụ thể trong văn bản
7. Trong khoa học dữ liệu, `overfitting` (quá khớp) đề cập đến tình trạng gì?
A. Mô hình quá đơn giản và không nắm bắt được mẫu trong dữ liệu
B. Mô hình học quá tốt trên dữ liệu huấn luyện nhưng kém trên dữ liệu mới
C. Mô hình bị thiếu dữ liệu huấn luyện
D. Mô hình không thể hội tụ trong quá trình huấn luyện
8. Trong lĩnh vực tài chính, khoa học dữ liệu có thể được sử dụng để phát hiện hành vi nào sau đây?
A. Dự báo tăng trưởng GDP
B. Phân tích hiệu quả quảng cáo
C. Gian lận giao dịch
D. Nghiên cứu thị hiếu người tiêu dùng
9. Kỹ thuật `gradient boosting` thường được sử dụng để làm gì trong học máy?
A. Giảm chiều dữ liệu
B. Phân tích thành phần chính
C. Xây dựng mô hình dự đoán có độ chính xác cao, đặc biệt cho dữ liệu dạng bảng
D. Phân cụm dữ liệu
10. Trong bối cảnh thương mại điện tử, hệ thống `recommender system` (hệ thống gợi ý) dựa trên khoa học dữ liệu hoạt động như thế nào?
A. Hiển thị ngẫu nhiên các sản phẩm cho khách hàng
B. Gợi ý sản phẩm/dịch vụ cho khách hàng dựa trên lịch sử tương tác, sở thích và hành vi của họ
C. Chỉ hiển thị các sản phẩm bán chạy nhất
D. Yêu cầu khách hàng tự chọn sản phẩm họ muốn mua
11. Mục tiêu chính của việc `giảm chiều dữ liệu` (dimensionality reduction) trong phân tích dữ liệu là gì?
A. Tăng số lượng biến trong dữ liệu
B. Đơn giản hóa dữ liệu và giảm nhiễu
C. Tăng độ phức tạp của mô hình
D. Chuyển đổi dữ liệu sang ngôn ngữ tự nhiên
12. Trong bài toán phân loại (classification), độ đo `precision` đánh giá điều gì?
A. Tỷ lệ dự đoán đúng trên tổng số mẫu thực tế thuộc lớp dương tính
B. Tỷ lệ dự đoán đúng trên tổng số mẫu được dự đoán là lớp dương tính
C. Tỷ lệ dự đoán sai trên tổng số mẫu thực tế thuộc lớp âm tính
D. Tỷ lệ dự đoán sai trên tổng số mẫu được dự đoán là lớp âm tính
13. Phương pháp nào sau đây thuộc nhóm học máy `không giám sát` (unsupervised learning)?
A. Hồi quy tuyến tính (Linear Regression)
B. Phân cụm K-means (K-means Clustering)
C. Cây quyết định (Decision Tree)
D. Mạng nơ-ron (Neural Network) cho phân loại ảnh
14. Trong kinh tế lượng, khoa học dữ liệu bổ sung giá trị chủ yếu ở khía cạnh nào?
A. Thay thế hoàn toàn các phương pháp thống kê truyền thống
B. Xử lý lượng dữ liệu lớn và phức tạp hơn
C. Giảm sự phụ thuộc vào lý thuyết kinh tế
D. Loại bỏ nhu cầu về kiến thức chuyên môn kinh tế
15. Để đánh giá hiệu quả của mô hình hồi quy, độ đo nào sau đây thường được sử dụng?
A. Accuracy (Độ chính xác)
B. Precision (Độ chuẩn xác)
C. R-squared (Hệ số xác định)
D. F1-score
16. Phương pháp `A/B testing` trong kinh doanh dựa trên nguyên tắc nào của khoa học dữ liệu?
A. Dự đoán tương lai dựa trên quá khứ
B. So sánh hiệu quả giữa các nhóm ngẫu nhiên
C. Mô tả dữ liệu hiện tại
D. Phân loại dữ liệu theo chủ đề
17. Trong lĩnh vực marketing, khoa học dữ liệu được ứng dụng để cá nhân hóa trải nghiệm khách hàng thông qua phương pháp nào?
A. Gửi email hàng loạt cho tất cả khách hàng
B. Hiển thị quảng cáo chung cho mọi người
C. Đề xuất sản phẩm/dịch vụ dựa trên lịch sử mua hàng và hành vi trực tuyến của từng cá nhân
D. Giảm giá đồng loạt cho tất cả sản phẩm
18. Trong khoa học dữ liệu, thuật ngữ `ensemble methods` (phương pháp kết hợp) dùng để chỉ điều gì?
A. Phương pháp giảm chiều dữ liệu
B. Phương pháp kết hợp dự đoán từ nhiều mô hình học máy khác nhau để cải thiện độ chính xác
C. Phương pháp xử lý dữ liệu thiếu
D. Phương pháp trực quan hóa dữ liệu
19. Trong kinh doanh, kỹ thuật phân cụm (clustering) thường được sử dụng cho mục đích nào?
A. Dự đoán giá cổ phiếu
B. Phân loại email spam
C. Phân khúc khách hàng
D. Phát hiện gian lận thẻ tín dụng
20. Đâu là một ví dụ về dữ liệu `phi cấu trúc` (unstructured data) thường gặp trong kinh doanh?
A. Bảng dữ liệu doanh số bán hàng
B. Cơ sở dữ liệu khách hàng quan hệ
C. Bài đăng trên mạng xã hội
D. Báo cáo tài chính dạng bảng biểu
21. Trong bối cảnh kinh doanh, ` trực quan hóa dữ liệu` (data visualization) mang lại lợi ích chính nào?
A. Tăng tốc độ xử lý dữ liệu
B. Giảm chi phí lưu trữ dữ liệu
C. Giúp nhận diện mẫu và xu hướng dễ dàng hơn
D. Thay thế hoàn toàn việc phân tích thống kê
22. Phương pháp nào sau đây thường được sử dụng để xử lý dữ liệu bị thiếu (missing data) trong khoa học dữ liệu?
A. Tăng kích thước mẫu dữ liệu
B. Xóa bỏ hoàn toàn các dòng/cột chứa dữ liệu thiếu
C. Thay thế bằng giá trị trung bình hoặc giá trị phù hợp khác
D. Chuyển đổi dữ liệu sang dạng analog
23. Đâu là một thách thức lớn khi áp dụng khoa học dữ liệu vào kinh doanh?
A. Sự dư thừa dữ liệu
B. Chi phí phần mềm phân tích quá thấp
C. Thiếu nhân lực có kỹ năng phân tích dữ liệu
D. Dễ dàng tiếp cận dữ liệu chất lượng cao
24. Đâu là một ứng dụng phổ biến của khoa học dữ liệu trong lĩnh vực kinh tế?
A. Dự báo thời tiết hàng ngày
B. Phân tích và dự báo thị trường chứng khoán
C. Nghiên cứu về lịch sử văn hóa
D. Phát triển phần mềm trò chơi
25. Ứng dụng nào sau đây KHÔNG phải là ứng dụng phổ biến của khoa học dữ liệu trong quản lý chuỗi cung ứng?
A. Dự báo nhu cầu
B. Tối ưu hóa tồn kho
C. Tuyển dụng nhân viên mới
D. Tối ưu hóa lộ trình vận chuyển
26. Trong ngữ cảnh khoa học dữ liệu và đạo đức, vấn đề `thiên vị` (bias) trong dữ liệu có thể dẫn đến hậu quả gì?
A. Mô hình hoạt động kém hiệu quả trên mọi nhóm đối tượng
B. Quyết định không công bằng hoặc phân biệt đối xử với một số nhóm người nhất định
C. Tăng tính minh bạch và dễ hiểu của mô hình
D. Giảm chi phí thu thập dữ liệu
27. Mô hình `hộp đen` (black box model) trong học máy có đặc điểm gì?
A. Dễ dàng diễn giải và hiểu cơ chế hoạt động
B. Hoạt động dựa trên quy tắc logic rõ ràng
C. Khó hoặc không thể hiểu được cách mô hình đưa ra dự đoán
D. Chỉ áp dụng được cho dữ liệu văn bản
28. Công cụ nào sau đây thường được sử dụng để xử lý và phân tích dữ liệu lớn (Big Data) trong môi trường khoa học dữ liệu?
A. Microsoft Excel
B. SPSS Statistics
C. Apache Spark
D. Microsoft Access
29. Trong khoa học dữ liệu, `regularization` (chính quy hóa) là một kỹ thuật được sử dụng để giải quyết vấn đề nào?
A. Dữ liệu bị thiếu
B. Outliers (giá trị ngoại lệ)
C. Overfitting (quá khớp)
D. Dữ liệu không cân bằng (imbalanced data)
30. Đâu là một rủi ro tiềm ẩn khi sử dụng khoa học dữ liệu trong kinh doanh mà doanh nghiệp cần lưu ý?
A. Giảm chi phí hoạt động
B. Cải thiện độ chính xác của quyết định
C. Lộ lọt thông tin cá nhân của khách hàng do bảo mật dữ liệu kém
D. Tăng khả năng cạnh tranh