1. Khi đánh giá mô hình phân cụm, độ đo `Silhouette score` được sử dụng để đánh giá điều gì?
A. Độ chính xác của việc gán nhãn cụm (nếu có nhãn tham khảo).
B. Chất lượng phân cụm, đo lường mức độ các điểm dữ liệu trong cùng một cụm tương tự nhau và khác biệt với các cụm khác.
C. Thời gian tính toán để thực hiện phân cụm.
D. Số lượng cụm được tạo ra.
2. Trong quy trình khai phá dữ liệu, giai đoạn nào tập trung vào việc làm sạch dữ liệu, xử lý dữ liệu bị thiếu và chuyển đổi dữ liệu sang định dạng phù hợp?
A. Lựa chọn dữ liệu (Data Selection)
B. Tiền xử lý dữ liệu (Data Preprocessing)
C. Khai phá mẫu (Pattern Mining)
D. Đánh giá mẫu (Pattern Evaluation)
3. Kỹ thuật `cross-validation` (kiểm định chéo) được sử dụng để làm gì trong quá trình xây dựng mô hình khai phá dữ liệu?
A. Tăng kích thước tập dữ liệu huấn luyện.
B. Đánh giá khả năng khái quát hóa của mô hình trên dữ liệu mới.
C. Giảm thời gian huấn luyện mô hình.
D. Lựa chọn thuật toán khai phá dữ liệu phù hợp nhất.
4. Thuật toán Apriori được sử dụng chủ yếu trong lĩnh vực nào của khai phá dữ liệu?
A. Phân lớp (Classification)
B. Phân cụm (Clustering)
C. Khai phá luật kết hợp (Association Rule Mining)
D. Hồi quy (Regression)
5. Phương pháp khai phá dữ liệu nào được sử dụng để phân nhóm dữ liệu thành các cụm dựa trên sự tương đồng giữa các đối tượng, mà không có nhãn lớp định trước?
A. Phân lớp (Classification)
B. Hồi quy (Regression)
C. Phân cụm (Clustering)
D. Dự đoán (Prediction)
6. Trong thuật toán K-Means, giá trị `K` đại diện cho điều gì?
A. Số chiều của dữ liệu.
B. Số lượng cụm mong muốn.
C. Số lần lặp tối đa của thuật toán.
D. Kích thước của bộ dữ liệu đầu vào.
7. Ứng dụng nào sau đây KHÔNG phải là ứng dụng phổ biến của khai phá dữ liệu?
A. Phát hiện gian lận thẻ tín dụng.
B. Dự báo thời tiết hàng ngày.
C. Đề xuất sản phẩm cho khách hàng trực tuyến.
D. Phân tích cảm xúc từ bình luận trên mạng xã hội.
8. Khi nào thì việc sử dụng một mô hình khai phá dữ liệu phức tạp (ví dụ: mạng nơ-ron sâu) trở nên cần thiết hơn so với mô hình đơn giản (ví dụ: cây quyết định)?
A. Khi dữ liệu có kích thước nhỏ.
B. Khi yêu cầu về khả năng diễn giải mô hình là ưu tiên hàng đầu.
C. Khi mối quan hệ giữa các thuộc tính và biến mục tiêu rất phức tạp và phi tuyến.
D. Khi thời gian huấn luyện mô hình là yếu tố hạn chế.
9. Trong quá trình khai phá dữ liệu, vấn đề `data drift` (trôi dữ liệu) đề cập đến hiện tượng gì?
A. Dữ liệu bị mất mát hoặc hỏng hóc trong quá trình thu thập.
B. Phân phối thống kê của dữ liệu đầu vào thay đổi theo thời gian, làm giảm hiệu suất mô hình đã huấn luyện.
C. Dữ liệu chứa nhiều giá trị ngoại lai.
D. Kích thước dữ liệu tăng lên quá nhanh.
10. Phương pháp `ensemble learning` (học tập kết hợp) trong khai phá dữ liệu hoạt động như thế nào?
A. Chia nhỏ dữ liệu thành các phần nhỏ hơn để huấn luyện mô hình nhanh hơn.
B. Kết hợp dự đoán của nhiều mô hình học máy khác nhau để cải thiện độ chính xác và độ ổn định.
C. Tự động lựa chọn thuật toán học máy tốt nhất cho một bài toán cụ thể.
D. Chuẩn hóa dữ liệu đầu vào để mô hình dễ học hơn.
11. Sự khác biệt chính giữa học có giám sát (supervised learning) và học không giám sát (unsupervised learning) trong khai phá dữ liệu là gì?
A. Học có giám sát sử dụng dữ liệu có nhãn lớp, trong khi học không giám sát sử dụng dữ liệu không có nhãn lớp.
B. Học có giám sát chỉ áp dụng cho dữ liệu số, học không giám sát chỉ áp dụng cho dữ liệu văn bản.
C. Học có giám sát cho kết quả chính xác hơn học không giám sát.
D. Học có giám sát nhanh hơn học không giám sát.
12. Phương pháp nào sau đây thường được sử dụng để giảm chiều dữ liệu (dimensionality reduction)?
A. One-Hot Encoding
B. PCA (Principal Component Analysis)
C. Z-score Standardization
D. Min-Max Scaling
13. Khai phá dữ liệu (Data Mining) được định nghĩa chính xác nhất là:
A. Quá trình thu thập và lưu trữ dữ liệu từ nhiều nguồn khác nhau.
B. Quá trình phân tích dữ liệu thống kê để kiểm định các giả thuyết định trước.
C. Quá trình khám phá tri thức hữu ích, tiềm ẩn từ lượng lớn dữ liệu, thường bằng các phương pháp tự động hoặc bán tự động.
D. Quá trình trực quan hóa dữ liệu để tạo ra các báo cáo và dashboard.
14. Một trong những thách thức lớn nhất trong khai phá dữ liệu từ dữ liệu lớn (Big Data) là gì?
A. Sự thiếu hụt các thuật toán khai phá dữ liệu hiệu quả.
B. Khả năng mở rộng và hiệu suất tính toán khi xử lý lượng dữ liệu khổng lồ.
C. Chi phí lưu trữ dữ liệu quá cao.
D. Sự phức tạp trong việc trực quan hóa kết quả khai phá.
15. Trong khai phá dữ liệu, `outlier detection` (phát hiện ngoại lai) có ứng dụng quan trọng trong lĩnh vực nào sau đây?
A. Phân tích cảm xúc khách hàng.
B. Phát hiện gian lận tài chính.
C. Đề xuất sản phẩm cá nhân hóa.
D. Phân tích mạng xã hội.
16. Trong ngữ cảnh đánh giá mô hình phân lớp, `confusion matrix` (ma trận nhầm lẫn) cung cấp thông tin gì?
A. Độ chính xác tổng thể của mô hình.
B. Phân phối xác suất của các lớp.
C. Số lượng dự đoán đúng và sai cho từng lớp.
D. Độ phức tạp của mô hình.
17. Thuật toán nào sau đây KHÔNG thuộc nhóm thuật toán phân lớp (Classification)?
A. Cây quyết định (Decision Tree)
B. K-Means
C. Máy học véc tơ hỗ trợ (Support Vector Machine)
D. Mạng nơ-ron (Neural Network)
18. Kỹ thuật `feature selection` (lựa chọn thuộc tính) trong tiền xử lý dữ liệu nhằm mục đích gì?
A. Tăng số lượng thuộc tính để mô hình phức tạp hơn.
B. Giảm số lượng thuộc tính bằng cách loại bỏ các thuộc tính không liên quan hoặc dư thừa.
C. Chuyển đổi dữ liệu dạng số sang dạngCategorical.
D. Tạo ra các thuộc tính mới từ các thuộc tính hiện có.
19. Kỹ thuật `data augmentation` (tăng cường dữ liệu) thường được sử dụng để làm gì trong khai phá dữ liệu, đặc biệt là trong học sâu (deep learning)?
A. Giảm kích thước tập dữ liệu để tăng tốc độ huấn luyện.
B. Tạo ra các mẫu dữ liệu mới từ dữ liệu hiện có để tăng tính đa dạng và cải thiện khả năng khái quát hóa của mô hình.
C. Làm sạch dữ liệu bị nhiễu.
D. Chuẩn hóa dữ liệu về cùng một thang đo.
20. Trong khai phá dữ liệu, `overfitting` (quá khớp) xảy ra khi nào?
A. Mô hình học quá tốt trên dữ liệu huấn luyện nhưng kém hiệu quả trên dữ liệu mới.
B. Mô hình không học được các mẫu từ dữ liệu huấn luyện.
C. Dữ liệu huấn luyện chứa quá nhiều giá trị ngoại lai.
D. Quá trình khai phá dữ liệu sử dụng quá nhiều tài nguyên tính toán.
21. Độ đo nào sau đây thường được sử dụng để đánh giá hiệu suất của mô hình phân lớp?
A. RMSE (Root Mean Squared Error)
B. Độ chính xác (Accuracy)
C. MAE (Mean Absolute Error)
D. R-squared
22. Yếu tố nào sau đây KHÔNG phải là một trong `5 Vs` thường được dùng để mô tả đặc điểm của Big Data?
A. Volume (Khối lượng).
B. Velocity (Tốc độ).
C. Veracity (Độ xác thực).
D. Vocabulary (Từ vựng).
23. Trong khai phá luật kết hợp (association rule mining), độ đo `support` (độ hỗ trợ) của một luật {A} -> {B} được tính như thế nào?
A. Tỷ lệ các giao dịch chứa cả A và B trên tổng số giao dịch.
B. Tỷ lệ các giao dịch chứa B trong số các giao dịch chứa A.
C. Tỷ lệ các giao dịch chứa A trong số các giao dịch chứa B.
D. Tổng số giao dịch chứa cả A và B.
24. Khai phá dữ liệu có thể hỗ trợ quá trình ra quyết định trong kinh doanh như thế nào?
A. Chỉ bằng cách tạo ra các báo cáo trực quan về dữ liệu quá khứ.
B. Bằng cách khám phá các mẫu, xu hướng và tri thức ẩn để dự đoán tương lai, phân tích rủi ro và tối ưu hóa hoạt động.
C. Chỉ bằng cách tự động hóa các tác vụ thu thập và tiền xử lý dữ liệu.
D. Chỉ bằng cách cải thiện tốc độ truy vấn dữ liệu.
25. Độ đo `confidence` (độ tin cậy) của một luật kết hợp {A} -> {B} được tính như thế nào?
A. Tỷ lệ các giao dịch chứa cả A và B trên tổng số giao dịch.
B. Tỷ lệ các giao dịch chứa B trong số các giao dịch chứa A.
C. Tỷ lệ các giao dịch chứa A trong số các giao dịch chứa B.
D. Tổng số giao dịch chứa cả A và B.
26. Trong khai phá dữ liệu không gian (spatial data mining), loại dữ liệu nào được phân tích chủ yếu?
A. Dữ liệu văn bản.
B. Dữ liệu chuỗi thời gian.
C. Dữ liệu địa lý và không gian (ví dụ: vị trí, bản đồ, hình ảnh vệ tinh).
D. Dữ liệu giao dịch thương mại điện tử.
27. Trong khai phá dữ liệu chuỗi thời gian (time series data mining), phương pháp nào thường được sử dụng để dự báo giá trị tương lai dựa trên các giá trị quá khứ?
A. Phân cụm K-Means.
B. Hồi quy tuyến tính.
C. Mô hình ARIMA (Autoregressive Integrated Moving Average).
D. Phân tích thành phần chính PCA.
28. Trong khai phá dữ liệu web (web mining), `web usage mining` (khai phá sử dụng web) tập trung vào việc phân tích dữ liệu nào?
A. Nội dung văn bản và đa phương tiện trên các trang web.
B. Cấu trúc liên kết giữa các trang web.
C. Hành vi duyệt web của người dùng (ví dụ: nhật ký truy cập, clickstream).
D. Metadata của các trang web (ví dụ: thẻ meta, mô tả).
29. Trong khai phá dữ liệu văn bản (text mining), kỹ thuật `TF-IDF` được sử dụng để làm gì?
A. Phân tích cảm xúc văn bản.
B. Trích xuất thông tin từ văn bản.
C. Tính toán trọng số của từ trong một tài liệu và trong toàn bộ tập tài liệu.
D. Phân loại văn bản theo chủ đề.
30. Vấn đề `curse of dimensionality` (lời nguyền chiều dữ liệu) trong khai phá dữ liệu đề cập đến điều gì?
A. Khó khăn trong việc trực quan hóa dữ liệu nhiều chiều.
B. Sự suy giảm hiệu suất của các thuật toán học máy khi số chiều dữ liệu tăng cao.
C. Chi phí tính toán tăng theo cấp số nhân với số chiều dữ liệu.
D. Tất cả các đáp án trên.