1. Vấn đề `quá khớp` (overfitting) trong khai phá dữ liệu xảy ra khi nào?
A. Mô hình quá phức tạp và học thuộc lòng dữ liệu huấn luyện.
B. Mô hình quá đơn giản và không nắm bắt được cấu trúc dữ liệu.
C. Dữ liệu huấn luyện có quá nhiều nhiễu.
D. Thuật toán khai phá dữ liệu không hiệu quả.
2. Khi nào thì phương pháp `học tăng cường` (Reinforcement learning) được áp dụng trong khai phá dữ liệu?
A. Khi có dữ liệu huấn luyện được gán nhãn đầy đủ.
B. Khi mục tiêu là tìm kiếm cấu trúc ẩn trong dữ liệu.
C. Khi cần xây dựng hệ thống tự động ra quyết định và tương tác với môi trường để tối đa hóa phần thưởng.
D. Khi dữ liệu thay đổi liên tục theo thời gian.
3. Kỹ thuật `giảm chiều dữ liệu` (dimensionality reduction) được sử dụng để làm gì trong khai phá dữ liệu?
A. Tăng số lượng thuộc tính (features) của dữ liệu.
B. Giảm số lượng thuộc tính (features) của dữ liệu mà vẫn giữ thông tin quan trọng.
C. Tăng độ chính xác của mô hình khai phá.
D. Tăng tốc độ thu thập dữ liệu.
4. Phương pháp `PCA` (Principal Component Analysis) là một kỹ thuật giảm chiều dữ liệu dựa trên nguyên tắc nào?
A. Loại bỏ hoàn toàn các thuộc tính ít quan trọng nhất.
B. Tìm ra các thành phần chính (principal components) giữ lại phương sai lớn nhất của dữ liệu.
C. Chọn ngẫu nhiên một số thuộc tính.
D. Thay thế các thuộc tính ban đầu bằng các thuộc tính mới dễ hiểu hơn.
5. Để đánh giá hiệu suất của mô hình phân cụm, độ đo nào sau đây thường được sử dụng?
A. Độ chính xác (Accuracy).
B. Giá trị F1 (F1-score).
C. Chỉ số Davies-Bouldin (Davies-Bouldin index).
D. Độ thu hồi (Recall).
6. Ứng dụng của khai phá dữ liệu trong lĩnh vực y tế có thể bao gồm:
A. Dự đoán xu hướng thời trang.
B. Phân tích thị trường chứng khoán.
C. Phát hiện sớm bệnh tật và cá nhân hóa điều trị.
D. Quản lý chuỗi cung ứng.
7. Thuật toán k-Means thường được sử dụng cho bài toán nào trong khai phá dữ liệu?
A. Phân loại văn bản.
B. Dự đoán chuỗi thời gian.
C. Phân cụm dữ liệu.
D. Phân tích cảm xúc.
8. So sánh giữa phân loại (classification) và hồi quy (regression), điểm khác biệt chính là gì?
A. Phân loại sử dụng dữ liệu số, hồi quy sử dụng dữ liệu văn bản.
B. Phân loại dự đoán giá trị rời rạc, hồi quy dự đoán giá trị liên tục.
C. Phân loại luôn chính xác hơn hồi quy.
D. Hồi quy chỉ áp dụng cho dữ liệu có cấu trúc, phân loại thì không.
9. Khái niệm `độ hỗ trợ` (support) trong khai thác luật kết hợp đo lường điều gì?
A. Độ tin cậy của luật kết hợp.
B. Tần suất xuất hiện của một tập mục trong cơ sở dữ liệu.
C. Mức độ quan tâm của luật kết hợp.
D. Khả năng áp dụng luật kết hợp vào thực tế.
10. Để xử lý dữ liệu bị thiếu (missing values) trong khai phá dữ liệu, phương pháp `điền giá trị trung bình` (mean imputation) có thể gây ra vấn đề gì?
A. Làm tăng độ nhiễu của dữ liệu.
B. Làm giảm phương sai của dữ liệu và làm sai lệch phân phối.
C. Làm chậm quá trình huấn luyện mô hình.
D. Không thể xử lý được dữ liệu số.
11. Trong quy trình khai phá dữ liệu, giai đoạn nào thường diễn ra ĐẦU TIÊN?
A. Đánh giá mô hình.
B. Làm sạch và tiền xử lý dữ liệu.
C. Triển khai và ứng dụng mô hình.
D. Xây dựng mô hình.
12. Trong bài toán phân loại, `ma trận nhầm lẫn` (confusion matrix) cung cấp thông tin gì?
A. Độ chính xác tổng thể của mô hình.
B. Chi phí tính toán của mô hình.
C. Số lượng thuộc tính quan trọng nhất.
D. Thống kê chi tiết về dự đoán đúng và sai cho từng lớp.
13. Phương pháp nào sau đây KHÔNG phải là một kỹ thuật khai phá dữ liệu phổ biến?
A. Phân tích hồi quy (Regression analysis).
B. Phân tích phương sai (ANOVA).
C. Phân cụm (Clustering).
D. Khai thác luật kết hợp (Association rule mining).
14. Một trong những thách thức đạo đức quan trọng nhất trong khai phá dữ liệu là gì?
A. Sự thiếu hụt công cụ khai phá dữ liệu mạnh mẽ.
B. Nguy cơ xâm phạm quyền riêng tư và sử dụng dữ liệu sai mục đích.
C. Chi phí lưu trữ dữ liệu ngày càng tăng.
D. Tốc độ xử lý dữ liệu quá chậm.
15. Khi nào thì việc sử dụng `mạng nơ-ron sâu` (Deep Neural Networks) trở nên đặc biệt hiệu quả trong khai phá dữ liệu?
A. Khi dữ liệu có kích thước nhỏ và ít thuộc tính.
B. Khi cần giải thích mô hình một cách dễ dàng.
C. Khi dữ liệu có cấu trúc phức tạp và lượng lớn.
D. Khi yêu cầu tốc độ huấn luyện mô hình rất nhanh.
16. Phương pháp `rừng ngẫu nhiên` (Random Forest) thuộc loại thuật toán học máy nào?
A. Thuật toán phân cụm.
B. Thuật toán hồi quy tuyến tính.
C. Thuật toán phân loại và hồi quy dựa trên cây quyết định.
D. Thuật toán khai thác luật kết hợp.
17. Trong khai phá dữ liệu chuỗi thời gian, kỹ thuật nào thường được sử dụng để phát hiện các mẫu bất thường hoặc đột biến?
A. Phân tích hồi quy tuyến tính.
B. Phân cụm k-Means.
C. Phát hiện dị thường (Anomaly detection).
D. Phân loại Naive Bayes.
18. Mục tiêu chính của khai phá dữ liệu (Data Mining) là gì?
A. Tăng cường bảo mật dữ liệu.
B. Tự động hóa nhập liệu dữ liệu.
C. Khám phá các mẫu, tri thức ẩn từ lượng lớn dữ liệu.
D. Cải thiện tốc độ truy xuất dữ liệu.
19. Trong khai thác luật kết hợp, độ đo `lift` (độ nâng) cho biết điều gì?
A. Tần suất xuất hiện của một tập mục.
B. Độ phổ biến của một luật kết hợp.
C. Mức độ quan tâm của một luật kết hợp so với kỳ vọng ngẫu nhiên.
D. Độ tin cậy của một luật kết hợp.
20. Điều gì xảy ra nếu chúng ta áp dụng thuật toán k-Means với giá trị `k` quá lớn so với số cụm thực tế trong dữ liệu?
A. Thuật toán sẽ không hội tụ.
B. Các cụm tìm được sẽ chồng lấp lên nhau.
C. Dữ liệu sẽ bị phân chia thành quá nhiều cụm nhỏ, có thể không có ý nghĩa.
D. Độ chính xác của phân cụm sẽ tăng lên.
21. Trong khai phá dữ liệu, `tính giải thích được` (interpretability) của mô hình là gì và tại sao nó quan trọng?
A. Khả năng mô hình xử lý dữ liệu lớn; quan trọng vì giúp tăng tốc độ khai phá.
B. Khả năng mô hình đưa ra dự đoán chính xác; quan trọng vì tăng độ tin cậy của kết quả.
C. Khả năng con người hiểu được cách mô hình đưa ra quyết định; quan trọng để tin tưởng và kiểm soát mô hình, đặc biệt trong các ứng dụng nhạy cảm.
D. Khả năng mô hình tự động cập nhật khi có dữ liệu mới; quan trọng để duy trì hiệu suất mô hình.
22. Độ đo `độ chính xác` (accuracy) thường được sử dụng để đánh giá hiệu suất của mô hình khai phá dữ liệu nào?
A. Mô hình hồi quy.
B. Mô hình phân cụm.
C. Mô hình phân loại.
D. Mô hình khai thác luật kết hợp.
23. Trong khai phá dữ liệu văn bản, kỹ thuật `TF-IDF` (Term Frequency-Inverse Document Frequency) được sử dụng để làm gì?
A. Phân loại văn bản theo chủ đề.
B. Phân cụm văn bản dựa trên nội dung.
C. Tính trọng số của từ trong một văn bản và trong toàn bộ tập văn bản.
D. Phát hiện ngôn ngữ của văn bản.
24. Phương pháp nào sau đây giúp giảm thiểu vấn đề `thiên vị` (bias) trong mô hình khai phá dữ liệu?
A. Tăng kích thước tập dữ liệu huấn luyện.
B. Sử dụng thuật toán phức tạp hơn.
C. Thu thập dữ liệu từ nhiều nguồn khác nhau và đảm bảo tính đại diện.
D. Giảm số lượng thuộc tính đầu vào.
25. Trong khai phá dữ liệu, kỹ thuật nào thường được sử dụng để dự đoán một giá trị số liên tục?
A. Phân loại (Classification).
B. Hồi quy (Regression).
C. Phân cụm (Clustering).
D. Khai thác luật kết hợp (Association rule mining).
26. Mục đích chính của việc `làm sạch dữ liệu` (data cleaning) trong khai phá dữ liệu là gì?
A. Tăng kích thước tập dữ liệu.
B. Giảm độ phức tạp của thuật toán khai phá.
C. Xử lý dữ liệu bị thiếu, nhiễu và không nhất quán.
D. Mã hóa dữ liệu để bảo mật.
27. Kỹ thuật `phân cụm` (clustering) trong khai phá dữ liệu thuộc loại học máy nào?
A. Học có giám sát (Supervised learning).
B. Học tăng cường (Reinforcement learning).
C. Học không giám sát (Unsupervised learning).
D. Học bán giám sát (Semi-supervised learning).
28. Khi dữ liệu huấn luyện cho bài toán phân loại bị `mất cân bằng` (imbalanced dataset), tức là một lớp chiếm tỷ lệ rất nhỏ so với các lớp khác, điều này có thể dẫn đến vấn đề gì?
A. Mô hình sẽ quá khớp với lớp thiểu số.
B. Mô hình có xu hướng dự đoán nghiêng về lớp đa số và kém hiệu quả với lớp thiểu số.
C. Thuật toán phân loại sẽ không thể hội tụ.
D. Độ chính xác tổng thể của mô hình sẽ giảm đáng kể.
29. Trong ngữ cảnh khai phá dữ liệu lớn (Big Data), thách thức lớn nhất thường gặp là gì?
A. Sự thiếu hụt thuật toán khai phá dữ liệu.
B. Khả năng mở rộng và hiệu suất tính toán.
C. Sự khan hiếm dữ liệu.
D. Chi phí phần mềm khai phá dữ liệu quá cao.
30. So sánh ưu điểm và nhược điểm của cây quyết định (Decision Tree) so với mạng nơ-ron (Neural Network). Ưu điểm nổi bật của cây quyết định là gì?
A. Khả năng xử lý dữ liệu phi cấu trúc tốt hơn.
B. Dễ dàng diễn giải và trực quan hóa.
C. Độ chính xác dự đoán thường cao hơn trong mọi trường hợp.
D. Yêu cầu ít dữ liệu huấn luyện hơn.