1. Đánh giá mô hình phân loại thường sử dụng ma trận nhầm lẫn (Confusion Matrix). Giá trị `True Positive` (TP) trong ma trận này thể hiện điều gì?
A. Số lượng mẫu thực tế là dương tính và được dự đoán là âm tính.
B. Số lượng mẫu thực tế là âm tính và được dự đoán là dương tính.
C. Số lượng mẫu thực tế là dương tính và được dự đoán là dương tính.
D. Số lượng mẫu thực tế là âm tính và được dự đoán là âm tính.
2. Trong khai phá dữ liệu, `Overfitting` (Quá khớp) xảy ra khi nào?
A. Mô hình quá đơn giản, không nắm bắt được xu hướng dữ liệu.
B. Mô hình học quá tốt trên dữ liệu huấn luyện nhưng kém hiệu quả trên dữ liệu mới.
C. Dữ liệu huấn luyện chứa quá nhiều giá trị ngoại lệ.
D. Thuật toán khai phá dữ liệu không phù hợp.
3. Xử lý dữ liệu bị thiếu (missing values) bằng cách `Imputation` (Ước lượng giá trị) nghĩa là gì?
A. Xóa bỏ hoàn toàn các bản ghi chứa giá trị thiếu.
B. Thay thế giá trị thiếu bằng một giá trị ước tính.
C. Bỏ qua các thuộc tính có giá trị thiếu.
D. Giữ nguyên giá trị thiếu và không xử lý.
4. Thuật toán `Apriori` được sử dụng chủ yếu trong lĩnh vực khai phá dữ liệu nào?
A. Phân loại (Classification)
B. Phân cụm (Clustering)
C. Khai thác luật kết hợp (Association Rule Mining)
D. Hồi quy (Regression)
5. Độ đo `Precision` (Độ chính xác) trong đánh giá mô hình phân loại được tính bằng công thức nào?
A. TP / (TP + FP)
B. TP / (TP + FN)
C. TN / (TN + FP)
D. TN / (TN + FN)
6. Khai phá dữ liệu (Data Mining) được định nghĩa chính xác nhất là:
A. Quá trình thu thập dữ liệu từ nhiều nguồn khác nhau.
B. Quá trình chuyển đổi dữ liệu sang định dạng phù hợp để phân tích.
C. Quá trình khám phá tri thức hữu ích từ lượng lớn dữ liệu.
D. Quá trình trực quan hóa dữ liệu để dễ dàng nhận biết xu hướng.
7. Trong khai phá luật kết hợp, độ đo `Support` (Độ hỗ trợ) thể hiện điều gì?
A. Mức độ tin cậy của luật.
B. Tần suất xuất hiện đồng thời của các mục trong luật trong tập dữ liệu.
C. Mức độ quan tâm của người dùng đối với luật.
D. Độ chính xác của luật khi dự đoán.
8. Độ đo `Confidence` (Độ tin cậy) trong khai phá luật kết hợp được tính bằng công thức nào (với X, Y là tập mục)?
A. Support(X U Y) / Support(X)
B. Support(X U Y) / Support(Y)
C. Support(X) / Support(X U Y)
D. Support(Y) / Support(X U Y)
9. Trong quy trình Khám phá Tri thức từ Dữ liệu (KDD), bước nào diễn ra NGAY SAU bước `Chọn dữ liệu`?
A. Tiền xử lý dữ liệu
B. Đánh giá mẫu
C. Chuyển đổi dữ liệu
D. Khai phá dữ liệu
10. Độ đo `Recall` (Độ phủ) trong đánh giá mô hình phân loại được tính bằng công thức nào?
A. TP / (TP + FP)
B. TP / (TP + FN)
C. TN / (TN + FP)
D. TN / (TN + FN)
11. Mô hình `Neural Network` (Mạng nơ-ron) hoạt động dựa trên nguyên lý nào?
A. Tìm kiếm các luật kết hợp mạnh.
B. Phân chia dữ liệu thành các cụm đồng nhất.
C. Mô phỏng cấu trúc và hoạt động của mạng nơ-ron sinh học trong não người.
D. Xây dựng cây quyết định dựa trên thông tin thu được.
12. Kỹ thuật `Feature Scaling` (Tỉ lệ hóa thuộc tính) thường được áp dụng trong tiền xử lý dữ liệu để làm gì?
A. Loại bỏ dữ liệu ngoại lệ.
B. Chuyển đổi dữ liệu dạng số sang dạng văn bản.
C. Đưa các thuộc tính về cùng thang đo giá trị.
D. Tăng số lượng thuộc tính của dữ liệu.
13. Đạo đức trong khai phá dữ liệu (Data Mining ethics) tập trung vào vấn đề gì?
A. Tăng cường hiệu suất của thuật toán khai phá dữ liệu.
B. Bảo vệ quyền riêng tư và sử dụng dữ liệu một cách có trách nhiệm.
C. Giảm chi phí lưu trữ dữ liệu.
D. Phát triển các công cụ trực quan hóa dữ liệu đẹp mắt.
14. Phương pháp nào sau đây giúp giảm thiểu nguy cơ `Overfitting` trong mô hình cây quyết định?
A. Tăng độ sâu tối đa của cây (max_depth).
B. Sử dụng nhiều thuộc tính hơn.
C. Cắt tỉa cây (pruning).
D. Tăng kích thước tập dữ liệu huấn luyện.
15. Thuật toán nào sau đây KHÔNG thuộc nhóm thuật toán phân cụm?
A. K-means
B. DBSCAN
C. Support Vector Machine (SVM)
D. Hierarchical Clustering
16. F1-score là trung bình điều hòa của độ đo nào?
A. Precision và Accuracy
B. Recall và Accuracy
C. Precision và Recall
D. Support và Confidence
17. ROC curve (Đường cong ROC) thường được sử dụng để đánh giá hiệu suất của mô hình nào?
A. Mô hình phân cụm
B. Mô hình phân loại
C. Mô hình hồi quy
D. Mô hình khai thác luật kết hợp
18. Khi nào thì việc sử dụng phương pháp `Ensemble Learning` (Học tập hợp) trở nên đặc biệt hữu ích?
A. Khi dữ liệu huấn luyện rất nhỏ.
B. Khi chỉ có một thuật toán học máy duy nhất có hiệu suất tốt.
C. Khi muốn cải thiện độ chính xác và tính ổn định của mô hình.
D. Khi cần giải thích kết quả mô hình một cách dễ dàng.
19. Trong khai phá dữ liệu văn bản (Text Mining), bước `Tokenization` (Phân tách từ) có nghĩa là gì?
A. Loại bỏ các từ dừng (stop words) như `và`, `thì`, `là`.
B. Chuyển đổi văn bản thành chữ thường.
C. Chia văn bản thành các đơn vị nhỏ hơn, thường là từ hoặc cụm từ.
D. Tìm gốc của từ (stemming hoặc lemmatization).
20. Phương pháp nào sau đây KHÔNG thuộc nhóm phương pháp tiền xử lý dữ liệu?
A. Chuẩn hóa dữ liệu (Data Normalization)
B. Rút gọn chiều dữ liệu (Dimensionality Reduction)
C. Phân cụm dữ liệu (Data Clustering)
D. Làm sạch dữ liệu (Data Cleaning)
21. AUC (Area Under the ROC Curve) thể hiện điều gì?
A. Độ phức tạp của mô hình.
B. Khả năng phân biệt giữa các lớp của mô hình.
C. Thời gian huấn luyện mô hình.
D. Số lượng thuộc tính sử dụng trong mô hình.
22. Phương pháp `Decision Tree` (Cây quyết định) thuộc nhóm kỹ thuật khai phá dữ liệu nào?
A. Phân cụm (Clustering)
B. Phân loại (Classification)
C. Hồi quy (Regression)
D. Giảm chiều dữ liệu (Dimensionality Reduction)
23. Đâu là nhược điểm chính của thuật toán K-means?
A. Luôn tìm ra cụm tối ưu toàn cục.
B. Không nhạy cảm với nhiễu.
C. Yêu cầu xác định trước số lượng cụm (k).
D. Tính toán nhanh chóng với dữ liệu lớn.
24. Thách thức lớn nhất khi khai phá dữ liệu trên dữ liệu lớn (Big Data) thường là gì?
A. Sự thiếu hụt các thuật toán khai phá dữ liệu phù hợp.
B. Khả năng xử lý và tính toán hiệu quả với lượng dữ liệu khổng lồ và tốc độ cao.
C. Sự đơn giản của các phương pháp khai phá dữ liệu truyền thống.
D. Chi phí thấp của việc lưu trữ dữ liệu lớn.
25. Trong bối cảnh dữ liệu lớn, phương pháp nào sau đây thường được ưu tiên để giảm chiều dữ liệu?
A. Principal Component Analysis (PCA)
B. Linear Discriminant Analysis (LDA)
C. Decision Tree
D. K-Nearest Neighbors (KNN)
26. Trong khai phá dữ liệu chuỗi thời gian (Time Series Data Mining), mục tiêu chính thường là gì?
A. Phân loại dữ liệu văn bản.
B. Dự đoán giá trị tương lai dựa trên dữ liệu quá khứ.
C. Phân nhóm khách hàng dựa trên thông tin nhân khẩu học.
D. Tìm các luật kết hợp trong dữ liệu giao dịch.
27. Phương pháp khai phá dữ liệu nào thường được sử dụng để phân nhóm khách hàng dựa trên hành vi mua sắm tương tự?
A. Phân loại (Classification)
B. Hồi quy (Regression)
C. Phân cụm (Clustering)
D. Khai thác luật kết hợp (Association Rule Mining)
28. Phương pháp `Anomaly Detection` (Phát hiện bất thường) được sử dụng để làm gì?
A. Phân loại dữ liệu thành các nhóm có ý nghĩa.
B. Dự đoán xu hướng phát triển của dữ liệu.
C. Xác định các điểm dữ liệu khác biệt đáng kể so với phần lớn dữ liệu còn lại.
D. Tìm các mối quan hệ giữa các thuộc tính dữ liệu.
29. TF-IDF (Term Frequency-Inverse Document Frequency) là một kỹ thuật được sử dụng trong khai phá dữ liệu văn bản để làm gì?
A. Phân loại văn bản.
B. Phân cụm văn bản.
C. Đánh giá tầm quan trọng của từ trong một văn bản so với toàn bộ tập văn bản.
D. Trích xuất thông tin từ văn bản.
30. Ứng dụng nào sau đây KHÔNG phải là ứng dụng phổ biến của khai phá dữ liệu?
A. Dự đoán xu hướng thị trường chứng khoán.
B. Phát hiện gian lận thẻ tín dụng.
C. Tối ưu hóa quy trình sản xuất công nghiệp.
D. Sao chép dữ liệu từ hệ thống này sang hệ thống khác.