1. Mục tiêu chính của khai phá dữ liệu (Data Mining) là gì?
A. Tối ưu hóa hiệu suất của cơ sở dữ liệu.
B. Trích xuất thông tin hoặc tri thức hữu ích từ lượng lớn dữ liệu.
C. Cải thiện giao diện người dùng của các ứng dụng phần mềm.
D. Bảo mật dữ liệu khỏi các truy cập trái phép.
2. Điểm khác biệt cốt lõi giữa khai phá dữ liệu (Data Mining) và học máy (Machine Learning) là gì?
A. Khai phá dữ liệu chỉ làm việc với dữ liệu số, trong khi học máy có thể xử lý mọi loại dữ liệu.
B. Khai phá dữ liệu tập trung vào khám phá tri thức ẩn, còn học máy tập trung vào việc xây dựng mô hình dự đoán hoặc ra quyết định.
C. Học máy là một lĩnh vực con của khai phá dữ liệu.
D. Khai phá dữ liệu sử dụng thuật toán thống kê, còn học máy sử dụng thuật toán dựa trên logic.
3. Trong ngữ cảnh của phân loại (Classification), `ma trận nhầm lẫn` (confusion matrix) được sử dụng để làm gì?
A. Tăng tốc độ huấn luyện mô hình phân loại.
B. Trực quan hóa cấu trúc của mô hình cây quyết định.
C. Đánh giá hiệu suất của mô hình phân loại bằng cách hiển thị số lượng dự đoán đúng và sai cho từng lớp.
D. Tiền xử lý dữ liệu đầu vào cho mô hình phân loại.
4. Ưu điểm chính của việc sử dụng cây quyết định (Decision Tree) trong khai phá dữ liệu là gì?
A. Luôn cho độ chính xác dự đoán cao nhất so với các thuật toán khác.
B. Khả năng xử lý tốt dữ liệu có chiều cao.
C. Tính dễ diễn giải và trực quan hóa, giúp hiểu rõ quy luật ra quyết định của mô hình.
D. Yêu cầu ít dữ liệu huấn luyện hơn so với các mô hình phức tạp khác.
5. Ảnh hưởng của hiện tượng `quá khớp` (overfitting) đến mô hình khai phá dữ liệu là gì?
A. Mô hình trở nên quá đơn giản và không thể nắm bắt được các mẫu phức tạp trong dữ liệu.
B. Mô hình hoạt động tốt trên dữ liệu huấn luyện nhưng kém hiệu quả trên dữ liệu mới hoặc dữ liệu kiểm tra.
C. Mô hình bị chậm hơn trong quá trình huấn luyện.
D. Mô hình yêu cầu nhiều bộ nhớ hơn để lưu trữ.
6. Mục đích chính của tiền xử lý dữ liệu (Data Preprocessing) trong khai phá dữ liệu là gì?
A. Tăng tốc độ truy vấn dữ liệu.
B. Giảm dung lượng lưu trữ dữ liệu.
C. Cải thiện chất lượng dữ liệu và làm cho dữ liệu phù hợp hơn cho khai thác.
D. Bảo vệ dữ liệu khỏi truy cập trái phép trong quá trình khai thác.
7. Thuật toán nào sau đây thường được sử dụng cho khai thác luật kết hợp (Association Rule Mining)?
A. K-means.
B. Apriori.
C. Support Vector Machine (SVM).
D. Cây quyết định (Decision Tree).
8. Trong khai phá dữ liệu, `lời nguyền chiều cao` (curse of dimensionality) đề cập đến vấn đề gì?
A. Sự gia tăng độ phức tạp tính toán và giảm hiệu suất mô hình khi số chiều dữ liệu (số lượng thuộc tính) tăng lên.
B. Khó khăn trong việc trực quan hóa dữ liệu có nhiều chiều.
C. Sự khan hiếm dữ liệu trong không gian chiều cao.
D. Cả ba đáp án trên.
9. Thách thức nào sau đây là đặc biệt quan trọng khi khai phá dữ liệu lớn (Big Data)?
A. Sự phức tạp của thuật toán khai phá dữ liệu.
B. Khả năng mở rộng và hiệu suất tính toán để xử lý khối lượng dữ liệu khổng lồ và tốc độ tạo dữ liệu cao.
C. Sự thiếu hụt các công cụ trực quan hóa dữ liệu.
D. Sự khó khăn trong việc thu thập dữ liệu.
10. Trong khai phá dữ liệu, thuật ngữ `nhiễu` (noise) thường đề cập đến:
A. Dữ liệu bị mã hóa hoặc nén.
B. Dữ liệu không đầy đủ hoặc bị thiếu giá trị.
C. Dữ liệu không liên quan hoặc không mong muốn, có thể gây sai lệch kết quả phân tích.
D. Dữ liệu được tạo ra từ các nguồn không đáng tin cậy.
11. Nhiệm vụ khai phá dữ liệu nào được sử dụng để dự đoán một giá trị liên tục dựa trên các biến đầu vào?
A. Phân loại (Classification).
B. Hồi quy (Regression).
C. Phân cụm (Clustering).
D. Khai thác luật kết hợp (Association Rule Mining).
12. Mục đích của `kiểm định chéo` (cross-validation) trong khai phá dữ liệu là gì?
A. Tăng kích thước tập dữ liệu huấn luyện.
B. Đánh giá khả năng tổng quát hóa của mô hình trên dữ liệu chưa từng thấy và ước tính hiệu suất mô hình một cách khách quan hơn.
C. Giảm thời gian huấn luyện mô hình.
D. Cải thiện khả năng trực quan hóa kết quả mô hình.
13. Sự khác biệt cơ bản giữa học có giám sát (Supervised Learning) và học không giám sát (Unsupervised Learning) là gì?
A. Học có giám sát sử dụng ít dữ liệu hơn học không giám sát.
B. Học có giám sát yêu cầu dữ liệu đầu vào được gán nhãn, trong khi học không giám sát làm việc với dữ liệu không nhãn.
C. Học không giám sát luôn cho kết quả chính xác hơn học có giám sát.
D. Học có giám sát chỉ áp dụng cho dữ liệu số, còn học không giám sát cho dữ liệu văn bản.
14. Lợi ích chính của việc sử dụng các phương pháp `tập hợp` (ensemble methods) trong khai phá dữ liệu là gì?
A. Giảm độ phức tạp của mô hình.
B. Tăng tốc độ huấn luyện mô hình.
C. Cải thiện độ chính xác và tính ổn định của mô hình dự đoán.
D. Giảm yêu cầu về dung lượng dữ liệu huấn luyện.
15. Trong khai thác luật kết hợp (Association Rule Mining), `độ hỗ trợ` (support) của một tập mục (itemset) được định nghĩa là gì?
A. Xác suất các mục trong tập mục xuất hiện cùng nhau trong một giao dịch.
B. Mức độ tin cậy của luật kết hợp được tạo ra từ tập mục.
C. Số lượng giao dịch chứa tập mục đó.
D. Tần suất tập mục xuất hiện trong cơ sở dữ liệu, thường được biểu diễn dưới dạng tỷ lệ phần trăm của tổng số giao dịch.
16. Thuật toán nào sau đây có độ nhạy cảm cao với dữ liệu ngoại lai (outliers)?
A. Cây quyết định (Decision Tree).
B. K-means.
C. Naive Bayes.
D. Luật kết hợp Apriori (Apriori Association Rule).
17. Mục tiêu chính của phát hiện dị thường (Anomaly Detection) là gì?
A. Phân loại dữ liệu thành các nhóm khác nhau.
B. Dự đoán giá trị của một biến số liên tục.
C. Xác định các mẫu dữ liệu hiếm gặp hoặc bất thường, khác biệt đáng kể so với dữ liệu thông thường.
D. Tìm ra các mối quan hệ kết hợp giữa các biến trong dữ liệu.
18. Loại khai phá dữ liệu nào có thể được sử dụng để xác định các giao dịch gian lận trong lĩnh vực tài chính?
A. Phân cụm (Clustering).
B. Phát hiện dị thường (Anomaly Detection).
C. Hồi quy (Regression).
D. Khai thác luật kết hợp (Association Rule Mining).
19. Khía cạnh đạo đức nào liên quan đến quyền riêng tư dữ liệu (data privacy) là quan trọng nhất trong khai phá dữ liệu?
A. Đảm bảo dữ liệu luôn sẵn sàng cho việc khai thác.
B. Sử dụng dữ liệu cá nhân một cách có trách nhiệm và tuân thủ các quy định về bảo vệ dữ liệu, tránh xâm phạm quyền riêng tư của cá nhân.
C. Tối đa hóa lợi nhuận từ việc khai thác dữ liệu.
D. Chia sẻ dữ liệu với càng nhiều bên càng tốt để tăng cường hợp tác.
20. Hoạt động nào sau đây KHÔNG phải là một nhiệm vụ khai phá dữ liệu điển hình?
A. Phân tích cảm xúc từ văn bản (Sentiment Analysis).
B. Dự đoán xu hướng thị trường chứng khoán (Stock Market Trend Prediction).
C. Thiết kế giao diện người dùng (User Interface Design).
D. Phát hiện gian lận thẻ tín dụng (Credit Card Fraud Detection).
21. Phân cụm dữ liệu (Clustering) trong khai phá dữ liệu là quá trình:
A. Gán nhãn cho các điểm dữ liệu dựa trên tập nhãn đã biết.
B. Chia dữ liệu thành các nhóm sao cho các đối tượng trong cùng một nhóm tương tự nhau và khác biệt với các đối tượng trong nhóm khác.
C. Dự đoán giá trị của một biến mục tiêu dựa trên các biến đầu vào.
D. Tìm kiếm các quy tắc mô tả mối quan hệ giữa các biến trong cơ sở dữ liệu.
22. Kỹ thuật học máy KHÔNG giám sát (Unsupervised Learning) nào thường được sử dụng trong khai phá dữ liệu?
A. Cây quyết định (Decision Tree).
B. Mạng nơ-ron (Neural Network).
C. K-láng giềng gần nhất (K-Nearest Neighbors - KNN).
D. Phân cụm K-means (K-means Clustering).
23. Mục đích của việc `lựa chọn đặc trưng` (feature selection) trong khai phá dữ liệu là gì?
A. Tăng số lượng đặc trưng để mô hình học được nhiều thông tin hơn.
B. Giảm số lượng đặc trưng không liên quan hoặc dư thừa, giúp đơn giản hóa mô hình và cải thiện hiệu suất.
C. Biến đổi các đặc trưng số thành đặc trưng phân loại.
D. Tăng cường tính bảo mật của dữ liệu đặc trưng.
24. Kỹ thuật khai phá dữ liệu nào phù hợp nhất để nhóm khách hàng có hành vi mua sắm tương tự nhau?
A. Phân loại (Classification).
B. Hồi quy (Regression).
C. Phân cụm (Clustering).
D. Khai thác luật kết hợp (Association Rule Mining).
25. Loại khai phá dữ liệu nào thường được sử dụng cho phân tích giỏ hàng (market basket analysis) trong bán lẻ?
A. Phân cụm (Clustering).
B. Hồi quy (Regression).
C. Khai thác luật kết hợp (Association Rule Mining).
D. Phát hiện dị thường (Anomaly Detection).
26. Công đoạn nào sau đây thường diễn ra ĐẦU TIÊN trong quy trình Khám phá Tri thức từ Dữ liệu (KDD)?
A. Khai thác dữ liệu (Data Mining).
B. Tiền xử lý dữ liệu (Data Preprocessing).
C. Đánh giá mẫu (Pattern Evaluation).
D. Chọn dữ liệu (Data Selection).
27. Ví dụ nào sau đây minh họa tốt nhất cho nhiệm vụ hồi quy (Regression) trong khai phá dữ liệu?
A. Phân loại khách hàng thành nhóm `có nguy cơ rời bỏ` và `không có nguy cơ rời bỏ`.
B. Dự đoán số lượng sản phẩm bán được trong tháng tới dựa trên dữ liệu quảng cáo và mùa vụ.
C. Phân nhóm các bài báo thành các chủ đề tin tức khác nhau.
D. Tìm ra các mặt hàng thường được mua cùng nhau trong siêu thị.
28. Ví dụ nào sau đây minh họa tốt nhất cho nhiệm vụ phân loại (Classification) trong khai phá dữ liệu?
A. Dự đoán nhiệt độ trung bình hàng ngày dựa trên dữ liệu lịch sử.
B. Phân nhóm khách hàng thành các phân khúc khác nhau dựa trên hành vi mua sắm.
C. Xác định xem một email là thư rác (spam) hay không phải thư rác (non-spam).
D. Tìm ra các sản phẩm thường được mua cùng nhau trong các giao dịch bán lẻ.
29. Vai trò của trực quan hóa dữ liệu (Data Visualization) trong khai phá dữ liệu là gì?
A. Thay thế hoàn toàn các thuật toán khai phá dữ liệu phức tạp.
B. Chỉ được sử dụng trong giai đoạn tiền xử lý dữ liệu.
C. Hỗ trợ con người hiểu rõ hơn về dữ liệu, các mẫu tri thức được khai phá và kết quả mô hình, cũng như trình bày kết quả một cách trực quan và dễ tiếp cận.
D. Chỉ dùng để tạo báo cáo cuối cùng sau khi quá trình khai phá dữ liệu hoàn tất.
30. Vai trò của các độ đo đánh giá (Evaluation Metrics) trong khai phá dữ liệu là gì?
A. Để tăng tốc độ tính toán của thuật toán khai phá dữ liệu.
B. Để định lượng và so sánh hiệu suất của các mô hình khai phá dữ liệu khác nhau.
C. Để đảm bảo tính bảo mật của dữ liệu trong quá trình khai thác.
D. Để trực quan hóa kết quả khai phá dữ liệu một cách dễ hiểu.