1. Đâu là một ứng dụng phổ biến của Khai phá dữ liệu trong lĩnh vực **y tế**?
A. Dự báo giá cổ phiếu
B. Phân tích cảm xúc khách hàng
C. Chẩn đoán bệnh và dự đoán nguy cơ bệnh
D. Tối ưu hóa chuỗi cung ứng
2. Phương pháp Khai phá dữ liệu nào được sử dụng để khám phá các mối quan hệ **kết hợp** giữa các mục dữ liệu trong một tập dữ liệu lớn (ví dụ: phân tích giỏ hàng)?
A. Phân cụm (Clustering)
B. Phân lớp (Classification)
C. Khai thác luật kết hợp (Association Rule Mining)
D. Hồi quy (Regression)
3. Kỹ thuật Khai phá dữ liệu nào có thể giúp phân tích và dự đoán xu hướng thị trường chứng khoán?
A. Phân cụm (Clustering)
B. Phân lớp (Classification)
C. Dự báo chuỗi thời gian (Time Series Forecasting)
D. Khai thác luật kết hợp (Association Rule Mining)
4. Phương pháp Khai phá dữ liệu nào có thể giúp một công ty thương mại điện tử **đề xuất sản phẩm** cho khách hàng?
A. Phân cụm khách hàng dựa trên hành vi mua sắm.
B. Khai thác luật kết hợp để tìm ra các sản phẩm thường được mua cùng nhau.
C. Dự đoán nhu cầu sản phẩm trong tương lai.
D. Tất cả các phương án trên đều có thể áp dụng.
5. Phương pháp Khai phá dữ liệu nào thích hợp nhất để **dự đoán giá nhà** dựa trên các yếu tố như diện tích, vị trí, số phòng ngủ?
A. Phân lớp (Classification)
B. Hồi quy (Regression)
C. Phân cụm (Clustering)
D. Khai thác luật kết hợp (Association Rule Mining)
6. Trong Khai phá dữ liệu, `overfitting` (quá khớp) đề cập đến vấn đề gì?
A. Mô hình hoạt động quá chậm do dữ liệu quá lớn.
B. Mô hình học quá tốt trên dữ liệu huấn luyện nhưng kém hiệu quả trên dữ liệu mới.
C. Mô hình không đủ phức tạp để nắm bắt các mẫu trong dữ liệu.
D. Dữ liệu huấn luyện không đủ lớn để xây dựng mô hình tốt.
7. Đâu là một ví dụ về công cụ Khai phá dữ liệu mã nguồn mở phổ biến?
A. Microsoft SQL Server
B. Tableau
C. Weka
D. SPSS
8. Trong Khai phá dữ liệu, `lift` là một độ đo quan trọng trong kỹ thuật nào và nó thể hiện điều gì?
A. Phân lớp, đo lường mức độ chính xác của mô hình.
B. Phân cụm, đo lường chất lượng phân cụm.
C. Khai thác luật kết hợp, đo lường mức độ quan tâm của quy tắc so với kỳ vọng ngẫu nhiên.
D. Hồi quy, đo lường mức độ phù hợp của mô hình với dữ liệu.
9. Kỹ thuật Khai phá dữ liệu nào được sử dụng để phân chia dữ liệu thành các nhóm có ý nghĩa dựa trên sự tương đồng giữa các đối tượng?
A. Phân lớp (Classification)
B. Hồi quy (Regression)
C. Phân cụm (Clustering)
D. Dự báo chuỗi thời gian (Time Series Forecasting)
10. Trong Khai phá dữ liệu, `dimension reduction` (giảm chiều dữ liệu) được sử dụng để làm gì?
A. Tăng số lượng thuộc tính của dữ liệu.
B. Giảm số lượng thuộc tính của dữ liệu trong khi vẫn giữ lại thông tin quan trọng.
C. Tăng kích thước tập dữ liệu.
D. Cải thiện chất lượng dữ liệu bằng cách loại bỏ dữ liệu nhiễu.
11. Khai phá dữ liệu (Data Mining) được định nghĩa chính xác nhất là gì?
A. Quá trình thu thập dữ liệu từ nhiều nguồn khác nhau.
B. Quá trình phân tích dữ liệu để tìm ra các mẫu, xu hướng và thông tin hữu ích.
C. Quá trình lưu trữ và quản lý dữ liệu hiệu quả.
D. Quá trình trực quan hóa dữ liệu để dễ dàng hiểu.
12. Trong mô hình cây quyết định (Decision Tree), `entropy` được sử dụng để làm gì?
A. Đo lường độ chính xác của mô hình.
B. Đo lường độ không chắc chắn hoặc độ hỗn loạn của một tập dữ liệu.
C. Xác định số lượng nhánh tối ưu của cây.
D. Giảm kích thước của cây quyết định.
13. Trong Khai phá dữ liệu, `data transformation` (biến đổi dữ liệu) có thể bao gồm các hoạt động nào sau đây?
A. Thu thập dữ liệu mới từ các nguồn bên ngoài.
B. Chuẩn hóa dữ liệu, rời rạc hóa dữ liệu, và tạo thuộc tính mới.
C. Đánh giá hiệu suất của mô hình khai phá dữ liệu.
D. Triển khai mô hình khai phá dữ liệu vào ứng dụng thực tế.
14. Thuật toán nào sau đây là một ví dụ của phương pháp phân cụm phân cấp (hierarchical clustering)?
A. K-means
B. DBSCAN
C. Agglomerative Clustering
D. Support Vector Machines (SVM)
15. Phương pháp Khai phá dữ liệu nào thích hợp để phát hiện các `anomaly` (dị thường) hoặc `outlier` (điểm ngoại lai) trong dữ liệu?
A. Phân lớp (Classification)
B. Phân cụm (Clustering)
C. Phát hiện dị thường (Anomaly Detection)
D. Hồi quy (Regression)
16. Trong quy trình Khai phá dữ liệu, bước nào thường được thực hiện **đầu tiên**?
A. Đánh giá mô hình
B. Làm sạch dữ liệu
C. Hiểu bài toán và dữ liệu
D. Triển khai mô hình
17. Đâu là một thách thức **đạo đức** tiềm ẩn trong ứng dụng Khai phá dữ liệu?
A. Chi phí đầu tư vào công nghệ khai phá dữ liệu cao.
B. Nguy cơ vi phạm quyền riêng tư và phân biệt đối xử dựa trên dữ liệu.
C. Sự phức tạp của các thuật toán khai phá dữ liệu.
D. Khó khăn trong việc trực quan hóa kết quả khai phá dữ liệu.
18. Trong Khai phá dữ liệu, `feature selection` (lựa chọn đặc trưng) có mục đích chính là gì?
A. Tăng kích thước tập dữ liệu để cải thiện độ chính xác mô hình.
B. Giảm số lượng đặc trưng đầu vào để đơn giản hóa mô hình và tăng hiệu suất.
C. Thay đổi định dạng dữ liệu để phù hợp với thuật toán khai phá.
D. Trực quan hóa dữ liệu để dễ dàng nhận biết các mẫu.
19. Mục tiêu chính của việc `visualizing` (trực quan hóa) kết quả Khai phá dữ liệu là gì?
A. Tăng độ chính xác của mô hình khai phá dữ liệu.
B. Giúp người dùng dễ dàng hiểu và diễn giải các mẫu và thông tin được khám phá.
C. Tự động hóa quá trình khai phá dữ liệu.
D. Giảm dung lượng lưu trữ dữ liệu.
20. Phương pháp Khai phá dữ liệu nào thường được dùng để phân tích `sentiment` (cảm xúc) từ văn bản?
A. Phân cụm (Clustering)
B. Phân lớp (Classification)
C. Hồi quy (Regression)
D. Khai thác luật kết hợp (Association Rule Mining)
21. Trong Khai phá dữ liệu, `bias-variance tradeoff` đề cập đến sự cân bằng giữa điều gì?
A. Độ chính xác và tốc độ của mô hình.
B. Độ phức tạp của mô hình và khả năng khái quát hóa.
C. Kích thước dữ liệu huấn luyện và dữ liệu kiểm tra.
D. Số lượng thuộc tính và số lượng mẫu dữ liệu.
22. Kỹ thuật `cross-validation` (kiểm định chéo) được sử dụng trong Khai phá dữ liệu để làm gì?
A. Tăng kích thước tập dữ liệu huấn luyện.
B. Đánh giá khả năng khái quát hóa của mô hình trên dữ liệu mới.
C. Làm sạch dữ liệu bị thiếu.
D. Chọn thuật toán khai phá dữ liệu tốt nhất.
23. Trong thuật toán K-means, giá trị `K` đại diện cho điều gì?
A. Số lượng mẫu dữ liệu trong tập dữ liệu.
B. Số chiều của dữ liệu.
C. Số lượng cụm mong muốn.
D. Số lần lặp tối đa của thuật toán.
24. Trong Khai phá dữ liệu, thuật ngữ `confidence` (độ tin cậy) thường được sử dụng trong kỹ thuật nào?
A. Phân cụm (Clustering)
B. Phân lớp (Classification)
C. Khai thác luật kết hợp (Association Rule Mining)
D. Hồi quy (Regression)
25. Trong Khai phá dữ liệu, `data cleaning` (làm sạch dữ liệu) bao gồm các công việc nào?
A. Thu thập dữ liệu từ các nguồn khác nhau.
B. Xác định và loại bỏ dữ liệu nhiễu, dữ liệu thiếu hoặc không nhất quán.
C. Chọn thuật toán khai phá dữ liệu phù hợp.
D. Đánh giá hiệu suất của mô hình khai phá dữ liệu.
26. Đâu là một ví dụ về dữ liệu `unstructured` (phi cấu trúc) thường được khai thác trong Khai phá dữ liệu?
A. Dữ liệu giao dịch bán hàng trong cơ sở dữ liệu quan hệ.
B. Dữ liệu nhật ký hệ thống (log files).
C. Dữ liệu bảng tính (spreadsheet).
D. Dữ liệu cảm biến với định dạng cố định.
27. Trong ngữ cảnh của Khai phá dữ liệu, `noise` (nhiễu) trong dữ liệu thường đề cập đến điều gì?
A. Dữ liệu được thu thập từ nguồn không đáng tin cậy.
B. Dữ liệu không được mã hóa đúng định dạng.
C. Dữ liệu lỗi, không chính xác hoặc không liên quan đến bài toán.
D. Dữ liệu có kích thước quá lớn để xử lý.
28. Kỹ thuật Khai phá dữ liệu nào thường được sử dụng để phát hiện gian lận thẻ tín dụng?
A. Phân cụm (Clustering)
B. Phân lớp (Classification)
C. Hồi quy (Regression)
D. Khai thác luật kết hợp (Association Rule Mining)
29. Phương pháp đánh giá mô hình phân lớp nào đo lường tỷ lệ dự đoán đúng trên tổng số dự đoán?
A. Độ chính xác (Accuracy)
B. Độ đo Recall
C. Độ đo Precision
D. F1-score
30. Đâu là một thách thức lớn trong Khai phá dữ liệu khi làm việc với dữ liệu `big data`?
A. Sự thiếu hụt các thuật toán khai phá dữ liệu hiệu quả.
B. Khả năng xử lý và lưu trữ lượng dữ liệu khổng lồ.
C. Việc thiếu công cụ trực quan hóa dữ liệu.
D. Sự khó khăn trong việc xác định bài toán kinh doanh cần giải quyết.