1. Đâu là định nghĩa chính xác nhất về Khai phá dữ liệu (Data Mining)?
A. Quá trình thu thập dữ liệu từ nhiều nguồn khác nhau.
B. Quá trình phân tích dữ liệu lớn để tìm ra các mẫu, xu hướng và thông tin hữu ích.
C. Quá trình lưu trữ và quản lý dữ liệu một cách hiệu quả.
D. Quá trình trực quan hóa dữ liệu để dễ dàng hiểu và trình bày.
2. Khi nào thì việc sử dụng `dữ liệu tổng hợp` (aggregated data) có thể phù hợp trong khai phá dữ liệu?
A. Khi cần phân tích chi tiết từng giao dịch cá nhân.
B. Khi cần bảo vệ quyền riêng tư và ẩn danh thông tin cá nhân.
C. Khi dữ liệu gốc quá lớn và khó xử lý.
D. Cả 2 và 3.
3. So sánh giữa `học có giám sát` (Supervised Learning) và `học không giám sát` (Unsupervised Learning) trong khai phá dữ liệu, điểm khác biệt chính là gì?
A. Học có giám sát sử dụng dữ liệu có nhãn, học không giám sát sử dụng dữ liệu không nhãn.
B. Học có giám sát chỉ áp dụng cho dữ liệu số, học không giám sát áp dụng cho mọi loại dữ liệu.
C. Học có giám sát cho kết quả chính xác hơn học không giám sát.
D. Học có giám sát phức tạp hơn học không giám sát.
4. Kỹ thuật giảm chiều dữ liệu (Dimensionality Reduction) nhằm mục đích gì?
A. Tăng số lượng thuộc tính của dữ liệu để mô tả chi tiết hơn.
B. Giảm số lượng thuộc tính của dữ liệu trong khi vẫn giữ được thông tin quan trọng.
C. Tăng kích thước của tập dữ liệu để có nhiều thông tin hơn.
D. Thay đổi định dạng dữ liệu để dễ dàng phân tích hơn.
5. Trong khai phá dữ liệu y tế, ứng dụng nào sau đây có tiềm năng lớn?
A. Dự báo thời tiết cho bệnh nhân.
B. Phát hiện sớm bệnh tật và cá nhân hóa phác đồ điều trị.
C. Quản lý kho thuốc.
D. Tối ưu hóa lịch hẹn khám bệnh.
6. Trong quy trình khai phá dữ liệu, bước nào thường được thực hiện đầu tiên?
A. Đánh giá mô hình
B. Chuẩn bị dữ liệu
C. Lựa chọn mô hình
D. Hiểu bài toán nghiệp vụ
7. Phân biệt giữa `dữ liệu định tính` (Qualitative data) và `dữ liệu định lượng` (Quantitative data) trong khai phá dữ liệu.
A. Dữ liệu định tính là dữ liệu số, định lượng là dữ liệu chữ.
B. Dữ liệu định tính mô tả thuộc tính, đặc điểm, định lượng đo lường bằng số.
C. Dữ liệu định tính dễ phân tích hơn dữ liệu định lượng.
D. Dữ liệu định tính luôn chính xác hơn dữ liệu định lượng.
8. Kỹ thuật `ensemble learning` (học tập hợp) trong khai phá dữ liệu là gì?
A. Kết hợp nhiều mô hình học máy khác nhau để cải thiện hiệu suất tổng thể.
B. Chia nhỏ dữ liệu thành nhiều phần nhỏ để huấn luyện mô hình nhanh hơn.
C. Sử dụng một mô hình học máy duy nhất với nhiều tham số.
D. Tự động lựa chọn mô hình học máy tốt nhất cho một bài toán cụ thể.
9. Phương pháp `xác thực chéo` (Cross-validation) được sử dụng để làm gì trong quá trình xây dựng mô hình khai phá dữ liệu?
A. Tăng tốc độ huấn luyện mô hình.
B. Đánh giá khách quan hiệu suất của mô hình trên dữ liệu chưa từng thấy.
C. Giảm thiểu overfitting.
D. Lựa chọn thuật toán tốt nhất.
10. Trong khai phá dữ liệu chuỗi thời gian, kỹ thuật nào thường được sử dụng để dự báo giá cổ phiếu?
A. Phân tích thành phần chính (Principal Component Analysis - PCA).
B. Mạng nơ-ron hồi quy (Recurrent Neural Networks - RNNs).
C. Cây quyết định (Decision Trees).
D. K-Means.
11. Đâu là một thách thức lớn trong khai phá dữ liệu đối với dữ liệu lớn (Big Data)?
A. Sự thiếu hụt các thuật toán khai phá dữ liệu phù hợp.
B. Khả năng mở rộng và hiệu suất tính toán.
C. Sự khó khăn trong việc thu thập dữ liệu.
D. Sự thiếu hụt nhân lực có kỹ năng phân tích dữ liệu.
12. Đâu là mục tiêu chính của kỹ thuật `phân tích cảm xúc` (Sentiment Analysis) trong khai phá dữ liệu văn bản?
A. Xác định chủ đề chính của văn bản.
B. Phân loại văn bản theo thể loại.
C. Xác định thái độ, cảm xúc (tích cực, tiêu cực, trung lập) thể hiện trong văn bản.
D. Tóm tắt nội dung chính của văn bản.
13. Thuật ngữ `mô hình hộp đen` (Black box model) trong học máy thường ám chỉ loại mô hình nào?
A. Mô hình dễ dàng giải thích logic bên trong.
B. Mô hình có cấu trúc đơn giản.
C. Mô hình phức tạp, khó hoặc không thể hiểu được cơ chế hoạt động bên trong.
D. Mô hình chỉ hoạt động trên dữ liệu văn bản.
14. Khi dữ liệu có nhiều thuộc tính tương quan cao (multicollinearity), điều này có thể gây ra vấn đề gì trong mô hình hồi quy?
A. Tăng độ chính xác của mô hình.
B. Giảm overfitting.
C. Khó khăn trong việc diễn giải ý nghĩa của từng biến độc lập.
D. Tăng tốc độ huấn luyện mô hình.
15. Trong khai phá dữ liệu không gian, ứng dụng nào sau đây là phổ biến?
A. Phân tích cảm xúc khách hàng.
B. Dự báo thời tiết.
C. Phân tích điểm nóng tội phạm.
D. Gợi ý phim ảnh.
16. Khi đánh giá mô hình phân loại, `F1-score` là gì và tại sao nó quan trọng?
A. Trung bình cộng của độ chính xác và độ phủ, quan trọng khi dữ liệu cân bằng.
B. Trung bình điều hòa của độ chính xác và độ phủ, quan trọng khi dữ liệu mất cân bằng.
C. Tỷ lệ giữa số dự đoán đúng và tổng số mẫu, quan trọng khi cần độ chính xác cao.
D. Diện tích dưới đường cong ROC, quan trọng khi so sánh hiệu suất của nhiều mô hình.
17. Thuật toán Apriori thường được sử dụng trong kỹ thuật khai phá dữ liệu nào?
A. Phân loại (Classification)
B. Hồi quy (Regression)
C. Phân cụm (Clustering)
D. Khai thác luật kết hợp (Association Rule Mining)
18. Ưu điểm chính của việc sử dụng `cây quyết định` (Decision Tree) trong phân loại là gì?
A. Hiệu suất cao trên dữ liệu lớn.
B. Dễ dàng giải thích và trực quan hóa.
C. Khả năng xử lý dữ liệu phi tuyến tính tốt.
D. Ít bị ảnh hưởng bởi dữ liệu nhiễu.
19. Trong khai phá dữ liệu, `overfitting` (quá khớp) xảy ra khi nào?
A. Mô hình quá phức tạp và học quá tốt trên dữ liệu huấn luyện nhưng kém trên dữ liệu mới.
B. Mô hình quá đơn giản và không thể nắm bắt được các mẫu trong dữ liệu huấn luyện.
C. Dữ liệu huấn luyện quá ít so với độ phức tạp của bài toán.
D. Quá trình huấn luyện mô hình chưa đạt đến điểm hội tụ.
20. Trong khai phá dữ liệu, `bias` (thiên vị) trong dữ liệu huấn luyện có thể dẫn đến hậu quả gì?
A. Mô hình hoạt động tốt hơn trên dữ liệu mới.
B. Mô hình đưa ra dự đoán không công bằng hoặc phân biệt đối xử với một số nhóm.
C. Tăng tốc độ huấn luyện mô hình.
D. Giảm overfitting.
21. Kỹ thuật khai phá dữ liệu nào thường được sử dụng để phân nhóm khách hàng dựa trên hành vi mua sắm tương tự?
A. Phân loại (Classification)
B. Hồi quy (Regression)
C. Phân cụm (Clustering)
D. Khai thác luật kết hợp (Association Rule Mining)
22. Phương pháp `PCA (Principal Component Analysis)` được sử dụng để làm gì trong tiền xử lý dữ liệu?
A. Chuẩn hóa dữ liệu.
B. Giảm chiều dữ liệu.
C. Làm sạch dữ liệu nhiễu.
D. Điền giá trị thiếu.
23. Trong khai phá dữ liệu web, `web usage mining` (khai phá sử dụng web) tập trung vào việc phân tích dữ liệu nào?
A. Nội dung văn bản trên các trang web.
B. Cấu trúc liên kết giữa các trang web.
C. Hành vi duyệt web của người dùng (ví dụ: nhật ký truy cập web).
D. Hình ảnh và video trên các trang web.
24. Ứng dụng nào sau đây KHÔNG phải là ứng dụng điển hình của khai phá dữ liệu?
A. Phân tích rủi ro tín dụng trong ngân hàng.
B. Dự báo thời tiết.
C. Gợi ý sản phẩm cho khách hàng trong thương mại điện tử.
D. Kiểm soát chất lượng sản phẩm trong sản xuất.
25. Trong ngữ cảnh khai phá dữ liệu, `feature selection` (lựa chọn đặc trưng) có nghĩa là gì?
A. Lựa chọn thuật toán khai phá dữ liệu phù hợp nhất.
B. Lựa chọn một tập con các thuộc tính (features) quan trọng nhất từ dữ liệu.
C. Lựa chọn định dạng lưu trữ dữ liệu tối ưu.
D. Lựa chọn phương pháp đánh giá mô hình phù hợp nhất.
26. Kỹ thuật `clustering` (phân cụm) thường được sử dụng để giải quyết loại bài toán khai phá dữ liệu nào?
A. Dự đoán giá trị liên tục (ví dụ: dự báo doanh số).
B. Phân loại đối tượng vào các nhóm định trước.
C. Tìm cấu trúc ẩn trong dữ liệu và nhóm các đối tượng tương tự.
D. Tìm mối quan hệ nhân quả giữa các biến.
27. Phương pháp `K-Means` thuộc loại kỹ thuật khai phá dữ liệu nào?
A. Phân loại (Classification)
B. Hồi quy (Regression)
C. Phân cụm (Clustering)
D. Khai thác luật kết hợp (Association Rule Mining)
28. Kỹ thuật `Anomaly Detection` (phát hiện bất thường) được sử dụng để làm gì?
A. Phân loại dữ liệu thành các nhóm.
B. Dự đoán giá trị tương lai.
C. Xác định các điểm dữ liệu khác biệt đáng kể so với phần lớn dữ liệu còn lại.
D. Tìm các mối quan hệ giữa các thuộc tính.
29. Trong mô hình phân loại, độ đo `Độ chính xác` (Accuracy) được tính như thế nào?
A. Tổng số dự đoán đúng chia cho tổng số mẫu.
B. Tổng số dự đoán đúng chia cho tổng số dự đoán dương tính.
C. Tổng số mẫu thực tế dương tính chia cho tổng số dự đoán dương tính.
D. Tổng số mẫu thực tế âm tính chia cho tổng số dự đoán âm tính.
30. Phương pháp nào sau đây KHÔNG thuộc nhóm kỹ thuật tiền xử lý dữ liệu?
A. Chuẩn hóa dữ liệu (Data Normalization)
B. Giảm chiều dữ liệu (Dimensionality Reduction)
C. Phân loại dữ liệu (Data Classification)
D. Làm sạch dữ liệu (Data Cleaning)