1. Độ đo nào sau đây KHÔNG thường được sử dụng để đánh giá hiệu suất của mô hình phân loại?
A. Độ chính xác (Accuracy)
B. Độ thu hồi (Recall)
C. Giá trị trung bình (Mean)
D. F1-score
2. Trong phân tích chuỗi thời gian (time series analysis), mục tiêu chính là:
A. Phân loại dữ liệu dựa trên thuộc tính.
B. Dự đoán giá trị tương lai dựa trên các mẫu trong dữ liệu theo thời gian.
C. Phân nhóm dữ liệu thành các cụm khác nhau.
D. Tìm các luật kết hợp giữa các sự kiện.
3. Trong quy trình khai phá dữ liệu, bước nào sau đây thường được thực hiện ĐẦU TIÊN?
A. Đánh giá mô hình
B. Tiền xử lý dữ liệu
C. Lựa chọn dữ liệu
D. Khai phá mẫu
4. Trong khai phá dữ liệu, `dữ liệu nhiễu` (noisy data) đề cập đến:
A. Dữ liệu được mã hóa bằng nhiều ngôn ngữ khác nhau.
B. Dữ liệu không đầy đủ hoặc bị lỗi, có thể gây sai lệch trong phân tích.
C. Dữ liệu có kích thước quá lớn, gây khó khăn trong xử lý.
D. Dữ liệu không liên quan đến mục tiêu khai phá.
5. Kỹ thuật `ensemble learning` (học tập kết hợp) trong khai phá dữ liệu nhằm mục đích:
A. Đơn giản hóa mô hình học máy.
B. Kết hợp dự đoán của nhiều mô hình học máy để cải thiện độ chính xác và độ ổn định.
C. Giảm kích thước dữ liệu huấn luyện.
D. Tăng tốc độ huấn luyện mô hình.
6. Phương pháp `cross-validation` (kiểm định chéo) được sử dụng trong khai phá dữ liệu để:
A. Tăng kích thước tập dữ liệu huấn luyện.
B. Đánh giá độ tin cậy của mô hình trên dữ liệu chưa từng thấy.
C. Giảm độ phức tạp của mô hình.
D. Làm sạch dữ liệu nhiễu.
7. Loại dữ liệu nào sau đây KHÔNG thường được khai thác trong khai phá dữ liệu?
A. Dữ liệu văn bản (Text data)
B. Dữ liệu hình ảnh (Image data)
C. Dữ liệu âm thanh (Audio data)
D. Dữ liệu không tồn tại (Non-existent data)
8. Thuật toán khai phá dữ liệu nào thường được sử dụng để tìm ra các tập mục phổ biến (frequent itemsets) trong phân tích giỏ hàng (market basket analysis)?
A. k-Means
B. Apriori
C. Support Vector Machine (SVM)
D. Decision Tree
9. Vấn đề `data drift` (trôi dữ liệu) trong khai phá dữ liệu đề cập đến:
A. Sự gia tăng kích thước của dữ liệu theo thời gian.
B. Sự thay đổi về phân phối thống kê của dữ liệu đầu vào theo thời gian, làm giảm hiệu suất mô hình.
C. Sự di chuyển vật lý của trung tâm dữ liệu.
D. Lỗi trong quá trình nhập liệu dữ liệu.
10. Loại hình khai phá dữ liệu nào tập trung vào việc khám phá các mối quan hệ tuần tự hoặc mẫu theo thời gian trong dữ liệu?
A. Phân cụm (Clustering)
B. Phân loại (Classification)
C. Khai phá chuỗi thời gian (Sequential Pattern Mining)
D. Khai thác luật kết hợp (Association Rule Mining)
11. Trong quá trình khai phá dữ liệu, bước `data cleaning` (làm sạch dữ liệu) bao gồm công việc nào?
A. Chọn thuật toán khai phá dữ liệu.
B. Xây dựng mô hình dự đoán.
C. Xử lý giá trị thiếu, loại bỏ dữ liệu nhiễu và chuẩn hóa dữ liệu.
D. Đánh giá hiệu suất mô hình.
12. Trong ngữ cảnh khai phá dữ liệu, `data warehouse` (kho dữ liệu) chủ yếu được sử dụng để:
A. Thu thập dữ liệu thời gian thực.
B. Lưu trữ và quản lý dữ liệu đã được tích hợp và làm sạch, phục vụ cho phân tích và báo cáo.
C. Tiền xử lý dữ liệu thô.
D. Trực quan hóa dữ liệu.
13. Trong khai phá dữ liệu văn bản (text mining), kỹ thuật `phân tích tình cảm` (sentiment analysis) được sử dụng để:
A. Phân loại văn bản theo chủ đề.
B. Xác định cảm xúc hoặc ý kiến được thể hiện trong văn bản.
C. Tóm tắt nội dung chính của văn bản.
D. Dịch văn bản sang ngôn ngữ khác.
14. Trong ngữ cảnh dữ liệu lớn (big data), `Hadoop` thường được sử dụng cho mục đích:
A. Trực quan hóa dữ liệu.
B. Lưu trữ và xử lý phân tán dữ liệu có kích thước cực lớn.
C. Xây dựng giao diện người dùng cho ứng dụng khai phá dữ liệu.
D. Mã hóa dữ liệu để bảo mật.
15. Trong khai phá dữ liệu, thuật ngữ `feature engineering` (kỹ thuật đặc trưng) đề cập đến:
A. Quá trình lựa chọn thuật toán khai phá dữ liệu phù hợp.
B. Quá trình chuyển đổi và tạo ra các thuộc tính (features) mới từ dữ liệu thô để cải thiện hiệu suất mô hình.
C. Quá trình đánh giá chất lượng dữ liệu.
D. Quá trình trực quan hóa dữ liệu.
16. Phân biệt chính xác nhất giữa `Khai phá dữ liệu` và `Học máy` (Machine Learning) là:
A. Khai phá dữ liệu là một nhánh của Học máy.
B. Học máy tập trung vào dữ liệu lớn hơn Khai phá dữ liệu.
C. Khai phá dữ liệu tập trung vào khám phá tri thức, Học máy tập trung vào xây dựng mô hình dự đoán.
D. Không có sự khác biệt đáng kể giữa Khai phá dữ liệu và Học máy.
17. Ứng dụng nào sau đây KHÔNG phải là ứng dụng phổ biến của khai phá dữ liệu?
A. Phát hiện gian lận thẻ tín dụng
B. Dự đoán xu hướng thị trường chứng khoán
C. Tối ưu hóa thiết kế phần cứng máy tính
D. Cá nhân hóa trải nghiệm người dùng trên website thương mại điện tử
18. Kỹ thuật khai phá dữ liệu nào phù hợp nhất để phát hiện các giao dịch gian lận trong hệ thống ngân hàng?
A. Phân tích hồi quy tuyến tính (Linear Regression)
B. Phân tích chuỗi thời gian (Time Series Analysis)
C. Phát hiện dị thường (Anomaly Detection)
D. Phân tích thành phần chính (Principal Component Analysis - PCA)
19. Thuật ngữ `precision` (độ chính xác) trong đánh giá mô hình phân loại được tính bằng:
A. Tỷ lệ dự đoán đúng trên tổng số mẫu thực tế là tích cực.
B. Tỷ lệ dự đoán đúng là tích cực trên tổng số mẫu được dự đoán là tích cực.
C. Tỷ lệ dự đoán đúng trên tổng số mẫu.
D. Tỷ lệ mẫu thực tế là tích cực được dự đoán đúng.
20. Phương pháp tiền xử lý dữ liệu nào sau đây được sử dụng để xử lý các giá trị thiếu (missing values)?
A. Chuẩn hóa dữ liệu (Data normalization)
B. Rời rạc hóa dữ liệu (Data discretization)
C. Điền giá trị thiếu (Imputation)
D. Lựa chọn thuộc tính (Feature selection)
21. Kỹ thuật khai phá dữ liệu nào sau đây thường được sử dụng để phân nhóm khách hàng thành các phân khúc khác nhau dựa trên hành vi mua sắm?
A. Phân loại (Classification)
B. Hồi quy (Regression)
C. Phân cụm (Clustering)
D. Khai thác luật kết hợp (Association Rule Mining)
22. Công cụ khai phá dữ liệu mã nguồn mở (open-source) phổ biến nào sau đây được viết bằng ngôn ngữ Python và cung cấp nhiều thuật toán học máy?
A. RapidMiner
B. Weka
C. KNIME
D. scikit-learn
23. Kỹ thuật `giảm chiều dữ liệu` (dimensionality reduction) trong khai phá dữ liệu nhằm mục đích:
A. Tăng số lượng thuộc tính (features) của dữ liệu.
B. Giảm số lượng thuộc tính của dữ liệu trong khi vẫn giữ được thông tin quan trọng.
C. Tăng kích thước của tập dữ liệu.
D. Làm sạch dữ liệu nhiễu.
24. Khai phá dữ liệu (Data Mining) được định nghĩa chính xác nhất là:
A. Quá trình thu thập dữ liệu từ nhiều nguồn khác nhau.
B. Quá trình chuyển đổi dữ liệu thô thành định dạng dễ đọc hơn.
C. Quá trình khám phá tri thức hữu ích từ lượng lớn dữ liệu.
D. Quá trình lưu trữ và quản lý dữ liệu hiệu quả.
25. Khái niệm `support` (độ hỗ trợ) trong khai thác luật kết hợp (association rule mining) thể hiện:
A. Độ tin cậy của luật kết hợp.
B. Tần suất xuất hiện của một tập mục trong cơ sở dữ liệu.
C. Độ cải thiện của luật so với dự đoán ngẫu nhiên.
D. Mức độ quan trọng của luật đối với người dùng.
26. Trong mô hình phân loại, `overfitting` (quá khớp) xảy ra khi:
A. Mô hình quá đơn giản và không thể nắm bắt được các mẫu trong dữ liệu.
B. Mô hình học quá tốt trên dữ liệu huấn luyện nhưng kém hiệu quả trên dữ liệu mới.
C. Mô hình được huấn luyện trên dữ liệu nhiễu.
D. Mô hình không đủ dữ liệu để học.
27. Thuật toán `k-Means` thuộc loại kỹ thuật khai phá dữ liệu nào?
A. Phân loại (Classification)
B. Hồi quy (Regression)
C. Phân cụm (Clustering)
D. Khai thác luật kết hợp (Association Rule Mining)
28. Yếu tố nào sau đây KHÔNG phải là thách thức lớn trong khai phá dữ liệu?
A. Dữ liệu có độ nhiễu cao (High noise data).
B. Dữ liệu có kích thước nhỏ (Small data size).
C. Tính riêng tư và bảo mật dữ liệu (Data privacy and security).
D. Khả năng mở rộng của thuật toán (Scalability of algorithms).
29. Ưu điểm chính của việc sử dụng khai phá dữ liệu trong kinh doanh là:
A. Giảm chi phí lưu trữ dữ liệu.
B. Tăng cường bảo mật dữ liệu.
C. Cải thiện việc ra quyết định dựa trên tri thức từ dữ liệu.
D. Tự động hóa hoàn toàn quy trình kinh doanh.
30. Đâu là một thách thức đạo đức quan trọng liên quan đến khai phá dữ liệu?
A. Tốc độ xử lý dữ liệu chậm.
B. Sự thiếu hụt các thuật toán hiệu quả.
C. Xâm phạm quyền riêng tư và sử dụng dữ liệu cá nhân không được phép.
D. Chi phí lưu trữ dữ liệu cao.