1. Trong khai thác luật kết hợp, độ đo `confidence` (độ tin cậy) của luật {A} -> {B} thể hiện:
A. Tần suất đồng thời xuất hiện của cả A và B.
B. Xác suất xuất hiện của A.
C. Xác suất xuất hiện của B khi A đã xuất hiện.
D. Mức độ quan trọng của luật trong thực tế.
2. Trong ngữ cảnh khai phá dữ liệu, dữ liệu `nhiễu` (noisy data) thường đề cập đến:
A. Dữ liệu có kích thước quá lớn, gây khó khăn cho việc xử lý.
B. Dữ liệu bị thiếu thông tin quan trọng.
C. Dữ liệu chứa các giá trị sai lệch, lỗi hoặc không nhất quán.
D. Dữ liệu không được lưu trữ theo cấu trúc rõ ràng.
3. Trong ngữ cảnh dữ liệu lớn (Big Data), thách thức nào sau đây trở nên đặc biệt quan trọng trong khai phá dữ liệu?
A. Xử lý dữ liệu bị thiếu.
B. Khả năng mở rộng (Scalability) của thuật toán và hệ thống.
C. Lựa chọn thuật toán khai phá dữ liệu phù hợp.
D. Trực quan hóa kết quả khai phá dữ liệu.
4. Phương pháp nào sau đây KHÔNG phải là một kỹ thuật trực quan hóa dữ liệu phổ biến trong khai phá dữ liệu?
A. Biểu đồ phân tán (Scatter plot).
B. Biểu đồ hộp (Box plot).
C. Phân tích thành phần chính (PCA).
D. Biểu đồ cột (Bar chart).
5. Mục tiêu chính của việc `data cleaning` (làm sạch dữ liệu) trong khai phá dữ liệu là:
A. Giảm kích thước dữ liệu.
B. Cải thiện độ chính xác và độ tin cậy của dữ liệu.
C. Tăng tốc độ xử lý dữ liệu.
D. Chuyển đổi dữ liệu sang định dạng phù hợp.
6. Trong khai phá dữ liệu, `overfitting` (quá khớp) xảy ra khi:
A. Mô hình học quá tốt trên dữ liệu huấn luyện nhưng kém hiệu quả trên dữ liệu mới.
B. Mô hình học quá kém, không nắm bắt được cấu trúc dữ liệu.
C. Mô hình hoạt động tốt trên cả dữ liệu huấn luyện và dữ liệu mới.
D. Dữ liệu huấn luyện không đủ lớn để mô hình học hiệu quả.
7. Đâu là một thách thức đạo đức quan trọng trong ứng dụng khai phá dữ liệu?
A. Sự thiếu hụt nhân lực có kỹ năng khai phá dữ liệu.
B. Nguy cơ xâm phạm quyền riêng tư và phân biệt đối xử do sử dụng dữ liệu cá nhân.
C. Chi phí đầu tư vào hạ tầng và công nghệ khai phá dữ liệu cao.
D. Khó khăn trong việc diễn giải kết quả khai phá dữ liệu cho người không chuyên.
8. Trong quy trình khai phá dữ liệu, giai đoạn nào thường chiếm nhiều thời gian và công sức nhất?
A. Lựa chọn thuật toán khai phá dữ liệu.
B. Đánh giá và diễn giải kết quả khai phá.
C. Tiền xử lý dữ liệu (Data Preprocessing).
D. Triển khai mô hình khai phá dữ liệu vào thực tế.
9. Thuật toán phân cụm DBSCAN (Density-Based Spatial Clustering of Applications with Noise) có ưu điểm nổi bật so với K-Means là:
A. Nhanh hơn và dễ cài đặt hơn.
B. Không yêu cầu biết trước số cụm.
C. Luôn tìm ra cụm hình cầu.
D. Ít bị ảnh hưởng bởi dữ liệu nhiễu.
10. Kỹ thuật `cross-validation` (kiểm định chéo) được sử dụng trong khai phá dữ liệu để:
A. Tăng tốc độ huấn luyện mô hình.
B. Đánh giá khả năng khái quát hóa của mô hình trên dữ liệu mới.
C. Giảm kích thước dữ liệu huấn luyện.
D. Trực quan hóa kết quả khai phá dữ liệu.
11. Trong mô hình cây quyết định (Decision Tree), `entropy` (entropy thông tin) được sử dụng để:
A. Đo lường độ chính xác của mô hình.
B. Đo lường độ không chắc chắn hoặc hỗn loạn của một tập dữ liệu.
C. Xác định số lượng nút lá trong cây quyết định.
D. Kiểm soát độ phức tạp của cây quyết định.
12. Trong khai phá dữ liệu web (Web Mining), `web usage mining` (khai phá sử dụng web) tập trung vào:
A. Phân tích cấu trúc liên kết giữa các trang web.
B. Khai thác nội dung thông tin trên các trang web.
C. Phân tích hành vi duyệt web của người dùng.
D. Xây dựng hệ thống tìm kiếm thông tin trên web.
13. Trong khai phá dữ liệu, `bias-variance tradeoff` (đánh đổi giữa độ chệch và phương sai) đề cập đến:
A. Sự đánh đổi giữa tốc độ huấn luyện và độ chính xác của mô hình.
B. Sự đánh đổi giữa khả năng khái quát hóa và độ phức tạp của mô hình.
C. Sự đánh đổi giữa độ chính xác trên dữ liệu huấn luyện và dữ liệu kiểm tra.
D. Sự đánh đổi giữa kích thước dữ liệu huấn luyện và kích thước dữ liệu kiểm tra.
14. Vấn đề `curse of dimensionality` (lời nguyền chiều dữ liệu) trong khai phá dữ liệu đề cập đến:
A. Sự khó khăn trong việc trực quan hóa dữ liệu nhiều chiều.
B. Sự suy giảm hiệu suất của các thuật toán khi số chiều dữ liệu tăng cao.
C. Sự gia tăng độ phức tạp tính toán khi kích thước dữ liệu lớn.
D. Sự khó khăn trong việc thu thập dữ liệu chất lượng cao.
15. Phương pháp khai phá dữ liệu nào được sử dụng để phân nhóm các đối tượng tương tự nhau thành các cụm, mà không cần biết trước nhãn lớp?
A. Phân lớp (Classification).
B. Hồi quy (Regression).
C. Phân cụm (Clustering).
D. Khai thác luật kết hợp (Association Rule Mining).
16. Độ đo nào sau đây thường được sử dụng để đánh giá hiệu quả của mô hình phân lớp trong khai phá dữ liệu?
A. Độ đo Silhouette (Silhouette score).
B. Độ chính xác (Accuracy).
C. Độ đo Davies-Bouldin (Davies-Bouldin index).
D. Độ đo Root Mean Squared Error (RMSE).
17. Phương pháp nào sau đây thuộc nhóm `feature selection` (lựa chọn đặc trưng) trong tiền xử lý dữ liệu?
A. Phân tích thành phần chính (PCA).
B. Tỉ lệ hóa đặc trưng (Feature scaling).
C. Loại bỏ đặc trưng có phương sai thấp (Variance Thresholding).
D. Trích xuất đặc trưng đa thức (Polynomial Feature Extraction).
18. Ứng dụng nào sau đây KHÔNG phải là ứng dụng phổ biến của khai phá dữ liệu?
A. Dự đoán xu hướng mua sắm của khách hàng.
B. Phát hiện gian lận trong giao dịch ngân hàng.
C. Kiểm soát chất lượng sản phẩm trong quy trình sản xuất.
D. Soạn thảo văn bản pháp luật.
19. Sự khác biệt chính giữa khai phá dữ liệu và thống kê truyền thống là:
A. Thống kê truyền thống chỉ làm việc với dữ liệu số, còn khai phá dữ liệu làm việc với mọi loại dữ liệu.
B. Khai phá dữ liệu tập trung vào khám phá tri thức mới từ dữ liệu lớn, trong khi thống kê truyền thống thường kiểm định giả thuyết trên dữ liệu nhỏ hơn.
C. Khai phá dữ liệu sử dụng thuật toán máy học, còn thống kê truyền thống chỉ sử dụng các phương pháp toán học cổ điển.
D. Khai phá dữ liệu luôn cho kết quả chính xác hơn thống kê truyền thống.
20. Trong khai phá dữ liệu chuỗi thời gian (Time Series Data Mining), phương pháp ARIMA (Autoregressive Integrated Moving Average) thường được sử dụng để:
A. Phân cụm các chuỗi thời gian tương tự.
B. Phân loại các chuỗi thời gian vào các nhóm khác nhau.
C. Dự báo giá trị tương lai của chuỗi thời gian.
D. Phát hiện các điểm bất thường trong chuỗi thời gian.
21. Trong ngữ cảnh khai phá dữ liệu, `mô hình hộp đen` (black box model) thường được dùng để chỉ:
A. Mô hình có độ chính xác dự đoán thấp.
B. Mô hình không thể giải thích được cơ chế hoạt động bên trong.
C. Mô hình được huấn luyện trên dữ liệu nhạy cảm.
D. Mô hình được triển khai trên hệ thống bảo mật cao.
22. Trong khai phá dữ liệu văn bản (Text Mining), kỹ thuật `TF-IDF` (Term Frequency-Inverse Document Frequency) được sử dụng để:
A. Phân loại văn bản theo chủ đề.
B. Trích xuất thực thể có tên (Named Entity Recognition).
C. Tính trọng số của từ trong một văn bản và trong toàn bộ tập văn bản.
D. Phân tích cảm xúc (Sentiment Analysis) của văn bản.
23. Khai phá dữ liệu (Data Mining) được định nghĩa chính xác nhất là:
A. Quá trình thu thập dữ liệu từ nhiều nguồn khác nhau.
B. Quá trình chuyển đổi dữ liệu sang định dạng phù hợp để phân tích.
C. Quá trình khám phá tri thức hữu ích, tiềm ẩn từ lượng lớn dữ liệu.
D. Quá trình trình bày dữ liệu một cách trực quan bằng biểu đồ và đồ thị.
24. Kỹ thuật `feature scaling` (tỉ lệ hóa đặc trưng) trong tiền xử lý dữ liệu nhằm mục đích chính là:
A. Giảm số lượng đặc trưng của dữ liệu.
B. Chuyển đổi dữ liệu dạng categorical sang dạng numerical.
C. Đưa các đặc trưng về cùng một thang đo giá trị.
D. Xử lý dữ liệu bị thiếu (missing values).
25. Thuật toán nào sau đây KHÔNG thuộc nhóm thuật toán phân lớp?
A. Cây quyết định (Decision Tree).
B. K-Means.
C. Máy học véc tơ hỗ trợ (Support Vector Machine - SVM).
D. Mạng nơ-ron (Neural Network).
26. Phương pháp giảm chiều dữ liệu (dimensionality reduction) nào sau đây giúp giữ lại phương sai (variance) lớn nhất của dữ liệu gốc?
A. Phân tích thành phần chính (Principal Component Analysis - PCA).
B. Phân tích thành phần độc lập (Independent Component Analysis - ICA).
C. Lựa chọn đặc trưng (Feature Selection).
D. Trích xuất đặc trưng (Feature Extraction).
27. Trong khai phá dữ liệu không gian (Spatial Data Mining), loại dữ liệu nào sau đây là đối tượng nghiên cứu chính?
A. Dữ liệu văn bản.
B. Dữ liệu chuỗi thời gian.
C. Dữ liệu địa lý và dữ liệu liên quan đến vị trí không gian.
D. Dữ liệu mạng xã hội.
28. Phương pháp `ensemble learning` (học tập hợp) trong khai phá dữ liệu nhằm mục đích:
A. Giảm kích thước dữ liệu huấn luyện.
B. Kết hợp dự đoán của nhiều mô hình học máy để cải thiện độ chính xác.
C. Tăng tốc độ huấn luyện mô hình.
D. Trực quan hóa kết quả của mô hình học máy.
29. Thuật toán phân cụm K-Means hoạt động dựa trên nguyên tắc:
A. Tìm các điểm dữ liệu gần nhau nhất để tạo thành cụm.
B. Phân chia dữ liệu thành k cụm sao cho tổng khoảng cách từ các điểm đến trung tâm cụm của chúng là nhỏ nhất.
C. Xây dựng cây phân cấp các cụm dựa trên khoảng cách giữa các điểm dữ liệu.
D. Tìm các vùng có mật độ điểm dữ liệu cao để tạo thành cụm.
30. Trong khai thác luật kết hợp, độ đo `support` (độ hỗ trợ) của một luật {A} -> {B} thể hiện:
A. Xác suất xuất hiện của B khi đã biết A xuất hiện.
B. Tần suất đồng thời xuất hiện của cả A và B trong tập dữ liệu.
C. Mức độ tin cậy của luật {A} -> {B}.
D. Mức độ hữu ích của luật {A} -> {B}.