1. Ma trận nhầm lẫn (confusion matrix) được sử dụng để đánh giá hiệu suất của mô hình nào?
A. Mô hình hồi quy.
B. Mô hình phân lớp.
C. Mô hình phân cụm.
D. Mô hình luật kết hợp.
2. Khi dữ liệu bị `quá khớp` (overfitting) trong mô hình học máy, điều gì có khả năng xảy ra?
A. Mô hình hoạt động tốt trên cả dữ liệu huấn luyện và dữ liệu kiểm tra.
B. Mô hình hoạt động kém trên dữ liệu huấn luyện nhưng tốt trên dữ liệu kiểm tra.
C. Mô hình hoạt động tốt trên dữ liệu huấn luyện nhưng kém trên dữ liệu kiểm tra.
D. Mô hình hoạt động kém trên cả dữ liệu huấn luyện và dữ liệu kiểm tra.
3. Kỹ thuật `lựa chọn đặc trưng` (feature selection) nhằm mục đích:
A. Tạo ra các đặc trưng mới từ các đặc trưng hiện có.
B. Giảm số lượng đặc trưng đầu vào bằng cách chọn ra một tập con các đặc trưng quan trọng nhất.
C. Chuyển đổi dữ liệu sang định dạng phù hợp hơn.
D. Phân cụm dữ liệu dựa trên đặc trưng.
4. Khi nào thì nên sử dụng phương pháp phân cụm phân cấp (hierarchical clustering) thay vì k-means?
A. Khi biết trước số lượng cụm.
B. Khi dữ liệu có kích thước rất lớn.
C. Khi muốn khám phá cấu trúc phân cấp tự nhiên của dữ liệu.
D. Khi yêu cầu tốc độ tính toán nhanh.
5. Độ đo `độ chính xác` (accuracy) trong phân lớp được tính bằng:
A. Tỷ lệ mẫu phân loại sai trên tổng số mẫu.
B. Tỷ lệ mẫu phân loại đúng trên tổng số mẫu.
C. Tỷ lệ dương tính thật trên tổng số mẫu thực tế là dương tính.
D. Tỷ lệ dương tính thật trên tổng số mẫu được dự đoán là dương tính.
6. Khai phá dữ liệu (Data Mining) được định nghĩa chính xác nhất là:
A. Quá trình thu thập dữ liệu từ nhiều nguồn khác nhau.
B. Quá trình chuyển đổi dữ liệu sang định dạng phù hợp để phân tích.
C. Quá trình khám phá tri thức hữu ích từ lượng lớn dữ liệu.
D. Quá trình trực quan hóa dữ liệu để dễ dàng nhận biết xu hướng.
7. Khi dữ liệu có thuộc tính `mật độ thấp` (sparsity), điều này có nghĩa là:
A. Dữ liệu chứa nhiều giá trị ngoại lệ.
B. Dữ liệu có nhiều chiều.
C. Hầu hết các giá trị trong dữ liệu là số 0 hoặc giá trị thiếu.
D. Dữ liệu được phân bố đều.
8. Phương pháp `cross-validation` (kiểm định chéo) được sử dụng để:
A. Tăng kích thước tập dữ liệu huấn luyện.
B. Đánh giá độ tin cậy của mô hình học máy trên dữ liệu mới.
C. Giảm thời gian huấn luyện mô hình.
D. Trực quan hóa kết quả của mô hình.
9. Ứng dụng nào sau đây KHÔNG phải là ứng dụng điển hình của khai phá dữ liệu?
A. Phát hiện gian lận thẻ tín dụng.
B. Dự báo thời tiết hàng ngày.
C. Đề xuất sản phẩm cho khách hàng trực tuyến.
D. Chẩn đoán bệnh dựa trên dữ liệu y tế.
10. Phương pháp nào sau đây giúp phát hiện các mặt hàng thường được mua cùng nhau trong siêu thị?
A. Phân tích chuỗi thời gian (Time Series Analysis).
B. Phân tích luật kết hợp (Association Rule Mining).
C. Phân tích thành phần chính (Principal Component Analysis).
D. Phân tích phương sai (ANOVA).
11. Khi đánh giá mô hình phân cụm, độ đo `silhouette score` cao cho thấy:
A. Các cụm chồng lấn lên nhau.
B. Các cụm được phân tách tốt và các điểm dữ liệu trong cụm tương đồng nhau.
C. Mô hình bị quá khớp với dữ liệu.
D. Số lượng cụm được chọn không phù hợp.
12. Mục tiêu chính của việc tiền xử lý dữ liệu trong khai phá dữ liệu là:
A. Tăng kích thước tập dữ liệu.
B. Cải thiện chất lượng dữ liệu và làm cho nó phù hợp hơn cho khai phá.
C. Giảm độ phức tạp của thuật toán khai phá.
D. Trực quan hóa dữ liệu một cách hiệu quả.
13. Trong khai phá dữ liệu chuỗi thời gian (time series data mining), mục tiêu có thể là:
A. Phân loại văn bản.
B. Dự đoán giá trị tương lai dựa trên dữ liệu quá khứ.
C. Tìm luật kết hợp giữa các sản phẩm.
D. Phân cụm khách hàng.
14. Trong khai phá dữ liệu, `dữ liệu nhiễu` (noisy data) đề cập đến:
A. Dữ liệu được thu thập từ nguồn không đáng tin cậy.
B. Dữ liệu bị thiếu giá trị.
C. Dữ liệu chứa lỗi, ngoại lệ hoặc giá trị không chính xác.
D. Dữ liệu không liên quan đến vấn đề cần phân tích.
15. Mô hình Naive Bayes dựa trên giả định nào?
A. Các thuộc tính đầu vào phải có phân phối Gaussian.
B. Các thuộc tính đầu vào độc lập có điều kiện với nhau khi biết lớp.
C. Dữ liệu phải được chuẩn hóa trước khi huấn luyện.
D. Mô hình chỉ hoạt động tốt với dữ liệu số.
16. Kỹ thuật nào sau đây thường được sử dụng để dự đoán giá nhà dựa trên các đặc điểm như diện tích, vị trí và số phòng ngủ?
A. Phân lớp (Classification).
B. Hồi quy (Regression).
C. Phân cụm (Clustering).
D. Luật kết hợp (Association Rule Mining).
17. Phương pháp nào sau đây có thể giúp xử lý dữ liệu bị thiếu giá trị (missing values)?
A. Rời rạc hóa dữ liệu (Data Discretization).
B. Chuẩn hóa dữ liệu (Data Normalization).
C. Thay thế bằng giá trị trung bình (Mean Imputation).
D. Giảm chiều dữ liệu (Dimensionality Reduction).
18. Trong khai phá dữ liệu không gian (spatial data mining), loại dữ liệu đặc biệt cần xử lý là:
A. Dữ liệu dạng văn bản.
B. Dữ liệu hình ảnh.
C. Dữ liệu có thông tin vị trí địa lý.
D. Dữ liệu chuỗi thời gian.
19. Trong thuật toán k-means, `k` đại diện cho:
A. Số lượng chiều của dữ liệu.
B. Số lượng cụm mong muốn.
C. Số lần lặp tối đa của thuật toán.
D. Khoảng cách lớn nhất giữa các điểm dữ liệu.
20. Phương pháp giảm chiều dữ liệu (dimensionality reduction) KHÔNG bao gồm:
A. Phân tích thành phần chính (PCA).
B. Lựa chọn đặc trưng (Feature Selection).
C. Rời rạc hóa dữ liệu (Data Discretization).
D. Phân tích phân biệt tuyến tính (LDA).
21. Trong ngữ cảnh khai phá dữ liệu lớn (big data), thách thức chính KHÔNG bao gồm:
A. Khả năng mở rộng của thuật toán.
B. Tốc độ xử lý dữ liệu.
C. Độ phức tạp của mô hình.
D. Sự thiếu hụt dữ liệu.
22. Kỹ thuật `chuẩn hóa dữ liệu` (data normalization) thường được áp dụng trước khi sử dụng thuật toán nào?
A. Cây quyết định (Decision Tree).
B. Máy học vector hỗ trợ (SVM).
C. Luật kết hợp (Association Rule Mining).
D. Naive Bayes.
23. Trong khai phá dữ liệu văn bản (text mining), kỹ thuật `TF-IDF` được sử dụng để:
A. Phân tích cảm xúc văn bản.
B. Trích xuất thực thể có tên.
C. Đo lường tầm quan trọng của từ trong một tài liệu so với tập hợp tài liệu.
D. Phân loại văn bản theo chủ đề.
24. Bước nào sau đây KHÔNG thuộc quy trình Khám phá tri thức từ dữ liệu (KDD)?
A. Làm sạch dữ liệu (Data Cleaning).
B. Chọn lọc dữ liệu (Data Selection).
C. Phân tích hồi quy (Regression Analysis).
D. Đánh giá mẫu (Pattern Evaluation).
25. Kỹ thuật `bootstrap aggregating` (bagging) trong học máy nhằm mục đích:
A. Giảm chiều dữ liệu.
B. Cải thiện độ chính xác và ổn định của mô hình bằng cách kết hợp kết quả từ nhiều mô hình yếu.
C. Xử lý dữ liệu bị thiếu.
D. Tăng tốc độ huấn luyện mô hình.
26. Trong khai phá dữ liệu, kỹ thuật phân cụm (clustering) được sử dụng để:
A. Dự đoán giá trị của một biến mục tiêu liên tục.
B. Phân loại dữ liệu vào các nhóm đã được xác định trước.
C. Nhóm các đối tượng tương tự nhau thành cụm dựa trên đặc điểm của chúng.
D. Tìm kiếm các mối quan hệ kết hợp giữa các biến.
27. Thuật toán Apriori được sử dụng chủ yếu trong kỹ thuật khai phá dữ liệu nào?
A. Phân lớp (Classification).
B. Hồi quy (Regression).
C. Luật kết hợp (Association Rule Mining).
D. Phân cụm (Clustering).
28. Ưu điểm chính của cây quyết định (decision tree) so với các mô hình phân lớp khác là:
A. Độ chính xác dự đoán cao hơn trong mọi trường hợp.
B. Khả năng xử lý dữ liệu phi tuyến tính tốt hơn.
C. Dễ dàng diễn giải và trực quan hóa quy tắc phân lớp.
D. Yêu cầu ít dữ liệu huấn luyện hơn.
29. Mục đích của việc chia dữ liệu thành tập huấn luyện, tập kiểm tra và tập xác thực (validation set) là gì?
A. Tăng tốc độ huấn luyện mô hình.
B. Đảm bảo tính bảo mật của dữ liệu.
C. Đánh giá khách quan hiệu suất của mô hình và điều chỉnh siêu tham số.
D. Giảm dung lượng lưu trữ dữ liệu.
30. Độ đo `độ thu hồi` (recall) trong phân lớp được định nghĩa là:
A. Tỷ lệ mẫu phân loại đúng trên tổng số mẫu.
B. Tỷ lệ mẫu phân loại sai trên tổng số mẫu.
C. Tỷ lệ dương tính thật trên tổng số mẫu thực tế là dương tính.
D. Tỷ lệ dương tính thật trên tổng số mẫu được dự đoán là dương tính.