1. Độ đo `Precision` (Độ chính xác) trong đánh giá mô hình phân loại được tính bằng công thức nào? (TP = True Positives, FP = False Positives)
A. TP / (TP + FN)
B. TP / (TP + FP)
C. TN / (TN + FP)
D. TN / (TN + FN)
2. Kỹ thuật `Association Rule Mining` (Khai thác luật kết hợp) thường được ứng dụng trong lĩnh vực nào?
A. Dự báo chứng khoán.
B. Phân tích giỏ hàng (Market Basket Analysis) trong bán lẻ.
C. Phân loại văn bản tự động.
D. Phát hiện gian lận thẻ tín dụng.
3. Kỹ thuật `Ensemble Learning` (Học tập kết hợp) nhằm mục đích gì?
A. Tăng tốc độ huấn luyện mô hình.
B. Cải thiện độ chính xác và độ ổn định của mô hình bằng cách kết hợp kết quả của nhiều mô hình học máy.
C. Giảm độ phức tạp của mô hình.
D. Trực quan hóa kết quả mô hình dễ dàng hơn.
4. Thuật toán Apriori thường được sử dụng trong kỹ thuật khai phá dữ liệu nào?
A. Phân loại (Classification).
B. Phân cụm (Clustering).
C. Hồi quy (Regression).
D. Khai thác luật kết hợp (Association Rule Mining).
5. Trong khai phá dữ liệu đa phương tiện (Multimedia Data Mining), dữ liệu có thể bao gồm:
A. Chỉ dữ liệu dạng văn bản và số.
B. Hình ảnh, video, âm thanh, văn bản và các dạng dữ liệu phi cấu trúc khác.
C. Chỉ dữ liệu có cấu trúc được lưu trữ trong cơ sở dữ liệu quan hệ.
D. Chỉ dữ liệu nhật ký web.
6. Kỹ thuật `Principal Component Analysis` (PCA) được sử dụng để làm gì?
A. Phân loại dữ liệu thành các nhóm khác nhau.
B. Giảm chiều dữ liệu bằng cách tìm ra các thành phần chính (principal components) giữ lại phương sai lớn nhất của dữ liệu.
C. Tìm ra các luật kết hợp giữa các thuộc tính.
D. Dự đoán giá trị tương lai của một biến số.
7. Trong quy trình khai phá dữ liệu, bước nào sau đây thường được thực hiện **đầu tiên**?
A. Đánh giá mô hình.
B. Làm sạch dữ liệu.
C. Hiểu bài toán và dữ liệu.
D. Xây dựng mô hình.
8. Thuật toán `Support Vector Machine` (SVM) đặc biệt hiệu quả trong bài toán nào?
A. Phân cụm dữ liệu số lượng lớn.
B. Phân loại dữ liệu có số chiều cao và biên quyết định phức tạp.
C. Dự đoán chuỗi thời gian dài hạn.
D. Khai thác luật kết hợp từ dữ liệu thưa thớt.
9. Trong khai phá dữ liệu web (Web Mining), `Web Usage Mining` (Khai phá sử dụng web) tập trung vào việc phân tích dữ liệu nào?
A. Nội dung của các trang web.
B. Cấu trúc liên kết giữa các trang web.
C. Hành vi duyệt web của người dùng (ví dụ: lịch sử truy cập, clickstream).
D. Các công nghệ web được sử dụng để xây dựng trang web.
10. Trong khai phá dữ liệu, `bias-variance tradeoff` (đánh đổi giữa độ chệch và phương sai) đề cập đến:
A. Sự cân bằng giữa tốc độ huấn luyện và tốc độ dự đoán của mô hình.
B. Sự cân bằng giữa khả năng mô hình khớp với dữ liệu huấn luyện và khả năng tổng quát hóa trên dữ liệu mới.
C. Sự cân bằng giữa độ chính xác và độ phủ của mô hình phân loại.
D. Sự cân bằng giữa số lượng thuộc tính và số lượng mẫu dữ liệu.
11. Trong ngữ cảnh khai phá dữ liệu không gian (Spatial Data Mining), loại dữ liệu nào được quan tâm đặc biệt?
A. Dữ liệu văn bản.
B. Dữ liệu chuỗi thời gian.
C. Dữ liệu có thông tin vị trí địa lý (ví dụ: tọa độ, bản đồ).
D. Dữ liệu giao dịch mua bán.
12. Kỹ thuật `Anomaly Detection` (Phát hiện bất thường) được sử dụng để làm gì?
A. Phân loại dữ liệu thành các nhóm bình thường và bất thường.
B. Xác định các mẫu dữ liệu khác biệt đáng kể so với phần lớn dữ liệu còn lại.
C. Dự đoán các giá trị bất thường trong tương lai.
D. Làm sạch dữ liệu bằng cách loại bỏ các giá trị bất thường.
13. Kỹ thuật khai phá dữ liệu nào thường được sử dụng để phân nhóm khách hàng dựa trên hành vi mua sắm?
A. Phân loại (Classification).
B. Hồi quy (Regression).
C. Phân cụm (Clustering).
D. Khai thác luật kết hợp (Association Rule Mining).
14. Phương pháp `K-Means` thuộc loại kỹ thuật khai phá dữ liệu nào?
A. Phân loại có giám sát (Supervised Classification).
B. Phân cụm không giám sát (Unsupervised Clustering).
C. Hồi quy tuyến tính (Linear Regression).
D. Khai thác luật kết hợp (Association Rule Mining).
15. Phương pháp `Decision Tree` (Cây quyết định) thuộc loại thuật toán học máy nào?
A. Học không giám sát (Unsupervised Learning).
B. Học tăng cường (Reinforcement Learning).
C. Học bán giám sát (Semi-supervised Learning).
D. Học có giám sát (Supervised Learning).
16. Khai phá dữ liệu (Data Mining) được định nghĩa chính xác nhất là:
A. Quá trình thu thập dữ liệu từ nhiều nguồn khác nhau.
B. Quá trình phân tích dữ liệu để tìm ra các mẫu, xu hướng và thông tin hữu ích.
C. Quá trình lưu trữ và quản lý dữ liệu hiệu quả.
D. Quá trình trực quan hóa dữ liệu để dễ dàng hiểu.
17. Kỹ thuật `Feature Scaling` ( масштабирование характеристик ) thường được áp dụng trong bước tiền xử lý dữ liệu để:
A. Tăng số lượng thuộc tính của dữ liệu.
B. Đưa các thuộc tính về cùng một thang đo, tránh việc một số thuộc tính có giá trị lớn hơn chi phối mô hình.
C. Loại bỏ các thuộc tính không liên quan đến bài toán.
D. Xử lý các giá trị thiếu trong dữ liệu.
18. Trong khai phá dữ liệu chuỗi thời gian (Time Series Data Mining), mục tiêu chính thường là:
A. Phân cụm dữ liệu theo các thuộc tính không thời gian.
B. Dự đoán giá trị tương lai dựa trên các mẫu trong quá khứ.
C. Phân loại dữ liệu dựa trên nhãn lớp đã biết.
D. Tìm ra các luật kết hợp giữa các thuộc tính khác nhau.
19. Trong ngữ cảnh khai phá dữ liệu văn bản (Text Mining), `TF-IDF` là viết tắt của:
A. Term Frequency - Inverse Document Frequency.
B. Text Feature - Inverse Document Frequency.
C. Term Frequency - Important Document Feature.
D. Text Feature - Important Document Feature.
20. Độ đo `F1-score` là trung bình điều hòa của hai độ đo nào?
A. Precision và Support.
B. Recall và Support.
C. Precision và Recall.
D. Accuracy và Precision.
21. Phương pháp `Gradient Descent` (Độ dốc xuống) thường được sử dụng để làm gì trong học máy?
A. Đánh giá hiệu suất của mô hình.
B. Tối ưu hóa các tham số của mô hình bằng cách tìm cực tiểu của hàm mất mát (loss function).
C. Tiền xử lý dữ liệu đầu vào.
D. Giảm chiều dữ liệu.
22. Phương pháp `Random Forest` thuộc loại thuật toán học máy nào?
A. Thuật toán phân cụm.
B. Thuật toán hồi quy tuyến tính.
C. Thuật toán học tập kết hợp (Ensemble Learning).
D. Thuật toán giảm chiều dữ liệu.
23. Phương pháp `Naive Bayes` dựa trên giả định quan trọng nào?
A. Các thuộc tính đầu vào độc lập tuyến tính với nhau.
B. Các thuộc tính đầu vào hoàn toàn độc lập với nhau.
C. Dữ liệu tuân theo phân phối chuẩn.
D. Mô hình có thể học được từ dữ liệu không đầy đủ.
24. Kỹ thuật giảm chiều dữ liệu (Dimensionality Reduction) được sử dụng chủ yếu để:
A. Tăng số lượng biến đầu vào để mô hình phức tạp hơn.
B. Giảm số lượng biến đầu vào mà vẫn giữ lại thông tin quan trọng, giúp đơn giản hóa mô hình và giảm thời gian tính toán.
C. Tăng độ chính xác của dữ liệu bằng cách loại bỏ nhiễu.
D. Trực quan hóa dữ liệu nhiều chiều một cách dễ dàng.
25. Trong bối cảnh khai phá dữ liệu, `dữ liệu nhiễu` (noisy data) thường đề cập đến:
A. Dữ liệu đã được chuẩn hóa và làm sạch.
B. Dữ liệu chứa lỗi, giá trị ngoại lai hoặc thông tin không chính xác.
C. Dữ liệu được thu thập từ nhiều nguồn khác nhau.
D. Dữ liệu có cấu trúc phức tạp và khó phân tích.
26. Trong khai phá luật kết hợp, độ đo `Support` (Độ hỗ trợ) của một tập mục (itemset) thể hiện điều gì?
A. Mức độ phổ biến của tập mục trong cơ sở dữ liệu giao dịch.
B. Độ tin cậy của luật kết hợp được sinh ra từ tập mục.
C. Mức độ thú vị hoặc bất ngờ của luật kết hợp.
D. Tần suất xuất hiện của tập mục trong một giao dịch cụ thể.
27. Trong khai phá dữ liệu, `overfitting` (quá khớp) đề cập đến vấn đề gì?
A. Mô hình quá phức tạp và hoạt động tốt trên dữ liệu huấn luyện nhưng kém trên dữ liệu mới.
B. Dữ liệu đầu vào chứa quá nhiều thông tin nhiễu.
C. Mô hình quá đơn giản và không thể nắm bắt được các mẫu trong dữ liệu.
D. Quá trình tiền xử lý dữ liệu chưa được thực hiện đầy đủ.
28. Độ đo `Recall` (Độ phủ) trong đánh giá mô hình phân loại được tính bằng công thức nào? (TP = True Positives, FN = False Negatives)
A. TP / (TP + FP)
B. TP / (TP + FN)
C. TN / (TN + FP)
D. TN / (TN + FN)
29. Kỹ thuật `Cross-validation` (Kiểm định chéo) được sử dụng để làm gì?
A. Tăng kích thước tập dữ liệu huấn luyện.
B. Đánh giá khách quan hiệu suất của mô hình học máy trên dữ liệu mới, chưa từng thấy.
C. Tiền xử lý dữ liệu đầu vào.
D. Tối ưu hóa tham số của mô hình.
30. Trong khai phá dữ liệu, `data warehouse` (kho dữ liệu) khác biệt với `database` (cơ sở dữ liệu) thông thường chủ yếu ở điểm nào?
A. Data warehouse lưu trữ dữ liệu giao dịch, còn database lưu trữ dữ liệu phân tích.
B. Data warehouse thường chứa dữ liệu lịch sử và tích hợp từ nhiều nguồn, được tối ưu hóa cho phân tích và báo cáo, trong khi database thường tập trung vào dữ liệu hoạt động hiện tại và xử lý giao dịch.
C. Data warehouse có cấu trúc dữ liệu phức tạp hơn database.
D. Data warehouse sử dụng công nghệ NoSQL, còn database sử dụng SQL.