1. Khái niệm `Backpropagation` liên quan đến thuật toán huấn luyện nào?
A. Cây quyết định (Decision Tree)
B. Máy Vector hỗ trợ (Support Vector Machine - SVM)
C. Mạng nơ-ron (Neural Network)
D. K-means
2. Phương pháp nào sau đây giúp giảm thiểu hiện tượng `Quá khớp`?
A. Tăng kích thước tập dữ liệu huấn luyện.
B. Giảm độ phức tạp của mô hình.
C. Sử dụng kỹ thuật chính quy hóa (Regularization).
D. Tất cả các phương án trên.
3. Đâu là một thách thức lớn khi triển khai mô hình học máy trong thực tế?
A. Tìm kiếm thuật toán phù hợp.
B. Thu thập và xử lý dữ liệu chất lượng cao.
C. Huấn luyện mô hình.
D. Đánh giá mô hình.
4. Thuật toán `Gradient Descent` được sử dụng để làm gì trong học máy?
A. Tìm kiếm tham số tối ưu cho mô hình bằng cách tối thiểu hóa hàm mất mát.
B. Phân cụm dữ liệu.
C. Giảm chiều dữ liệu.
D. Chọn đặc trưng quan trọng nhất.
5. Phương pháp `Rừng ngẫu nhiên` (Random Forest) là một dạng của phương pháp học máy nào?
A. Boosting
B. Bagging
C. Stacking
D. Gradient Descent
6. Sai số `Phương sai` (Variance) trong phân tích Bias-Variance tradeoff thể hiện điều gì?
A. Sai số do mô hình quá đơn giản, không nắm bắt được các quy luật phức tạp trong dữ liệu.
B. Sai số do mô hình quá nhạy cảm với sự thay đổi nhỏ trong dữ liệu huấn luyện.
C. Sai số ngẫu nhiên không thể tránh khỏi.
D. Sai số do lựa chọn thuật toán không phù hợp.
7. Trong các loại học máy sau, loại nào thuộc nhóm `Học có giám sát` (Supervised Learning)?
A. Học tăng cường (Reinforcement Learning)
B. Học không giám sát (Unsupervised Learning)
C. Học bán giám sát (Semi-supervised Learning)
D. Học sâu (Deep Learning)
8. Phương pháp `PCA (Principal Component Analysis)` thuộc loại học máy nào?
A. Học có giám sát (Supervised Learning)
B. Học không giám sát (Unsupervised Learning)
C. Học bán giám sát (Semi-supervised Learning)
D. Học tăng cường (Reinforcement Learning)
9. Trong bài toán phân loại đa lớp (Multi-class classification), độ đo `Ma trận nhầm lẫn` (Confusion Matrix) có kích thước như thế nào?
A. 2x2
B. nxn, với n là số lượng mẫu dữ liệu.
C. nxn, với n là số lượng lớp.
D. MxN, với M là số lượng mẫu huấn luyện và N là số lượng mẫu kiểm tra.
10. Trong học sâu (Deep Learning), `Activation Function` có vai trò gì?
A. Giảm chiều dữ liệu.
B. Thêm tính phi tuyến vào mạng nơ-ron.
C. Tối ưu hóa tham số mô hình.
D. Chuẩn hóa dữ liệu đầu vào.
11. Trong mô hình hồi quy tuyến tính (Linear Regression), hàm mất mát phổ biến nhất được sử dụng là gì?
A. Cross-entropy loss.
B. Mean Squared Error (MSE).
C. Hinge loss.
D. Log loss.
12. Khái niệm `Regularization` trong học máy dùng để chỉ kỹ thuật nào?
A. Tăng tốc độ huấn luyện mô hình.
B. Giảm hiện tượng quá khớp (Overfitting) bằng cách thêm phạt vào hàm mất mát.
C. Cải thiện độ chính xác của mô hình trên dữ liệu huấn luyện.
D. Chọn lọc đặc trưng quan trọng.
13. Hiện tượng `Quá khớp` (Overfitting) trong học máy xảy ra khi nào?
A. Mô hình hoạt động kém trên cả dữ liệu huấn luyện và dữ liệu kiểm tra.
B. Mô hình hoạt động tốt trên dữ liệu kiểm tra nhưng kém trên dữ liệu huấn luyện.
C. Mô hình hoạt động rất tốt trên dữ liệu huấn luyện nhưng kém trên dữ liệu kiểm tra mới.
D. Mô hình hoạt động tốt trên cả dữ liệu huấn luyện và dữ liệu kiểm tra.
14. Mục tiêu chính của việc `Chuẩn hóa dữ liệu` (Data Normalization) là gì?
A. Tăng kích thước tập dữ liệu.
B. Giảm số lượng thuộc tính.
C. Đưa các thuộc tính về cùng một thang đo để tránh ảnh hưởng bởi sự khác biệt về đơn vị đo lường.
D. Loại bỏ dữ liệu nhiễu.
15. Thuật toán K-means thường được sử dụng cho bài toán nào?
A. Phân loại (Classification)
B. Hồi quy (Regression)
C. Phân cụm (Clustering)
D. Giảm chiều dữ liệu (Dimensionality Reduction)
16. Thuật toán `SVM (Support Vector Machine)` hoạt động tốt nhất trong trường hợp nào?
A. Dữ liệu có số lượng lớn thuộc tính hơn số lượng mẫu.
B. Dữ liệu tuyến tính không phân tách được.
C. Dữ liệu có nhiều nhiễu.
D. Dữ liệu tuyến tính phân tách được hoặc gần phân tách được.
17. Đâu là định nghĩa chính xác nhất về Học máy (Machine Learning)?
A. Một lĩnh vực khoa học máy tính tập trung vào việc xây dựng các chương trình máy tính phức tạp.
B. Một lĩnh vực của trí tuệ nhân tạo cho phép hệ thống máy tính học hỏi từ dữ liệu mà không cần được lập trình rõ ràng.
C. Quá trình máy tính tự động cải thiện hiệu suất thông qua kinh nghiệm.
D. Một phương pháp thống kê để phân tích dữ liệu và đưa ra dự đoán.
18. Phương pháp `Gradient Boosting` khác biệt so với `Random Forest` ở điểm nào?
A. Gradient Boosting xây dựng cây tuần tự, trong khi Random Forest xây dựng cây song song.
B. Random Forest sử dụng bagging, trong khi Gradient Boosting sử dụng boosting.
C. Gradient Boosting thường cho độ chính xác cao hơn Random Forest nhưng dễ bị overfitting hơn.
D. Tất cả các phương án trên.
19. Mạng nơ-ron tích chập (Convolutional Neural Network - CNN) đặc biệt hiệu quả trong lĩnh vực nào?
A. Xử lý ngôn ngữ tự nhiên (Natural Language Processing)
B. Nhận dạng hình ảnh (Image Recognition)
C. Dự báo chuỗi thời gian (Time Series Forecasting)
D. Học tăng cường (Reinforcement Learning)
20. Mạng nơ-ron hồi quy (Recurrent Neural Network - RNN) phù hợp với loại dữ liệu nào?
A. Dữ liệu dạng bảng.
B. Dữ liệu hình ảnh tĩnh.
C. Dữ liệu chuỗi thời gian hoặc dữ liệu tuần tự.
D. Dữ liệu không có cấu trúc.
21. Đâu là một ứng dụng phổ biến của Học máy trong lĩnh vực Y tế?
A. Dự báo thời tiết.
B. Phân tích chứng khoán.
C. Chẩn đoán bệnh từ hình ảnh y tế.
D. Lập trình game.
22. Độ đo `Độ chính xác` (Accuracy) trong đánh giá mô hình phân loại được tính như thế nào?
A. Tỷ lệ mẫu dương tính thực tế trên tổng số mẫu dương tính dự đoán.
B. Tỷ lệ dự đoán đúng trên tổng số dự đoán.
C. Tỷ lệ dự đoán đúng trên tổng số mẫu thực tế.
D. Tỷ lệ mẫu âm tính thực tế trên tổng số mẫu âm tính dự đoán.
23. Trong xử lý ngôn ngữ tự nhiên (NLP), `Word Embedding` có vai trò gì?
A. Phân loại văn bản.
B. Biểu diễn từ ngữ thành vector số học để máy tính có thể xử lý.
C. Tách từ trong câu.
D. Tổng hợp văn bản.
24. Trong học tăng cường (Reinforcement Learning), `Agent` là gì?
A. Môi trường mà agent tương tác.
B. Hàm mục tiêu mà agent cố gắng tối ưu hóa.
C. Thực thể ra quyết định và hành động trong môi trường.
D. Thuật toán học được agent sử dụng.
25. Kỹ thuật `Dropout` trong mạng nơ-ron được sử dụng để làm gì?
A. Tăng tốc độ huấn luyện.
B. Giảm hiện tượng quá khớp (Overfitting).
C. Cải thiện độ chính xác trên dữ liệu huấn luyện.
D. Chọn lọc đặc trưng.
26. Độ đo `F1-score` là trung bình điều hòa của độ đo nào?
A. Độ chính xác (Accuracy) và độ bao phủ (Recall).
B. Độ chính xác (Precision) và độ bao phủ (Recall).
C. Độ chính xác (Precision) và độ đặc hiệu (Specificity).
D. Độ bao phủ (Recall) và độ đặc hiệu (Specificity).
27. Phương pháp `Cross-validation` được sử dụng để làm gì?
A. Tăng tốc độ huấn luyện mô hình.
B. Đánh giá khả năng tổng quát hóa của mô hình trên dữ liệu mới.
C. Giảm kích thước dữ liệu huấn luyện.
D. Chọn đặc trưng tốt nhất.
28. Trong học máy, `Feature Engineering` là quá trình gì?
A. Chọn thuật toán học máy phù hợp.
B. Tối ưu hóa tham số mô hình.
C. Biến đổi và tạo ra các đặc trưng (features) mới từ dữ liệu thô để cải thiện hiệu suất mô hình.
D. Đánh giá hiệu suất mô hình.
29. Trong thuật toán Cây quyết định (Decision Tree), tiêu chí `Gini Impurity` được sử dụng để làm gì?
A. Đo lường độ thuần khiết của một nút.
B. Xác định độ sâu tối ưu của cây.
C. Tính toán độ quan trọng của thuộc tính.
D. Cân bằng cây quyết định.
30. Mô hình học máy nào thường được sử dụng cho bài toán phát hiện gian lận (fraud detection)?
A. K-means.
B. Logistic Regression hoặc các mô hình cây quyết định.
C. PCA.
D. Word2Vec.