1. Trong học máy, `hyperparameter` (siêu tham số) khác với `parameter` (tham số) như thế nào?
A. Hyperparameter được học từ dữ liệu, còn parameter được thiết lập thủ công.
B. Parameter được học từ dữ liệu trong quá trình huấn luyện, còn hyperparameter được thiết lập trước khi huấn luyện và không thay đổi trong quá trình huấn luyện.
C. Hyperparameter chỉ áp dụng cho mạng nơ-ron, còn parameter áp dụng cho các mô hình khác.
D. Parameter quyết định kiến trúc mô hình, còn hyperparameter quyết định hàm mất mát.
2. Ưu điểm chính của thuật toán Decision Tree (Cây quyết định) là gì?
A. Hoạt động tốt với dữ liệu phi tuyến tính và độ chính xác cao nhất trong mọi trường hợp.
B. Dễ hiểu, dễ diễn giải, và có thể xử lý cả dữ liệu số và dữ liệu phân loại.
C. Không bị ảnh hưởng bởi overfitting.
D. Luôn tìm được nghiệm tối ưu toàn cục.
3. Phương pháp nào sau đây thường được sử dụng để giảm thiểu overfitting?
A. Tăng kích thước tập dữ liệu huấn luyện.
B. Giảm độ phức tạp của mô hình.
C. Sử dụng nhiều features hơn.
D. Tăng số lượng epochs huấn luyện.
4. Trong hệ thống khuyến nghị (Recommender System), phương pháp `Collaborative Filtering` (lọc cộng tác) dựa trên điều gì?
A. Nội dung của các mục (items) được khuyến nghị.
B. Thông tin nhân khẩu học của người dùng.
C. Tương tác và sở thích của người dùng khác có hành vi tương tự.
D. Các đặc điểm kỹ thuật của hệ thống.
5. Khi nào nên sử dụng thuật toán Naive Bayes?
A. Khi dữ liệu có nhiều chiều và phức tạp.
B. Khi cần một mô hình có khả năng diễn giải cao và tốc độ huấn luyện nhanh, đặc biệt hiệu quả với dữ liệu văn bản.
C. Khi dữ liệu có quan hệ phi tuyến tính mạnh mẽ.
D. Khi cần độ chính xác tuyệt đối và sẵn sàng chấp nhận thời gian huấn luyện lâu.
6. Kỹ thuật `Feature scaling` (tỉ lệ đặc trưng) thường được áp dụng trước khi huấn luyện mô hình học máy để làm gì?
A. Chọn features quan trọng nhất.
B. Giảm số lượng features.
C. Đưa các features về cùng một thang đo, giúp các thuật toán (đặc biệt là gradient descent) hội tụ nhanh hơn và hiệu quả hơn.
D. Tăng độ phức tạp của dữ liệu.
7. Một trong những thách thức lớn nhất khi triển khai mô hình học máy trong thực tế là gì?
A. Sự thiếu hụt thuật toán học máy.
B. Thu thập và chuẩn bị dữ liệu chất lượng cao, cũng như duy trì và cập nhật mô hình theo thời gian.
C. Chi phí phần cứng quá cao để huấn luyện mô hình.
D. Sự phức tạp trong việc lựa chọn ngôn ngữ lập trình phù hợp.
8. Thuật toán Random Forest thuộc loại mô hình học máy nào?
A. Mô hình tuyến tính (Linear model).
B. Mô hình dựa trên cây (Tree-based model).
C. Mô hình dựa trên khoảng cách (Distance-based model).
D. Mô hình dựa trên mạng nơ-ron (Neural network model).
9. Recurrent Neural Networks (RNNs - Mạng nơ-ron hồi quy) đặc biệt phù hợp cho loại dữ liệu nào?
A. Dữ liệu ảnh tĩnh.
B. Dữ liệu dạng bảng.
C. Dữ liệu chuỗi thời gian hoặc dữ liệu tuần tự (sequential data).
D. Dữ liệu không có cấu trúc.
10. Thuật toán K-Means Clustering thuộc loại học máy nào?
A. Học tăng cường
B. Học có giám sát
C. Học không giám sát
D. Học bán giám sát
11. Kỹ thuật `Cross-validation` (kiểm định chéo) được sử dụng để làm gì trong học máy?
A. Tăng kích thước tập dữ liệu huấn luyện.
B. Đánh giá mô hình trên nhiều phân chia khác nhau của dữ liệu để có ước tính hiệu suất ổn định hơn.
C. Giảm overfitting bằng cách chia nhỏ mô hình.
D. Tăng tốc độ huấn luyện mô hình.
12. Độ đo `accuracy` (độ chính xác) thường được sử dụng để đánh giá hiệu suất của mô hình nào?
A. Mô hình hồi quy (Regression).
B. Mô hình phân cụm (Clustering).
C. Mô hình phân loại (Classification).
D. Mô hình giảm chiều dữ liệu (Dimensionality Reduction).
13. Mục tiêu chính của việc `chia tập dữ liệu` thành tập huấn luyện (training set) và tập kiểm thử (testing set) là gì?
A. Để tăng tốc độ huấn luyện mô hình.
B. Để đánh giá hiệu suất của mô hình trên dữ liệu mới, chưa từng thấy trước đó.
C. Để giảm thiểu lượng dữ liệu cần thiết cho huấn luyện.
D. Để cải thiện khả năng diễn giải của mô hình.
14. Trong học máy, `feature` (đặc trưng) đề cập đến điều gì?
A. Một thuật toán học máy cụ thể.
B. Một phần mềm được sử dụng để triển khai mô hình học máy.
C. Một thuộc tính hoặc biến số đầu vào được sử dụng để huấn luyện mô hình.
D. Kết quả đầu ra của một mô hình học máy.
15. Trong ngữ cảnh của mạng nơ-ron (neural network), `activation function` (hàm kích hoạt) có vai trò gì?
A. Khởi tạo trọng số ban đầu cho mạng.
B. Tính toán gradient để cập nhật trọng số.
C. Giới thiệu tính phi tuyến vào mạng, cho phép mô hình học các quan hệ phức tạp.
D. Chia dữ liệu thành các mini-batch trong quá trình huấn luyện.
16. Convolutional Neural Networks (CNNs - Mạng nơ-ron tích chập) thường được sử dụng rộng rãi trong lĩnh vực nào?
A. Xử lý ngôn ngữ tự nhiên.
B. Dự báo chuỗi thời gian.
C. Thị giác máy tính (Computer Vision) và xử lý ảnh.
D. Hệ thống khuyến nghị.
17. Mục tiêu của việc `Feature engineering` (kỹ thuật đặc trưng) trong học máy là gì?
A. Chọn thuật toán học máy tốt nhất.
B. Cải thiện hiệu suất mô hình bằng cách tạo ra các features mới và/hoặc biến đổi các features hiện có sao cho chúng phù hợp hơn với thuật toán và bài toán.
C. Giảm kích thước tập dữ liệu.
D. Tăng độ phức tạp của mô hình.
18. Loại học máy nào mà mô hình được huấn luyện trên dữ liệu đã được gán nhãn (labeled data)?
A. Học tăng cường (Reinforcement Learning)
B. Học không giám sát (Unsupervised Learning)
C. Học bán giám sát (Semi-supervised Learning)
D. Học có giám sát (Supervised Learning)
19. Trong bài toán hồi quy, độ đo nào sau đây thường được sử dụng để đánh giá hiệu suất?
A. F1-score.
B. Precision (Độ chính xác).
C. Recall (Độ phủ).
D. Mean Squared Error (MSE - Lỗi bình phương trung bình).
20. Gradient Descent (hạ gradient) là thuật toán tối ưu hóa được sử dụng để làm gì trong học máy?
A. Chọn features quan trọng nhất.
B. Tìm giá trị tối ưu của các tham số mô hình (ví dụ: trọng số trong mạng nơ-ron) để giảm thiểu hàm mất mát (loss function).
C. Phân cụm dữ liệu.
D. Giảm chiều dữ liệu.
21. Phương pháp `Regularization` (chính quy hóa) trong học máy nhằm mục đích gì?
A. Tăng độ phức tạp của mô hình.
B. Giảm overfitting và cải thiện khả năng tổng quát hóa của mô hình.
C. Tăng tốc độ huấn luyện mô hình.
D. Cải thiện khả năng diễn giải của mô hình.
22. Ma trận nhầm lẫn (Confusion Matrix) cung cấp thông tin gì?
A. Tầm quan trọng của các features trong mô hình.
B. Phân bố dữ liệu trong tập huấn luyện.
C. Số lượng clusters tìm được trong thuật toán K-Means.
D. Thống kê chi tiết về số lượng dự đoán đúng và sai cho từng lớp trong bài toán phân loại.
23. PCA (Principal Component Analysis) là kỹ thuật giảm chiều dữ liệu thuộc loại nào?
A. Học có giám sát.
B. Học không giám sát.
C. Học tăng cường.
D. Học bán giám sát.
24. Trong học tăng cường (Reinforcement Learning), `agent` (tác nhân) học hỏi thông qua điều gì?
A. Dữ liệu đã được gán nhãn.
B. Phản hồi dưới dạng phần thưởng (rewards) hoặc hình phạt (penalties) từ môi trường.
C. Phân tích cấu trúc dữ liệu.
D. Phân cụm dữ liệu.
25. Bias-Variance tradeoff (đánh đổi giữa độ chệch và phương sai) đề cập đến sự cân bằng giữa điều gì?
A. Tốc độ huấn luyện và độ chính xác của mô hình.
B. Khả năng mô hình khớp với dữ liệu huấn luyện và khả năng tổng quát hóa trên dữ liệu mới.
C. Kích thước mô hình và thời gian suy luận.
D. Số lượng features và kích thước tập dữ liệu.
26. Khái niệm `ensemble learning` (học tập kết hợp) trong học máy là gì?
A. Huấn luyện một mô hình duy nhất với nhiều thuật toán khác nhau.
B. Kết hợp dự đoán của nhiều mô hình học máy khác nhau (thường là mô hình yếu) để tạo ra một mô hình mạnh mẽ hơn.
C. Chia nhỏ tập dữ liệu huấn luyện thành nhiều phần nhỏ hơn.
D. Tự động lựa chọn features quan trọng nhất.
27. Học máy (Machine Learning) tập trung chủ yếu vào điều gì?
A. Lập trình thủ công các quy tắc rõ ràng để giải quyết vấn đề.
B. Phát triển phần mềm ứng dụng trên nền tảng web.
C. Cho phép máy tính học hỏi từ dữ liệu mà không cần được lập trình một cách rõ ràng.
D. Xây dựng cơ sở dữ liệu lớn và phức tạp.
28. Backpropagation (lan truyền ngược) là thuật toán quan trọng trong huấn luyện mạng nơ-ron để làm gì?
A. Khởi tạo kiến trúc mạng.
B. Tính toán gradient của hàm mất mát đối với các trọng số của mạng.
C. Chọn hàm kích hoạt phù hợp.
D. Chuẩn hóa dữ liệu đầu vào.
29. SVM (Support Vector Machine) là thuật toán học máy thường được sử dụng cho bài toán nào?
A. Hồi quy.
B. Phân cụm.
C. Phân loại và hồi quy.
D. Giảm chiều dữ liệu.
30. Hiện tượng `overfitting` (quá khớp) trong học máy xảy ra khi nào?
A. Mô hình hoạt động kém trên cả tập huấn luyện và tập kiểm thử.
B. Mô hình hoạt động tốt trên tập huấn luyện nhưng kém trên tập kiểm thử.
C. Mô hình hoạt động tốt trên cả tập huấn luyện và tập kiểm thử.
D. Mô hình không thể học được từ dữ liệu huấn luyện.