1. Mục tiêu chính của "reinforcement learning" (học tăng cường) là gì?
A. Tìm kiếm các mẫu ẩn trong dữ liệu không có nhãn.
B. Phân loại dữ liệu vào các nhóm đã định sẵn.
C. Huấn luyện một tác tử (agent) để đưa ra các quyết định tối ưu thông qua thử và sai trong một môi trường.
D. Dự đoán một giá trị liên tục dựa trên các biến đầu vào.
2. Khái niệm "model complexity" (độ phức tạp của mô hình) trong học máy có ảnh hưởng như thế nào đến overfitting và underfitting?
A. Độ phức tạp cao giúp tránh overfitting và underfitting.
B. Độ phức tạp cao dễ gây overfitting, độ phức tạp thấp dễ gây underfitting.
C. Độ phức tạp thấp giúp tránh overfitting và underfitting.
D. Độ phức tạp không ảnh hưởng đến overfitting và underfitting.
3. Trong học máy, "validation set" (tập kiểm định) thường được sử dụng cho mục đích gì?
A. Huấn luyện mô hình ban đầu.
B. Đánh giá cuối cùng hiệu suất của mô hình đã hoàn chỉnh.
C. Tinh chỉnh các siêu tham số (hyperparameters) và lựa chọn mô hình tốt nhất.
D. Dự đoán kết quả cho dữ liệu đầu vào mới.
4. Thuật toán "support vector machine" (SVM) thường hiệu quả với các bài toán nào?
A. Phân cụm dữ liệu không có cấu trúc rõ ràng.
B. Phân loại dữ liệu, đặc biệt khi không gian đặc trưng có chiều cao hoặc dữ liệu không được phân tách tuyến tính rõ ràng.
C. Dự đoán chuỗi thời gian.
D. Tạo sinh dữ liệu mới.
5. Khi một mô hình học máy có hiệu suất rất cao trên dữ liệu huấn luyện nhưng lại kém trên dữ liệu kiểm tra, hiện tượng này được gọi là gì?
A. Underfitting (chưa khớp).
B. Overfitting (quá khớp).
C. Bias (độ chệch).
D. Variance (phương sai).
6. Khi đánh giá mô hình phân loại, chỉ số "accuracy" (độ chính xác) có thể gây hiểu lầm trong trường hợp nào?
A. Khi tập dữ liệu cân bằng giữa các lớp.
B. Khi tập dữ liệu mất cân bằng nghiêm trọng (ví dụ: 99% lớp A, 1% lớp B).
C. Khi mô hình có độ chệch cao.
D. Khi mô hình có độ chính xác thấp trên tập huấn luyện.
7. Trong học máy, "bias" (độ chệch) cao thường dẫn đến hiện tượng gì?
A. Mô hình quá phức tạp, khớp với nhiễu.
B. Mô hình quá đơn giản, không nắm bắt được mối quan hệ thực sự trong dữ liệu.
C. Mô hình có độ chính xác cao trên cả dữ liệu huấn luyện và kiểm tra.
D. Mô hình có sự biến động lớn về hiệu suất giữa các lần chạy khác nhau.
8. Trong bối cảnh học máy, khái niệm "supervised learning" (học có giám sát) đề cập đến loại hình học máy nào?
A. Mô hình học từ dữ liệu không có nhãn, tìm kiếm các mẫu ẩn.
B. Mô hình học từ dữ liệu có nhãn, tức là có cả đầu vào và đầu ra mong muốn.
C. Mô hình học từ dữ liệu mà không cần sự can thiệp của con người trong quá trình huấn luyện.
D. Mô hình học bằng cách tương tác với môi trường và nhận phản hồi dưới dạng phần thưởng hoặc phạt.
9. Kỹ thuật "feature engineering" (kỹ thuật đặc trưng) trong học máy có vai trò gì?
A. Là quá trình lựa chọn thuật toán phù hợp nhất cho bài toán.
B. Là quá trình làm sạch và chuẩn hóa dữ liệu thô.
C. Là quá trình tạo ra các đặc trưng mới từ dữ liệu gốc để cải thiện hiệu suất mô hình.
D. Là quá trình đánh giá độ chính xác của mô hình đã huấn luyện.
10. Đâu là đặc trưng của "unsupervised learning" (học không giám sát)?
A. Dữ liệu huấn luyện bao gồm các cặp đầu vào và đầu ra mong muốn.
B. Mục tiêu là tìm kiếm cấu trúc, mẫu ẩn trong dữ liệu mà không có nhãn.
C. Mô hình nhận phản hồi từ môi trường để điều chỉnh hành vi.
D. Cần có sự giám sát chặt chẽ của con người trong suốt quá trình huấn luyện.
11. Trong học máy, "dimensionality reduction" (giảm chiều dữ liệu) có lợi ích gì?
A. Tăng độ phức tạp của mô hình.
B. Giảm thời gian huấn luyện và lưu trữ dữ liệu, đồng thời có thể cải thiện hiệu suất bằng cách loại bỏ nhiễu.
C. Tăng nguy cơ overfitting.
D. Làm cho việc diễn giải mô hình trở nên khó khăn hơn.
12. Trong học máy, "overfitting" (quá khớp) xảy ra khi nào?
A. Mô hình quá đơn giản, không nắm bắt được quy luật của dữ liệu.
B. Mô hình hoạt động tốt trên dữ liệu huấn luyện nhưng kém trên dữ liệu mới chưa từng thấy.
C. Mô hình hoạt động kém cả trên dữ liệu huấn luyện và dữ liệu mới.
D. Mô hình mất quá nhiều thời gian để huấn luyện.
13. Thuật toán "decision tree" (cây quyết định) có thể được sử dụng cho cả bài toán nào?
A. Chỉ phân loại (classification).
B. Chỉ hồi quy (regression).
C. Chỉ phân cụm (clustering).
D. Phân loại (classification) và hồi quy (regression).
14. Thuật toán "k-means clustering" thuộc loại hình học máy nào?
A. Học có giám sát (Supervised Learning).
B. Học không giám sát (Unsupervised Learning).
C. Học tăng cường (Reinforcement Learning).
D. Học bán giám sát (Semi-supervised Learning).
15. Khái niệm "hyperparameter" (siêu tham số) trong học máy là gì?
A. Các tham số được học từ dữ liệu trong quá trình huấn luyện.
B. Các tham số được thiết lập trước khi quá trình huấn luyện bắt đầu và không được học từ dữ liệu.
C. Độ chính xác của mô hình trên tập huấn luyện.
D. Kết quả đầu ra của mô hình cho một dữ liệu đầu vào cụ thể.
16. Đâu là một ví dụ điển hình của bài toán phân loại (classification) trong học máy?
A. Dự đoán giá nhà dựa trên diện tích và vị trí.
B. Nhận dạng email là thư rác (spam) hay không phải thư rác.
C. Dự đoán doanh thu bán hàng cho tháng tới.
D. Phân nhóm khách hàng dựa trên hành vi mua sắm.
17. Khái niệm "ensemble learning" (học kết hợp) trong học máy đề cập đến việc gì?
A. Sử dụng một mô hình duy nhất rất mạnh mẽ.
B. Kết hợp nhiều mô hình học máy yếu hoặc trung bình để tạo ra một mô hình mạnh mẽ hơn.
C. Huấn luyện mô hình trên nhiều tập dữ liệu khác nhau.
D. Chỉ sử dụng một loại thuật toán học máy.
18. Đâu là một phương pháp phổ biến để xử lý dữ liệu bị thiếu (missing values) trong học máy?
A. Loại bỏ tất cả các hàng có dữ liệu bị thiếu.
B. Điền giá trị bị thiếu bằng giá trị trung bình (mean) hoặc trung vị (median) của cột.
C. Tăng gấp đôi số lượng dữ liệu bị thiếu.
D. Bỏ qua hoàn toàn dữ liệu bị thiếu trong quá trình huấn luyện.
19. Trong học máy, thuật ngữ "deep learning" (học sâu) ám chỉ loại mô hình nào?
A. Các mô hình tuyến tính đơn giản.
B. Các mô hình mạng nơ-ron nhân tạo có nhiều lớp (layers).
C. Các thuật toán dựa trên cây quyết định.
D. Các phương pháp thống kê truyền thống.
20. Khái niệm "feature" (đặc trưng) trong học máy thường ám chỉ điều gì?
A. Kết quả đầu ra của mô hình.
B. Thuật toán được sử dụng để huấn luyện mô hình.
C. Một thuộc tính, một đặc điểm có thể đo lường được của dữ liệu đầu vào.
D. Độ chính xác của mô hình trên tập dữ liệu kiểm tra.
21. Trong học máy, "training set" (tập huấn luyện) được sử dụng để làm gì?
A. Đánh giá hiệu suất cuối cùng của mô hình.
B. Huấn luyện mô hình để nó học các mẫu và quy luật.
C. Tinh chỉnh các siêu tham số (hyperparameters) của mô hình.
D. Kiểm tra tính tổng quát của mô hình trên dữ liệu hoàn toàn mới.
22. Đâu là một ví dụ về bài toán hồi quy (regression) trong học máy?
A. Xác định xem một email là spam hay không spam.
B. Phân nhóm các bài báo khoa học theo chủ đề.
C. Dự đoán nhiệt độ ngày mai dựa trên dữ liệu thời tiết lịch sử.
D. Nhận dạng chữ viết tay.
23. Thuật toán "linear regression" (hồi quy tuyến tính) thường được sử dụng cho loại bài toán nào trong học máy?
A. Phân loại nhị phân (binary classification).
B. Phân cụm dữ liệu (clustering).
C. Dự đoán một giá trị liên tục (regression).
D. Nhận dạng đối tượng trong ảnh.
24. Đâu là một ứng dụng phổ biến của "natural language processing" (xử lý ngôn ngữ tự nhiên) trong học máy?
A. Nhận dạng khuôn mặt trong ảnh.
B. Dự đoán giá cổ phiếu.
C. Phân tích cảm xúc từ văn bản (ví dụ: đánh giá sản phẩm).
D. Điều khiển robot tự hành.
25. Thuật toán "random forest" (rừng ngẫu nhiên) là một dạng của phương pháp nào?
A. Học tăng cường.
B. Học kết hợp (Ensemble Learning).
C. Học không giám sát.
D. Hồi quy tuyến tính.