1. Độ đo nào thường được sử dụng để đánh giá hiệu suất của mô hình phân loại, đặc biệt khi tập dữ liệu có sự mất cân bằng giữa các lớp?
A. Sai số bình phương trung bình (MSE)
B. Độ chính xác (Accuracy)
C. F1-score
D. R-squared
2. Trong học máy có giám sát, "nhãn" (label) là gì?
A. Một tính năng của dữ liệu
B. Kết quả đầu ra hoặc giá trị mục tiêu mà mô hình cần dự đoán
C. Thuật toán được sử dụng
D. Một phần của dữ liệu huấn luyện
3. Thuật toán nào thường được sử dụng để giảm số lượng chiều của dữ liệu mà vẫn giữ lại nhiều thông tin nhất có thể, thường áp dụng trong học không giám sát?
A. Hồi quy Tuyến tính
B. Phân tích Thành phần Chính (PCA)
C. Máy Vector Hỗ trợ (SVM)
D. Cây Quyết định
4. Thuật toán nào thuộc nhóm học không giám sát, được sử dụng để tìm các luật kết hợp (association rules) trong dữ liệu, ví dụ như phân tích giỏ hàng?
A. Hồi quy Tuyến tính
B. Thuật toán Apriori
C. Máy Vector Hỗ trợ (SVM)
D. Cây Quyết định
5. Học tăng cường (Reinforcement Learning) liên quan đến việc một "tác nhân" (agent) học cách đưa ra các quyết định thông qua:
A. Phân tích các cặp (đầu vào, đầu ra) có sẵn
B. Tìm kiếm các mẫu ẩn trong dữ liệu không nhãn
C. Nhận phần thưởng hoặc hình phạt dựa trên hành động của mình
D. Phân loại dữ liệu dựa trên các nhãn đã cho
6. Mô hình học máy nào có thể được sử dụng để dự đoán chuỗi ký tự tiếp theo trong một câu, ví dụ như trong các hệ thống gợi ý văn bản?
A. Máy Vector Hỗ trợ (SVM)
B. Mạng nơ-ron hồi quy (RNN)
C. Phân cụm K-Means
D. Hồi quy Tuyến tính
7. Thuật toán nào thuộc nhóm học có giám sát và thường được sử dụng cho các bài toán phân loại?
A. Phân cụm K-Means
B. Giảm chiều dữ liệu PCA
C. Hồi quy Logistic
D. Mạng nơ-ron tự tổ chức (SOM)
8. Trong học máy, "tiền xử lý dữ liệu" (data preprocessing) bao gồm các bước nào?
A. Huấn luyện mô hình
B. Đánh giá hiệu suất
C. Làm sạch, biến đổi và chuẩn hóa dữ liệu
D. Triển khai mô hình
9. Mạng nơ-ron nhân tạo (Artificial Neural Networks) được lấy cảm hứng từ cấu trúc nào của sinh học?
A. Hệ tuần hoàn
B. Hệ thần kinh con người
C. Hệ tiêu hóa
D. Hệ hô hấp
10. Mục tiêu chính của "huấn luyện" một mô hình học máy là gì?
A. Giảm thiểu chi phí tính toán
B. Tăng cường khả năng khái quát hóa của mô hình trên dữ liệu mới
C. Tạo ra một giao diện người dùng thân thiện
D. Đảm bảo mô hình chỉ hoạt động trên dữ liệu huấn luyện
11. Điều gì xảy ra khi một mô hình học máy bị "quá khớp" (overfitting)?
A. Mô hình hoạt động kém cả trên dữ liệu huấn luyện và kiểm tra
B. Mô hình hoạt động tốt trên dữ liệu huấn luyện nhưng kém trên dữ liệu kiểm tra
C. Mô hình hoạt động tốt trên dữ liệu kiểm tra nhưng kém trên dữ liệu huấn luyện
D. Mô hình hoạt động tốt trên cả hai loại dữ liệu
12. Khi một mô hình học máy hoạt động kém trên dữ liệu huấn luyện nhưng lại có hiệu suất tốt trên dữ liệu kiểm tra, hiện tượng này được gọi là gì?
A. Quá khớp (Overfitting)
B. Chưa khớp (Underfitting)
C. Học tốt (Good fit)
D. Tự khớp (Self-fitting)
13. Một ví dụ về bài toán phân loại (classification) trong học máy là gì?
A. Dự đoán giá cổ phiếu ngày mai
B. Phân loại email là spam hay không spam
C. Ước tính thời gian di chuyển
D. Dự đoán nhiệt độ ngày mai
14. Trong học máy, thuật ngữ "tập kiểm tra" (test set) được sử dụng để làm gì?
A. Huấn luyện mô hình
B. Điều chỉnh các siêu tham số (hyperparameters) của mô hình
C. Đánh giá hiệu suất cuối cùng của mô hình đã huấn luyện trên dữ liệu chưa từng thấy
D. Tiền xử lý dữ liệu
15. Thuật toán K-Means thuộc loại hình học máy nào?
A. Học có giám sát (Supervised Learning)
B. Học không giám sát (Unsupervised Learning)
C. Học tăng cường (Reinforcement Learning)
D. Học bán giám sát (Semi-supervised Learning)
16. Trong học máy, thuật toán nào thường được sử dụng để phân loại dữ liệu dựa trên việc tìm kiếm các ranh giới quyết định tuyến tính hoặc phi tuyến tính tối ưu giữa các lớp dữ liệu?
A. Hồi quy tuyến tính
B. Máy Vector Hỗ trợ (SVM)
C. Cây quyết định
D. K-Means
17. Trong học máy có giám sát, "độ phủ" (recall) đo lường điều gì?
A. Tỷ lệ các dự đoán đúng trên tổng số dự đoán
B. Tỷ lệ các trường hợp tích cực thực tế được mô hình xác định là tích cực
C. Tỷ lệ các dự đoán tích cực là đúng
D. Tỷ lệ các trường hợp tiêu cực thực tế được mô hình xác định là tiêu cực
18. Trong học máy, "dự đoán" (prediction) đề cập đến quá trình nào?
A. Thu thập dữ liệu ban đầu
B. Xác định các tham số của mô hình
C. Sử dụng mô hình đã huấn luyện để đưa ra kết quả cho dữ liệu mới
D. Đánh giá hiệu suất của mô hình
19. Trong học máy, "tính năng kỹ thuật" (feature engineering) là quá trình gì?
A. Xóa bỏ các tính năng không cần thiết
B. Tạo ra các tính năng mới từ dữ liệu hiện có để cải thiện hiệu suất mô hình
C. Chọn ngẫu nhiên các tính năng
D. Huấn luyện mô hình mà không cần tính năng
20. Mạng nơ-ron tích chập (Convolutional Neural Networks - CNNs) thường được ứng dụng hiệu quả nhất trong lĩnh vực nào?
A. Xử lý ngôn ngữ tự nhiên
B. Nhận dạng ảnh và thị giác máy tính
C. Phân tích chuỗi thời gian
D. Phân cụm dữ liệu khách hàng
21. Thuật toán nào thường được sử dụng để dự đoán một giá trị liên tục, ví dụ như giá nhà?
A. Phân loại Cây Quyết định
B. Hồi quy Tuyến tính
C. Phân cụm K-Means
D. Học tăng cường
22. Thuật toán nào xây dựng một mô hình dạng cây, trong đó mỗi nút bên trong biểu diễn một phép kiểm tra trên một thuộc tính và mỗi lá biểu diễn một kết quả phân loại?
A. Hồi quy Tuyến tính
B. Phân cụm K-Means
C. Cây Quyết định
D. Học tăng cường
23. Trong học máy, "tính năng" (feature) đề cập đến khía cạnh nào của dữ liệu?
A. Kết quả đầu ra mong muốn
B. Một biến đo lường hoặc thuộc tính có thể quan sát được của dữ liệu
C. Thuật toán được sử dụng để huấn luyện mô hình
D. Dữ liệu được sử dụng để kiểm tra mô hình
24. Trong học máy, "siêu tham số" (hyperparameter) là gì?
A. Các biến trong dữ liệu đầu vào
B. Các tham số được học từ dữ liệu trong quá trình huấn luyện
C. Các tham số cấu hình mô hình được thiết lập trước khi huấn luyện
D. Kết quả đầu ra của mô hình
25. Thuật toán nào thường được sử dụng để gom nhóm các điểm dữ liệu tương tự nhau thành các "cụm" (clusters) mà không cần biết trước số lượng cụm?
A. Hồi quy Logistic
B. Máy Vector Hỗ trợ (SVM)
C. Cây Quyết định
D. Phân cụm K-Means