1. Trong bài toán phân loại, khi tập dữ liệu bị `lệch` (imbalanced dataset) (ví dụ, số lượng mẫu của một lớp lớn hơn đáng kể so với lớp khác), độ đo nào sau đây thường phù hợp hơn `độ chính xác` (accuracy) để đánh giá mô hình?
A. Accuracy
B. Precision
C. Recall
D. F1-score
2. Phương pháp `ensemble learning` (học ансамбль) hoạt động dựa trên nguyên tắc nào?
A. Huấn luyện một mô hình học máy duy nhất với lượng dữ liệu lớn.
B. Kết hợp dự đoán của nhiều mô hình học máy khác nhau (thường là yếu hơn) để tạo ra một mô hình mạnh mẽ hơn.
C. Sử dụng các mô hình học máy đơn giản để giải quyết các bài toán phức tạp.
D. Chia nhỏ bài toán lớn thành nhiều bài toán nhỏ hơn và giải quyết từng bài.
3. Trong quy trình phát triển mô hình học máy, bước `kỹ thuật đặc trưng` (feature engineering) bao gồm những công việc chính nào?
A. Chọn thuật toán học máy phù hợp nhất.
B. Thu thập và làm sạch dữ liệu.
C. Biến đổi, tạo ra các đặc trưng mới từ dữ liệu thô, có thể giúp mô hình học tốt hơn.
D. Đánh giá hiệu năng mô hình.
4. Trong học tăng cường (Reinforcement Learning), `agent` (tác nhân) học hỏi thông qua tương tác với môi trường và nhận được tín hiệu gì?
A. Nhãn dữ liệu (labels).
B. Phần thưởng (rewards) hoặc hình phạt (penalties).
C. Dữ liệu không có nhãn.
D. Siêu tham số.
5. Kỹ thuật `xác thực chéo` (cross-validation) được sử dụng để làm gì trong học máy?
A. Tăng kích thước tập dữ liệu huấn luyện.
B. Đánh giá một cách khách quan hiệu năng của mô hình và giảm thiểu sự thiên vị do phân chia tập huấn luyện - kiểm thử ngẫu nhiên.
C. Tối ưu hóa siêu tham số (hyperparameters) của mô hình.
D. Giảm thời gian huấn luyện mô hình.
6. Trong học máy, `học có giám sát` (Supervised Learning) khác biệt chính so với `học không giám sát` (Unsupervised Learning) ở điểm nào?
A. Học có giám sát sử dụng dữ liệu có nhãn (labeled data), trong khi học không giám sát sử dụng dữ liệu không có nhãn.
B. Học có giám sát chỉ áp dụng cho các bài toán phân loại, còn học không giám sát chỉ áp dụng cho bài toán hồi quy.
C. Học có giám sát đòi hỏi nhiều dữ liệu hơn học không giám sát.
D. Học có giám sát luôn cho kết quả chính xác hơn học không giám sát.
7. Độ đo `độ chính xác` (accuracy) trong bài toán phân loại (classification) được tính như thế nào?
A. Tỷ lệ giữa số lượng dự đoán đúng trên tổng số lượng mẫu.
B. Tỷ lệ giữa số lượng dự đoán đúng dương tính trên tổng số mẫu dương tính thực tế.
C. Tỷ lệ giữa số lượng dự đoán đúng âm tính trên tổng số mẫu âm tính thực tế.
D. Trung bình cộng của `độ chính xác dương` (precision) và `độ phủ` (recall).
8. Phương pháp `giảm chiều dữ liệu` (dimensionality reduction) được sử dụng để làm gì?
A. Tăng số lượng đặc trưng (features) của dữ liệu.
B. Giảm số lượng đặc trưng của dữ liệu trong khi vẫn giữ lại thông tin quan trọng.
C. Tăng độ chính xác của mô hình học máy.
D. Tăng tốc độ huấn luyện mô hình học máy.
9. Mạng nơ-ron tích chập (Convolutional Neural Network - CNN) đặc biệt hiệu quả trong lĩnh vực nào?
A. Xử lý ngôn ngữ tự nhiên (Natural Language Processing - NLP)
B. Nhận dạng hình ảnh (Image Recognition) và thị giác máy tính (Computer Vision)
C. Dự báo chuỗi thời gian (Time Series Forecasting)
D. Phân tích dữ liệu dạng bảng (Tabular Data Analysis)
10. Thuật toán `Gradient Descent` được sử dụng để làm gì trong huấn luyện mô hình học máy?
A. Đánh giá hiệu năng của mô hình.
B. Tìm giá trị tối ưu của các tham số mô hình (ví dụ: trọng số trong mạng nơ-ron) bằng cách tối thiểu hóa hàm mất mát (loss function).
C. Tiền xử lý dữ liệu đầu vào.
D. Giảm chiều dữ liệu.
11. Ứng dụng nào sau đây KHÔNG phải là ứng dụng điển hình của học máy?
A. Phát hiện gian lận thẻ tín dụng.
B. Dự báo thời tiết chính xác tuyệt đối trong dài hạn.
C. Xe tự lái.
D. Lọc thư rác (spam).
12. Vấn đề `thiên vị` (bias) trong dữ liệu huấn luyện có thể dẫn đến hậu quả gì cho mô hình học máy?
A. Mô hình hoạt động kém hiệu quả trên tập huấn luyện.
B. Mô hình hoạt động kém hiệu quả trên một số nhóm đối tượng nhất định trong thực tế, do phản ánh sự thiên vị trong dữ liệu.
C. Mô hình bị quá khớp (overfitting).
D. Mô hình huấn luyện quá nhanh.
13. Ứng dụng của học máy trong lĩnh vực y tế bao gồm:
A. Chẩn đoán bệnh từ hình ảnh y tế (X-quang, CT scan, MRI).
B. Phát triển thuốc mới.
C. Cá nhân hóa điều trị bệnh.
D. Tất cả các phương án trên.
14. Phương pháp nào sau đây thường được sử dụng để giảm thiểu hiện tượng `quá khớp` (overfitting)?
A. Tăng kích thước tập dữ liệu huấn luyện.
B. Giảm độ phức tạp của mô hình.
C. Sử dụng kỹ thuật `chính quy hóa` (regularization).
D. Tất cả các phương án trên.
15. Giải thích SHAP (SHapley Additive exPlanations) được sử dụng để làm gì trong học máy?
A. Tăng độ chính xác của mô hình.
B. Giải thích các dự đoán của mô hình, đặc biệt là các mô hình phức tạp như mạng nơ-ron, bằng cách đo lường đóng góp của từng đặc trưng.
C. Giảm chiều dữ liệu.
D. Tối ưu hóa siêu tham số.
16. Khái niệm `backpropagation` (lan truyền ngược) liên quan đến thuật toán nào?
A. K-means Clustering
B. Linear Regression
C. Decision Tree
D. Neural Network (Mạng nơ-ron)
17. Thuật toán nào sau đây thường được sử dụng cho bài toán `phân loại văn bản` (text classification)?
A. K-Nearest Neighbors (KNN)
B. Support Vector Machine (SVM)
C. Linear Regression
D. K-means Clustering
18. Siêu tham số (hyperparameter) khác với tham số (parameter) của mô hình học máy ở điểm nào?
A. Siêu tham số được học từ dữ liệu, còn tham số được thiết lập thủ công trước khi huấn luyện.
B. Tham số được học từ dữ liệu, còn siêu tham số được thiết lập thủ công trước khi huấn luyện.
C. Siêu tham số chỉ tồn tại trong mô hình học sâu (Deep Learning), còn tham số tồn tại trong tất cả các mô hình học máy.
D. Không có sự khác biệt, hai khái niệm này là tương đương.
19. Trong học sâu (Deep Learning), `hàm kích hoạt` (activation function) có vai trò gì?
A. Tuyến tính hóa đầu ra của mỗi nơ-ron.
B. Giới thiệu tính phi tuyến vào mạng nơ-ron, cho phép mô hình học các quan hệ phức tạp.
C. Giảm tốc độ huấn luyện mạng nơ-ron.
D. Tăng kích thước của mạng nơ-ron.
20. Thuật toán nào sau đây thuộc loại `học có giám sát`?
A. K-means Clustering
B. Principal Component Analysis (PCA)
C. Linear Regression
D. Apriori Algorithm
21. Khái niệm `học chuyển giao` (transfer learning) đề cập đến điều gì?
A. Chuyển dữ liệu từ định dạng này sang định dạng khác.
B. Tái sử dụng kiến thức đã học được từ một bài toán (hoặc tập dữ liệu) để giải quyết một bài toán (hoặc tập dữ liệu) khác liên quan.
C. Chuyển giao mô hình học máy từ người này sang người khác.
D. Chuyển đổi mô hình học máy từ môi trường huấn luyện sang môi trường thực tế.
22. AUC (Area Under the ROC Curve) là gì?
A. Diện tích dưới đường cong ROC, thể hiện khả năng phân loại tổng thể của mô hình phân loại nhị phân. AUC càng cao, mô hình càng tốt.
B. Một loại thuật toán học máy.
C. Một phương pháp tiền xử lý dữ liệu.
D. Một siêu tham số của mô hình học máy.
23. Trong ngữ cảnh học máy, `đường cong ROC` (Receiver Operating Characteristic curve) được sử dụng để đánh giá điều gì?
A. Độ chính xác của mô hình hồi quy.
B. Hiệu năng của mô hình phân loại nhị phân ở các ngưỡng phân loại khác nhau.
C. Sự phân bố của dữ liệu đầu vào.
D. Độ phức tạp của mô hình.
24. Hiện tượng `quá khớp` (overfitting) trong học máy xảy ra khi nào?
A. Mô hình học quá tốt trên tập huấn luyện nhưng kém hiệu quả trên tập kiểm thử.
B. Mô hình học quá kém trên cả tập huấn luyện và tập kiểm thử.
C. Mô hình huấn luyện quá chậm.
D. Dữ liệu huấn luyện chứa quá nhiều nhiễu.
25. Mục tiêu chính của việc chia tập dữ liệu thành `tập huấn luyện` (training set) và `tập kiểm thử` (test set) trong học máy là gì?
A. Để tăng tốc độ huấn luyện mô hình.
B. Để đánh giá hiệu năng của mô hình trên dữ liệu mới, chưa từng thấy trong quá trình huấn luyện.
C. Để đơn giản hóa quá trình tiền xử lý dữ liệu.
D. Để giảm kích thước bộ nhớ cần thiết để lưu trữ dữ liệu.
26. Ví dụ về thuật toán ensemble learning phổ biến là:
A. K-means Clustering
B. Support Vector Machine (SVM)
C. Random Forest
D. Linear Regression
27. Học máy (Machine Learning) được định nghĩa chính xác nhất là:
A. Một lĩnh vực khoa học máy tính tập trung vào việc viết mã chương trình một cách thủ công để thực hiện các tác vụ cụ thể.
B. Một lĩnh vực khoa học máy tính cho phép hệ thống máy tính học hỏi từ dữ liệu mà không cần được lập trình một cách rõ ràng.
C. Một phương pháp thống kê truyền thống để phân tích dữ liệu và rút ra kết luận.
D. Một tập hợp các công cụ phần mềm được sử dụng để quản lý và lưu trữ dữ liệu lớn.
28. RNN (Recurrent Neural Network) phù hợp nhất cho loại dữ liệu nào?
A. Dữ liệu hình ảnh tĩnh.
B. Dữ liệu dạng chuỗi (sequential data) như văn bản, chuỗi thời gian, hoặc âm thanh.
C. Dữ liệu dạng bảng không có thứ tự thời gian.
D. Dữ liệu rời rạc không có cấu trúc.
29. Trong ngữ cảnh của thuật toán K-means Clustering, `K` đại diện cho điều gì?
A. Số lượng đặc trưng (features) trong dữ liệu.
B. Số lượng cụm (clusters) mong muốn.
C. Số lần lặp tối đa của thuật toán.
D. Kích thước của tập dữ liệu.
30. PCA (Principal Component Analysis) là một thuật toán thuộc loại:
A. Học có giám sát (Supervised Learning)
B. Học không giám sát (Unsupervised Learning)
C. Học tăng cường (Reinforcement Learning)
D. Học bán giám sát (Semi-supervised Learning)