1. Trong ngữ cảnh học máy, `feature engineering` (kỹ thuật đặc trưng) đề cập đến điều gì?
A. Quá trình lựa chọn thuật toán học máy phù hợp nhất cho bài toán.
B. Quá trình tối ưu hóa siêu tham số (hyperparameters) của mô hình.
C. Quá trình tạo ra các đặc trưng (features) mới và hữu ích từ dữ liệu thô để cải thiện hiệu suất mô hình.
D. Quá trình giảm số lượng đặc trưng đầu vào để giảm độ phức tạp của mô hình.
2. Đâu là nhược điểm chính của thuật toán Decision Tree (Cây quyết định)?
A. Khả năng xử lý dữ liệu phi tuyến tính kém.
B. Dễ bị quá khớp (overfitting) trên dữ liệu huấn luyện, đặc biệt với cây sâu.
C. Yêu cầu tính toán lớn khi dữ liệu có kích thước lớn.
D. Khó diễn giải kết quả và logic của mô hình.
3. Trong học tăng cường (Reinforcement Learning), `agent` (tác nhân) học bằng cách nào?
A. Bằng cách được cung cấp dữ liệu huấn luyện đã được gán nhãn.
B. Bằng cách tìm kiếm cấu trúc ẩn trong dữ liệu không nhãn.
C. Bằng cách tương tác với môi trường và nhận phần thưởng hoặc phạt dựa trên hành động của mình.
D. Bằng cách phân tích dữ liệu lịch sử để dự đoán tương lai.
4. Khái niệm `bias-variance tradeoff` (đánh đổi giữa độ chệch và phương sai) trong học máy nói về điều gì?
A. Sự đánh đổi giữa tốc độ huấn luyện và độ chính xác của mô hình.
B. Sự đánh đổi giữa khả năng diễn giải mô hình và hiệu suất của mô hình.
C. Sự đánh đổi giữa việc mô hình quá đơn giản (high bias, underfitting) và quá phức tạp (high variance, overfitting).
D. Sự đánh đổi giữa kích thước tập dữ liệu huấn luyện và kích thước tập dữ liệu kiểm tra.
5. Trong ngữ cảnh đạo đức AI, khái niệm `bias` (thiên vị) trong dữ liệu huấn luyện có thể dẫn đến hậu quả gì?
A. Mô hình hoạt động chậm hơn.
B. Mô hình đưa ra dự đoán không chính xác trên dữ liệu mới.
C. Mô hình củng cố và khuếch đại các thành kiến xã hội hiện có, dẫn đến phân biệt đối xử hoặc bất công.
D. Mô hình khó diễn giải hơn.
6. Phương pháp nào sau đây thường được sử dụng để xử lý dữ liệu bị thiếu (missing data)?
A. Feature scaling (Chuẩn hóa đặc trưng).
B. Dimensionality reduction (Giảm chiều dữ liệu).
C. Imputation (Điền giá trị thiếu) hoặc loại bỏ các hàng/cột chứa giá trị thiếu.
D. One-hot encoding.
7. Giải thích AI (Explainable AI - XAI) hướng đến mục tiêu gì?
A. Tăng độ chính xác của mô hình AI.
B. Giảm thời gian huấn luyện mô hình AI.
C. Làm cho quyết định của mô hình AI trở nên dễ hiểu và minh bạch hơn đối với con người.
D. Tự động hóa quá trình phát triển mô hình AI.
8. Convolutional Neural Networks (CNNs) thường được sử dụng hiệu quả nhất trong lĩnh vực nào?
A. Xử lý ngôn ngữ tự nhiên (NLP).
B. Dự báo chuỗi thời gian.
C. Thị giác máy tính (Computer Vision) và xử lý ảnh.
D. Học tăng cường (Reinforcement Learning).
9. Độ đo (metric) nào sau đây thường được sử dụng để đánh giá hiệu suất của mô hình hồi quy (regression)?
A. Accuracy (Độ chính xác)
B. Precision (Độ chuẩn xác)
C. Recall (Độ phủ)
D. Mean Squared Error (MSE - Sai số bình phương trung bình)
10. Đâu là định nghĩa chính xác nhất về Học máy (Machine Learning)?
A. Một lĩnh vực khoa học máy tính tập trung vào việc lập trình máy tính để thực hiện các tác vụ cụ thể theo lệnh của con người.
B. Một phương pháp cho phép máy tính học hỏi từ dữ liệu mà không cần được lập trình một cách rõ ràng, để đưa ra dự đoán hoặc quyết định.
C. Một nhánh của thống kê toán học sử dụng các thuật toán phức tạp để phân tích dữ liệu và tạo ra các mô hình.
D. Một công cụ phần mềm mạnh mẽ giúp tự động hóa các quy trình phân tích dữ liệu thủ công.
11. Mục tiêu chính của việc chia tập dữ liệu thành tập huấn luyện (training set) và tập kiểm tra (testing set) là gì?
A. Tăng tốc độ huấn luyện mô hình.
B. Đánh giá khả năng tổng quát hóa (generalization) của mô hình trên dữ liệu mới, chưa từng thấy.
C. Giảm thiểu nguy cơ quá khớp (overfitting) trên tập huấn luyện.
D. Cải thiện độ chính xác của mô hình trên tập huấn luyện.
12. Phương pháp `Cross-validation` (Kiểm định chéo) được sử dụng để làm gì trong học máy?
A. Tăng tốc độ huấn luyện mô hình.
B. Đánh giá độ tin cậy của ước tính hiệu suất mô hình và giảm thiểu sự thiên vị do phân chia dữ liệu huấn luyện-kiểm tra ngẫu nhiên.
C. Giảm kích thước tập dữ liệu huấn luyện.
D. Chọn thuật toán học máy tốt nhất.
13. Khi nào thì việc sử dụng một mô hình học máy đơn giản (ví dụ: Linear Regression) có thể tốt hơn một mô hình phức tạp (ví dụ: Deep Neural Network)?
A. Khi dữ liệu huấn luyện có kích thước rất lớn.
B. Khi bài toán yêu cầu độ chính xác tuyệt đối.
C. Khi dữ liệu có cấu trúc đơn giản và mối quan hệ tuyến tính, hoặc khi cần mô hình dễ diễn giải và tính toán nhanh.
D. Khi cần xử lý dữ liệu phi cấu trúc như ảnh hoặc văn bản.
14. Trong học máy, `gradient descent` (hạ gradient) là thuật toán được sử dụng để làm gì?
A. Chọn đặc trưng phù hợp.
B. Tìm giá trị tối ưu của tham số mô hình (ví dụ: weights trong Linear Regression, Neural Networks) bằng cách đi theo hướng ngược với gradient của hàm mất mát.
C. Giảm chiều dữ liệu.
D. Phân cụm dữ liệu.
15. Ưu điểm chính của việc sử dụng kỹ thuật `dimensionality reduction` (giảm chiều dữ liệu) là gì?
A. Tăng độ chính xác của mô hình.
B. Giảm overfitting và cải thiện hiệu suất tính toán (tốc độ huấn luyện, giảm bộ nhớ).
C. Tăng khả năng diễn giải mô hình.
D. Tất cả các đáp án trên đều đúng.
16. Phương pháp `early stopping` (dừng sớm) trong huấn luyện mô hình học máy được sử dụng để làm gì?
A. Tăng tốc độ huấn luyện.
B. Ngăn chặn overfitting bằng cách dừng quá trình huấn luyện khi hiệu suất trên tập validation (kiểm chứng) bắt đầu giảm.
C. Chọn thuật toán học máy tốt nhất.
D. Tối ưu hóa siêu tham số.
17. Dropout là một kỹ thuật regularization (chính quy hóa) được sử dụng trong mạng nơ-ron để làm gì?
A. Tăng độ phức tạp của mạng.
B. Giảm overfitting bằng cách ngẫu nhiên bỏ qua (dropout) một số nơ-ron trong quá trình huấn luyện.
C. Tăng tốc độ dự đoán (inference).
D. Thay đổi hàm kích hoạt.
18. Hyperparameter tuning (Tối ưu hóa siêu tham số) là quá trình làm gì?
A. Tối ưu hóa các tham số nội tại (weights) của mô hình.
B. Lựa chọn và điều chỉnh các tham số bên ngoài mô hình (hyperparameters) để cải thiện hiệu suất mô hình.
C. Chuẩn hóa dữ liệu đầu vào.
D. Chọn thuật toán học máy phù hợp.
19. Thuật toán nào sau đây thuộc loại `ensemble learning` (học tập hợp)?
A. K-Nearest Neighbors (KNN)
B. Support Vector Machine (SVM)
C. Random Forest
D. Linear Regression
20. Backpropagation (Lan truyền ngược) là thuật toán được sử dụng để làm gì trong mạng nơ-ron?
A. Dự đoán đầu ra của mạng.
B. Khởi tạo trọng số ban đầu của mạng.
C. Tính toán gradient của hàm mất mát (loss function) theo trọng số và cập nhật trọng số để giảm thiểu mất mát.
D. Chọn kiến trúc mạng nơ-ron phù hợp.
21. Trong học sâu (Deep Learning), `batch normalization` (chuẩn hóa theo lô) thường được sử dụng để làm gì?
A. Tối ưu hóa hàm mất mát.
B. Tăng tốc độ huấn luyện và ổn định quá trình huấn luyện mạng nơ-ron bằng cách chuẩn hóa đầu ra của mỗi lớp.
C. Giảm kích thước mô hình.
D. Tăng độ chính xác trên tập kiểm tra.
22. PCA (Principal Component Analysis) là một thuật toán thuộc loại nào?
A. Thuật toán phân loại (Classification).
B. Thuật toán hồi quy (Regression).
C. Thuật toán giảm chiều dữ liệu (Dimensionality Reduction).
D. Thuật toán phân cụm (Clustering).
23. Recurrent Neural Networks (RNNs) được thiết kế để xử lý loại dữ liệu nào đặc biệt hiệu quả?
A. Dữ liệu dạng bảng (tabular data).
B. Dữ liệu ảnh tĩnh.
C. Dữ liệu chuỗi (sequential data) như văn bản, âm thanh, chuỗi thời gian.
D. Dữ liệu rời rạc.
24. Phương pháp nào sau đây giúp giảm thiểu hiện tượng `overfitting` (quá khớp) trong mô hình học máy?
A. Tăng kích thước tập dữ liệu huấn luyện.
B. Sử dụng mô hình phức tạp hơn.
C. Giảm độ phức tạp của mô hình (ví dụ: pruning cây quyết định, giảm số lớp trong mạng nơ-ron).
D. Tăng số lượng đặc trưng đầu vào.
25. Trong mạng nơ-ron (neural network), `activation function` (hàm kích hoạt) có vai trò gì?
A. Tối ưu hóa trọng số (weights) của mạng.
B. Giới thiệu tính phi tuyến tính vào mạng, cho phép mô hình học các mối quan hệ phức tạp.
C. Chuẩn hóa đầu vào của mạng.
D. Tính toán sai số giữa dự đoán và giá trị thực tế.
26. Trong bài toán phân loại (classification), `Confusion Matrix` (Ma trận nhầm lẫn) cung cấp thông tin gì?
A. Độ chính xác tổng thể của mô hình.
B. Phân bố xác suất dự đoán của mô hình.
C. Số lượng dự đoán đúng và sai cho từng lớp (class).
D. Độ phức tạp tính toán của thuật toán phân loại.
27. Thuật toán K-Means Clustering thuộc loại học máy nào?
A. Học có giám sát (Supervised Learning)
B. Học tăng cường (Reinforcement Learning)
C. Học không giám sát (Unsupervised Learning)
D. Học bán giám sát (Semi-supervised Learning)
28. Trong các loại hình học máy sau, loại nào đòi hỏi dữ liệu huấn luyện đã được gán nhãn (labeled data)?
A. Học tăng cường (Reinforcement Learning)
B. Học không giám sát (Unsupervised Learning)
C. Học bán giám sát (Semi-supervised Learning)
D. Học có giám sát (Supervised Learning)
29. Khi triển khai mô hình học máy vào thực tế (deployment), điều gì là quan trọng cần xem xét ngoài độ chính xác của mô hình?
A. Độ phức tạp của thuật toán huấn luyện.
B. Khả năng diễn giải của mô hình.
C. Hiệu suất tính toán (tốc độ dự đoán, yêu cầu tài nguyên), khả năng bảo trì, và tính ổn định của mô hình trong môi trường thực tế.
D. Kích thước của tập dữ liệu huấn luyện.
30. Trong unsupervised learning, `dimensionality reduction` có thể được sử dụng để làm gì ngoài việc giảm số chiều dữ liệu?
A. Tăng độ chính xác của mô hình phân loại.
B. Trực quan hóa dữ liệu có chiều cao bằng cách chiếu dữ liệu xuống không gian 2D hoặc 3D.
C. Xử lý dữ liệu bị thiếu.
D. Tất cả các đáp án trên đều đúng.