1. Random Forest là một ví dụ của kỹ thuật ensemble nào?
A. Boosting
B. Stacking
C. Bagging
D. Blending
2. Trong ngữ cảnh của mạng nơ-ron (Neural Networks), `activation function` (hàm kích hoạt) có vai trò gì?
A. Giảm số chiều của dữ liệu đầu vào.
B. Giới thiệu tính phi tuyến vào mạng nơ-ron.
C. Tính toán lỗi giữa dự đoán và giá trị thực tế.
D. Tối ưu hóa trọng số của mạng nơ-ron.
3. Backpropagation (lan truyền ngược) là thuật toán được sử dụng để làm gì trong mạng nơ-ron?
A. Dự đoán đầu ra cho dữ liệu đầu vào mới.
B. Khởi tạo trọng số của mạng nơ-ron.
C. Tính toán độ chính xác của mô hình trên dữ liệu kiểm tra.
D. Cập nhật trọng số của mạng nơ-ron để giảm thiểu hàm mất mát (loss function).
4. Explainable AI (XAI - AI có thể giải thích) nhằm mục đích gì?
A. Tăng độ chính xác của mô hình học máy.
B. Làm cho quyết định của các mô hình học máy dễ hiểu hơn đối với con người.
C. Giảm thời gian huấn luyện mô hình.
D. Tự động chọn hyperparameters tốt nhất.
5. Ưu điểm chính của thuật toán Decision Tree (Cây quyết định) là gì?
A. Khả năng xử lý dữ liệu phi tuyến tính tốt nhất.
B. Dễ dàng giải thích và trực quan hóa.
C. Hiệu suất cao trên dữ liệu có chiều cao.
D. Ít bị ảnh hưởng bởi outliers.
6. Recurrent Neural Networks (RNNs) đặc biệt phù hợp cho loại dữ liệu nào?
A. Dữ liệu dạng bảng (tabular data).
B. Dữ liệu ảnh tĩnh (static images).
C. Dữ liệu chuỗi thời gian (time series data) hoặc dữ liệu tuần tự (sequential data).
D. Dữ liệu văn bản không có cấu trúc.
7. Ethical considerations (Các vấn đề đạo đức) trong học máy là gì?
A. Chỉ liên quan đến việc bảo vệ dữ liệu cá nhân.
B. Bao gồm các vấn đề như bias (thiên vị), fairness (công bằng), transparency (minh bạch) và accountability (trách nhiệm giải trình) của các hệ thống học máy.
C. Không quan trọng vì học máy là một công nghệ trung lập.
D. Chỉ áp dụng cho các ứng dụng học máy trong lĩnh vực quân sự.
8. Phương pháp nào sau đây có thể giúp giảm thiểu overfitting?
A. Tăng kích thước tập dữ liệu huấn luyện.
B. Giảm độ phức tạp của mô hình.
C. Sử dụng kỹ thuật regularization (chính quy hóa).
D. Tất cả các phương án trên.
9. Gradient Boosting là một ví dụ của kỹ thuật ensemble nào?
A. Bagging
B. Stacking
C. Boosting
D. Blending
10. Trong ngữ cảnh của thuật toán K-Nearest Neighbors (KNN), giá trị `K` đại diện cho điều gì?
A. Số lượng features được sử dụng.
B. Số lượng cụm (clusters) cần tìm.
C. Số lượng láng giềng gần nhất được xem xét để phân loại hoặc hồi quy.
D. Số lần lặp lại thuật toán.
11. Thuật toán học máy nào thường được sử dụng để giảm chiều dữ liệu (dimensionality reduction)?
A. K-Nearest Neighbors (KNN)
B. Linear Regression
C. Principal Component Analysis (PCA)
D. Decision Tree
12. Bias-Variance tradeoff (Đánh đổi giữa độ chệch và phương sai) trong học máy mô tả điều gì?
A. Sự cân bằng giữa Precision và Recall.
B. Sự đánh đổi giữa việc mô hình quá đơn giản (high bias) và quá phức tạp (high variance).
C. Sự khác biệt giữa dữ liệu huấn luyện và dữ liệu kiểm tra.
D. Quá trình chọn các features quan trọng nhất.
13. Phương pháp nào sau đây KHÔNG phải là một thuật toán học không giám sát phổ biến?
A. K-means Clustering
B. Principal Component Analysis (PCA)
C. Support Vector Machine (SVM)
D. Anomaly Detection (Phát hiện bất thường)
14. Trong học máy, `feature` (đặc trưng) là gì?
A. Thuật toán học máy được sử dụng.
B. Một thuộc tính hoặc biến độc lập được sử dụng để mô tả dữ liệu.
C. Dữ liệu đầu ra mà mô hình học máy dự đoán.
D. Quá trình đánh giá hiệu suất của mô hình.
15. Mục tiêu chính của học không giám sát (Unsupervised Learning) là gì?
A. Dự đoán nhãn hoặc giá trị mục tiêu cho dữ liệu mới.
B. Tìm kiếm cấu trúc ẩn, mẫu hoặc nhóm trong dữ liệu không có nhãn.
C. Huấn luyện một tác nhân để đưa ra quyết định trong một môi trường để tối đa hóa phần thưởng.
D. Giảm số lượng chiều dữ liệu trong khi vẫn giữ lại thông tin quan trọng.
16. Bagging và Boosting là gì trong học máy?
A. Hai phương pháp giảm chiều dữ liệu.
B. Các kỹ thuật ensemble (kết hợp) để cải thiện hiệu suất mô hình bằng cách kết hợp dự đoán từ nhiều mô hình yếu.
C. Các phương pháp chính quy hóa để giảm overfitting.
D. Các thuật toán học không giám sát để phân cụm dữ liệu.
17. Khái niệm `exploration` (khám phá) và `exploitation` (khai thác) đề cập đến điều gì trong học tăng cường?
A. Sự đánh đổi giữa việc sử dụng thông tin đã học để đạt được phần thưởng ngay lập tức (khai thác) và thử các hành động mới có thể dẫn đến phần thưởng lớn hơn trong tương lai (khám phá).
B. Quá trình lựa chọn thuật toán phù hợp nhất cho một bài toán cụ thể.
C. Sự khác biệt giữa học có giám sát và học không giám sát.
D. Phương pháp đánh giá hiệu suất của tác nhân học tăng cường.
18. Cross-validation (Kiểm định chéo) được sử dụng để làm gì trong học máy?
A. Tăng kích thước tập dữ liệu huấn luyện.
B. Đánh giá hiệu suất của mô hình trên dữ liệu chưa từng thấy và điều chỉnh hyperparameters.
C. Giảm overfitting bằng cách thêm regularization.
D. Chọn thuật toán học máy tốt nhất cho bài toán.
19. Support Vector Machine (SVM) hoạt động dựa trên nguyên tắc nào?
A. Tìm đường phân chia tuyến tính tối ưu (hyperplane) với margin (lề) lớn nhất giữa các lớp.
B. Phân cụm dữ liệu dựa trên khoảng cách đến trung tâm cụm.
C. Xây dựng cây quyết định dựa trên thông tin thu được.
D. Tính toán xác suất có điều kiện để phân loại.
20. Transfer learning (Học chuyển giao) là gì?
A. Quá trình chuyển dữ liệu từ một định dạng sang định dạng khác.
B. Việc sử dụng kiến thức đã học từ một bài toán (source task) để cải thiện việc học trên một bài toán khác liên quan (target task).
C. Kỹ thuật để truyền tải mô hình học máy qua mạng.
D. Phương pháp để tăng tốc độ huấn luyện mô hình.
21. Convolutional Neural Networks (CNNs) thường được sử dụng hiệu quả nhất trong lĩnh vực nào?
A. Xử lý ngôn ngữ tự nhiên (NLP).
B. Phân tích chuỗi thời gian tài chính.
C. Thị giác máy tính (Computer Vision).
D. Hệ thống đề xuất (Recommendation Systems).
22. Hyperparameters (siêu tham số) khác với parameters (tham số) của mô hình học máy như thế nào?
A. Hyperparameters được học từ dữ liệu, trong khi parameters được đặt thủ công.
B. Parameters được học từ dữ liệu, trong khi hyperparameters được đặt trước khi huấn luyện.
C. Hyperparameters chỉ áp dụng cho mạng nơ-ron, trong khi parameters áp dụng cho tất cả các thuật toán học máy.
D. Parameters xác định cấu trúc mô hình, trong khi hyperparameters xác định cách mô hình học.
23. Overfitting (quá khớp) trong học máy xảy ra khi nào?
A. Mô hình hoạt động kém trên cả dữ liệu huấn luyện và dữ liệu kiểm tra.
B. Mô hình hoạt động tốt trên dữ liệu kiểm tra nhưng kém trên dữ liệu huấn luyện.
C. Mô hình hoạt động tốt trên dữ liệu huấn luyện nhưng kém trên dữ liệu kiểm tra mới, chưa từng thấy.
D. Mô hình hoạt động tốt trên cả dữ liệu huấn luyện và dữ liệu kiểm tra.
24. F1-score là gì?
A. Một độ đo của sự khác biệt giữa giá trị dự đoán và giá trị thực tế trong bài toán hồi quy.
B. Trung bình điều hòa của Precision và Recall.
C. Diện tích dưới đường cong ROC (AUC).
D. Tỷ lệ mẫu được phân loại đúng trên tổng số mẫu.
25. Học máy (Machine Learning) là gì?
A. Một lĩnh vực của khoa học máy tính cho phép máy tính học từ dữ liệu mà không cần được lập trình rõ ràng.
B. Một phương pháp lập trình máy tính truyền thống dựa trên các quy tắc cứng nhắc.
C. Một loại phần mềm ứng dụng được sử dụng để xử lý văn bản.
D. Một hệ thống cơ sở dữ liệu phức tạp để lưu trữ lượng lớn thông tin.
26. Precision (Độ chính xác) và Recall (Độ phủ) là các chỉ số đánh giá hiệu suất thường được sử dụng trong bài toán nào?
A. Hồi quy (Regression)
B. Phân cụm (Clustering)
C. Phân loại (Classification)
D. Giảm chiều dữ liệu (Dimensionality Reduction)
27. Loại học máy nào mà thuật toán được huấn luyện trên dữ liệu đã được gán nhãn?
A. Học tăng cường (Reinforcement Learning)
B. Học không giám sát (Unsupervised Learning)
C. Học bán giám sát (Semi-supervised Learning)
D. Học có giám sát (Supervised Learning)
28. AutoML (Automated Machine Learning) nhằm mục đích gì?
A. Tự động hóa quá trình triển khai mô hình học máy.
B. Tự động hóa toàn bộ quy trình phát triển mô hình học máy, từ tiền xử lý dữ liệu đến chọn mô hình và điều chỉnh hyperparameters.
C. Tự động tạo ra dữ liệu huấn luyện.
D. Tự động giải thích kết quả của mô hình học máy.
29. Ứng dụng phổ biến của học máy trong lĩnh vực y tế là gì?
A. Phân tích dữ liệu tài chính và dự đoán thị trường chứng khoán.
B. Nhận dạng khuôn mặt và kiểm soát truy cập.
C. Chẩn đoán bệnh và phát hiện sớm các bệnh lý.
D. Phát triển xe tự lái.
30. Trong học tăng cường (Reinforcement Learning), `agent` (tác nhân) là gì?
A. Môi trường mà tác nhân tương tác.
B. Thuật toán được sử dụng để huấn luyện mô hình.
C. Thực thể đưa ra quyết định và tương tác với môi trường để tối đa hóa phần thưởng.
D. Hàm mất mát được sử dụng để đánh giá hiệu suất.