1. Recurrent Neural Network (RNN) khác biệt so với Feedforward Neural Network (FFNN) chủ yếu ở điểm nào?
A. RNN sử dụng hàm kích hoạt khác biệt.
B. RNN có các kết nối vòng lặp, cho phép xử lý dữ liệu tuần tự và ghi nhớ trạng thái từ các bước trước.
C. RNN chỉ có thể được sử dụng cho các bài toán phân loại.
D. RNN có kiến trúc đơn giản hơn FFNN.
2. Trong ngữ cảnh của mô hình ngôn ngữ lớn (Large Language Models - LLMs), `attention mechanism` (cơ chế chú ý) giúp giải quyết vấn đề gì?
A. Giảm overfitting.
B. Cho phép mô hình tập trung vào các phần quan trọng nhất của dữ liệu đầu vào khi xử lý các chuỗi dài.
C. Tăng tốc độ huấn luyện mô hình.
D. Cải thiện khả năng tính toán song song.
3. Đâu là định nghĩa chính xác nhất về Học máy?
A. Một lĩnh vực khoa học máy tính cho phép máy tính hiển thị trí thông minh giống con người.
B. Một tập hợp các thuật toán cho phép máy tính học từ dữ liệu mà không cần được lập trình rõ ràng.
C. Một nhánh của thống kê toán học tập trung vào việc xây dựng mô hình dự đoán.
D. Một phương pháp lập trình phần mềm tập trung vào việc tạo ra các hệ thống tự động hóa.
4. Phương pháp `regularization` (chính quy hóa) được sử dụng để làm gì trong học máy?
A. Tăng độ chính xác của mô hình trên dữ liệu huấn luyện.
B. Giảm độ phức tạp của mô hình và ngăn chặn overfitting.
C. Tăng tốc độ hội tụ của thuật toán tối ưu hóa.
D. Cải thiện khả năng diễn giải của mô hình.
5. Mục tiêu chính của việc `chuẩn hóa dữ liệu` (data normalization) trong tiền xử lý dữ liệu cho học máy là gì?
A. Tăng kích thước tập dữ liệu.
B. Giảm số lượng thuộc tính trong dữ liệu.
C. Đưa các thuộc tính về cùng một thang đo, tránh việc một vài thuộc tính có giá trị lớn chi phối mô hình.
D. Loại bỏ các giá trị ngoại lai (outliers) trong dữ liệu.
6. Đâu là một ví dụ về thuật toán học máy dựa trên `instance-based learning` (học dựa trên thể hiện)?
A. Cây quyết định (Decision Tree).
B. Hồi quy tuyến tính (Linear Regression).
C. K-Nearest Neighbors (KNN).
D. Máy vector hỗ trợ (Support Vector Machine - SVM).
7. Fine-tuning (tinh chỉnh) một mô hình pre-trained (đã được huấn luyện trước) trong học sâu nghĩa là gì?
A. Huấn luyện lại mô hình từ đầu với một tập dữ liệu lớn hơn.
B. Điều chỉnh các siêu tham số (hyperparameters) của mô hình.
C. Tiếp tục huấn luyện mô hình đã được huấn luyện trước trên một tập dữ liệu mới, thường nhỏ hơn và cụ thể hơn, cho một nhiệm vụ tương tự hoặc liên quan.
D. Nén mô hình để giảm kích thước và tăng tốc độ suy luận.
8. Trong học tăng cường, `hàm phần thưởng` (reward function) có vai trò gì?
A. Xác định kiến trúc mạng nơ-ron.
B. Đánh giá hiệu suất của mô hình trên dữ liệu kiểm tra.
C. Hướng dẫn tác nhân (agent) học cách hành động bằng cách cung cấp phản hồi số cho mỗi hành động.
D. Phân loại dữ liệu đầu vào thành các nhóm khác nhau.
9. Thuật toán K-Means Clustering thuộc loại học máy nào?
A. Học có giám sát
B. Học tăng cường
C. Học bán giám sát
D. Học không giám sát
10. Trong thuật toán Gradient Descent, `learning rate` (tốc độ học) quyết định điều gì?
A. Số lượng vòng lặp huấn luyện tối đa.
B. Kích thước của mỗi bước di chuyển trong không gian tham số để tìm cực tiểu của hàm mất mát.
C. Số lượng dữ liệu được sử dụng trong mỗi lần cập nhật tham số (batch size).
D. Độ phức tạp của mô hình.
11. Khái niệm `federated learning` (học liên hợp) trong học máy giải quyết vấn đề gì?
A. Tăng tốc độ huấn luyện mô hình.
B. Huấn luyện mô hình trên dữ liệu phân tán và riêng tư (ví dụ: dữ liệu trên các thiết bị di động) mà không cần tập trung dữ liệu về một vị trí trung tâm.
C. Giảm overfitting trong mô hình.
D. Cải thiện khả năng diễn giải của mô hình.
12. Trong ngữ cảnh của Feature Engineering (kỹ thuật đặc trưng), `one-hot encoding` được sử dụng để xử lý loại dữ liệu nào?
A. Dữ liệu số liên tục.
B. Dữ liệu văn bản.
C. Dữ liệu thứ tự (ordinal data).
D. Dữ liệu phân loại (categorical data).
13. Trong học máy, `ensemble methods` (phương pháp tập hợp) hoạt động dựa trên nguyên tắc nào?
A. Sử dụng một mô hình duy nhất phức tạp để đạt được hiệu suất tốt nhất.
B. Kết hợp dự đoán của nhiều mô hình yếu (weak learners) để tạo ra một mô hình mạnh (strong learner).
C. Chia nhỏ dữ liệu huấn luyện thành nhiều phần nhỏ hơn để huấn luyện mô hình nhanh hơn.
D. Tự động chọn ra thuật toán học máy tốt nhất cho bài toán.
14. Phương pháp giảm chiều dữ liệu nào sau đây là tuyến tính và giữ lại phương sai lớn nhất của dữ liệu?
A. t-SNE (t-distributed Stochastic Neighbor Embedding).
B. PCA (Principal Component Analysis).
C. UMAP (Uniform Manifold Approximation and Projection).
D. Autoencoders.
15. Độ đo `Precision` trong đánh giá mô hình phân loại đo lường điều gì?
A. Tỷ lệ các trường hợp dự đoán dương tính đúng trên tổng số trường hợp thực tế là dương tính.
B. Tỷ lệ các trường hợp dự đoán dương tính đúng trên tổng số trường hợp được dự đoán là dương tính.
C. Tỷ lệ các trường hợp dự đoán âm tính đúng trên tổng số trường hợp thực tế là âm tính.
D. Tỷ lệ các trường hợp dự đoán âm tính đúng trên tổng số trường hợp được dự đoán là âm tính.
16. Thuật toán Random Forest là một ví dụ của phương pháp ensemble nào?
A. Boosting.
B. Stacking.
C. Bagging.
D. Voting.
17. Transformer network, kiến trúc nền tảng của nhiều mô hình ngôn ngữ lớn, dựa trên cơ chế chính nào?
A. Recurrent layers (lớp tái phát).
B. Convolutional layers (lớp tích chập).
C. Attention mechanism (cơ chế chú ý).
D. Pooling layers (lớp gộp).
18. Phương pháp nào sau đây thường được sử dụng để giảm thiểu overfitting trong mô hình cây quyết định?
A. Tăng kích thước tập dữ liệu huấn luyện.
B. Giảm độ sâu tối đa của cây (max depth).
C. Sử dụng nhiều lớp ẩn hơn trong mạng nơ-ron.
D. Tăng tốc độ học (learning rate) trong thuật toán gradient descent.
19. Trong lĩnh vực xử lý ngôn ngữ tự nhiên (NLP), `word embeddings` (nhúng từ) như Word2Vec và GloVe giúp biểu diễn từ ngữ như thế nào?
A. Dưới dạng các số nguyên duy nhất (unique integers).
B. Dưới dạng các vector số thực đa chiều, trong đó các từ có nghĩa tương tự có vector gần nhau trong không gian vector.
C. Dưới dạng các chuỗi ký tự ASCII.
D. Dưới dạng các biểu đồ quan hệ giữa các từ.
20. L1 regularization (Lasso) khác biệt so với L2 regularization (Ridge) ở điểm nào chính?
A. L1 regularization hiệu quả hơn trong việc tăng tốc độ huấn luyện.
B. L1 regularization có xu hướng đưa nhiều tham số mô hình về giá trị 0, dẫn đến lựa chọn đặc trưng (feature selection), trong khi L2 regularization chỉ làm giảm giá trị tham số.
C. L2 regularization dễ bị ảnh hưởng bởi outliers hơn L1 regularization.
D. L1 regularization chỉ áp dụng được cho các mô hình tuyến tính, còn L2 regularization áp dụng được cho cả mô hình tuyến tính và phi tuyến.
21. Phương pháp `cross-validation` (kiểm định chéo) được sử dụng để làm gì trong học máy?
A. Tăng tốc độ huấn luyện mô hình.
B. Đánh giá khách quan hiệu suất của mô hình và ước lượng khả năng khái quát hóa của nó trên dữ liệu mới.
C. Giảm kích thước của tập dữ liệu huấn luyện.
D. Chọn thuật toán học máy phù hợp nhất cho bài toán.
22. Trong Machine Learning Operations (MLOps), `model drift` (trôi mô hình) đề cập đến hiện tượng gì?
A. Sự cải thiện hiệu suất của mô hình theo thời gian.
B. Sự suy giảm hiệu suất của mô hình theo thời gian do sự thay đổi trong dữ liệu đầu vào.
C. Sự thay đổi kiến trúc của mô hình trong quá trình huấn luyện.
D. Sự cố phần cứng làm gián đoạn quá trình huấn luyện mô hình.
23. Mục tiêu của `dimensionality reduction` (giảm chiều dữ liệu) là gì?
A. Tăng độ chính xác của mô hình.
B. Giảm số lượng thuộc tính đầu vào của mô hình, giúp giảm độ phức tạp tính toán, trực quan hóa dữ liệu và có thể cải thiện hiệu suất mô hình.
C. Tăng số lượng dữ liệu huấn luyện.
D. Cải thiện khả năng diễn giải của mô hình.
24. Đâu là một thách thức đạo đức quan trọng liên quan đến việc sử dụng thuật toán học máy trong hệ thống tuyển dụng?
A. Khả năng thuật toán đưa ra quyết định nhanh hơn con người.
B. Nguy cơ thuật toán khuếch đại và duy trì các thành kiến (biases) vốn có trong dữ liệu huấn luyện, dẫn đến phân biệt đối xử.
C. Chi phí triển khai và duy trì hệ thống học máy.
D. Sự phức tạp trong việc giải thích quyết định của thuật toán.
25. Trong học máy, `overfitting` (quá khớp) xảy ra khi nào?
A. Mô hình hoạt động kém trên cả dữ liệu huấn luyện và dữ liệu kiểm tra.
B. Mô hình hoạt động tốt trên dữ liệu kiểm tra nhưng kém trên dữ liệu huấn luyện.
C. Mô hình hoạt động tốt trên dữ liệu huấn luyện nhưng kém trên dữ liệu kiểm tra.
D. Mô hình hoạt động tốt trên cả dữ liệu huấn luyện và dữ liệu kiểm tra.
26. Trong ngữ cảnh của unsupervised learning, `clustering` (phân cụm) và `dimensionality reduction` (giảm chiều dữ liệu) có mối quan hệ như thế nào?
A. Chúng là hai tên gọi khác nhau của cùng một kỹ thuật.
B. Clustering thường được sử dụng như một bước tiền xử lý để giảm chiều dữ liệu trước khi áp dụng các thuật toán phân cụm.
C. Giảm chiều dữ liệu có thể được sử dụng như một bước tiền xử lý để cải thiện hiệu quả của thuật toán phân cụm, bằng cách loại bỏ nhiễu và tập trung vào các đặc trưng quan trọng.
D. Không có mối quan hệ nào giữa clustering và dimensionality reduction.
27. Mạng nơ-ron tích chập (Convolutional Neural Network - CNN) thường được sử dụng hiệu quả nhất trong lĩnh vực nào?
A. Xử lý ngôn ngữ tự nhiên (Natural Language Processing).
B. Dự báo chuỗi thời gian (Time Series Forecasting).
C. Thị giác máy tính (Computer Vision).
D. Học tăng cường (Reinforcement Learning).
28. ROC curve (đường cong ROC) và AUC (Area Under the Curve) được sử dụng để đánh giá hiệu suất của mô hình phân loại nhị phân (binary classification) như thế nào?
A. Chúng đánh giá hiệu suất mô hình dựa trên độ chính xác (accuracy) và độ thu hồi (recall).
B. ROC curve thể hiện mối quan hệ giữa True Positive Rate (TPR) và False Positive Rate (FPR) ở các ngưỡng phân loại khác nhau, và AUC là diện tích dưới đường cong ROC, thể hiện khả năng phân loại của mô hình.
C. ROC curve và AUC chỉ phù hợp để đánh giá mô hình hồi quy, không phù hợp cho phân loại.
D. AUC càng nhỏ thì mô hình càng tốt.
29. Trong các loại học máy sau, loại nào thường được sử dụng để phân loại email spam?
A. Học tăng cường (Reinforcement Learning)
B. Học không giám sát (Unsupervised Learning)
C. Học có giám sát (Supervised Learning)
D. Học sâu (Deep Learning)
30. Bias-Variance tradeoff (đánh đổi Bias-Variance) trong học máy mô tả sự cân bằng giữa điều gì?
A. Độ chính xác và độ phức tạp của mô hình.
B. Khả năng của mô hình khớp tốt với dữ liệu huấn luyện (Bias) và khả năng khái quát hóa tốt trên dữ liệu mới (Variance).
C. Thời gian huấn luyện và độ chính xác của mô hình.
D. Số lượng dữ liệu huấn luyện và kích thước mô hình.