1. Thuật ngữ "Feature Engineering" trong Khoa học dữ liệu đề cập đến quá trình nào?
A. Xây dựng các thuật toán học máy mới
B. Tạo ra các biến mới (features) từ dữ liệu gốc để cải thiện hiệu suất mô hình
C. Làm sạch và loại bỏ các giá trị thiếu trong dữ liệu
D. Đánh giá độ chính xác của mô hình đã huấn luyện
2. Kỹ thuật nào giúp khám phá các mối quan hệ ẩn giữa các mục trong một tập dữ liệu lớn, thường được áp dụng trong phân tích giỏ hàng (market basket analysis)?
A. Phân tích hồi quy (Regression Analysis)
B. Phân tích luật kết hợp (Association Rule Mining)
C. Phân tích chuỗi thời gian (Time Series Analysis)
D. Phân tích cụm (Cluster Analysis)
3. Trong Khoa học dữ liệu, thuật ngữ "Feature Selection" liên quan đến việc gì?
A. Tạo ra các biến mới từ dữ liệu gốc
B. Giảm số chiều của dữ liệu bằng cách chọn ra các biến quan trọng nhất
C. Huấn luyện mô hình học máy
D. Đánh giá hiệu suất của mô hình bằng các chỉ số
4. Trong Khoa học dữ liệu, thuật ngữ "Model Training" đề cập đến quá trình nào?
A. Trực quan hóa kết quả phân tích
B. Huấn luyện thuật toán học máy trên dữ liệu để nó học các mẫu hình và đưa ra dự đoán
C. Làm sạch và chuẩn bị dữ liệu
D. Viết báo cáo kết quả phân tích
5. Mục tiêu chính của "Data Visualization" trong Khoa học dữ liệu là gì?
A. Tăng cường khả năng tính toán của máy tính
B. Tìm kiếm các mẫu hình và xu hướng ẩn trong dữ liệu một cách trực quan
C. Xóa bỏ các giá trị ngoại lai (outliers) khỏi tập dữ liệu
D. Tự động hóa hoàn toàn quá trình phân tích dữ liệu
6. Ngôn ngữ lập trình nào được sử dụng phổ biến nhất trong Khoa học dữ liệu và Học máy hiện nay?
A. Java
B. C++
C. Python
D. JavaScript
7. Mục đích chính của việc đánh giá mô hình học máy là gì?
A. Tăng tốc độ huấn luyện mô hình
B. Kiểm tra khả năng tổng quát hóa của mô hình trên dữ liệu mới
C. Giảm dung lượng bộ nhớ cần thiết cho mô hình
D. Tìm kiếm các thuật toán học máy phù hợp nhất
8. Thư viện Python nào rất mạnh mẽ cho việc thao tác và phân tích dữ liệu dạng bảng (tabular data)?
A. Matplotlib
B. Scikit-learn
C. Pandas
D. TensorFlow
9. Loại dữ liệu nào thường được biểu diễn dưới dạng các hàng và cột, tương tự như bảng tính?
A. Dữ liệu văn bản (Text Data)
B. Dữ liệu hình ảnh (Image Data)
C. Dữ liệu có cấu trúc (Structured Data)
D. Dữ liệu âm thanh (Audio Data)
10. Kỹ thuật nào sau đây thường được sử dụng để giảm số chiều của dữ liệu mà vẫn giữ được phần lớn thông tin quan trọng?
A. Phân tích hồi quy (Regression Analysis)
B. Phân tích cụm (Cluster Analysis)
C. Giảm chiều dữ liệu (Dimensionality Reduction)
D. Học sâu (Deep Learning)
11. Thuật toán "Decision Tree" (Cây quyết định) có thể được sử dụng cho cả bài toán nào sau đây?
A. Chỉ phân loại (Classification)
B. Chỉ hồi quy (Regression)
C. Phân loại (Classification) và Hồi quy (Regression)
D. Phân cụm (Clustering)
12. Kỹ thuật nào sau đây thuộc nhóm "Supervised Learning" và thường được sử dụng để phân loại dữ liệu?
A. K-Means Clustering
B. Principal Component Analysis (PCA)
C. Linear Regression
D. Support Vector Machine (SVM)
13. Khi dữ liệu có nhiều giá trị bị thiếu (missing values), phương pháp nào sau đây KHÔNG phải là một chiến lược xử lý phổ biến?
A. Xóa bỏ các hàng hoặc cột có giá trị thiếu
B. Điền giá trị thiếu bằng giá trị trung bình (mean) hoặc trung vị (median)
C. Sử dụng các thuật toán học máy nâng cao để dự đoán giá trị thiếu
D. Tự động tạo ra các biến mới không liên quan đến dữ liệu gốc để thay thế
14. Trong các kỹ thuật "Unsupervised Learning", phương pháp nào được sử dụng để nhóm các điểm dữ liệu tương tự nhau thành các cụm?
A. Hồi quy tuyến tính (Linear Regression)
B. Phân tích thành phần chính (PCA)
C. Phân cụm K-Means (K-Means Clustering)
D. Cây quyết định (Decision Tree)
15. Thuật toán nào sau đây thường được sử dụng cho các bài toán phân loại nhị phân (binary classification)?
A. K-Means Clustering
B. Linear Regression
C. Logistic Regression
D. Principal Component Analysis (PCA)
16. Kỹ thuật "Cross-validation" (kiểm định chéo) được sử dụng trong Khoa học dữ liệu chủ yếu để làm gì?
A. Tăng tốc độ xử lý dữ liệu
B. Tạo ra các biến mới từ dữ liệu gốc
C. Đánh giá độ tin cậy và khả năng tổng quát hóa của mô hình một cách khách quan hơn
D. Làm sạch dữ liệu bị thiếu
17. Một ví dụ về "Unsupervised Learning" là gì?
A. Dự đoán giá nhà dựa trên diện tích và vị trí
B. Phân loại email là thư rác hoặc không phải thư rác
C. Nhóm các khách hàng có hành vi mua sắm tương tự nhau
D. Nhận dạng chữ viết tay
18. Trong Khoa học dữ liệu, thuật ngữ "Big Data" thường được mô tả bởi những thuộc tính nào?
A. Tốc độ (Velocity), Khối lượng (Volume), Đa dạng (Variety), Chân thực (Veracity), Giá trị (Value)
B. Tốc độ (Velocity), Khối lượng (Volume), Đa dạng (Variety), Độ chính xác (Accuracy)
C. Khối lượng (Volume), Đa dạng (Variety), Chi phí (Cost), Tốc độ (Velocity)
D. Tốc độ (Velocity), Đa dạng (Variety), Độ tin cậy (Reliability), Giá trị (Value)
19. Trong Khoa học dữ liệu, khái niệm "Overfitting" (quá khớp) xảy ra khi nào?
A. Mô hình hoạt động tốt trên dữ liệu huấn luyện nhưng kém trên dữ liệu kiểm tra
B. Mô hình hoạt động kém trên cả dữ liệu huấn luyện và dữ liệu kiểm tra
C. Mô hình quá đơn giản, không nắm bắt được mối quan hệ trong dữ liệu
D. Mô hình huấn luyện quá nhanh
20. Trong Khoa học dữ liệu, mô hình học máy "Supervised Learning" khác với "Unsupervised Learning" ở điểm nào cơ bản nhất?
A. Supervised Learning sử dụng dữ liệu có nhãn (labeled data), Unsupervised Learning sử dụng dữ liệu không nhãn (unlabeled data)
B. Supervised Learning chỉ áp dụng cho dữ liệu số, Unsupervised Learning áp dụng cho cả dữ liệu số và văn bản
C. Supervised Learning luôn cho kết quả chính xác hơn Unsupervised Learning
D. Unsupervised Learning yêu cầu nhiều tài nguyên tính toán hơn Supervised Learning
21. Khi làm việc với dữ liệu chuỗi thời gian (time series data), những thách thức nào thường gặp phải?
A. Dữ liệu không có tính phụ thuộc thời gian
B. Tính mùa vụ, xu hướng và tính tự tương quan (autocorrelation)
C. Dữ liệu luôn có phân phối chuẩn
D. Tất cả các biến đều độc lập với nhau
22. Một trong những bước quan trọng nhất trong quy trình Khoa học dữ liệu là gì, liên quan đến việc làm sạch và chuẩn bị dữ liệu cho phân tích?
A. Trực quan hóa dữ liệu (Data Visualization)
B. Tiền xử lý dữ liệu (Data Preprocessing)
C. Học máy (Machine Learning)
D. Tối ưu hóa mô hình (Model Optimization)
23. Loại phân tích dữ liệu nào tập trung vào việc mô tả dữ liệu hiện có, trả lời câu hỏi "Điều gì đã xảy ra?"
A. Phân tích dự đoán (Predictive Analysis)
B. Phân tích chuẩn đoán (Diagnostic Analysis)
C. Phân tích mô tả (Descriptive Analysis)
D. Phân tích đề xuất (Prescriptive Analysis)
24. Trong Khoa học dữ liệu, "Data Cleaning" là quá trình gì?
A. Tạo ra các biểu đồ đẹp mắt từ dữ liệu
B. Xử lý các dữ liệu không chính xác, không đầy đủ, mâu thuẫn hoặc bị trùng lặp
C. Huấn luyện mô hình học máy với dữ liệu sạch
D. Xây dựng cơ sở dữ liệu mới
25. Thư viện Python nào thường được sử dụng để tạo ra các biểu đồ và trực quan hóa dữ liệu?
A. NumPy
B. Pandas
C. Matplotlib
D. Scikit-learn