1. Trong phân tích dữ liệu, kỹ thuật nào được sử dụng để giảm số lượng biến (đặc trưng) trong một tập dữ liệu trong khi vẫn giữ lại phần lớn thông tin quan trọng?
A. Trực quan hóa dữ liệu.
B. Tích hợp dữ liệu.
C. Giảm chiều dữ liệu (Dimensionality Reduction).
D. Mô hình hóa dữ liệu.
2. Thuật toán "K-Means Clustering" thuộc loại hình học máy nào?
A. Học có giám sát (Supervised Learning).
B. Học không giám sát (Unsupervised Learning).
C. Học tăng cường (Reinforcement Learning).
D. Học bán giám sát (Semi-supervised Learning).
3. Quá trình thu thập dữ liệu từ nhiều nguồn khác nhau, có thể bao gồm dữ liệu có cấu trúc, bán cấu trúc và phi cấu trúc, được gọi là gì trong Khoa học dữ liệu?
A. Trực quan hóa dữ liệu.
B. Tiền xử lý dữ liệu.
C. Thu thập và tích hợp dữ liệu.
D. Trích xuất đặc trưng.
4. Mục tiêu chính của giai đoạn "Làm sạch dữ liệu" (Data Cleaning) trong quy trình Khoa học dữ liệu là gì?
A. Tạo ra các biểu đồ và báo cáo trực quan.
B. Xử lý các giá trị bị thiếu, dữ liệu nhiễu, không nhất quán và định dạng sai.
C. Xây dựng các mô hình dự đoán và phân loại.
D. Thu thập dữ liệu từ các nguồn bên ngoài.
5. Trong Khoa học dữ liệu, "feature engineering" là quá trình gì?
A. Xây dựng mô hình học máy.
B. Tạo ra các đặc trưng mới từ dữ liệu thô để cải thiện hiệu suất mô hình.
C. Làm sạch và chuẩn hóa dữ liệu.
D. Đánh giá kết quả của mô hình đã huấn luyện.
6. Trong lĩnh vực Khoa học dữ liệu, thuật ngữ "Big Data" thường đề cập đến các tập dữ liệu có đặc điểm nào sau đây?
A. Dung lượng nhỏ, tốc độ xử lý chậm và đa dạng về loại hình.
B. Dung lượng lớn, tốc độ tạo ra nhanh và có nhiều loại hình khác nhau.
C. Dung lượng trung bình, tốc độ xử lý nhanh và ít đa dạng về loại hình.
D. Dung lượng lớn, tốc độ tạo ra chậm và ít đa dạng về loại hình.
7. Mục đích của việc "trích xuất đặc trưng" (feature extraction) là gì?
A. Tăng số lượng đặc trưng để mô hình có nhiều thông tin hơn.
B. Biến đổi dữ liệu thô thành các đặc trưng có ý nghĩa, giúp mô hình học hiệu quả hơn.
C. Loại bỏ hoàn toàn các giá trị ngoại lai.
D. Tạo ra các nhãn cho dữ liệu huấn luyện.
8. Khi dữ liệu có nhiều giá trị bị thiếu, phương pháp nào sau đây KHÔNG phải là một chiến lược phổ biến để xử lý?
A. Xóa các hàng hoặc cột chứa giá trị thiếu.
B. Điền giá trị thiếu bằng giá trị trung bình, trung vị hoặc mốt.
C. Điền giá trị thiếu bằng cách dự đoán dựa trên các biến khác.
D. Tạo ra các biến mới dựa trên sự kết hợp của các biến có sẵn.
9. Kỹ thuật "Data Augmentation" (Tăng cường dữ liệu) thường được áp dụng trong lĩnh vực nào của Khoa học dữ liệu?
A. Xử lý ngôn ngữ tự nhiên.
B. Thị giác máy tính (Computer Vision) và xử lý ảnh.
C. Phân tích chuỗi thời gian.
D. Mạng lưới thần kinh nhân tạo.
10. Trong phân tích dữ liệu, "hệ số tương quan" (correlation coefficient) đo lường điều gì?
A. Mức độ ảnh hưởng nhân quả giữa hai biến.
B. Mức độ liên quan tuyến tính giữa hai biến.
C. Sự khác biệt về trung bình giữa hai nhóm dữ liệu.
D. Sự phân bố của một biến duy nhất.
11. Kỹ thuật "One-Hot Encoding" thường được sử dụng để xử lý loại dữ liệu nào trong Khoa học dữ liệu?
A. Dữ liệu số liên tục.
B. Dữ liệu dạng chuỗi thời gian.
C. Dữ liệu phân loại (Categorical Data).
D. Dữ liệu dạng văn bản.
12. Mục đích chính của việc sử dụng "mô hình hồi quy" (regression model) là gì?
A. Phân loại dữ liệu vào các nhóm rời rạc.
B. Dự đoán một giá trị liên tục.
C. Tìm kiếm các cụm dữ liệu tương tự nhau.
D. Xác định mối quan hệ giữa các biến phân loại.
13. Độ đo "Accuracy" (Độ chính xác) trong bài toán phân loại được tính như thế nào?
A. (Số lượng dự đoán đúng) / (Tổng số lượng dự đoán).
B. (Số lượng dự đoán đúng) / (Số lượng dự đoán sai).
C. (Số lượng dự đoán sai) / (Tổng số lượng dự đoán).
D. (Số lượng dự đoán sai) / (Số lượng dự đoán đúng).
14. Thuật toán nào sau đây thường được sử dụng cho bài toán phân loại (classification)?
A. Hồi quy tuyến tính (Linear Regression).
B. K-Means Clustering.
C. Hồi quy Logistic (Logistic Regression).
D. Phân tích thành phần chính (Principal Component Analysis - PCA).
15. Mục đích của thuật toán "Association Rule Mining" (Khai phá luật kết hợp) là gì?
A. Phân loại khách hàng dựa trên hành vi mua sắm.
B. Tìm kiếm các mối quan hệ hoặc quy luật "nếu-thì" giữa các mục trong tập dữ liệu lớn.
C. Dự đoán giá cổ phiếu trong tương lai.
D. Phân nhóm các bài báo khoa học.
16. Kỹ thuật "Cross-Validation" (Kiểm định chéo) được sử dụng để làm gì trong học máy?
A. Giảm số lượng đặc trưng trong tập dữ liệu.
B. Đánh giá hiệu suất của mô hình một cách đáng tin cậy hơn, giảm thiểu tác động của việc chia tập dữ liệu ngẫu nhiên.
C. Tăng tốc độ huấn luyện mô hình.
D. Biến đổi dữ liệu phân loại thành số.
17. Trong các độ đo hiệu suất cho bài toán phân loại, "Precision" (Độ chính xác) đo lường điều gì?
A. Tỷ lệ các trường hợp tích cực thực tế được dự đoán đúng.
B. Tỷ lệ các trường hợp được dự đoán là tích cực thực sự là tích cực.
C. Tỷ lệ các trường hợp tiêu cực thực tế được dự đoán là tiêu cực.
D. Tỷ lệ các trường hợp được dự đoán là tiêu cực thực sự là tiêu cực.
18. Mục tiêu của việc "chuẩn hóa dữ liệu" (data normalization/standardization) là gì?
A. Tăng kích thước của tập dữ liệu.
B. Đảm bảo các đặc trưng có thang đo tương tự nhau, tránh ảnh hưởng của đặc trưng có giá trị lớn.
C. Loại bỏ tất cả các giá trị ngoại lai.
D. Tạo ra các biến phân loại mới.
19. Mục đích của việc "chia tập dữ liệu" thành tập huấn luyện (training set) và tập kiểm tra (test set) là gì?
A. Để tăng tốc độ huấn luyện mô hình.
B. Để đảm bảo mô hình có thể dự đoán tốt trên dữ liệu mới chưa từng thấy.
C. Để đơn giản hóa quá trình làm sạch dữ liệu.
D. Để trực quan hóa kết quả phân tích.
20. Trong Khoa học dữ liệu, "Overfitting" (Quá khớp) xảy ra khi nào?
A. Mô hình quá đơn giản, không nắm bắt được các mẫu trong dữ liệu.
B. Mô hình hoạt động tốt trên tập huấn luyện nhưng kém trên tập kiểm tra/dữ liệu mới.
C. Mô hình hoạt động kém trên cả tập huấn luyện và tập kiểm tra.
D. Tập dữ liệu đầu vào quá nhỏ.
21. Trong học máy, "siêu tham số" (hyperparameter) là gì?
A. Các tham số được học từ dữ liệu trong quá trình huấn luyện.
B. Các tham số được đặt trước khi quá trình huấn luyện bắt đầu và ảnh hưởng đến cách mô hình học.
C. Các biến độc lập trong tập dữ liệu đầu vào.
D. Các biến phụ thuộc trong tập dữ liệu đầu ra.
22. Khái niệm "Pattern Recognition" (Nhận dạng mẫu) trong Khoa học dữ liệu đề cập đến việc gì?
A. Tạo ra các biểu đồ phức tạp.
B. Xác định các quy luật, xu hướng hoặc cấu trúc lặp lại trong dữ liệu.
C. Làm sạch dữ liệu bị sai định dạng.
D. Tăng cường khả năng bảo mật cho tập dữ liệu.
23. Khi phân tích dữ liệu, một "giá trị ngoại lai" (outlier) là gì?
A. Một giá trị nằm trong khoảng phân bố thông thường của dữ liệu.
B. Một giá trị khác biệt đáng kể so với phần lớn các giá trị khác trong tập dữ liệu.
C. Một giá trị bị thiếu hoặc không xác định.
D. Một giá trị là kết quả của lỗi nhập liệu.
24. Thuật toán "Decision Tree" (Cây quyết định) hoạt động dựa trên nguyên tắc nào?
A. Phân chia dữ liệu dựa trên khoảng cách giữa các điểm dữ liệu.
B. Xây dựng một cấu trúc cây với các nút biểu diễn các thuộc tính và các nhánh biểu diễn các quyết định.
C. Tìm kiếm các mẫu lặp lại trong dữ liệu.
D. Tuyến tính hóa mối quan hệ giữa biến độc lập và biến phụ thuộc.
25. Kỹ thuật "trực quan hóa dữ liệu" (data visualization) nhằm mục đích gì?
A. Tăng cường khả năng lưu trữ dữ liệu.
B. Biến đổi dữ liệu thành dạng biểu đồ, đồ thị để dễ hiểu và phân tích.
C. Làm sạch các giá trị ngoại lai.
D. Xây dựng các mô hình học máy phức tạp.