Trắc nghiệm Khoa học máy tính 12 Cánh diều bài 3: Giới thiệu về khoa học dữ liệu (tiếp theo)
1. Trong khoa học dữ liệu, "Trực quan hóa dữ liệu" (Data Visualization) có vai trò gì?
A. Chỉ để tạo báo cáo cuối cùng.
B. Giúp hiểu các mẫu, xu hướng và mối quan hệ trong dữ liệu một cách trực quan.
C. Thay thế hoàn toàn việc phân tích thống kê.
D. Chỉ sử dụng cho dữ liệu có cấu trúc.
2. Một bộ dữ liệu có 1 triệu bản ghi, mỗi bản ghi có 1000 thuộc tính. Thuộc tính nào của Big Data được thể hiện rõ nhất ở đây?
A. Tốc độ (Velocity)
B. Độ phức tạp (Complexity)
C. Khối lượng (Volume)
D. Tính đa dạng (Variety)
3. Trong khoa học dữ liệu, khái niệm "Big Data" thường được mô tả bởi các thuộc tính nào sau đây, ngoại trừ?
A. Tốc độ (Velocity)
B. Tính xác thực (Veracity)
C. Tính đa dạng (Variety)
D. Tính minh bạch (Transparency)
4. Thuộc tính "Tốc độ" (Velocity) trong Big Data đề cập đến điều gì?
A. Khối lượng dữ liệu được tạo ra.
B. Tần suất và tốc độ mà dữ liệu được tạo ra và xử lý.
C. Độ phức tạp của cấu trúc dữ liệu.
D. Mức độ chính xác của dữ liệu.
5. Một nhà khoa học dữ liệu cần phân tích hành vi mua sắm của khách hàng dựa trên lịch sử giao dịch, thông tin nhân khẩu học và dữ liệu từ mạng xã hội. Loại dữ liệu nào sau đây là phi cấu trúc (unstructured)?
A. Dữ liệu giao dịch (số tiền, ngày giờ).
B. Dữ liệu nhân khẩu học (tuổi, giới tính).
C. Dữ liệu mạng xã hội (bài đăng, bình luận).
D. Dữ liệu có cấu trúc từ cơ sở dữ liệu.
6. Trong quá trình làm sạch dữ liệu, việc chuẩn hóa các định dạng ngày tháng khác nhau (ví dụ: "2023-10-27", "27/10/2023", "Oct 27, 2023") thuộc về bước nào?
A. Biến đổi dữ liệu (Data Transformation).
B. Xử lý giá trị ngoại lai.
C. Phân tích khám phá.
D. Làm sạch dữ liệu (Data Cleaning).
7. Trong lĩnh vực khoa học dữ liệu, "học máy" (machine learning) có mối quan hệ như thế nào với khoa học dữ liệu?
A. Học máy là một lĩnh vực hoàn toàn độc lập.
B. Học máy là một công cụ và phương pháp quan trọng được sử dụng trong khoa học dữ liệu.
C. Khoa học dữ liệu chỉ tập trung vào việc thu thập dữ liệu.
D. Học máy là một phần của trực quan hóa dữ liệu.
8. Trong khoa học dữ liệu, thuật ngữ "feature engineering" đề cập đến quá trình nào?
A. Xây dựng mô hình học máy.
B. Làm sạch dữ liệu thô.
C. Tạo ra các biến đầu vào (features) mới từ dữ liệu thô để cải thiện hiệu suất mô hình.
D. Trực quan hóa kết quả phân tích.
9. Khi làm sạch dữ liệu, việc xử lý các giá trị bị thiếu (missing values) có thể bao gồm các phương pháp nào sau đây?
A. Chỉ có thể xóa bỏ các hàng chứa giá trị thiếu.
B. Thay thế bằng giá trị trung bình, trung vị hoặc sử dụng mô hình dự đoán.
C. Tự động điền giá trị ngẫu nhiên.
D. Bỏ qua tất cả các cột có giá trị thiếu.
10. Quá trình thu thập, làm sạch, biến đổi và tổ chức dữ liệu để chuẩn bị cho phân tích được gọi là gì trong khoa học dữ liệu?
A. Trực quan hóa dữ liệu
B. Kỹ thuật học máy
C. Chuẩn bị dữ liệu (Data Preparation)
D. Phân tích dự đoán
11. Khi đánh giá chất lượng dữ liệu, việc kiểm tra xem dữ liệu có được thu thập từ các nguồn đáng tin cậy hay không liên quan đến thuộc tính nào của Big Data?
A. Tốc độ (Velocity)
B. Tính đa dạng (Variety)
C. Tính xác thực (Veracity)
D. Khối lượng (Volume)
12. Khi có nhiều giá trị ngoại lai (outliers) trong một bộ dữ liệu, phương pháp nào sau đây thường được ưu tiên sử dụng để tính toán trung bình, nhằm giảm thiểu ảnh hưởng của các giá trị này?
A. Trung bình cộng (Mean).
B. Trung vị (Median).
C. Mode.
D. Tầm hoạt động (Range).
13. Một tập dữ liệu có các giá trị rất lớn và rất nhỏ, cách nhau hàng triệu lần. Thuộc tính nào của Big Data được thể hiện rõ nhất ở đây?
A. Tốc độ (Velocity)
B. Tính đa dạng (Variety)
C. Khối lượng (Volume)
D. Độ phức tạp (Complexity) hoặc Biên độ giá trị lớn
14. Thuộc tính "Tính xác thực" (Veracity) trong Big Data liên quan đến yếu tố nào?
A. Khả năng xử lý dữ liệu theo thời gian thực.
B. Mức độ đáng tin cậy và chính xác của dữ liệu.
C. Số lượng các nguồn dữ liệu khác nhau.
D. Tốc độ tạo ra dữ liệu.
15. Một công ty muốn hiểu rõ hơn về các nhóm khách hàng khác nhau dựa trên hành vi mua sắm của họ. Kỹ thuật nào sau đây phù hợp nhất cho mục tiêu này?
A. Phân loại (Classification).
B. Phân tích hồi quy (Regression Analysis).
C. Phân tích cụm (Clustering).
D. Phân tích thành phần chính (Principal Component Analysis).
16. Một doanh nghiệp muốn dự đoán khả năng khách hàng sẽ ngừng sử dụng dịch vụ (churn). Kỹ thuật nào sau đây thường được sử dụng trong khoa học dữ liệu cho mục tiêu này?
A. Phân tích cụm (Clustering).
B. Hồi quy tuyến tính (Linear Regression).
C. Phân loại (Classification).
D. Giảm chiều dữ liệu (Dimensionality Reduction).
17. Loại dữ liệu nào sau đây thường được coi là có "Tính đa dạng" (Variety) cao nhất trong khoa học dữ liệu?
A. Dữ liệu bảng (tabular data) từ cơ sở dữ liệu quan hệ.
B. Dữ liệu văn bản, hình ảnh, âm thanh và video.
C. Dữ liệu chuỗi thời gian (time series data).
D. Dữ liệu số nguyên (integer data).
18. Trong phân tích khoa học dữ liệu, đâu là mục tiêu chính của việc làm sạch dữ liệu (data cleaning)?
A. Tăng cường tốc độ xử lý dữ liệu.
B. Loại bỏ các giá trị ngoại lai (outliers) để làm biến dạng kết quả.
C. Đảm bảo tính nhất quán, chính xác và đầy đủ của dữ liệu.
D. Chuyển đổi dữ liệu sang định dạng phù hợp cho máy học.
19. Trong quy trình khoa học dữ liệu, giai đoạn nào thường chiếm nhiều thời gian và công sức nhất?
A. Trực quan hóa dữ liệu.
B. Xây dựng mô hình học máy.
C. Trình bày kết quả.
D. Chuẩn bị dữ liệu (Data Preparation).
20. Trong khoa học dữ liệu, "Trực quan hóa" (Visualization) đóng vai trò quan trọng trong giai đoạn nào của quy trình?
A. Chỉ sau khi mô hình đã được triển khai.
B. Trong suốt quá trình khám phá dữ liệu và trình bày kết quả.
C. Chỉ để làm sạch dữ liệu.
D. Không có vai trò quan trọng.
21. Một nhà phân tích dữ liệu đang xem xét một biểu đồ phân tán (scatter plot) để tìm mối quan hệ giữa hai biến. Đây là hoạt động thuộc giai đoạn nào của khoa học dữ liệu?
A. Trực quan hóa dữ liệu và Khám phá dữ liệu (EDA).
B. Chuẩn bị dữ liệu.
C. Trình bày kết quả cuối cùng.
D. Triển khai mô hình.
22. Trong khoa học dữ liệu, "Khám phá dữ liệu" (Exploratory Data Analysis - EDA) nhằm mục đích chính là gì?
A. Xây dựng mô hình dự đoán cuối cùng.
B. Trình bày kết quả cho ban lãnh đạo.
C. Hiểu rõ đặc điểm của dữ liệu, tìm kiếm các mẫu, mối quan hệ và bất thường.
D. Tối ưu hóa hiệu suất của thuật toán.
23. Một nhà khoa học dữ liệu đang làm việc trên một dự án phân tích cảm xúc từ các bài đánh giá sản phẩm. Loại dữ liệu nào là phù hợp nhất để phân tích cảm xúc?
A. Dữ liệu số từ cảm biến.
B. Dữ liệu văn bản (bài đánh giá).
C. Dữ liệu hình ảnh.
D. Dữ liệu âm thanh.
24. Một công ty thương mại điện tử muốn đề xuất sản phẩm phù hợp cho từng khách hàng dựa trên lịch sử mua sắm của họ và hành vi của những khách hàng tương tự. Kỹ thuật nào sau đây thường được sử dụng?
A. Hồi quy tuyến tính.
B. Hệ thống gợi ý (Recommendation Systems).
C. Phân tích cụm.
D. Phân loại văn bản.
25. Trong khoa học dữ liệu, mục đích của "phân tích khám phá" (Exploratory Data Analysis - EDA) là gì?
A. Xác định các biến cần loại bỏ khỏi mô hình.
B. Tìm kiếm các mẫu, xu hướng và mối quan hệ ẩn trong dữ liệu.
C. Tạo ra các báo cáo tự động.
D. Đảm bảo dữ liệu tuân thủ các quy định pháp lý.