1. Bước nào trong quy trình khoa học dữ liệu tập trung vào việc làm sạch, biến đổi và tổ chức lại dữ liệu để chuẩn bị cho phân tích?
A. Thu thập dữ liệu.
B. Tiền xử lý dữ liệu (Data Preprocessing).
C. Trực quan hóa dữ liệu.
D. Triển khai mô hình.
2. Khi nói về "data visualization" (trực quan hóa dữ liệu), điều gì là quan trọng nhất?
A. Sử dụng càng nhiều màu sắc càng tốt.
B. Biểu diễn dữ liệu một cách rõ ràng, hiệu quả và dễ hiểu để truyền đạt thông tin.
C. Tạo ra các biểu đồ phức tạp nhất có thể.
D. In tất cả các biểu đồ ra giấy.
3. Loại phân tích nào cố gắng dự đoán kết quả hoặc xu hướng tương lai?
A. Phân tích mô tả (Descriptive Analytics).
B. Phân tích dự đoán (Predictive Analytics).
C. Phân tích chẩn đoán (Diagnostic Analytics).
D. Phân tích chiến lược (Strategic Analytics).
4. Loại phân tích nào trả lời câu hỏi "Điều gì đã xảy ra?"?
A. Phân tích dự đoán (Predictive Analytics).
B. Phân tích quy định (Prescriptive Analytics).
C. Phân tích mô tả (Descriptive Analytics).
D. Phân tích chẩn đoán (Diagnostic Analytics).
5. Đâu là một ví dụ về dữ liệu bán cấu trúc (Semi-structured Data)?
A. Một bảng trong cơ sở dữ liệu SQL với các cột rõ ràng.
B. Một tệp ảnh JPEG.
C. Một tệp XML hoặc JSON có các thẻ hoặc trường dữ liệu nhưng không tuân theo một lược đồ cố định chặt chẽ.
D. Một bản ghi âm thanh.
6. Khái niệm "big data" thường đề cập đến các tập dữ liệu có đặc điểm nào sau đây?
A. Chỉ dữ liệu có dung lượng nhỏ, dễ quản lý.
B. Dữ liệu có khối lượng lớn, tốc độ tạo ra nhanh và sự đa dạng cao (3Vs: Volume, Velocity, Variety).
C. Dữ liệu chỉ được thu thập từ một nguồn duy nhất.
D. Dữ liệu có cấu trúc hoàn hảo và không có sai sót.
7. Trong khoa học dữ liệu, "feature" (đặc trưng) ám chỉ điều gì?
A. Kết quả cuối cùng của một phân tích.
B. Một đặc điểm hoặc thuộc tính có thể đo lường được của đối tượng đang được phân tích.
C. Một thuật toán được sử dụng để dự đoán.
D. Một phương pháp để làm sạch dữ liệu.
8. Ngôn ngữ lập trình nào được sử dụng phổ biến nhất trong khoa học dữ liệu hiện nay?
A. C++
B. Python và R
C. Visual Basic
D. COBOL
9. Tại sao việc chọn đúng thuật toán lại quan trọng trong khoa học dữ liệu?
A. Để làm cho mã nguồn trông phức tạp hơn.
B. Vì mỗi thuật toán có những điểm mạnh và điểm yếu riêng, phù hợp với các loại vấn đề và cấu trúc dữ liệu khác nhau, ảnh hưởng trực tiếp đến độ chính xác và hiệu quả của kết quả.
C. Để tăng thời gian xử lý dữ liệu.
D. Để đảm bảo tất cả các thuật toán đều cho ra kết quả giống nhau.
10. Đâu là một trong những mục tiêu chính của khoa học dữ liệu?
A. Tự động hóa hoàn toàn mọi quy trình kinh doanh mà không cần sự can thiệp của con người.
B. Trích xuất kiến thức có giá trị và hiểu biết sâu sắc từ dữ liệu để hỗ trợ ra quyết định.
C. Xây dựng các hệ thống phần mềm chỉ phục vụ mục đích giải trí.
D. Phát triển các ngôn ngữ lập trình mới hoàn toàn.
11. Mục đích của việc "feature engineering" (kỹ thuật đặc trưng) trong khoa học dữ liệu là gì?
A. Tạo ra các tệp dữ liệu lớn hơn.
B. Chuyển đổi dữ liệu thô thành các đặc trưng (features) có ý nghĩa và giúp cải thiện hiệu suất của mô hình học máy.
C. Giảm số lượng đặc trưng trong tập dữ liệu.
D. Thay đổi định dạng của tất cả các tệp dữ liệu.
12. Trong khoa học dữ liệu, "data cleaning" (làm sạch dữ liệu) bao gồm những hoạt động nào?
A. Chỉ việc thêm dữ liệu mới vào tập dữ liệu hiện có.
B. Xử lý các giá trị bị thiếu, loại bỏ các bản ghi trùng lặp và sửa lỗi định dạng.
C. Chỉ việc vẽ biểu đồ và đồ thị.
D. Việc mã hóa dữ liệu để bảo mật.
13. Tại sao việc hiểu rõ nguồn gốc của dữ liệu lại quan trọng trong khoa học dữ liệu?
A. Để làm cho dữ liệu trông hấp dẫn hơn.
B. Để đánh giá độ tin cậy, tính thiên vị và khả năng áp dụng của dữ liệu.
C. Để tăng tốc độ xử lý dữ liệu.
D. Để đảm bảo dữ liệu chỉ chứa số.
14. Loại dữ liệu nào thường được biểu diễn dưới dạng văn bản, hình ảnh, âm thanh hoặc video?
A. Dữ liệu có cấu trúc (Structured Data).
B. Dữ liệu bán cấu trúc (Semi-structured Data).
C. Dữ liệu phi cấu trúc (Unstructured Data).
D. Dữ liệu chuỗi thời gian (Time Series Data).
15. Tại sao "data storytelling" lại quan trọng trong khoa học dữ liệu?
A. Để làm cho dữ liệu trở nên phức tạp hơn.
B. Để truyền đạt kết quả phân tích một cách hấp dẫn, dễ hiểu và thuyết phục cho các bên liên quan, ngay cả những người không chuyên về kỹ thuật.
C. Để chỉ lưu trữ dữ liệu mà không phân tích.
D. Để tạo ra các thuật toán mới.
16. Khi phân tích dữ liệu, việc xác định các mẫu ẩn, xu hướng hoặc mối quan hệ có ý nghĩa được gọi là gì?
A. Trực quan hóa dữ liệu.
B. Khai phá dữ liệu (Data Mining).
C. Làm sạch dữ liệu.
D. Tích hợp dữ liệu.
17. Bước cuối cùng trong quy trình khoa học dữ liệu thường là gì?
A. Thu thập dữ liệu thô.
B. Triển khai mô hình hoặc báo cáo kết quả để đưa ra quyết định.
C. Làm sạch dữ liệu.
D. Thực hiện khai phá dữ liệu.
18. Công cụ nào thường được sử dụng để trực quan hóa dữ liệu, giúp người dùng hiểu rõ hơn về các mẫu và xu hướng?
A. Máy tính bỏ túi.
B. Bảng tính điện tử (như Excel) hoặc các thư viện chuyên dụng (như Matplotlib, Seaborn trong Python).
C. Máy in 3D.
D. Máy quét mã vạch.
19. Yếu tố nào sau đây KHÔNG thuộc các thuộc tính cốt lõi (3Vs) thường dùng để mô tả "big data"?
A. Volume (Khối lượng).
B. Velocity (Tốc độ).
C. Variety (Đa dạng).
D. Vividness (Sống động).
20. Quá trình thu thập dữ liệu từ nhiều nguồn khác nhau được gọi là gì trong khoa học dữ liệu?
A. Trực quan hóa dữ liệu.
B. Tiền xử lý dữ liệu.
C. Tích hợp dữ liệu (Data Integration).
D. Khai phá dữ liệu (Data Mining).
21. Dữ liệu có cấu trúc (Structured Data) thường được lưu trữ và tổ chức theo định dạng nào?
A. Các tệp văn bản tự do, không có định dạng cụ thể.
B. Các bảng với các hàng và cột được định nghĩa rõ ràng, thường trong cơ sở dữ liệu quan hệ.
C. Các tệp phương tiện như video và âm thanh.
D. Các tài liệu XML hoặc JSON phức tạp.
22. Thuật ngữ "machine learning" liên quan mật thiết đến khía cạnh nào của khoa học dữ liệu?
A. Chỉ việc thu thập dữ liệu từ Internet.
B. Việc xây dựng các mô hình cho phép máy tính học hỏi từ dữ liệu mà không cần lập trình rõ ràng.
C. Quá trình tạo ra các giao diện người dùng hấp dẫn.
D. Việc bảo mật hệ thống máy tính.
23. Trong ngữ cảnh khoa học dữ liệu, "domain knowledge" (kiến thức chuyên ngành) có vai trò gì?
A. Giúp hiểu sâu hơn về lĩnh vực cụ thể của dữ liệu để diễn giải kết quả và tạo ra các đặc trưng phù hợp.
B. Chỉ đơn thuần là biết cách sử dụng phần mềm phân tích dữ liệu.
C. Quy định về cách lưu trữ dữ liệu.
D. Đảm bảo dữ liệu luôn ở định dạng số.
24. Trong khoa học dữ liệu, "outlier" (ngoại lệ) là gì?
A. Một điểm dữ liệu nằm trong phạm vi dự kiến.
B. Một điểm dữ liệu khác biệt đáng kể so với phần lớn các điểm dữ liệu khác trong tập dữ liệu.
C. Một giá trị trung bình của tập dữ liệu.
D. Một lỗi trong quá trình nhập liệu.
25. Trong lĩnh vực khoa học dữ liệu, thuật ngữ "dataset" thường được hiểu là gì?
A. Một tập hợp các thuật toán được sử dụng để phân tích dữ liệu.
B. Một bộ sưu tập có cấu trúc của các điểm dữ liệu, có thể là định lượng hoặc định tính.
C. Một công cụ phần mềm được thiết kế để trực quan hóa dữ liệu.
D. Một báo cáo tổng hợp kết quả phân tích dữ liệu.