1. Ngôn ngữ lập trình nào phổ biến nhất được sử dụng để phân tích dữ liệu và thống kê trong lĩnh vực Dữ liệu lớn?
A. Java
B. Python
C. C++
D. Assembly
2. Kỹ thuật `Data Sampling` (Lấy mẫu dữ liệu) thường được sử dụng trong Dữ liệu lớn để:
A. Tăng độ chính xác của phân tích dữ liệu.
B. Giảm khối lượng dữ liệu cần xử lý để tăng hiệu suất.
C. Đảm bảo tính toàn vẹn của dữ liệu.
D. Trực quan hóa dữ liệu hiệu quả hơn.
3. Trong Dữ liệu lớn, `Data Cleansing` (Làm sạch dữ liệu) là quá trình:
A. Mã hóa dữ liệu để bảo mật.
B. Nén dữ liệu để giảm dung lượng lưu trữ.
C. Phát hiện và sửa chữa các lỗi, dữ liệu không nhất quán hoặc không đầy đủ trong dữ liệu.
D. Sao lưu dữ liệu để phòng ngừa mất mát.
4. Phương pháp `In-memory processing` (Xử lý trong bộ nhớ) trong Dữ liệu lớn, ví dụ như Spark, mang lại lợi ích chính nào?
A. Giảm chi phí lưu trữ dữ liệu.
B. Tăng cường bảo mật dữ liệu.
C. Tăng tốc độ xử lý dữ liệu đáng kể.
D. Đơn giản hóa việc quản lý dữ liệu.
5. Đặc điểm nào sau đây KHÔNG phải là một trong `5Vs` thường được dùng để mô tả Dữ liệu lớn?
A. Volume (Khối lượng)
B. Velocity (Tốc độ)
C. Variety (Đa dạng)
D. Validity (Tính hợp lệ)
6. Trong kiến trúc Dữ liệu lớn, `Data Warehouse` (Kho dữ liệu) thường được sử dụng cho mục đích:
A. Lưu trữ dữ liệu thô ở định dạng gốc.
B. Phân tích dữ liệu lịch sử và tạo báo cáo tổng hợp.
C. Xử lý dữ liệu thời gian thực.
D. Truyền tải dữ liệu giữa các hệ thống.
7. Công nghệ nào sau đây KHÔNG phải là một phần cốt lõi của hệ sinh thái Hadoop?
A. HDFS (Hadoop Distributed File System)
B. MapReduce
C. Spark SQL
D. YARN (Yet Another Resource Negotiator)
8. Thuật ngữ `Data Lake` (Hồ dữ liệu) trong Dữ liệu lớn dùng để chỉ:
A. Một loại cơ sở dữ liệu quan hệ truyền thống.
B. Một kho lưu trữ dữ liệu tập trung, chứa dữ liệu thô ở nhiều định dạng khác nhau.
C. Một kỹ thuật nén dữ liệu để giảm dung lượng lưu trữ.
D. Một phương pháp trực quan hóa dữ liệu thời gian thực.
9. Khía cạnh `Variety` (Đa dạng) trong `5Vs` của Dữ liệu lớn đề cập đến:
A. Tốc độ tạo ra và xử lý dữ liệu.
B. Khối lượng dữ liệu được tạo ra.
C. Các loại và nguồn dữ liệu khác nhau (có cấu trúc, bán cấu trúc, phi cấu trúc).
D. Độ tin cậy và chất lượng của dữ liệu.
10. Kỹ thuật `Data Visualization` (Trực quan hóa dữ liệu) đóng vai trò quan trọng trong Dữ liệu lớn vì:
A. Tăng tốc độ xử lý dữ liệu.
B. Giảm chi phí lưu trữ dữ liệu.
C. Giúp con người dễ dàng hiểu và nhận diện các mẫu, xu hướng trong dữ liệu phức tạp.
D. Đảm bảo an toàn cho dữ liệu.
11. Loại cơ sở dữ liệu nào thường được sử dụng trong các ứng dụng Dữ liệu lớn để xử lý dữ liệu phi cấu trúc hoặc bán cấu trúc với khả năng mở rộng cao?
A. Cơ sở dữ liệu quan hệ (RDBMS)
B. Cơ sở dữ liệu NoSQL
C. Microsoft Access
D. Cơ sở dữ liệu dựa trên Excel
12. Khái niệm `Schema on Read` (Lược đồ khi đọc) thường liên quan đến loại hệ thống dữ liệu lớn nào?
A. Data Warehouse (Kho dữ liệu)
B. Data Lake (Hồ dữ liệu)
C. Cơ sở dữ liệu quan hệ (RDBMS)
D. Hệ thống OLTP
13. Trong ngữ cảnh Dữ liệu lớn, `Data Governance` (Quản trị dữ liệu) đề cập đến:
A. Việc mã hóa dữ liệu để bảo mật.
B. Các chính sách và quy trình quản lý chất lượng, bảo mật, tính khả dụng và sử dụng dữ liệu.
C. Việc trực quan hóa dữ liệu.
D. Việc sao lưu và phục hồi dữ liệu.
14. Thách thức lớn nhất khi làm việc với Dữ liệu lớn KHÔNG bao gồm:
A. Lưu trữ và quản lý khối lượng dữ liệu khổng lồ.
B. Xử lý dữ liệu với tốc độ cao.
C. Đảm bảo an toàn cho dữ liệu cá nhân kích thước nhỏ.
D. Phân tích và trích xuất giá trị từ dữ liệu đa dạng.
15. Công nghệ nào sau đây thường được sử dụng để xử lý và phân tích Dữ liệu lớn phân tán trên nhiều máy tính?
A. Microsoft Excel
B. Hadoop
C. MySQL
D. Adobe Photoshop
16. Công cụ nào sau đây thường được sử dụng để truy vấn và phân tích dữ liệu trong Hadoop Data Lake sử dụng ngôn ngữ giống SQL?
A. MapReduce
B. HBase
C. Hive
D. Pig
17. Trong bối cảnh Dữ liệu lớn, ETL là viết tắt của quy trình nào?
A. Extract, Transform, Load (Trích xuất, Biến đổi, Tải)
B. Encrypt, Transfer, Log (Mã hóa, Truyền tải, Ghi nhật ký)
C. Evaluate, Test, Launch (Đánh giá, Kiểm thử, Khởi chạy)
D. Error, Track, and Locate (Lỗi, Theo dõi và Định vị)
18. Mục tiêu chính của việc `Data Mining` (Khai phá dữ liệu) trong Dữ liệu lớn là:
A. Lưu trữ dữ liệu hiệu quả.
B. Trực quan hóa dữ liệu.
C. Tìm kiếm các mẫu, xu hướng và tri thức ẩn sâu trong dữ liệu.
D. Đảm bảo chất lượng dữ liệu.
19. Công cụ mã nguồn mở nào phổ biến để xử lý dòng dữ liệu (stream processing) trong thời gian thực trong hệ sinh thái Hadoop?
A. Hive
B. Pig
C. Spark Streaming
D. HBase
20. Thách thức về `Veracity` (Độ tin cậy) trong `5Vs` của Dữ liệu lớn liên quan đến:
A. Tốc độ dữ liệu được tạo ra.
B. Khối lượng dữ liệu cần lưu trữ.
C. Độ chính xác, độ tin cậy và chất lượng của dữ liệu.
D. Sự đa dạng của các nguồn dữ liệu.
21. Công cụ nào sau đây là một nền tảng đám mây phổ biến cung cấp các dịch vụ Dữ liệu lớn và phân tích?
A. Microsoft Word
B. Google Cloud Platform (GCP)
C. Adobe Acrobat
D. Mozilla Firefox
22. Ứng dụng nào sau đây KHÔNG phải là một ví dụ điển hình của việc sử dụng Dữ liệu lớn?
A. Cá nhân hóa quảng cáo trực tuyến
B. Dự báo thời tiết
C. Chỉnh sửa ảnh cá nhân
D. Phân tích rủi ro tài chính
23. Một trong những rủi ro đạo đức chính liên quan đến việc sử dụng Dữ liệu lớn là:
A. Chi phí lưu trữ dữ liệu tăng cao.
B. Khả năng xâm phạm quyền riêng tư cá nhân và phân biệt đối xử.
C. Sự phụ thuộc quá mức vào công nghệ.
D. Tốc độ xử lý dữ liệu chậm.
24. Trong mô hình `Lambda Architecture` cho xử lý Dữ liệu lớn, lớp `Batch Layer` (Lớp xử lý theo lô) có vai trò chính là:
A. Xử lý dữ liệu thời gian thực với độ trễ thấp.
B. Lưu trữ toàn bộ dữ liệu gốc và tính toán lại kết quả định kỳ.
C. Phục vụ các truy vấn tương tác nhanh.
D. Trực quan hóa dữ liệu theo thời gian thực.
25. Trong ngữ cảnh Dữ liệu lớn và Machine Learning, `Feature Engineering` (Kỹ thuật đặc trưng) là quá trình:
A. Chọn thuật toán Machine Learning phù hợp nhất.
B. Làm sạch và chuẩn hóa dữ liệu đầu vào.
C. Tạo ra các thuộc tính (features) mới từ dữ liệu hiện có để cải thiện hiệu suất mô hình.
D. Đánh giá và lựa chọn mô hình Machine Learning tốt nhất.
26. Loại hình phân tích Dữ liệu lớn nào tập trung vào việc dự đoán các sự kiện hoặc xu hướng trong tương lai?
A. Descriptive analytics (Phân tích mô tả)
B. Diagnostic analytics (Phân tích chẩn đoán)
C. Predictive analytics (Phân tích dự đoán)
D. Prescriptive analytics (Phân tích chỉ dẫn)
27. Loại dữ liệu nào sau đây KHÔNG được coi là dữ liệu `phi cấu trúc`?
A. Văn bản (Text documents)
B. Hình ảnh (Images)
C. Bảng tính (Spreadsheets)
D. Video
28. Ưu điểm chính của việc sử dụng `Cloud Computing` (Điện toán đám mây) cho Dữ liệu lớn là gì?
A. Giảm thiểu rủi ro mất dữ liệu do thiên tai.
B. Cung cấp khả năng mở rộng linh hoạt và chi phí hiệu quả.
C. Tăng cường khả năng bảo mật dữ liệu tuyệt đối.
D. Đảm bảo tốc độ truy cập dữ liệu nhanh nhất trong mọi tình huống.
29. Khái niệm `Real-time analytics` (Phân tích thời gian thực) trong Dữ liệu lớn có nghĩa là:
A. Phân tích dữ liệu đã được lưu trữ từ lâu.
B. Phân tích dữ liệu ngay khi nó được tạo ra hoặc thu thập.
C. Phân tích dữ liệu theo lịch trình định kỳ.
D. Phân tích dữ liệu trên các thiết bị di động.
30. Ứng dụng của Dữ liệu lớn trong lĩnh vực y tế KHÔNG bao gồm:
A. Phân tích hồ sơ bệnh án để dự đoán dịch bệnh.
B. Cá nhân hóa phương pháp điều trị dựa trên dữ liệu di truyền.
C. Quản lý kho thuốc và thiết bị y tế.
D. Soạn thảo văn bản hành chính bệnh viện.