1. Ứng dụng nào sau đây KHÔNG phải là ứng dụng điển hình của Big Data?
A. Phân tích hành vi khách hàng trong thương mại điện tử.
B. Dự báo thời tiết.
C. Quản lý danh bạ cá nhân trên điện thoại.
D. Phát hiện gian lận trong giao dịch tài chính.
2. MapReduce là một mô hình lập trình được sử dụng trong Hadoop, chức năng chính của nó là gì?
A. Quản lý tài nguyên cluster.
B. Xử lý song song dữ liệu lớn.
C. Lưu trữ dữ liệu phi cấu trúc.
D. Bảo mật dữ liệu trong Hadoop.
3. Hadoop Distributed File System (HDFS) là thành phần cốt lõi của Hadoop, nó dùng để làm gì?
A. Xử lý dữ liệu theo thời gian thực.
B. Lưu trữ dữ liệu phân tán trên nhiều máy tính.
C. Truy vấn dữ liệu SQL.
D. Trực quan hóa dữ liệu.
4. Data Mining (Khai phá dữ liệu) đóng vai trò gì trong phân tích Big Data?
A. Lưu trữ và quản lý dữ liệu lớn.
B. Trực quan hóa dữ liệu.
C. Phát hiện các mẫu, xu hướng và tri thức ẩn trong dữ liệu.
D. Đảm bảo chất lượng dữ liệu.
5. Data Governance (Quản trị dữ liệu) đóng vai trò gì trong môi trường Big Data?
A. Tăng tốc độ truy vấn dữ liệu.
B. Đảm bảo chất lượng, bảo mật, tuân thủ và quản lý dữ liệu một cách hiệu quả.
C. Giảm chi phí lưu trữ dữ liệu.
D. Tự động hóa quá trình thu thập dữ liệu.
6. Khía cạnh `Volume` (Khối lượng) trong Big Data ám chỉ đến yếu tố nào?
A. Tốc độ dữ liệu được tạo ra.
B. Kích thước khổng lồ của tập dữ liệu.
C. Sự phức tạp của cấu trúc dữ liệu.
D. Giá trị tiềm ẩn trong dữ liệu.
7. Cloud Computing (Điện toán đám mây) mang lại lợi ích gì cho Big Data?
A. Giảm độ phức tạp của công nghệ Big Data.
B. Khả năng mở rộng linh hoạt, chi phí hiệu quả và dễ dàng truy cập tài nguyên.
C. Tăng cường bảo mật dữ liệu.
D. Loại bỏ nhu cầu về Data Governance.
8. Đặc điểm `Variety` (Đa dạng) của Big Data mô tả điều gì?
A. Số lượng nguồn dữ liệu.
B. Tính biến động của dữ liệu theo thời gian.
C. Các loại dữ liệu khác nhau như có cấu trúc, bán cấu trúc và phi cấu trúc.
D. Độ chính xác của dữ liệu.
9. Đâu là định nghĩa chính xác nhất về Big Data?
A. Dữ liệu có kích thước lớn hơn cơ sở dữ liệu truyền thống.
B. Dữ liệu có thể được xử lý bằng các công cụ phần mềm truyền thống.
C. Tập hợp dữ liệu có Khối lượng lớn, Tốc độ cao, Đa dạng và Giá trị, đòi hỏi các kỹ thuật xử lý đặc biệt để trích xuất thông tin.
D. Dữ liệu được tạo ra từ các thiết bị IoT.
10. Trong kiến trúc Lambda của Big Data, `Batch Layer` (Lớp xử lý hàng loạt) có chức năng chính là gì?
A. Xử lý dữ liệu theo thời gian thực.
B. Xử lý toàn bộ tập dữ liệu lịch sử để cung cấp cái nhìn tổng quan và chính xác.
C. Phục vụ các truy vấn tương tác tốc độ cao.
D. Lưu trữ dữ liệu tạm thời.
11. Đâu là một thách thức về mặt đạo đức khi sử dụng Big Data?
A. Chi phí lưu trữ dữ liệu quá cao.
B. Nguy cơ xâm phạm quyền riêng tư và phân biệt đối xử dựa trên dữ liệu cá nhân.
C. Sự phức tạp của công nghệ Big Data.
D. Thiếu nhân lực có kỹ năng Big Data.
12. Khi nói về `Scalability` (Khả năng mở rộng) trong Big Data, chúng ta thường quan tâm đến điều gì?
A. Khả năng xử lý dữ liệu nhanh hơn trên một máy tính duy nhất.
B. Khả năng hệ thống có thể xử lý tăng trưởng về khối lượng dữ liệu, tốc độ và độ phức tạp bằng cách thêm tài nguyên.
C. Khả năng giảm chi phí lưu trữ dữ liệu.
D. Khả năng bảo mật dữ liệu tốt hơn.
13. Công nghệ nào sau đây thường được sử dụng để xử lý Big Data phân tán?
A. Microsoft Excel.
B. Hadoop và Spark.
C. MySQL.
D. Microsoft Access.
14. Thách thức lớn nhất khi làm việc với Big Data là gì?
A. Lưu trữ dữ liệu trong cơ sở dữ liệu quan hệ.
B. Đảm bảo chất lượng dữ liệu và trích xuất thông tin giá trị từ khối lượng dữ liệu khổng lồ.
C. Sử dụng các công cụ phân tích truyền thống.
D. Thu thập dữ liệu từ các nguồn truyền thống.
15. Để giải quyết vấn đề `Data Silos`, giải pháp nào sau đây thường được áp dụng trong Big Data?
A. Tăng cường bảo mật cho từng silo dữ liệu.
B. Xây dựng Data Lake hoặc Data Warehouse để tập trung và tích hợp dữ liệu từ các nguồn khác nhau.
C. Sử dụng các công cụ trực quan hóa dữ liệu riêng biệt cho mỗi silo.
D. Giảm số lượng nguồn dữ liệu.
16. Ý nào sau đây mô tả đúng nhất về `Data Silos` (Các silo dữ liệu) trong bối cảnh Big Data?
A. Các hệ thống lưu trữ dữ liệu đám mây.
B. Các bộ phận dữ liệu bị cô lập, khó truy cập và chia sẻ giữa các bộ phận khác nhau trong tổ chức.
C. Các công cụ trực quan hóa dữ liệu.
D. Các quy trình làm sạch dữ liệu.
17. Yếu tố `Value` (Giá trị) trong 4Vs của Big Data thể hiện điều gì?
A. Độ tin cậy của nguồn dữ liệu.
B. Khả năng tạo ra lợi ích kinh doanh và thông tin chi tiết từ dữ liệu.
C. Chi phí lưu trữ dữ liệu.
D. Thời gian cần thiết để xử lý dữ liệu.
18. Công cụ nào sau đây KHÔNG phải là một nền tảng NoSQL database phổ biến?
A. Cassandra.
B. MongoDB.
C. PostgreSQL.
D. Redis.
19. NoSQL database (Cơ sở dữ liệu NoSQL) thường được sử dụng trong Big Data vì lý do chính nào?
A. Tuân thủ nghiêm ngặt mô hình ACID (Tính nguyên tử, Nhất quán, Cô lập, Bền vững).
B. Khả năng mở rộng linh hoạt và xử lý dữ liệu phi cấu trúc tốt hơn.
C. Chi phí license thấp hơn so với cơ sở dữ liệu quan hệ.
D. Dễ dàng truy vấn bằng SQL hơn.
20. Machine Learning (Học máy) được ứng dụng trong Big Data để làm gì?
A. Làm sạch và chuẩn hóa dữ liệu.
B. Tự động hóa quá trình phân tích, dự đoán và đưa ra quyết định dựa trên dữ liệu.
C. Tối ưu hóa hiệu suất lưu trữ dữ liệu.
D. Bảo mật hệ thống Big Data.
21. Trong bối cảnh Big Data, thuật ngữ `Data Lake` (Hồ dữ liệu) dùng để chỉ điều gì?
A. Một loại cơ sở dữ liệu quan hệ.
B. Kho lưu trữ tập trung cho dữ liệu thô ở nhiều định dạng khác nhau, chưa qua xử lý.
C. Một phương pháp trực quan hóa dữ liệu lớn.
D. Một công cụ để làm sạch dữ liệu.
22. Apache Spark so với Hadoop MapReduce có ưu điểm chính nào?
A. Khả năng lưu trữ dữ liệu lớn hơn.
B. Tốc độ xử lý nhanh hơn do khả năng xử lý in-memory (trong bộ nhớ).
C. Chi phí triển khai thấp hơn.
D. Dễ dàng tích hợp với cơ sở dữ liệu quan hệ hơn.
23. Trong kiến trúc Lambda của Big Data, `Speed Layer` (Lớp tốc độ) có chức năng chính là gì?
A. Xử lý dữ liệu lịch sử.
B. Xử lý dữ liệu mới nhất theo thời gian thực để cung cấp thông tin cập nhật.
C. Lưu trữ dữ liệu lịch sử.
D. Trực quan hóa dữ liệu hàng loạt.
24. Apache Kafka thường được sử dụng trong Big Data cho mục đích gì?
A. Phân tích dữ liệu lịch sử.
B. Xử lý luồng dữ liệu thời gian thực (real-time stream processing).
C. Lưu trữ dữ liệu phi cấu trúc.
D. Trực quan hóa dữ liệu tương tác.
25. Kiến trúc Kappa của Big Data khác biệt chính so với kiến trúc Lambda ở điểm nào?
A. Kappa không có Speed Layer.
B. Kappa chỉ sử dụng Batch Layer.
C. Kappa đơn giản hóa kiến trúc bằng cách chỉ sử dụng luồng xử lý dữ liệu dòng (stream processing).
D. Kappa không hỗ trợ xử lý thời gian thực.
26. Data Visualization (Trực quan hóa dữ liệu) quan trọng như thế nào trong Big Data?
A. Giảm dung lượng lưu trữ dữ liệu.
B. Giúp con người dễ dàng hiểu và nhận diện các mẫu, xu hướng trong dữ liệu phức tạp.
C. Tăng tốc độ xử lý dữ liệu.
D. Đảm bảo tính toàn vẹn của dữ liệu.
27. Công cụ nào sau đây thường được sử dụng cho việc ETL trong môi trường Big Data?
A. Tableau.
B. Apache Kafka.
C. Apache NiFi.
D. MongoDB.
28. Thuộc tính `Velocity` (Tốc độ) trong 4Vs của Big Data đề cập đến điều gì?
A. Kích thước của dữ liệu.
B. Sự đa dạng của các loại dữ liệu.
C. Tốc độ tạo ra và xử lý dữ liệu.
D. Giá trị kinh doanh của dữ liệu.
29. Quy trình ETL (Extract, Transform, Load) trong Big Data thường được sử dụng cho mục đích gì?
A. Trực quan hóa dữ liệu.
B. Thu thập, làm sạch, chuyển đổi và tải dữ liệu vào hệ thống phân tích.
C. Xây dựng mô hình học máy.
D. Bảo mật dữ liệu.
30. Thuật ngữ `Data Warehouse` (Kho dữ liệu) khác biệt chính so với `Data Lake` ở điểm nào?
A. Data Warehouse lưu trữ dữ liệu thô, Data Lake lưu trữ dữ liệu đã qua xử lý.
B. Data Warehouse lưu trữ dữ liệu có cấu trúc, Data Lake có thể lưu trữ dữ liệu có cấu trúc và phi cấu trúc.
C. Data Warehouse được sử dụng cho xử lý thời gian thực, Data Lake cho xử lý hàng loạt.
D. Data Warehouse dễ mở rộng hơn Data Lake.