1. Phương pháp nào sau đây thường được sử dụng để giảm chiều dữ liệu (dimensionality reduction) trong phân tích dữ liệu lớn?
A. Mã hóa dữ liệu (Data Encryption).
B. Tổng hợp dữ liệu (Data Aggregation).
C. Phân tích thành phần chính (Principal Component Analysis - PCA).
D. Sao lưu dữ liệu (Data Backup).
2. Thuật ngữ `Hadoop` liên quan mật thiết đến lĩnh vực nào?
A. Mạng máy tính
B. An ninh mạng
C. Dữ liệu lớn
D. Lập trình web
3. Công cụ nào sau đây thường được sử dụng để xây dựng pipeline xử lý dữ liệu (data pipeline) trong Big Data?
A. Microsoft PowerPoint
B. Apache Airflow
C. Microsoft Word
D. Adobe Illustrator
4. Trong quy trình xử lý dữ liệu lớn, giai đoạn `Data Wrangling` (chuẩn bị dữ liệu) bao gồm công việc chính nào?
A. Thu thập dữ liệu từ nhiều nguồn khác nhau.
B. Lưu trữ dữ liệu vào hệ thống Hadoop.
C. Làm sạch, biến đổi và cấu trúc lại dữ liệu để phân tích.
D. Xây dựng mô hình máy học để dự đoán.
5. Trong lĩnh vực Big Data, `Data Scientist` (nhà khoa học dữ liệu) thường chịu trách nhiệm chính cho công việc nào?
A. Quản trị hệ thống Hadoop.
B. Phát triển ứng dụng web.
C. Phân tích dữ liệu, xây dựng mô hình dự đoán và đưa ra các insight từ dữ liệu.
D. Bảo trì cơ sở dữ liệu quan hệ.
6. Thách thức về `Variety` (đa dạng) trong Big Data chủ yếu đề cập đến điều gì?
A. Sự thay đổi nhanh chóng của dữ liệu.
B. Khối lượng dữ liệu quá lớn.
C. Sự khác biệt về loại và định dạng dữ liệu (cấu trúc, phi cấu trúc, bán cấu trúc).
D. Độ tin cậy của nguồn dữ liệu.
7. Thách thức về `Value` (giá trị) trong 5V của Big Data đề cập đến điều gì?
A. Đảm bảo dữ liệu được tạo ra nhanh chóng.
B. Khối lượng dữ liệu phải đủ lớn.
C. Việc trích xuất thông tin hữu ích và giá trị kinh doanh từ dữ liệu khổng lồ.
D. Đảm bảo tính đa dạng của nguồn dữ liệu.
8. Ứng dụng nào sau đây thể hiện rõ nhất giá trị của Big Data trong lĩnh vực y tế?
A. Gửi email nhắc lịch hẹn khám bệnh.
B. Quản lý hồ sơ bệnh án điện tử.
C. Phân tích dữ liệu bệnh nhân để dự đoán nguy cơ bệnh tật và cá nhân hóa phác đồ điều trị.
D. In hóa đơn thanh toán dịch vụ y tế.
9. Yếu tố `Veracity` (tính xác thực) trong `5V` của Big Data đề cập đến khía cạnh nào?
A. Tốc độ dữ liệu được tạo ra.
B. Sự đa dạng của các loại dữ liệu.
C. Khối lượng dữ liệu.
D. Độ tin cậy và chất lượng của dữ liệu.
10. Trong bối cảnh dữ liệu lớn, `Scalability` (khả năng mở rộng) có nghĩa là gì?
A. Khả năng giảm chi phí lưu trữ dữ liệu.
B. Khả năng xử lý dữ liệu nhanh hơn trên một máy chủ duy nhất.
C. Khả năng hệ thống có thể xử lý lượng dữ liệu tăng lên hoặc số lượng người dùng tăng lên một cách hiệu quả.
D. Khả năng bảo mật dữ liệu tốt hơn.
11. Công nghệ nào sau đây thường được sử dụng để xử lý dòng dữ liệu (data stream) trong thời gian thực?
A. Hadoop MapReduce
B. Apache Spark Streaming
C. Cơ sở dữ liệu quan hệ SQL
D. Microsoft Excel
12. Mô hình lập trình `MapReduce` được sử dụng chủ yếu trong hệ sinh thái nào?
A. Hệ điều hành Windows
B. Hệ quản trị cơ sở dữ liệu Oracle
C. Hadoop
D. Ngôn ngữ lập trình Python
13. Khái niệm `Data Lake` (hồ dữ liệu) khác biệt với `Data Warehouse` (kho dữ liệu) chủ yếu ở điểm nào?
A. Data Lake chỉ lưu trữ dữ liệu có cấu trúc, trong khi Data Warehouse lưu trữ mọi loại dữ liệu.
B. Data Lake lưu trữ dữ liệu ở dạng thô, chưa qua xử lý, trong khi Data Warehouse lưu trữ dữ liệu đã được làm sạch và chuyển đổi.
C. Data Lake chỉ dành cho dữ liệu lịch sử, còn Data Warehouse cho dữ liệu hiện tại.
D. Data Lake có chi phí lưu trữ cao hơn Data Warehouse.
14. Công cụ nào sau đây KHÔNG phải là một framework phổ biến cho xử lý dữ liệu lớn phân tán?
A. Apache Spark
B. Apache Flink
C. Apache Kafka
D. MySQL
15. Kiến trúc Lambda (Lambda Architecture) trong Big Data được thiết kế để giải quyết vấn đề chính nào?
A. Bảo mật dữ liệu.
B. Xử lý đồng thời cả dữ liệu batch và dữ liệu stream.
C. Giảm chi phí lưu trữ dữ liệu.
D. Tăng tốc độ truy vấn dữ liệu.
16. Trong lĩnh vực dữ liệu lớn, thuật ngữ `Schema on Read` (lược đồ khi đọc) thường được liên kết với loại hệ thống lưu trữ dữ liệu nào?
A. Data Warehouse
B. Data Lake
C. Cơ sở dữ liệu quan hệ
D. Hệ thống file truyền thống
17. Thuật ngữ `Data in Motion` (dữ liệu đang chuyển động) thường được dùng để chỉ loại dữ liệu nào?
A. Dữ liệu đã được lưu trữ trong cơ sở dữ liệu.
B. Dữ liệu đang được truyền tải qua mạng hoặc xử lý trong thời gian thực.
C. Dữ liệu lịch sử đã được lưu trữ từ lâu.
D. Dữ liệu có cấu trúc phức tạp.
18. Ưu điểm chính của việc sử dụng cơ sở dữ liệu NoSQL so với cơ sở dữ liệu quan hệ truyền thống trong xử lý dữ liệu lớn là gì?
A. Khả năng đảm bảo tính toàn vẹn dữ liệu ACID mạnh mẽ hơn.
B. Hiệu suất truy vấn dữ liệu có cấu trúc phức tạp tốt hơn.
C. Khả năng mở rộng linh hoạt và xử lý dữ liệu phi cấu trúc tốt hơn.
D. Chi phí triển khai và vận hành thấp hơn đáng kể.
19. Trong mô hình MapReduce, giai đoạn `Shuffle and Sort` (xáo trộn và sắp xếp) diễn ra giữa giai đoạn nào?
A. Giữa giai đoạn Input và Map.
B. Giữa giai đoạn Map và Reduce.
C. Giữa giai đoạn Reduce và Output.
D. Sau giai đoạn Output.
20. Công cụ nào sau đây thường được sử dụng để trực quan hóa dữ liệu lớn?
A. Microsoft Word
B. Microsoft Excel
C. Tableau
D. Adobe Photoshop
21. Thử thách lớn nhất khi làm việc với dữ liệu lớn thường liên quan đến khía cạnh nào?
A. Sự khan hiếm các chuyên gia phân tích dữ liệu.
B. Chi phí phần cứng và phần mềm để lưu trữ và xử lý.
C. Đảm bảo tính bảo mật và quyền riêng tư của dữ liệu.
D. Tất cả các đáp án trên.
22. Loại dữ liệu nào sau đây KHÔNG được coi là dữ liệu lớn (Big Data) theo nghĩa hẹp nhất?
A. Log website từ hàng triệu người dùng.
B. Dữ liệu cảm biến từ hàng ngàn thiết bị IoT.
C. Bảng dữ liệu bán hàng hàng tháng của một cửa hàng nhỏ.
D. Bài đăng và bình luận trên mạng xã hội.
23. Trong bối cảnh Big Data, `Data Democratization` (dân chủ hóa dữ liệu) mang lại lợi ích chính nào?
A. Giảm chi phí phân tích dữ liệu.
B. Tăng cường bảo mật dữ liệu.
C. Mở rộng quyền truy cập và sử dụng dữ liệu cho nhiều người dùng hơn trong tổ chức.
D. Tăng tốc độ xử lý dữ liệu.
24. Khái niệm `Data Silos` (tổ chức dữ liệu rời rạc) gây trở ngại gì cho việc khai thác giá trị từ dữ liệu lớn?
A. Làm tăng chi phí lưu trữ dữ liệu.
B. Hạn chế khả năng kết hợp và phân tích dữ liệu từ nhiều nguồn khác nhau.
C. Làm chậm tốc độ xử lý dữ liệu.
D. Gây khó khăn cho việc bảo mật dữ liệu.
25. Đặc điểm nào sau đây KHÔNG phải là đặc trưng điển hình của dữ liệu lớn (Big Data)?
A. Khối lượng dữ liệu khổng lồ (Volume)
B. Tốc độ tạo và xử lý dữ liệu nhanh (Velocity)
C. Tính đa dạng của các loại dữ liệu (Variety)
D. Dữ liệu có cấu trúc chặt chẽ và dễ dàng quản lý bằng các hệ quản trị CSDL truyền thống
26. Trong ngữ cảnh Big Data, `Data Governance` (quản trị dữ liệu) đóng vai trò quan trọng nhất trong việc đảm bảo điều gì?
A. Tốc độ xử lý dữ liệu nhanh chóng.
B. Chi phí lưu trữ dữ liệu thấp.
C. Chất lượng, bảo mật và tuân thủ các quy định về dữ liệu.
D. Khả năng trực quan hóa dữ liệu hiệu quả.
27. Trong bối cảnh dữ liệu lớn, `Velocity` đề cập đến khía cạnh nào?
A. Sự đa dạng của các nguồn dữ liệu.
B. Khối lượng dữ liệu được lưu trữ.
C. Tốc độ dữ liệu được tạo ra và cần được xử lý.
D. Giá trị kinh tế tiềm ẩn trong dữ liệu.
28. Phương pháp phân tích dữ liệu lớn nào tập trung vào việc khám phá các mẫu ẩn, mối quan hệ và xu hướng trong dữ liệu?
A. Báo cáo thống kê mô tả
B. Phân tích dự đoán (Predictive Analytics)
C. Khai phá dữ liệu (Data Mining)
D. Xử lý giao dịch trực tuyến (OLTP)
29. Nguyên tắc `Data Minimization` (tối thiểu hóa dữ liệu) trong GDPR (Quy định chung về bảo vệ dữ liệu) có ý nghĩa gì đối với Big Data?
A. Chỉ thu thập và lưu trữ dữ liệu cần thiết cho mục đích cụ thể, hợp pháp.
B. Giảm kích thước dữ liệu để tiết kiệm chi phí lưu trữ.
C. Mã hóa dữ liệu để bảo vệ khỏi truy cập trái phép.
D. Xóa dữ liệu cũ để giải phóng không gian lưu trữ.
30. Ứng dụng nào sau đây KHÔNG phải là một ví dụ điển hình của việc sử dụng dữ liệu lớn?
A. Cá nhân hóa trải nghiệm người dùng trên các trang thương mại điện tử.
B. Dự báo thời tiết chính xác hơn.
C. Quản lý danh sách liên lạc cá nhân trên điện thoại.
D. Phát hiện gian lận trong giao dịch ngân hàng.