1. Khái niệm `Data Governance` (Quản trị dữ liệu) trong Big Data liên quan đến điều gì?
A. Công nghệ lưu trữ dữ liệu mới nhất
B. Các quy trình và chính sách để quản lý, bảo mật và đảm bảo chất lượng dữ liệu
C. Thuật toán khai thác dữ liệu hiệu quả nhất
D. Phương pháp trực quan hóa dữ liệu tiên tiến
2. Ưu điểm của việc sử dụng `cloud-based` Big Data solutions (giải pháp Big Data trên nền tảng đám mây) so với `on-premise` (tại chỗ) là gì?
A. Chi phí ban đầu cao hơn.
B. Khả năng mở rộng linh hoạt và giảm chi phí đầu tư cơ sở hạ tầng ban đầu.
C. Kiểm soát dữ liệu và cơ sở hạ tầng tốt hơn.
D. Hiệu suất xử lý dữ liệu nhanh hơn.
3. Điều gì KHÔNG phải là một lợi ích tiềm năng của việc ứng dụng Big Data Analytics trong lĩnh vực y tế?
A. Cải thiện chẩn đoán bệnh và điều trị cá nhân hóa
B. Giảm chi phí nghiên cứu và phát triển thuốc mới
C. Tăng cường bảo mật thông tin cá nhân của bệnh nhân
D. Dự đoán và ngăn chặn dịch bệnh
4. Ưu điểm chính của việc sử dụng cơ sở dữ liệu NoSQL so với cơ sở dữ liệu quan hệ (SQL) trong Big Data là gì?
A. Tính toàn vẹn dữ liệu cao hơn
B. Khả năng mở rộng linh hoạt và hiệu suất tốt hơn với dữ liệu phi cấu trúc
C. Dễ dàng thực hiện các giao dịch phức tạp (ACID)
D. Ngôn ngữ truy vấn tiêu chuẩn (SQL)
5. Yếu tố `Value` (Giá trị) trong 5V của Big Data đề cập đến điều gì?
A. Kích thước của tập dữ liệu
B. Tốc độ tạo ra dữ liệu
C. Giá trị kinh doanh và lợi ích mà dữ liệu lớn mang lại
D. Độ tin cậy của dữ liệu
6. Đặc điểm nào sau đây KHÔNG phải là `V` chính trong mô hình 5V thường được dùng để mô tả Dữ liệu lớn (Big Data)?
A. Volume (Khối lượng)
B. Velocity (Tốc độ)
C. Variety (Đa dạng)
D. Validity (Tính hợp lệ)
7. Trong bối cảnh Big Data và phân tích dữ liệu, `Machine Learning` (Học máy) đóng vai trò gì?
A. Công cụ để lưu trữ dữ liệu lớn
B. Phương pháp để trực quan hóa dữ liệu
C. Kỹ thuật để tự động học hỏi từ dữ liệu và đưa ra dự đoán hoặc quyết định
D. Ngôn ngữ lập trình để truy vấn dữ liệu
8. Trong bối cảnh Internet of Things (IoT), Big Data đóng vai trò quan trọng như thế nào?
A. IoT không liên quan đến Big Data.
B. Big Data giúp xử lý, phân tích và khai thác giá trị từ lượng dữ liệu khổng lồ được tạo ra bởi các thiết bị IoT.
C. IoT chỉ sử dụng dữ liệu có cấu trúc nhỏ, không cần Big Data.
D. Big Data chỉ được sử dụng trong các ngành công nghiệp truyền thống, không phải IoT.
9. Trong ngữ cảnh bảo mật Big Data, điều gì là quan trọng nhất để bảo vệ dữ liệu nhạy cảm?
A. Sử dụng phần cứng mạnh mẽ hơn.
B. Mã hóa dữ liệu, kiểm soát truy cập, và tuân thủ các quy định về quyền riêng tư.
C. Tăng tốc độ truyền dữ liệu.
D. Trực quan hóa dữ liệu một cách hiệu quả.
10. Công cụ nào sau đây thường được sử dụng để truy vấn và phân tích dữ liệu trong Hadoop?
A. Microsoft Access
B. Hive
C. SPSS
D. Adobe Photoshop
11. Mục tiêu chính của `Data Visualization` (Trực quan hóa dữ liệu) trong Big Data Analytics là gì?
A. Tăng tốc độ xử lý dữ liệu
B. Làm cho dữ liệu phức tạp dễ hiểu và dễ diễn giải hơn cho con người
C. Giảm chi phí lưu trữ dữ liệu
D. Tự động hóa quá trình thu thập dữ liệu
12. Một thách thức đạo đức quan trọng liên quan đến Big Data và AI là gì?
A. Chi phí lưu trữ dữ liệu ngày càng tăng
B. Nguy cơ phân biệt đối xử và thiên vị do thuật toán dựa trên dữ liệu
C. Khả năng xử lý dữ liệu thời gian thực còn hạn chế
D. Sự thiếu hụt chuyên gia về Big Data
13. Thuật ngữ `Data Warehouse` (Kho dữ liệu) khác biệt với `Data Lake` (Hồ dữ liệu) chủ yếu ở điểm nào?
A. Data Warehouse lưu trữ dữ liệu thô, còn Data Lake lưu trữ dữ liệu đã qua xử lý.
B. Data Warehouse tập trung vào dữ liệu có cấu trúc, còn Data Lake có thể chứa nhiều loại dữ liệu khác nhau.
C. Data Warehouse được sử dụng cho phân tích thời gian thực, còn Data Lake cho phân tích lịch sử.
D. Data Warehouse dễ dàng mở rộng hơn Data Lake.
14. Công nghệ nào sau đây thường được sử dụng để xử lý dữ liệu dòng (streaming data) trong thời gian thực?
A. Hadoop MapReduce
B. Apache Spark Streaming
C. Cơ sở dữ liệu quan hệ SQL
D. Microsoft Excel
15. Trong bối cảnh Big Data, `Data Mining` (Khai thác dữ liệu) chủ yếu tập trung vào điều gì?
A. Thu thập dữ liệu từ nhiều nguồn khác nhau
B. Làm sạch và chuẩn hóa dữ liệu
C. Phát hiện các mẫu, xu hướng và kiến thức hữu ích từ dữ liệu
D. Lưu trữ dữ liệu một cách hiệu quả
16. Khi nào thì việc sử dụng Big Data KHÔNG thực sự cần thiết hoặc hiệu quả?
A. Khi cần phân tích dữ liệu từ hàng triệu nguồn khác nhau
B. Khi dữ liệu có cấu trúc rõ ràng và kích thước nhỏ, có thể quản lý bằng các công cụ truyền thống
C. Khi cần dự đoán xu hướng thị trường phức tạp
D. Khi cần cá nhân hóa trải nghiệm cho hàng triệu khách hàng
17. Thách thức lớn nhất liên quan đến `Veracity` (Tính xác thực) của Dữ liệu lớn là gì?
A. Khả năng lưu trữ dữ liệu với chi phí thấp
B. Đảm bảo dữ liệu chính xác và đáng tin cậy giữa lượng lớn thông tin
C. Tốc độ xử lý dữ liệu quá nhanh
D. Sự đa dạng của các nguồn dữ liệu
18. Trong kiến trúc Lambda của Big Data, layer `Batch` (Lô) và layer `Speed` (Tốc độ) phục vụ mục đích khác nhau nào?
A. Cả hai layer đều xử lý dữ liệu thời gian thực, chỉ khác nhau về tốc độ.
B. Layer Batch xử lý dữ liệu lịch sử với độ chính xác cao, còn layer Speed xử lý dữ liệu mới nhất với độ trễ thấp.
C. Layer Batch tập trung vào dữ liệu có cấu trúc, còn layer Speed vào dữ liệu phi cấu trúc.
D. Layer Batch dùng Hadoop, còn layer Speed dùng Spark.
19. Loại dữ liệu nào sau đây KHÔNG được xem là một phần của `Variety` (Đa dạng) trong bối cảnh Big Data?
A. Dữ liệu văn bản (ví dụ: bài đăng trên mạng xã hội)
B. Dữ liệu hình ảnh và video
C. Dữ liệu số từ cảm biến (ví dụ: nhiệt độ, độ ẩm)
D. Dữ liệu quan hệ có cấu trúc (ví dụ: bảng cơ sở dữ liệu SQL)
20. Công nghệ nào sau đây KHÔNG phải là một thành phần cốt lõi trong hệ sinh thái Hadoop?
A. HDFS (Hadoop Distributed File System)
B. MapReduce
C. Spark SQL
D. ZooKeeper
21. Ứng dụng nào sau đây KHÔNG phải là một ví dụ điển hình của việc sử dụng Dữ liệu lớn?
A. Phân tích hành vi khách hàng để cá nhân hóa trải nghiệm mua sắm trực tuyến
B. Dự báo thời tiết dựa trên dữ liệu từ vệ tinh và cảm biến toàn cầu
C. Quản lý danh sách liên lạc cá nhân trên điện thoại di động
D. Phát hiện gian lận trong giao dịch thẻ tín dụng
22. Trong mô hình MapReduce của Hadoop, giai đoạn `Map` chịu trách nhiệm chính cho việc gì?
A. Tổng hợp kết quả từ các mapper
B. Chia dữ liệu đầu vào thành các phần nhỏ hơn và xử lý song song
C. Sắp xếp và nhóm dữ liệu đã xử lý
D. Lưu trữ kết quả cuối cùng
23. Phương pháp `sampling` (lấy mẫu) có thể hữu ích như thế nào khi làm việc với Big Data?
A. Giúp tăng độ chính xác của phân tích dữ liệu.
B. Giảm thời gian xử lý và chi phí tính toán khi thử nghiệm các ý tưởng hoặc thuật toán.
C. Cho phép lưu trữ toàn bộ dữ liệu trên một máy tính duy nhất.
D. Loại bỏ hoàn toàn nhu cầu sử dụng công nghệ Big Data.
24. Công nghệ nào sau đây thường được sử dụng cho việc `message queuing` (hàng đợi tin nhắn) trong các hệ thống Big Data phân tán?
A. Microsoft PowerPoint
B. Apache Kafka
C. Microsoft Word
D. Adobe Photoshop
25. Khái niệm `Data Wrangling` (Chuẩn bị dữ liệu) trong Big Data bao gồm các công việc chính nào?
A. Chỉ thu thập dữ liệu từ các nguồn khác nhau.
B. Làm sạch, biến đổi, và định dạng lại dữ liệu để chuẩn bị cho phân tích.
C. Chỉ trực quan hóa dữ liệu.
D. Chỉ lưu trữ dữ liệu một cách hiệu quả.
26. Điều gì có thể gây ra `data silos` (tổ chức dữ liệu rời rạc) trong một tổ chức, và tại sao đó là một vấn đề trong bối cảnh Big Data?
A. Việc sử dụng quá nhiều công nghệ Big Data khác nhau.
B. Sự phân chia dữ liệu giữa các bộ phận hoặc hệ thống khác nhau mà không có sự tích hợp.
C. Thiếu nhân viên có kỹ năng về Big Data.
D. Chi phí lưu trữ dữ liệu quá cao.
27. Thuật ngữ `Data Lake` (Hồ dữ liệu) trong Big Data dùng để chỉ điều gì?
A. Một loại cơ sở dữ liệu quan hệ truyền thống
B. Một kho lưu trữ dữ liệu tập trung cho phép lưu trữ dữ liệu thô ở nhiều định dạng khác nhau
C. Một phương pháp trực quan hóa dữ liệu
D. Một thuật toán khai thác dữ liệu cụ thể
28. Công nghệ nào sau đây thường được sử dụng để xử lý dữ liệu lớn với khối lượng cực lớn và tốc độ cao, đặc biệt trong các ứng dụng phân tích thời gian thực?
A. Microsoft Excel
B. Hadoop
C. MySQL
D. Microsoft Word
29. Công cụ nào sau đây thường được dùng để xây dựng quy trình ETL (Extract, Transform, Load) trong Big Data?
A. Microsoft PowerPoint
B. Apache NiFi
C. Google Docs
D. Adobe Illustrator
30. Điều gì KHÔNG phải là một thách thức phổ biến khi triển khai các dự án Big Data?
A. Tìm kiếm và tuyển dụng nhân sự có kỹ năng phù hợp.
B. Đảm bảo chất lượng và độ tin cậy của dữ liệu (Veracity).
C. Chi phí phần cứng và phần mềm ngày càng giảm, làm cho dự án trở nên quá rẻ.
D. Tích hợp dữ liệu từ nhiều nguồn khác nhau và đối phó với sự phức tạp của dữ liệu (Variety).