1. Thách thức `Veracity` (Tính xác thực) trong Big Data liên quan đến vấn đề gì?
A. Tốc độ dữ liệu được tạo ra.
B. Độ tin cậy và chất lượng của dữ liệu.
C. Sự đa dạng của các loại dữ liệu.
D. Kích thước của dữ liệu.
2. Trong kiến trúc Big Data, thành phần nào thường được sử dụng để lưu trữ dữ liệu phi cấu trúc với khả năng mở rộng cao?
A. Hệ quản trị cơ sở dữ liệu quan hệ (RDBMS).
B. Data Warehouse truyền thống.
C. Hệ thống NoSQL.
D. Data Mart.
3. Loại hình phân tích nào đưa ra các khuyến nghị hoặc hành động nên thực hiện để đạt được mục tiêu mong muốn?
A. Phân tích mô tả (Descriptive Analytics).
B. Phân tích chẩn đoán (Diagnostic Analytics).
C. Phân tích dự đoán (Predictive Analytics).
D. Phân tích chỉ định (Prescriptive Analytics).
4. Trong mô hình 5V của Big Data, `Value` (Giá trị) nhấn mạnh vào khía cạnh nào?
A. Tốc độ xử lý dữ liệu.
B. Khối lượng dữ liệu khổng lồ.
C. Giá trị kinh doanh và thông tin chiết xuất được từ dữ liệu.
D. Tính xác thực của dữ liệu.
5. Trong quy trình xử lý Big Data, giai đoạn `Data Wrangling` (Chuẩn bị dữ liệu) bao gồm các hoạt động chính nào?
A. Thu thập và lưu trữ dữ liệu.
B. Trực quan hóa dữ liệu và trình bày kết quả.
C. Làm sạch, chuyển đổi và tích hợp dữ liệu.
D. Xây dựng mô hình và thuật toán phân tích dữ liệu.
6. Vấn đề đạo đức nào sau đây là một mối quan tâm lớn trong việc sử dụng Big Data?
A. Chi phí lưu trữ dữ liệu.
B. Sự xâm phạm quyền riêng tư và sử dụng dữ liệu cá nhân không đúng mục đích.
C. Tốc độ xử lý dữ liệu chậm.
D. Sự đa dạng của các định dạng dữ liệu.
7. Công cụ nào sau đây thường được sử dụng để truy vấn và phân tích dữ liệu trong Hadoop?
A. Microsoft Excel.
B. Python Pandas.
C. Apache Hive.
D. Microsoft Access.
8. Trong ngữ cảnh Big Data, `Data Silos` (Kho dữ liệu cô lập) gây ra vấn đề gì?
A. Tăng cường bảo mật dữ liệu.
B. Gây khó khăn trong việc tích hợp và phân tích dữ liệu toàn diện.
C. Giảm chi phí lưu trữ dữ liệu.
D. Tăng tốc độ truy vấn dữ liệu.
9. Ứng dụng nào sau đây KHÔNG phải là ứng dụng phổ biến của Big Data?
A. Phân tích hành vi khách hàng để cá nhân hóa trải nghiệm mua sắm.
B. Dự báo thời tiết và cảnh báo thiên tai.
C. Quản lý dữ liệu giao dịch hàng ngày của một cửa hàng tạp hóa nhỏ.
D. Phát hiện gian lận trong giao dịch tài chính.
10. Loại hình phân tích nào tập trung vào việc dự đoán điều gì có thể xảy ra trong tương lai?
A. Phân tích mô tả (Descriptive Analytics).
B. Phân tích chẩn đoán (Diagnostic Analytics).
C. Phân tích dự đoán (Predictive Analytics).
D. Phân tích chỉ định (Prescriptive Analytics).
11. Thách thức `Variety` (Đa dạng) của Big Data đề cập đến vấn đề gì?
A. Sự thay đổi liên tục của dữ liệu theo thời gian.
B. Sự khác biệt về chất lượng và độ tin cậy của dữ liệu.
C. Sự đa dạng về nguồn gốc và định dạng dữ liệu.
D. Yêu cầu về tốc độ xử lý dữ liệu nhanh chóng.
12. Loại hình phân tích nào tập trung vào việc tìm ra nguyên nhân gốc rễ của một sự kiện đã xảy ra?
A. Phân tích mô tả (Descriptive Analytics).
B. Phân tích chẩn đoán (Diagnostic Analytics).
C. Phân tích dự đoán (Predictive Analytics).
D. Phân tích chỉ định (Prescriptive Analytics).
13. Ưu điểm chính của việc sử dụng Big Data trong lĩnh vực y tế là gì?
A. Giảm chi phí lưu trữ dữ liệu bệnh nhân.
B. Cải thiện khả năng chẩn đoán bệnh và phát triển phương pháp điều trị cá nhân hóa.
C. Thay thế hoàn toàn bác sĩ con người bằng hệ thống máy tính.
D. Đơn giản hóa quy trình quản lý hồ sơ bệnh án giấy.
14. Thuật ngữ `Data Lake` (Hồ dữ liệu) trong Big Data ám chỉ điều gì?
A. Một kho lưu trữ dữ liệu đã được làm sạch và chuyển đổi để phân tích.
B. Một hệ thống quản lý dữ liệu giao dịch trực tuyến.
C. Một kho lưu trữ dữ liệu thô ở định dạng gốc cho đến khi cần sử dụng.
D. Một tập hợp các Data Marts liên quan đến một chủ đề cụ thể.
15. Phương pháp nào sau đây thường được sử dụng để giảm chiều dữ liệu trong Big Data, giúp giảm độ phức tạp tính toán?
A. Mã hóa dữ liệu (Data encryption).
B. Tăng kích thước lưu trữ dữ liệu.
C. Giảm chiều dữ liệu (Dimensionality reduction).
D. Sao lưu dữ liệu (Data backup).
16. Công nghệ nào sau đây thường được sử dụng để xử lý song song lượng lớn dữ liệu trong môi trường Big Data?
A. SQL truyền thống.
B. Hadoop MapReduce.
C. Excel.
D. Access.
17. Trong Big Data, kỹ thuật `Data Sampling` (Lấy mẫu dữ liệu) được sử dụng khi nào?
A. Khi cần xử lý toàn bộ tập dữ liệu lớn một cách chính xác tuyệt đối.
B. Khi muốn có kết quả phân tích nhanh chóng và chấp nhận một mức độ sai số nhất định.
C. Khi cần tăng cường bảo mật dữ liệu.
D. Khi muốn chuẩn hóa định dạng dữ liệu.
18. Công cụ nào sau đây thường được sử dụng để trực quan hóa dữ liệu Big Data?
A. Hadoop.
B. Spark.
C. Tableau.
D. MapReduce.
19. Công nghệ nào sau đây thường được sử dụng để xử lý dữ liệu stream trong thời gian thực trong Big Data?
A. Hadoop MapReduce.
B. Apache Spark Streaming.
C. Data Warehouse.
D. Hệ quản trị cơ sở dữ liệu quan hệ (RDBMS).
20. Khái niệm `Data Governance` (Quản trị dữ liệu) trong Big Data đề cập đến điều gì?
A. Việc mã hóa và bảo mật dữ liệu.
B. Việc quản lý toàn bộ vòng đời dữ liệu, bao gồm chất lượng, bảo mật, tuân thủ và khả năng sử dụng.
C. Việc tối ưu hóa hiệu suất truy vấn dữ liệu.
D. Việc trực quan hóa dữ liệu để dễ dàng phân tích.
21. Loại hình phân tích dữ liệu nào tập trung vào việc mô tả điều gì đã xảy ra trong quá khứ?
A. Phân tích dự đoán (Predictive Analytics).
B. Phân tích mô tả (Descriptive Analytics).
C. Phân tích chẩn đoán (Diagnostic Analytics).
D. Phân tích chỉ định (Prescriptive Analytics).
22. Đặc điểm `Volume` (Khối lượng) trong Big Data đề cập đến yếu tố nào sau đây?
A. Tốc độ tạo ra và xử lý dữ liệu.
B. Sự đa dạng của các loại dữ liệu.
C. Kích thước khổng lồ của tập dữ liệu.
D. Tính xác thực và đáng tin cậy của dữ liệu.
23. Thuật ngữ `Data Fabric` (Mạng lưới dữ liệu) trong Big Data hướng đến mục tiêu gì?
A. Tăng cường bảo mật dữ liệu.
B. Tạo ra một kiến trúc dữ liệu thống nhất và linh hoạt, cho phép truy cập và quản lý dữ liệu dễ dàng bất kể vị trí lưu trữ.
C. Giảm chi phí lưu trữ dữ liệu.
D. Tăng tốc độ xử lý dữ liệu.
24. Kiến trúc Lambda trong Big Data được thiết kế để giải quyết vấn đề gì?
A. Bảo mật dữ liệu.
B. Xử lý đồng thời dữ liệu batch và dữ liệu stream.
C. Giảm chi phí lưu trữ dữ liệu.
D. Trực quan hóa dữ liệu hiệu quả hơn.
25. Yếu tố nào sau đây KHÔNG phải là một thành phần chính của hệ sinh thái Hadoop?
A. HDFS (Hadoop Distributed File System).
B. MapReduce.
C. Spark.
D. SQL Server.
26. Công cụ nào sau đây KHÔNG phải là một nền tảng NoSQL phổ biến?
A. MongoDB.
B. Apache Cassandra.
C. MySQL.
D. Redis.
27. Mục tiêu chính của việc ứng dụng Big Data trong lĩnh vực tài chính ngân hàng là gì?
A. Tăng cường bảo mật giao dịch trực tuyến.
B. Cải thiện trải nghiệm khách hàng, phát hiện gian lận, quản lý rủi ro và đưa ra quyết định kinh doanh dựa trên dữ liệu.
C. Giảm chi phí vận hành hệ thống IT.
D. Thay thế nhân viên ngân hàng bằng hệ thống tự động hoàn toàn.
28. Trong bối cảnh Big Data, thuật ngữ `Schema-on-Read` có nghĩa là gì?
A. Cấu trúc dữ liệu phải được xác định trước khi dữ liệu được ghi vào hệ thống.
B. Cấu trúc dữ liệu được áp đặt khi dữ liệu được đọc và phân tích.
C. Dữ liệu phải được chuẩn hóa theo một schema chung trước khi lưu trữ.
D. Schema của dữ liệu được tự động phát hiện và áp dụng.
29. Giải pháp nào sau đây giúp giải quyết thách thức về `Velocity` (Tốc độ) trong Big Data?
A. Sử dụng Data Warehouse để lưu trữ dữ liệu lịch sử.
B. Áp dụng công nghệ xử lý dữ liệu theo thời gian thực (Real-time processing).
C. Tăng cường bảo mật dữ liệu.
D. Chuẩn hóa định dạng dữ liệu.
30. Trong Big Data, `Data Mining` (Khai phá dữ liệu) được sử dụng để làm gì?
A. Lưu trữ và quản lý dữ liệu.
B. Trực quan hóa dữ liệu.
C. Phát hiện các mẫu, quy luật và tri thức ẩn sâu trong dữ liệu.
D. Bảo mật dữ liệu.