1. Trong ngữ cảnh Dữ liệu lớn, `Data Silos` (Ống khói dữ liệu) gây ra vấn đề gì?
A. Tăng cường bảo mật dữ liệu.
B. Cải thiện hiệu suất truy vấn dữ liệu.
C. Hạn chế khả năng tích hợp và phân tích dữ liệu toàn diện do dữ liệu bị phân tán và cô lập.
D. Giảm chi phí lưu trữ dữ liệu.
2. Công cụ nào sau đây thường được sử dụng để truy vấn và phân tích dữ liệu trong Hadoop Data Lake sử dụng ngôn ngữ SQL-like?
A. Spark Core
B. Hive
C. Kafka
D. Flume
3. Khía cạnh `Value` (Giá trị) trong `5Vs` của Dữ liệu lớn nhấn mạnh đến điều gì?
A. Dung lượng dữ liệu lớn.
B. Tốc độ tạo ra dữ liệu nhanh chóng.
C. Giá trị kinh doanh và thông tin chi tiết có thể thu được từ dữ liệu.
D. Đa dạng các loại dữ liệu.
4. Trong bối cảnh Dữ liệu lớn, `Data Lake` (Hồ dữ liệu) khác biệt chính so với `Data Warehouse` (Kho dữ liệu) là gì?
A. Data Lake chỉ lưu trữ dữ liệu phi cấu trúc, còn Data Warehouse chỉ lưu trữ dữ liệu cấu trúc.
B. Data Lake lưu trữ dữ liệu ở định dạng thô ban đầu, còn Data Warehouse lưu trữ dữ liệu đã được xử lý và chuyển đổi.
C. Data Lake chỉ dành cho dữ liệu thời gian thực, còn Data Warehouse cho dữ liệu lịch sử.
D. Data Lake có dung lượng nhỏ hơn Data Warehouse.
5. Công cụ nào sau đây thường được sử dụng để thu thập dữ liệu log từ nhiều nguồn khác nhau trong hệ sinh thái Dữ liệu lớn?
A. Hadoop MapReduce
B. Apache Flume
C. Hive
D. Spark SQL
6. Loại cơ sở dữ liệu nào thường được sử dụng để xử lý dữ liệu phi cấu trúc và bán cấu trúc trong môi trường Dữ liệu lớn?
A. Cơ sở dữ liệu quan hệ (SQL)
B. Cơ sở dữ liệu NoSQL
C. Data Warehouse
D. Data Mart
7. Trong Dữ liệu lớn, `Cardinality` (Tính bản số) đề cập đến điều gì?
A. Số lượng cột trong một bảng dữ liệu.
B. Số lượng giá trị duy nhất trong một cột dữ liệu.
C. Kích thước của tập dữ liệu.
D. Tốc độ thay đổi của dữ liệu.
8. Công nghệ nào sau đây KHÔNG phải là một nền tảng điện toán đám mây phổ biến được sử dụng cho các giải pháp Dữ liệu lớn?
A. Amazon Web Services (AWS)
B. Microsoft Azure
C. Google Cloud Platform (GCP)
D. Oracle Database
9. Trong ngữ cảnh Dữ liệu lớn, thuật ngữ `Schema on Read` (Lược đồ khi đọc) đề cập đến điều gì?
A. Lược đồ dữ liệu phải được xác định trước khi dữ liệu được ghi vào hệ thống.
B. Lược đồ dữ liệu được áp dụng khi dữ liệu được truy vấn và đọc, không phải khi ghi.
C. Lược đồ dữ liệu được tự động suy luận từ dữ liệu.
D. Lược đồ dữ liệu không cần thiết trong Dữ liệu lớn.
10. Loại phân tích dữ liệu nào tập trung vào việc tìm hiểu điều gì đã xảy ra trong quá khứ dựa trên dữ liệu lịch sử?
A. Phân tích dự đoán (Predictive Analytics)
B. Phân tích mô tả (Descriptive Analytics)
C. Phân tích quy chuẩn (Prescriptive Analytics)
D. Phân tích chẩn đoán (Diagnostic Analytics)
11. Trong kiến trúc Dữ liệu lớn, tầng nào chịu trách nhiệm lưu trữ và quản lý dữ liệu thô, chưa qua xử lý?
A. Tầng xử lý
B. Tầng lưu trữ
C. Tầng truy vấn
D. Tầng trực quan hóa
12. Mô hình lập trình `MapReduce` hoạt động dựa trên nguyên tắc chính nào?
A. Xử lý dữ liệu tuần tự trên một máy duy nhất.
B. Chia nhỏ công việc và xử lý song song trên nhiều máy, sau đó tổng hợp kết quả.
C. Lưu trữ toàn bộ dữ liệu trong bộ nhớ chính (RAM).
D. Truy vấn dữ liệu sử dụng ngôn ngữ SQL.
13. Đặc điểm nào sau đây KHÔNG phải là một trong `5Vs` thường được dùng để mô tả Dữ liệu lớn?
A. Volume (Khối lượng)
B. Velocity (Tốc độ)
C. Variety (Đa dạng)
D. Veracity (Tính xác thực)
14. Quy trình ETL (Extract, Transform, Load) đóng vai trò gì trong Dữ liệu lớn?
A. Trực quan hóa dữ liệu
B. Làm sạch và chuẩn bị dữ liệu
C. Phân tích dự đoán
D. Bảo mật dữ liệu
15. Thách thức chính nào mà Dữ liệu lớn đặt ra đối với vấn đề bảo mật và quyền riêng tư?
A. Dung lượng dữ liệu quá nhỏ để cần bảo mật.
B. Dữ liệu lớn thường được mã hóa mặc định.
C. Việc thu thập và phân tích lượng lớn dữ liệu cá nhân có thể xâm phạm quyền riêng tư và tăng nguy cơ lộ lọt dữ liệu.
D. Dữ liệu lớn không chứa thông tin cá nhân.
16. Thách thức chính nào liên quan đến `Variety` (Đa dạng) trong `5Vs` của Dữ liệu lớn?
A. Xử lý dữ liệu với tốc độ cao.
B. Quản lý lượng dữ liệu khổng lồ.
C. Tích hợp và phân tích dữ liệu từ nhiều nguồn và định dạng khác nhau (cấu trúc, bán cấu trúc, phi cấu trúc).
D. Đảm bảo tính chính xác của dữ liệu.
17. Ứng dụng nào sau đây KHÔNG phải là một ví dụ điển hình của việc sử dụng Dữ liệu lớn?
A. Cá nhân hóa trải nghiệm người dùng trên các nền tảng thương mại điện tử.
B. Dự báo thời tiết chính xác hơn.
C. Quản lý cơ sở dữ liệu nhỏ cho một cửa hàng tạp hóa địa phương.
D. Phát hiện gian lận trong giao dịch tài chính.
18. Ưu điểm chính của việc sử dụng `In-Memory Computing` (Điện toán trong bộ nhớ) trong Dữ liệu lớn là gì?
A. Giảm chi phí phần cứng lưu trữ.
B. Tăng tốc độ xử lý dữ liệu bằng cách giảm thiểu truy cập đĩa.
C. Đơn giản hóa việc quản lý cụm máy tính.
D. Cải thiện khả năng bảo mật dữ liệu.
19. Trong quá trình chuẩn bị dữ liệu cho Dữ liệu lớn, `Data Wrangling` (Vật lộn với dữ liệu) đề cập đến hoạt động nào?
A. Thu thập dữ liệu từ các nguồn khác nhau.
B. Làm sạch, chuyển đổi và cấu trúc lại dữ liệu để phân tích.
C. Lưu trữ dữ liệu vào Data Lake.
D. Trực quan hóa dữ liệu đã được xử lý.
20. Phương pháp phân tích dữ liệu nào tập trung vào việc khám phá các mẫu ẩn, mối quan hệ và xu hướng trong các tập dữ liệu lớn để đưa ra quyết định hoặc dự đoán?
A. Thống kê mô tả
B. Khai thác dữ liệu (Data Mining)
C. Báo cáo trực quan hóa
D. Kiểm định giả thuyết
21. Thuật ngữ `Data Governance` (Quản trị dữ liệu) trong Dữ liệu lớn liên quan đến điều gì?
A. Công nghệ lưu trữ dữ liệu.
B. Quy trình và chính sách quản lý, bảo mật và chất lượng dữ liệu.
C. Công cụ trực quan hóa dữ liệu.
D. Phương pháp khai thác dữ liệu.
22. Thử thách nào sau đây KHÔNG phải là một trong những thách thức phổ biến khi triển khai các dự án Dữ liệu lớn?
A. Thiếu nhân lực có kỹ năng phân tích và quản lý Dữ liệu lớn.
B. Chi phí đầu tư ban đầu cao cho cơ sở hạ tầng và công nghệ.
C. Dễ dàng tích hợp dữ liệu từ mọi nguồn khác nhau.
D. Đảm bảo chất lượng dữ liệu và tính xác thực.
23. Trong Dữ liệu lớn, `Lambda Architecture` (Kiến trúc Lambda) kết hợp hai lớp xử lý dữ liệu nào?
A. Lớp lưu trữ và lớp truy vấn.
B. Lớp xử lý batch (theo lô) và lớp xử lý stream (dòng).
C. Lớp bảo mật và lớp quản trị.
D. Lớp trực quan hóa và lớp ứng dụng.
24. Trong mô hình tham chiếu Dữ liệu lớn, tầng `Processing` (Xử lý) thường bao gồm các hoạt động nào?
A. Thu thập và nhập dữ liệu.
B. Lưu trữ dữ liệu thô.
C. Chuyển đổi, làm sạch và phân tích dữ liệu.
D. Trình bày dữ liệu dưới dạng biểu đồ và báo cáo.
25. Loại tấn công bảo mật nào đặc biệt nguy hiểm trong môi trường Dữ liệu lớn do lượng dữ liệu nhạy cảm lớn được lưu trữ?
A. Tấn công từ chối dịch vụ (DoS).
B. Tấn công SQL Injection.
C. Tấn công đánh cắp dữ liệu (Data Breach).
D. Tấn công giả mạo (Spoofing).
26. Phương pháp trực quan hóa dữ liệu nào phù hợp nhất để hiển thị sự phân bố của một biến số liên tục duy nhất?
A. Biểu đồ đường (Line chart)
B. Biểu đồ cột (Bar chart)
C. Biểu đồ hộp (Box plot)
D. Biểu đồ tròn (Pie chart)
27. Thuật ngữ `Hadoop` liên quan chặt chẽ nhất đến thành phần nào của hệ sinh thái Dữ liệu lớn?
A. Trực quan hóa dữ liệu
B. Lưu trữ và xử lý phân tán
C. Khai thác dữ liệu
D. Học máy
28. Ưu điểm chính của việc sử dụng xử lý song song và phân tán trong Dữ liệu lớn là gì?
A. Giảm chi phí lưu trữ dữ liệu.
B. Tăng tốc độ xử lý và khả năng mở rộng.
C. Đơn giản hóa việc quản lý dữ liệu.
D. Cải thiện tính bảo mật dữ liệu.
29. Phương pháp nào sau đây thường được sử dụng để giảm chiều dữ liệu (dimensionality reduction) trong Dữ liệu lớn, giúp đơn giản hóa mô hình và giảm nhiễu?
A. Tăng cường dữ liệu (Data Augmentation)
B. Chuẩn hóa dữ liệu (Data Normalization)
C. Phân tích thành phần chính (Principal Component Analysis - PCA)
D. Làm sạch dữ liệu (Data Cleaning)
30. Công nghệ nào sau đây thường được sử dụng để xử lý dữ liệu dòng (streaming data) trong thời gian thực trong các ứng dụng Dữ liệu lớn?
A. Hadoop MapReduce
B. Apache Spark Streaming
C. Hive
D. Pig