1. Trong lĩnh vực Dữ liệu lớn, `Edge Computing` (Điện toán biên) được ứng dụng để giải quyết vấn đề nào?
A. Lưu trữ dữ liệu không giới hạn.
B. Xử lý dữ liệu gần nguồn phát sinh dữ liệu (ví dụ: thiết bị IoT) để giảm độ trễ, băng thông và tăng tính riêng tư.
C. Tăng cường khả năng trực quan hóa dữ liệu.
D. Đơn giản hóa quá trình khai phá dữ liệu.
2. Ứng dụng nào sau đây KHÔNG phải là một ví dụ phổ biến của việc sử dụng Dữ liệu lớn?
A. Cá nhân hóa trải nghiệm người dùng trên các trang thương mại điện tử.
B. Dự báo thời tiết.
C. Quản lý kho hàng thủ công bằng sổ sách.
D. Phân tích rủi ro tín dụng trong ngành tài chính.
3. Công nghệ nào sau đây KHÔNG phải là một dịch vụ lưu trữ đám mây phổ biến cho Dữ liệu lớn?
A. Amazon S3
B. Google Cloud Storage
C. Microsoft Azure Blob Storage
D. Microsoft Paint
4. Công nghệ nào sau đây thường được sử dụng để xử lý luồng dữ liệu (data stream) thời gian thực trong Dữ liệu lớn?
A. Hadoop MapReduce
B. Apache Spark Streaming
C. Hive
D. SQL
5. Trong bối cảnh Dữ liệu lớn và bảo mật, kỹ thuật `Data Masking` (Che dấu dữ liệu) được sử dụng để làm gì?
A. Mã hóa toàn bộ dữ liệu để bảo vệ.
B. Ẩn hoặc thay thế dữ liệu nhạy cảm để bảo vệ quyền riêng tư.
C. Nén dữ liệu để giảm dung lượng lưu trữ.
D. Phân mảnh dữ liệu để tăng tốc độ truy cập.
6. Trong Dữ liệu lớn, kỹ thuật `Data Aggregation` (Tổng hợp dữ liệu) thường được sử dụng để làm gì?
A. Mã hóa dữ liệu để bảo mật.
B. Làm sạch và chuẩn hóa dữ liệu.
C. Thu thập và kết hợp dữ liệu từ nhiều nguồn khác nhau thành một tập dữ liệu thống nhất.
D. Trực quan hóa dữ liệu.
7. Trong quá trình xử lý Dữ liệu lớn, ETL (Extract, Transform, Load) thường được thay thế bằng quy trình nào khi làm việc với Data Lake?
A. ELT (Extract, Load, Transform)
B. TLE (Transform, Load, Extract)
C. LTE (Load, Transform, Extract)
D. LET (Load, Extract, Transform)
8. Trong bối cảnh Dữ liệu lớn, `Data Virtualization` (Ảo hóa dữ liệu) mang lại lợi ích gì?
A. Tăng dung lượng lưu trữ dữ liệu.
B. Giảm độ phức tạp và thời gian truy cập dữ liệu bằng cách tạo ra một lớp trừu tượng, cho phép người dùng truy cập dữ liệu từ nhiều nguồn khác nhau mà không cần di chuyển hoặc sao chép dữ liệu.
C. Cải thiện khả năng bảo mật dữ liệu.
D. Tăng tốc độ thu thập dữ liệu.
9. Khái niệm `Data Silos` (Các silo dữ liệu) trong Dữ liệu lớn gây ra vấn đề gì?
A. Tăng cường bảo mật dữ liệu.
B. Cải thiện hiệu suất truy vấn dữ liệu.
C. Gây khó khăn trong việc tích hợp, chia sẻ và phân tích dữ liệu toàn diện vì dữ liệu bị phân mảnh và cô lập trong các hệ thống khác nhau.
D. Giảm chi phí lưu trữ dữ liệu.
10. Đặc điểm nào sau đây KHÔNG phải là một trong `5Vs` thường được dùng để mô tả Dữ liệu lớn?
A. Volume (Khối lượng)
B. Variety (Đa dạng)
C. Veracity (Tính xác thực)
D. Velocity (Vận tốc)
11. Trong Dữ liệu lớn, thuật ngữ `In-Memory Computing` (Tính toán trong bộ nhớ) mang lại lợi ích chính nào?
A. Giảm chi phí lưu trữ dữ liệu.
B. Tăng tốc độ xử lý dữ liệu bằng cách lưu trữ và xử lý dữ liệu trực tiếp trong bộ nhớ RAM thay vì ổ cứng.
C. Cải thiện khả năng bảo mật dữ liệu.
D. Đơn giản hóa quá trình thu thập dữ liệu.
12. Công cụ nào sau đây thường được sử dụng để truy vấn và phân tích dữ liệu trong Hadoop Data Lake?
A. Microsoft Excel
B. Apache Hive
C. MySQL
D. Microsoft Word
13. Trong mô hình `Lambda Architecture` cho Dữ liệu lớn, lớp `Speed Layer` (Lớp tốc độ) có vai trò chính là gì?
A. Lưu trữ dữ liệu lịch sử.
B. Xử lý dữ liệu batch.
C. Xử lý dữ liệu thời gian thực và cung cấp kết quả nhanh chóng.
D. Trực quan hóa dữ liệu.
14. Trong Dữ liệu lớn, `Data Governance` (Quản trị dữ liệu) bao gồm những hoạt động nào?
A. Chỉ tập trung vào bảo mật dữ liệu.
B. Chỉ tập trung vào chất lượng dữ liệu.
C. Bao gồm các chính sách, quy trình và tiêu chuẩn để quản lý toàn bộ vòng đời dữ liệu, từ thu thập, lưu trữ, xử lý đến sử dụng và bảo mật.
D. Chỉ tập trung vào việc trực quan hóa dữ liệu.
15. Khái niệm `Scalability` (Khả năng mở rộng) trong Dữ liệu lớn đề cập đến điều gì?
A. Khả năng xử lý dữ liệu nhanh chóng.
B. Khả năng xử lý nhiều loại dữ liệu khác nhau.
C. Khả năng hệ thống có thể xử lý khối lượng dữ liệu tăng lên hoặc nhu cầu tính toán tăng lên.
D. Khả năng dữ liệu được trình bày một cách trực quan.
16. Trong kiến trúc Dữ liệu lớn, `Data Warehouse` thường được sử dụng cho mục đích nào sau đây?
A. Lưu trữ dữ liệu thô chưa qua xử lý.
B. Phân tích dữ liệu lịch sử và tạo báo cáo kinh doanh.
C. Xử lý dữ liệu thời gian thực.
D. Thu thập dữ liệu từ các nguồn bên ngoài.
17. Ngôn ngữ lập trình nào thường được sử dụng nhiều nhất trong hệ sinh thái Hadoop để xử lý và phân tích Dữ liệu lớn?
A. Java
B. Python
C. C++
D. JavaScript
18. Thách thức lớn nhất khi làm việc với Dữ liệu lớn liên quan đến `Variety` (Đa dạng) là gì?
A. Dung lượng lưu trữ quá lớn.
B. Tốc độ dữ liệu tạo ra quá nhanh.
C. Sự khác biệt về định dạng và nguồn gốc dữ liệu.
D. Độ tin cậy của dữ liệu không đảm bảo.
19. Loại hình phân tích dữ liệu lớn nào tập trung vào việc dự đoán các sự kiện hoặc kết quả trong tương lai?
A. Descriptive Analytics (Phân tích mô tả)
B. Diagnostic Analytics (Phân tích chẩn đoán)
C. Predictive Analytics (Phân tích dự đoán)
D. Prescriptive Analytics (Phân tích chỉ dẫn)
20. Trong Dữ liệu lớn, `Data Wrangling` (Chuẩn bị dữ liệu) là quá trình nào?
A. Mã hóa dữ liệu để bảo mật.
B. Thu thập dữ liệu từ nhiều nguồn.
C. Làm sạch, chuyển đổi và chuẩn bị dữ liệu thô để phân tích.
D. Trực quan hóa dữ liệu đã phân tích.
21. Yếu tố `Veracity` (Tính xác thực) trong 5Vs của Dữ liệu lớn liên quan đến vấn đề gì?
A. Khối lượng dữ liệu quá lớn.
B. Tốc độ dữ liệu thay đổi quá nhanh.
C. Độ tin cậy và chất lượng của dữ liệu.
D. Sự đa dạng của các loại dữ liệu.
22. Trong ngữ cảnh Dữ liệu lớn, `Data Lake` (Hồ dữ liệu) khác biệt với `Data Warehouse` (Kho dữ liệu) chủ yếu ở điểm nào?
A. Data Lake chỉ lưu trữ dữ liệu có cấu trúc, còn Data Warehouse lưu trữ dữ liệu phi cấu trúc.
B. Data Lake lưu trữ dữ liệu thô ở định dạng gốc, còn Data Warehouse lưu trữ dữ liệu đã được xử lý và có cấu trúc.
C. Data Lake được thiết kế cho truy vấn thời gian thực, còn Data Warehouse cho phân tích lịch sử.
D. Data Lake chỉ được sử dụng cho dữ liệu có nguồn gốc từ mạng xã hội, còn Data Warehouse cho dữ liệu giao dịch.
23. Trong ngữ cảnh Dữ liệu lớn, `Machine Learning` (Học máy) đóng vai trò quan trọng nhất trong giai đoạn nào của quy trình phân tích dữ liệu?
A. Thu thập dữ liệu.
B. Làm sạch và chuẩn bị dữ liệu.
C. Phân tích và khai phá dữ liệu.
D. Trực quan hóa dữ liệu.
24. Công cụ nào sau đây KHÔNG phải là một nền tảng phổ biến cho việc phân tích và trực quan hóa Dữ liệu lớn?
A. Tableau
B. Power BI
C. Microsoft Word
D. Qlik Sense
25. Công nghệ nào sau đây thường được sử dụng để lưu trữ và xử lý dữ liệu lớn phân tán trên nhiều máy tính?
A. Microsoft Excel
B. Hadoop
C. MySQL
D. Oracle Database
26. Kỹ thuật `Data Mining` (Khai phá dữ liệu) trong Dữ liệu lớn chủ yếu tập trung vào điều gì?
A. Thu thập dữ liệu từ nhiều nguồn khác nhau.
B. Làm sạch và chuẩn hóa dữ liệu.
C. Phát hiện ra các mẫu, xu hướng và kiến thức ẩn sâu trong dữ liệu.
D. Lưu trữ dữ liệu một cách hiệu quả.
27. Kỹ thuật `Data Sampling` (Lấy mẫu dữ liệu) được sử dụng trong Dữ liệu lớn khi nào?
A. Khi cần tăng độ chính xác của dữ liệu.
B. Khi cần giảm dung lượng lưu trữ dữ liệu.
C. Khi cần xử lý dữ liệu nhanh hơn bằng cách làm việc với một tập con đại diện của dữ liệu.
D. Khi cần mã hóa dữ liệu để bảo mật.
28. Loại dữ liệu nào sau đây KHÔNG được coi là dữ liệu `phi cấu trúc` trong Dữ liệu lớn?
A. Văn bản (Text)
B. Hình ảnh (Images)
C. Video
D. Dữ liệu từ cơ sở dữ liệu quan hệ (Relational database data)
29. Thuật ngữ `Schema-on-Read` (Lược đồ khi đọc) thường liên quan đến loại hình lưu trữ dữ liệu lớn nào?
A. Data Warehouse (Kho dữ liệu)
B. Relational Database (Cơ sở dữ liệu quan hệ)
C. Data Lake (Hồ dữ liệu)
D. Operational Data Store (Kho dữ liệu vận hành)
30. Thuật ngữ `NoSQL` (Not Only SQL) dùng để chỉ loại cơ sở dữ liệu nào trong bối cảnh Dữ liệu lớn?
A. Cơ sở dữ liệu quan hệ truyền thống.
B. Cơ sở dữ liệu được tối ưu hóa cho SQL.
C. Cơ sở dữ liệu không quan hệ, linh hoạt về lược đồ và khả năng mở rộng, phù hợp với dữ liệu đa dạng và phi cấu trúc.
D. Cơ sở dữ liệu chỉ lưu trữ dữ liệu số.