1. Ưu điểm chính của việc sử dụng Dữ liệu lớn trong lĩnh vực y tế là gì?
A. Giảm chi phí quản lý bệnh viện.
B. Cải thiện chất lượng chẩn đoán và điều trị bệnh, phát triển thuốc mới, và cá nhân hóa chăm sóc sức khỏe.
C. Tăng số lượng bệnh nhân có thể được điều trị.
D. Đơn giản hóa quy trình hành chính trong bệnh viện.
2. Loại cơ sở dữ liệu nào thường được sử dụng để lưu trữ Dữ liệu lớn phi cấu trúc hoặc bán cấu trúc, khác với cơ sở dữ liệu quan hệ truyền thống?
A. Cơ sở dữ liệu quan hệ (RDBMS)
B. Cơ sở dữ liệu NoSQL
C. Microsoft SQL Server
D. Oracle Database
3. Công cụ mã nguồn mở nào sau đây được sử dụng phổ biến cho việc xử lý dữ liệu lớn theo thời gian thực (real-time stream processing)?
A. Hadoop MapReduce
B. Apache Spark Streaming
C. Hive
D. Pig
4. Thách thức về `Velocity` (Tốc độ) trong Dữ liệu lớn chủ yếu liên quan đến điều gì?
A. Khối lượng dữ liệu quá lớn để lưu trữ.
B. Tốc độ dữ liệu được tạo ra và cần được xử lý quá nhanh.
C. Sự đa dạng của các loại dữ liệu khiến việc tích hợp khó khăn.
D. Độ tin cậy của nguồn dữ liệu không đảm bảo.
5. Ứng dụng nào của Dữ liệu lớn giúp các nhà bán lẻ tối ưu hóa giá sản phẩm theo thời gian thực, dựa trên nhu cầu thị trường và hành vi khách hàng?
A. Phân tích cảm xúc khách hàng (Sentiment Analysis)
B. Định giá động (Dynamic Pricing)
C. Phân tích rủi ro (Risk Analysis)
D. Dự báo chuỗi cung ứng (Supply Chain Forecasting)
6. Kiến trúc `Kappa Architecture` khác biệt chính so với `Lambda Architecture` ở điểm nào?
A. Kappa Architecture có lớp xử lý lô (Batch Layer), còn Lambda thì không.
B. Kappa Architecture đơn giản hóa kiến trúc bằng cách loại bỏ lớp xử lý lô (Batch Layer) và chỉ dựa vào lớp xử lý stream (Stream Layer).
C. Lambda Architecture tập trung vào xử lý dữ liệu thời gian thực, còn Kappa thì không.
D. Kappa Architecture chỉ sử dụng cơ sở dữ liệu NoSQL, còn Lambda thì không.
7. Phương pháp `Data Visualization` (Trực quan hóa dữ liệu) quan trọng như thế nào trong phân tích Dữ liệu lớn?
A. Không quan trọng, vì dữ liệu lớn chủ yếu dựa vào số liệu thống kê.
B. Quan trọng để giúp con người dễ dàng hiểu, nhận biết các mẫu và xu hướng trong dữ liệu lớn.
C. Chỉ quan trọng đối với dữ liệu nhỏ, không cần thiết cho dữ liệu lớn.
D. Chủ yếu dùng để tạo báo cáo đẹp mắt, ít giá trị phân tích.
8. Khía cạnh `Veracity` (Độ xác thực) trong 5Vs của Dữ liệu lớn tập trung vào điều gì?
A. Tốc độ tạo ra dữ liệu.
B. Sự đa dạng của các loại dữ liệu.
C. Độ tin cậy và chất lượng của dữ liệu.
D. Khối lượng dữ liệu được tạo ra.
9. Trong ngữ cảnh Dữ liệu lớn, `Data Governance` (Quản trị dữ liệu) đề cập đến điều gì?
A. Công nghệ để lưu trữ dữ liệu lớn.
B. Tập hợp các chính sách, quy trình và tiêu chuẩn để quản lý tính toàn vẹn, bảo mật, chất lượng và khả năng sử dụng của dữ liệu.
C. Phương pháp trực quan hóa dữ liệu lớn.
D. Thuật toán để phân tích dữ liệu lớn.
10. Trong lĩnh vực Internet of Things (IoT), Dữ liệu lớn đóng vai trò như thế nào?
A. Không có vai trò gì, vì IoT chỉ liên quan đến thiết bị phần cứng.
B. IoT tạo ra lượng lớn dữ liệu từ các thiết bị cảm biến, và Dữ liệu lớn được sử dụng để lưu trữ, xử lý và phân tích dữ liệu này để trích xuất thông tin hữu ích.
C. Dữ liệu lớn chỉ được sử dụng trong các ứng dụng web, không liên quan đến IoT.
D. IoT chỉ sử dụng dữ liệu nhỏ, không cần đến Dữ liệu lớn.
11. Ứng dụng nào sau đây KHÔNG phải là một ví dụ phổ biến của việc sử dụng Dữ liệu lớn?
A. Cá nhân hóa quảng cáo trực tuyến
B. Dự báo thời tiết
C. Quản lý kho hàng cho một cửa hàng tạp hóa nhỏ
D. Phát hiện gian lận thẻ tín dụng
12. Ứng dụng nào sau đây của Dữ liệu lớn có thể giúp các công ty tài chính phát hiện và ngăn chặn gian lận giao dịch?
A. Phân tích dự báo nhu cầu thị trường.
B. Phát hiện gian lận (Fraud Detection) bằng cách phân tích các mẫu giao dịch bất thường.
C. Cá nhân hóa trải nghiệm khách hàng.
D. Tối ưu hóa chuỗi cung ứng.
13. Công nghệ nào sau đây thường được sử dụng để xử lý và lưu trữ Dữ liệu lớn phân tán trên nhiều máy tính?
A. Microsoft Excel
B. Hadoop
C. MySQL
D. Microsoft Access
14. Kỹ thuật `Data Mining` (Khai phá dữ liệu) trong bối cảnh Dữ liệu lớn được sử dụng để làm gì?
A. Lưu trữ dữ liệu lớn một cách hiệu quả.
B. Tìm kiếm các mẫu, xu hướng và kiến thức hữu ích từ lượng lớn dữ liệu.
C. Đảm bảo tính bảo mật của dữ liệu lớn.
D. Tăng tốc độ truyền dữ liệu lớn.
15. Công nghệ `In-memory computing` (Điện toán trong bộ nhớ) đóng vai trò gì trong việc xử lý Dữ liệu lớn?
A. Giảm chi phí lưu trữ dữ liệu.
B. Tăng tốc độ truy cập và xử lý dữ liệu bằng cách lưu trữ dữ liệu trong bộ nhớ RAM thay vì ổ cứng.
C. Cải thiện bảo mật dữ liệu.
D. Đơn giản hóa việc quản lý cơ sở dữ liệu.
16. Trong mô hình Lambda Architecture cho xử lý Dữ liệu lớn, lớp `Batch Layer` (Lớp xử lý lô) được sử dụng để làm gì?
A. Xử lý dữ liệu theo thời gian thực (real-time).
B. Xử lý toàn bộ tập dữ liệu lịch sử một cách định kỳ để tạo ra `batch views`.
C. Phục vụ các truy vấn ad-hoc nhanh chóng.
D. Lưu trữ dữ liệu thô.
17. Trong ngữ cảnh Dữ liệu lớn, `Data Science` (Khoa học dữ liệu) là gì?
A. Một loại cơ sở dữ liệu mới.
B. Một lĩnh vực liên ngành sử dụng các phương pháp khoa học, thuật toán và quy trình để trích xuất kiến thức và insights từ dữ liệu.
C. Công nghệ lưu trữ dữ liệu lớn.
D. Phương pháp bảo mật dữ liệu.
18. Trong bối cảnh bảo mật Dữ liệu lớn, kỹ thuật `Data masking` (Che giấu dữ liệu) được sử dụng để làm gì?
A. Mã hóa dữ liệu để bảo vệ khỏi truy cập trái phép.
B. Ẩn hoặc thay thế dữ liệu nhạy cảm bằng dữ liệu giả mạo, nhưng vẫn giữ nguyên định dạng và chức năng sử dụng.
C. Phát hiện và ngăn chặn các cuộc tấn công mạng vào hệ thống dữ liệu lớn.
D. Sao lưu và phục hồi dữ liệu lớn trong trường hợp sự cố.
19. Khái niệm `Schema on Read` (Lược đồ khi đọc) thường liên quan đến loại kho dữ liệu nào trong Dữ liệu lớn?
A. Data Warehouse (Kho dữ liệu)
B. Data Lake (Hồ dữ liệu)
C. Cơ sở dữ liệu quan hệ (RDBMS)
D. Cơ sở dữ liệu đồ thị (Graph Database)
20. Loại phân tích dữ liệu nào tập trung vào việc dự đoán các sự kiện hoặc kết quả có thể xảy ra trong tương lai, dựa trên dữ liệu lịch sử?
A. Phân tích mô tả (Descriptive Analytics)
B. Phân tích chẩn đoán (Diagnostic Analytics)
C. Phân tích dự đoán (Predictive Analytics)
D. Phân tích quy định (Prescriptive Analytics)
21. Kỹ thuật `Data Wrangling` (Chuẩn bị dữ liệu) hoặc `Data Munging` đóng vai trò gì quan trọng trong dự án Dữ liệu lớn?
A. Lưu trữ dữ liệu lớn một cách tiết kiệm không gian.
B. Làm sạch, biến đổi và chuẩn bị dữ liệu thô để sẵn sàng cho phân tích.
C. Bảo mật dữ liệu lớn khỏi truy cập trái phép.
D. Trực quan hóa dữ liệu lớn.
22. Thuật ngữ `Data Lake` (Hồ dữ liệu) trong Dữ liệu lớn đề cập đến điều gì?
A. Một loại cơ sở dữ liệu quan hệ đặc biệt.
B. Một kho lưu trữ dữ liệu tập trung, cho phép lưu trữ dữ liệu thô ở nhiều định dạng khác nhau cho đến khi cần dùng.
C. Một phương pháp trực quan hóa dữ liệu lớn.
D. Một công cụ để làm sạch dữ liệu.
23. Trong kiến trúc Hadoop, thành phần nào chịu trách nhiệm quản lý tài nguyên cluster và lập lịch các công việc (jobs)?
A. HDFS (Hadoop Distributed File System)
B. MapReduce
C. YARN (Yet Another Resource Negotiator)
D. Hive
24. Công cụ nào sau đây KHÔNG phải là một framework hoặc công cụ phổ biến trong hệ sinh thái Hadoop?
A. Spark
B. Hive
C. Pig
D. SQL Server Integration Services (SSIS)
25. Công nghệ nào sau đây thường được sử dụng để xây dựng Data Warehouse (Kho dữ liệu) trên nền tảng Dữ liệu lớn?
A. Apache Kafka
B. Apache Cassandra
C. Apache Hive
D. Apache Flink
26. Yếu tố `Value` (Giá trị) trong 5Vs của Dữ liệu lớn nhấn mạnh vào điều gì?
A. Khối lượng dữ liệu cần xử lý.
B. Tốc độ tạo ra dữ liệu.
C. Khả năng tạo ra giá trị kinh doanh và thông tin hữu ích từ dữ liệu.
D. Độ tin cậy của dữ liệu.
27. Đặc điểm nào sau đây KHÔNG phải là một trong `5Vs` thường được dùng để mô tả Dữ liệu lớn?
A. Volume (Khối lượng)
B. Velocity (Tốc độ)
C. Veracity (Độ xác thực)
D. Volatility (Tính biến động)
28. Khi nói về `Variety` (Đa dạng) trong 5Vs của Dữ liệu lớn, chúng ta đang đề cập đến điều gì?
A. Khối lượng dữ liệu lớn.
B. Tốc độ dữ liệu được tạo ra.
C. Sự đa dạng của các loại và nguồn dữ liệu (ví dụ: văn bản, hình ảnh, video, dữ liệu cảm biến).
D. Độ tin cậy của dữ liệu.
29. Thách thức lớn nhất khi làm việc với Dữ liệu lớn thường KHÔNG bao gồm yếu tố nào sau đây?
A. Khả năng lưu trữ khối lượng dữ liệu khổng lồ.
B. Tốc độ xử lý dữ liệu để kịp thời gian thực.
C. Sự đa dạng của nguồn và loại dữ liệu.
D. Chi phí thuê văn phòng làm việc cho nhân viên phân tích dữ liệu.
30. Lợi ích chính của việc sử dụng điện toán đám mây (Cloud Computing) trong việc xử lý và lưu trữ Dữ liệu lớn là gì?
A. Giảm chi phí phần cứng và cơ sở hạ tầng, khả năng mở rộng linh hoạt, và truy cập tài nguyên dễ dàng.
B. Tăng cường bảo mật dữ liệu tuyệt đối.
C. Đảm bảo tốc độ xử lý dữ liệu nhanh nhất trong mọi trường hợp.
D. Loại bỏ hoàn toàn nhu cầu về nhân sự IT.