1. Thuật ngữ `Big Data` thường được mô tả bằng mô hình `5V`. `V` nào sau đây đề cập đến sự đa dạng của các loại dữ liệu, bao gồm dữ liệu có cấu trúc, bán cấu trúc và phi cấu trúc?
A. Volume (Khối lượng)
B. Velocity (Tốc độ)
C. Variety (Đa dạng)
D. Veracity (Độ tin cậy)
2. Mục tiêu chính của việc `trực quan hóa dữ liệu` (Data Visualization) trong Big Data là gì?
A. Tăng tốc độ xử lý dữ liệu.
B. Cải thiện độ chính xác của dữ liệu.
C. Giúp con người dễ dàng hiểu và khám phá thông tin, mẫu và xu hướng ẩn chứa trong dữ liệu phức tạp.
D. Giảm chi phí lưu trữ dữ liệu.
3. Công cụ `Spark` thường được sử dụng trong Big Data để làm gì?
A. Lưu trữ dữ liệu lớn phân tán.
B. Quản lý cơ sở dữ liệu NoSQL.
C. Xử lý và phân tích dữ liệu lớn trong bộ nhớ (in-memory processing) với tốc độ cao.
D. Trực quan hóa dữ liệu.
4. Khái niệm `Value` (Giá trị) trong mô hình 5V của Big Data nhấn mạnh điều gì?
A. Khối lượng dữ liệu phải đủ lớn.
B. Tốc độ xử lý dữ liệu phải nhanh.
C. Giá trị kinh doanh và lợi ích mà Big Data mang lại cho tổ chức.
D. Độ tin cậy của dữ liệu phải cao.
5. Trong bối cảnh Big Data và Machine Learning, `Feature Engineering` (Kỹ thuật đặc trưng) là gì?
A. Quá trình lựa chọn thuật toán Machine Learning phù hợp.
B. Quá trình làm sạch và chuẩn hóa dữ liệu.
C. Quá trình chọn lọc, biến đổi và tạo ra các thuộc tính (features) phù hợp từ dữ liệu thô để cải thiện hiệu suất của mô hình học máy.
D. Quá trình đánh giá hiệu suất của mô hình Machine Learning.
6. Thuật ngữ `Data Mining` (Khai phá dữ liệu) trong Big Data đề cập đến quá trình nào?
A. Thu thập dữ liệu từ nhiều nguồn khác nhau.
B. Làm sạch và chuẩn hóa dữ liệu để đảm bảo chất lượng.
C. Phân tích dữ liệu để khám phá ra các mẫu, xu hướng và thông tin hữu ích.
D. Trực quan hóa dữ liệu để dễ dàng trình bày và hiểu.
7. Phương pháp `Machine Learning` (Học máy) đóng vai trò gì trong phân tích Big Data?
A. Thu thập dữ liệu từ các nguồn khác nhau.
B. Lưu trữ dữ liệu trong Data Lake.
C. Giúp tự động hóa việc phân tích dữ liệu, phát hiện mẫu, dự đoán và đưa ra quyết định dựa trên dữ liệu lớn.
D. Trực quan hóa dữ liệu dưới dạng đồ thị.
8. Trong Big Data, `Data Silos` (Kho dữ liệu cô lập) được xem là một vấn đề vì lý do nào?
A. Data Silos giúp bảo mật dữ liệu tốt hơn.
B. Data Silos giúp tăng tốc độ truy cập dữ liệu.
C. Data Silos cản trở việc tích hợp và phân tích dữ liệu từ nhiều nguồn khác nhau, làm giảm giá trị tiềm năng của dữ liệu.
D. Data Silos giúp giảm chi phí lưu trữ dữ liệu.
9. Lợi ích chính của việc sử dụng `Cloud Computing` (Điện toán đám mây) cho Big Data là gì?
A. Tăng cường bảo mật dữ liệu.
B. Khả năng mở rộng linh hoạt, chi phí hiệu quả và truy cập tài nguyên tính toán mạnh mẽ theo yêu cầu.
C. Giảm độ trễ trong xử lý dữ liệu.
D. Đơn giản hóa việc quản lý dữ liệu.
10. Khái niệm `Data Lakehouse` (Nhà kho hồ dữ liệu) kết hợp ưu điểm của Data Lake và Data Warehouse như thế nào?
A. Data Lakehouse chỉ lưu trữ dữ liệu có cấu trúc và bán cấu trúc.
B. Data Lakehouse cung cấp khả năng lưu trữ dữ liệu thô, linh hoạt như Data Lake, đồng thời cung cấp các tính năng quản lý, truy vấn và hiệu suất của Data Warehouse.
C. Data Lakehouse chỉ sử dụng công nghệ NoSQL.
D. Data Lakehouse có chi phí cao hơn cả Data Lake và Data Warehouse.
11. Khi nào thì `Batch Processing` (Xử lý theo lô) phù hợp hơn `Stream Processing` (Xử lý luồng) trong Big Data?
A. Khi cần phản hồi ngay lập tức với dữ liệu.
B. Khi dữ liệu được tạo ra liên tục với tốc độ cao.
C. Khi có thể chờ đợi một khoảng thời gian để thu thập và xử lý một lượng lớn dữ liệu cùng một lúc, và độ trễ không phải là yếu tố quan trọng.
D. Khi cần trực quan hóa dữ liệu thời gian thực.
12. Công nghệ `In-memory computing` (Điện toán trong bộ nhớ) mang lại lợi ích gì cho xử lý Big Data?
A. Giảm chi phí lưu trữ dữ liệu.
B. Tăng tốc độ truy cập và xử lý dữ liệu do dữ liệu được lưu trữ và xử lý chủ yếu trong bộ nhớ RAM thay vì trên đĩa cứng.
C. Cải thiện độ chính xác của dữ liệu.
D. Đơn giản hóa quá trình thu thập dữ liệu.
13. Công nghệ `Data Streaming` (Dữ liệu luồng) được sử dụng khi nào trong Big Data?
A. Khi cần lưu trữ dữ liệu lớn.
B. Khi cần xử lý dữ liệu liên tục được tạo ra với tốc độ cao, gần như thời gian thực.
C. Khi cần trực quan hóa dữ liệu.
D. Khi cần làm sạch dữ liệu.
14. Công nghệ `NoSQL` thường được sử dụng trong Big Data vì lý do chính nào?
A. Khả năng xử lý giao dịch phức tạp tốt hơn SQL.
B. Khả năng mở rộng linh hoạt và xử lý dữ liệu phi cấu trúc tốt hơn so với cơ sở dữ liệu quan hệ.
C. Chi phí triển khai và vận hành thấp hơn SQL.
D. Tính bảo mật cao hơn so với cơ sở dữ liệu SQL.
15. Trong Big Data Analytics, `Predictive Analytics` (Phân tích dự đoán) tập trung vào việc gì?
A. Mô tả những gì đã xảy ra trong quá khứ.
B. Giải thích tại sao một sự kiện đã xảy ra.
C. Dự đoán những gì có thể xảy ra trong tương lai dựa trên dữ liệu lịch sử và hiện tại.
D. Trực quan hóa dữ liệu hiện tại.
16. Trong Big Data, `ETL` là viết tắt của quy trình nào?
A. Extract, Transform, Load (Trích xuất, Biến đổi, Tải)
B. Evaluate, Test, Learn (Đánh giá, Kiểm thử, Học)
C. Encrypt, Transmit, Log (Mã hóa, Truyền tải, Ghi nhật ký)
D. Error, Trace, Locate (Lỗi, Theo dõi, Định vị)
17. Thuật ngữ `Data Warehouse Appliance` (Thiết bị kho dữ liệu) khác biệt so với `Data Warehouse Software` (Phần mềm kho dữ liệu) như thế nào?
A. Data Warehouse Appliance chỉ lưu trữ dữ liệu có cấu trúc, còn Data Warehouse Software lưu trữ mọi loại dữ liệu.
B. Data Warehouse Appliance là một giải pháp phần cứng và phần mềm tích hợp, được tối ưu hóa cho hiệu suất truy vấn kho dữ liệu, trong khi Data Warehouse Software chỉ là phần mềm cần được cài đặt trên phần cứng.
C. Data Warehouse Appliance sử dụng công nghệ NoSQL, còn Data Warehouse Software sử dụng SQL truyền thống.
D. Data Warehouse Appliance có chi phí thấp hơn Data Warehouse Software.
18. Công nghệ `Columnar Database` (Cơ sở dữ liệu cột) có ưu điểm gì so với `Row-based Database` (Cơ sở dữ liệu hàng) trong phân tích Big Data?
A. Columnar Database tốt hơn cho việc xử lý giao dịch (transactional processing).
B. Columnar Database hiệu quả hơn trong việc truy vấn và phân tích dữ liệu trên một số lượng lớn cột, vì chúng chỉ cần đọc các cột liên quan đến truy vấn.
C. Columnar Database dễ dàng cập nhật dữ liệu hơn.
D. Columnar Database tiết kiệm chi phí lưu trữ hơn.
19. Ứng dụng nào sau đây KHÔNG phải là một ví dụ phổ biến của Big Data?
A. Phân tích hành vi khách hàng trong thương mại điện tử để cá nhân hóa trải nghiệm mua sắm.
B. Dự báo thời tiết dựa trên dữ liệu từ vệ tinh, radar và trạm thời tiết.
C. Quản lý hồ sơ bệnh nhân điện tử trong một bệnh viện nhỏ.
D. Phát hiện gian lận trong giao dịch tài chính trực tuyến.
20. Trong Big Data, `Data Science` (Khoa học dữ liệu) là một lĩnh vực liên ngành, kết hợp kiến thức từ các lĩnh vực nào?
A. Chỉ thống kê và toán học.
B. Chỉ khoa học máy tính và lập trình.
C. Thống kê, toán học, khoa học máy tính, kiến thức lĩnh vực chuyên môn và kỹ năng giao tiếp.
D. Chỉ kinh tế và tài chính.
21. Trong ngữ cảnh Big Data, `Scalability` (Khả năng mở rộng) đề cập đến khả năng của hệ thống như thế nào?
A. Khả năng bảo mật dữ liệu.
B. Khả năng xử lý nhiều loại dữ liệu khác nhau.
C. Khả năng xử lý khối lượng dữ liệu ngày càng tăng và nhu cầu tính toán ngày càng cao mà không làm giảm hiệu suất.
D. Khả năng trực quan hóa dữ liệu.
22. Trong quy trình xử lý Big Data, giai đoạn `Data Wrangling` (Chuẩn bị dữ liệu) bao gồm các hoạt động chính nào?
A. Thu thập dữ liệu từ các nguồn khác nhau.
B. Lưu trữ dữ liệu vào hệ thống cơ sở dữ liệu.
C. Làm sạch, chuyển đổi và cấu trúc lại dữ liệu để phù hợp cho phân tích.
D. Trình bày kết quả phân tích dữ liệu dưới dạng báo cáo hoặc biểu đồ.
23. Trong bối cảnh Big Data, `Hadoop` thường được biết đến là gì?
A. Một ngôn ngữ lập trình để phân tích dữ liệu.
B. Một hệ thống quản lý cơ sở dữ liệu quan hệ.
C. Một framework phần mềm nguồn mở để lưu trữ và xử lý dữ liệu lớn phân tán.
D. Một loại cảm biến để thu thập dữ liệu môi trường.
24. Một trong những thách thức về kỹ năng đối với Big Data là gì?
A. Thiếu phần cứng mạnh mẽ để xử lý Big Data.
B. Thiếu nhân lực có kỹ năng chuyên môn về Big Data, như khoa học dữ liệu, kỹ sư dữ liệu, và phân tích dữ liệu.
C. Chi phí lưu trữ dữ liệu quá cao.
D. Khó khăn trong việc thu thập dữ liệu.
25. Thách thức lớn nhất liên quan đến `Veracity` (Độ tin cậy) trong Big Data là gì?
A. Lưu trữ lượng dữ liệu khổng lồ.
B. Xử lý dữ liệu với tốc độ nhanh.
C. Đảm bảo tính chính xác và đáng tin cậy của dữ liệu, đặc biệt khi dữ liệu đến từ nhiều nguồn khác nhau.
D. Quản lý sự đa dạng của các loại dữ liệu.
26. Kiến trúc `Lambda` trong Big Data được thiết kế để giải quyết vấn đề nào?
A. Lưu trữ dữ liệu lớn hiệu quả.
B. Xử lý dữ liệu thời gian thực (real-time) và dữ liệu batch (batch processing) một cách đồng thời và nhất quán.
C. Đảm bảo an ninh dữ liệu.
D. Trực quan hóa dữ liệu phức tạp.
27. Thách thức về `Data Governance` (Quản trị dữ liệu) trong Big Data liên quan đến vấn đề gì?
A. Công nghệ lưu trữ dữ liệu.
B. Đảm bảo chất lượng, bảo mật, tuân thủ quy định và quản lý vòng đời dữ liệu một cách hiệu quả.
C. Tốc độ xử lý dữ liệu.
D. Sự đa dạng của nguồn dữ liệu.
28. Yếu tố `Velocity` (Tốc độ) trong Big Data chủ yếu liên quan đến khía cạnh nào của dữ liệu?
A. Kích thước tổng thể của tập dữ liệu.
B. Tốc độ dữ liệu được tạo ra và xử lý.
C. Độ chính xác và tin cậy của dữ liệu.
D. Sự đa dạng về loại và nguồn dữ liệu.
29. Trong kiến trúc Big Data, `Data Lake` (Hồ dữ liệu) khác biệt với `Data Warehouse` (Kho dữ liệu) chủ yếu ở điểm nào?
A. Data Lake chỉ lưu trữ dữ liệu có cấu trúc, trong khi Data Warehouse lưu trữ mọi loại dữ liệu.
B. Data Lake lưu trữ dữ liệu ở dạng thô, chưa qua xử lý, trong khi Data Warehouse lưu trữ dữ liệu đã được làm sạch và chuyển đổi.
C. Data Lake được thiết kế để truy vấn dữ liệu nhanh, còn Data Warehouse chậm hơn.
D. Data Lake sử dụng công nghệ NoSQL, còn Data Warehouse sử dụng SQL truyền thống.
30. Rủi ro về `quyền riêng tư` (Privacy) trong Big Data phát sinh chủ yếu từ đâu?
A. Việc lưu trữ quá nhiều dữ liệu.
B. Khả năng thu thập, tổng hợp và phân tích lượng lớn dữ liệu cá nhân từ nhiều nguồn khác nhau, có thể dẫn đến việc tiết lộ thông tin nhạy cảm.
C. Tốc độ xử lý dữ liệu quá nhanh.
D. Sự đa dạng của dữ liệu.