1. Machine Learning (Học máy) đóng vai trò quan trọng trong Big Data Analytics. Ứng dụng phổ biến của Machine Learning trong Big Data là gì?
A. Sao lưu và phục hồi dữ liệu.
B. Quản lý cơ sở dữ liệu.
C. Dự đoán, phân loại, và cá nhân hóa trải nghiệm người dùng.
D. Trực quan hóa dữ liệu dạng biểu đồ tròn.
2. Một thách thức lớn khi làm việc với Big Data là `Data Governance` (Quản trị dữ liệu). `Data Governance` bao gồm những hoạt động nào?
A. Chỉ tập trung vào việc lưu trữ dữ liệu an toàn.
B. Các chính sách, quy trình và tiêu chuẩn để đảm bảo chất lượng, bảo mật, tuân thủ và khả năng sử dụng của dữ liệu.
C. Chỉ liên quan đến việc trực quan hóa dữ liệu.
D. Chỉ áp dụng cho dữ liệu có cấu trúc.
3. Vấn đề về `Data Security` (Bảo mật dữ liệu) trong Big Data trở nên phức tạp hơn so với dữ liệu truyền thống vì lý do nào?
A. Dữ liệu Big Data thường có kích thước nhỏ hơn.
B. Dữ liệu Big Data ít đa dạng hơn.
C. Dữ liệu Big Data thường phân tán trên nhiều hệ thống và nguồn khác nhau, và có thể chứa thông tin nhạy cảm.
D. Dữ liệu Big Data ít được truy cập.
4. Trong bối cảnh Big Data, `Variety` (Đa dạng) đề cập đến điều gì?
A. Tốc độ mà dữ liệu được tạo ra và xử lý.
B. Khối lượng dữ liệu được tạo ra.
C. Độ chính xác và đáng tin cậy của dữ liệu.
D. Các loại và nguồn dữ liệu khác nhau (có cấu trúc, phi cấu trúc, bán cấu trúc).
5. Hadoop là một framework mã nguồn mở phổ biến trong Big Data. Thành phần cốt lõi của Hadoop để lưu trữ dữ liệu phân tán là gì?
A. YARN (Yet Another Resource Negotiator).
B. MapReduce.
C. HDFS (Hadoop Distributed File System).
D. Hive.
6. Spark là một framework xử lý Big Data nhanh hơn Hadoop MapReduce trong nhiều trường hợp. Điều gì là yếu tố chính giúp Spark đạt được tốc độ cao hơn?
A. Spark chỉ hỗ trợ xử lý dữ liệu theo lô (batch processing).
B. Spark sử dụng bộ nhớ trong (in-memory processing) để lưu trữ dữ liệu trung gian.
C. Spark chỉ có thể chạy trên một máy duy nhất.
D. Spark không hỗ trợ ngôn ngữ lập trình Python.
7. Khái niệm `Data Silos` (Kho dữ liệu cô lập) trong tổ chức có thể gây trở ngại cho việc khai thác giá trị từ Big Data. `Data Silos` là gì?
A. Hệ thống lưu trữ dữ liệu tập trung và an toàn.
B. Các bộ phận hoặc hệ thống dữ liệu riêng biệt, không chia sẻ thông tin với nhau trong tổ chức.
C. Các công cụ trực quan hóa dữ liệu tiên tiến.
D. Các quy trình quản trị dữ liệu hiệu quả.
8. MapReduce, một mô hình lập trình trong Hadoop, hoạt động theo nguyên tắc nào?
A. Xử lý dữ liệu tuần tự trên một máy duy nhất.
B. Phân chia công việc thành các tác vụ nhỏ hơn và thực hiện song song trên nhiều máy.
C. Lưu trữ dữ liệu tập trung trong một cơ sở dữ liệu quan hệ.
D. Truy vấn dữ liệu theo thời gian thực.
9. Công nghệ nào sau đây thường được sử dụng để xử lý dữ liệu theo thời gian thực (real-time data streaming) trong Big Data?
A. Hadoop MapReduce.
B. Apache Spark Streaming/Kafka.
C. Cơ sở dữ liệu quan hệ SQL.
D. Microsoft Excel.
10. Trong kiến trúc Big Data, tầng `Ingestion Layer` (Tầng thu thập dữ liệu) có chức năng chính là gì?
A. Lưu trữ dữ liệu đã qua xử lý.
B. Truy vấn và phân tích dữ liệu.
C. Thu thập dữ liệu từ nhiều nguồn khác nhau và đưa vào hệ thống Big Data.
D. Trực quan hóa dữ liệu sau phân tích.
11. Sự khác biệt chính giữa Data Warehouse (Kho dữ liệu) và Data Lake (Hồ dữ liệu) là gì?
A. Data Warehouse lưu trữ dữ liệu thô, còn Data Lake lưu trữ dữ liệu đã qua xử lý.
B. Data Warehouse tập trung vào dữ liệu hiện tại, còn Data Lake tập trung vào dữ liệu lịch sử.
C. Data Warehouse lưu trữ dữ liệu có cấu trúc, đã qua xử lý và có mục đích sử dụng rõ ràng, trong khi Data Lake lưu trữ dữ liệu thô ở định dạng gốc, chưa xác định mục đích sử dụng cụ thể.
D. Data Warehouse được xây dựng trên Hadoop, còn Data Lake được xây dựng trên cơ sở dữ liệu quan hệ.
12. Ứng dụng nào sau đây KHÔNG phải là ứng dụng phổ biến của Big Data?
A. Cá nhân hóa trải nghiệm mua sắm trực tuyến.
B. Dự báo thời tiết.
C. Quản lý cơ sở dữ liệu quan hệ truyền thống.
D. Phát hiện gian lận trong giao dịch tài chính.
13. Kỹ thuật `Data Aggregation` (Tổng hợp dữ liệu) trong Big Data thường được sử dụng để làm gì?
A. Mã hóa dữ liệu.
B. Giảm kích thước dữ liệu bằng cách kết hợp dữ liệu chi tiết thành dữ liệu tóm tắt hoặc tổng hợp.
C. Trực quan hóa dữ liệu.
D. Làm sạch dữ liệu nhiễu.
14. Data Mining (Khai phá dữ liệu) là một ứng dụng quan trọng của Big Data. Mục tiêu chính của Data Mining là gì?
A. Thu thập và lưu trữ dữ liệu lớn.
B. Xử lý dữ liệu theo thời gian thực.
C. Tìm kiếm các mẫu, xu hướng và thông tin ẩn sâu trong dữ liệu lớn.
D. Trực quan hóa dữ liệu.
15. Ứng dụng của Big Data trong lĩnh vực Y tế có thể bao gồm:
A. Dự báo thời tiết chính xác hơn.
B. Cá nhân hóa phác đồ điều trị bệnh nhân dựa trên dữ liệu di truyền và lịch sử bệnh án.
C. Quản lý kho hàng.
D. Phát hiện gian lận trong giao dịch ngân hàng.
16. `Velocity` (Tốc độ) trong 4Vs của Big Data liên quan đến yếu tố nào?
A. Độ chính xác của dữ liệu.
B. Khối lượng dữ liệu.
C. Tốc độ tạo ra và xử lý dữ liệu.
D. Sự đa dạng của dữ liệu.
17. Để xử lý dữ liệu Big Data, các chuyên gia thường sử dụng kỹ năng nào sau đây?
A. Lập trình VBA trong Excel.
B. Lập trình SQL nâng cao, Python/R, kiến thức về Hadoop/Spark, Machine Learning.
C. Thiết kế web HTML/CSS.
D. Sử dụng phần mềm soạn thảo văn bản Word.
18. Trong quy trình phân tích Big Data, bước `Data Cleaning` (Làm sạch dữ liệu) đóng vai trò gì?
A. Thu thập dữ liệu từ nhiều nguồn.
B. Biểu diễn dữ liệu bằng đồ thị và biểu đồ.
C. Xác định và sửa chữa hoặc loại bỏ dữ liệu không chính xác, không đầy đủ, hoặc không liên quan.
D. Xây dựng mô hình dự đoán từ dữ liệu.
19. Data Visualization (Trực quan hóa dữ liệu) là một bước quan trọng sau khi phân tích Big Data. Mục đích chính của Data Visualization là gì?
A. Mã hóa dữ liệu để bảo mật.
B. Tăng tốc độ xử lý dữ liệu.
C. Biểu diễn dữ liệu một cách trực quan, dễ hiểu để truyền đạt thông tin và insight.
D. Lưu trữ dữ liệu hiệu quả hơn.
20. Chọn phát biểu SAI về Big Data:
A. Big Data chỉ bao gồm dữ liệu có cấu trúc.
B. Big Data có thể giúp đưa ra quyết định dựa trên dữ liệu.
C. Big Data đòi hỏi các công nghệ và phương pháp xử lý dữ liệu mới.
D. Big Data có thể được sử dụng trong nhiều lĩnh vực khác nhau.
21. Thuật ngữ `Data Wrangling` (Chuẩn bị dữ liệu) trong Big Data dùng để chỉ quá trình nào?
A. Trực quan hóa dữ liệu.
B. Thu thập dữ liệu từ cảm biến.
C. Biến đổi và ánh xạ dữ liệu từ một định dạng `thô` sang định dạng khác, phù hợp cho phân tích.
D. Mã hóa dữ liệu để bảo mật.
22. Thuật ngữ `Big Data` thường được mô tả bằng 4Vs. `Volume` trong 4Vs của Big Data đề cập đến khía cạnh nào?
A. Sự đa dạng của các loại dữ liệu khác nhau.
B. Tốc độ tạo ra và xử lý dữ liệu.
C. Khối lượng dữ liệu khổng lồ được tạo ra.
D. Tính xác thực và đáng tin cậy của dữ liệu.
23. Yếu tố `Veracity` (Tính xác thực) trong 4Vs của Big Data tập trung vào điều gì?
A. Khả năng mở rộng của hệ thống xử lý dữ liệu.
B. Sự đa dạng của các nguồn dữ liệu.
C. Độ tin cậy và chất lượng của dữ liệu, bao gồm cả độ chính xác và sự đáng tin cậy.
D. Tốc độ truyền tải dữ liệu.
24. Trong ngữ cảnh Big Data, `Scalability` (Khả năng mở rộng) là một yêu cầu quan trọng. `Scalability` đề cập đến điều gì?
A. Khả năng giảm kích thước dữ liệu.
B. Khả năng xử lý dữ liệu theo thời gian thực.
C. Khả năng hệ thống có thể xử lý khối lượng dữ liệu và tải công việc ngày càng tăng mà vẫn duy trì hiệu suất.
D. Khả năng bảo mật dữ liệu.
25. Ngoài 4Vs truyền thống, một số người đề xuất thêm `Value` (Giá trị) và `Variability` (Biến động) vào mô hình Big Data. `Value` ở đây nhấn mạnh điều gì?
A. Độ biến động của dữ liệu theo thời gian.
B. Khả năng tạo ra thông tin hữu ích và giá trị kinh doanh từ dữ liệu.
C. Sự đa dạng của các loại dữ liệu.
D. Tốc độ truy cập dữ liệu.
26. Phương pháp `Sampling` (Lấy mẫu) đôi khi được sử dụng trong Big Data Analytics để:
A. Tăng kích thước dữ liệu.
B. Giảm kích thước dữ liệu để phân tích nhanh hơn hoặc khi tài nguyên tính toán hạn chế, nhưng vẫn đảm bảo tính đại diện.
C. Mã hóa dữ liệu.
D. Trực quan hóa dữ liệu.
27. Một trong những thách thức về đạo đức khi sử dụng Big Data là gì?
A. Tốc độ xử lý dữ liệu chậm.
B. Khả năng mở rộng hệ thống kém.
C. Nguy cơ xâm phạm quyền riêng tư và phân biệt đối xử dựa trên dữ liệu.
D. Chi phí lưu trữ dữ liệu cao.
28. Trong lĩnh vực Big Data, thuật ngữ `Data Lake` (Hồ dữ liệu) dùng để chỉ điều gì?
A. Một loại cơ sở dữ liệu quan hệ.
B. Một kho lưu trữ tập trung, lưu trữ dữ liệu thô ở định dạng gốc của nó, cho đến khi cần thiết.
C. Một hệ thống quản lý dữ liệu giao dịch trực tuyến (OLTP).
D. Một công cụ trực quan hóa dữ liệu.
29. Công nghệ NoSQL thường được sử dụng trong Big Data để giải quyết vấn đề gì mà cơ sở dữ liệu quan hệ (SQL) truyền thống gặp khó khăn?
A. Đảm bảo tính toàn vẹn ACID của giao dịch.
B. Xử lý dữ liệu có cấu trúc phức tạp.
C. Mở rộng quy mô linh hoạt và xử lý dữ liệu phi cấu trúc hoặc bán cấu trúc.
D. Thực hiện các truy vấn phức tạp với nhiều phép join.
30. Trong lĩnh vực Marketing và Bán lẻ, Big Data được sử dụng để:
A. Kiểm soát chất lượng sản phẩm trong quá trình sản xuất.
B. Tối ưu hóa chuỗi cung ứng.
C. Phân tích hành vi khách hàng, cá nhân hóa quảng cáo và đề xuất sản phẩm.
D. Quản lý nhân sự.