Đề thi, bài tập trắc nghiệm online Dữ liệu lớn (BigData) – Đề 6

0

Bạn đã sẵn sàng chưa? 45 phút làm bài bắt đầu!!!

Bạn đã hết giờ làm bài! Xem kết quả các câu hỏi đã làm nhé!!!


Đề thi, bài tập trắc nghiệm online Dữ liệu lớn (BigData)

Đề 6 - Bài tập, đề thi trắc nghiệm online Dữ liệu lớn (BigData)

1. Trong ngữ cảnh Dữ liệu lớn, `Data Mining` (Khai phá dữ liệu) chủ yếu tập trung vào điều gì?

A. Thu thập và lưu trữ dữ liệu khổng lồ.
B. Trực quan hóa dữ liệu để dễ hiểu hơn.
C. Phát hiện các mẫu, xu hướng và tri thức ẩn từ dữ liệu.
D. Đảm bảo chất lượng và độ tin cậy của dữ liệu.

2. Trong phân tích Dữ liệu lớn, kỹ thuật `Dimensionality Reduction` (Giảm chiều dữ liệu) nhằm mục đích chính là gì?

A. Tăng độ chính xác của mô hình phân tích.
B. Giảm số lượng bản ghi dữ liệu.
C. Giảm số lượng thuộc tính (features) của dữ liệu, đơn giản hóa mô hình và giảm nhiễu.
D. Tăng khả năng trực quan hóa dữ liệu.

3. Công nghệ nào sau đây thường được sử dụng để xử lý dữ liệu `theo dòng` (stream processing) trong thời gian thực trong môi trường Dữ liệu lớn?

A. Hadoop MapReduce
B. Apache Spark Streaming
C. Data Warehouse truyền thống
D. Cơ sở dữ liệu quan hệ (RDBMS)

4. Kỹ thuật `Data Sampling` (Lấy mẫu dữ liệu) thường được sử dụng khi làm việc với Dữ liệu lớn để làm gì?

A. Tăng kích thước tập dữ liệu.
B. Giảm chi phí lưu trữ dữ liệu.
C. Phân tích toàn bộ tập dữ liệu một cách chi tiết.
D. Phân tích một phần nhỏ đại diện của dữ liệu để ước tính đặc tính của toàn bộ tập dữ liệu.

5. Phương pháp tiếp cận `ELT` (Extract, Load, Transform) khác biệt so với `ETL` (Extract, Transform, Load) chủ yếu ở giai đoạn nào?

A. Giai đoạn trích xuất dữ liệu (Extract)
B. Giai đoạn tải dữ liệu (Load)
C. Giai đoạn chuyển đổi dữ liệu (Transform)
D. Cả ba giai đoạn

6. Thách thức về `Volume` (Khối lượng) trong Dữ liệu lớn chủ yếu liên quan đến vấn đề nào?

A. Đảm bảo tính chính xác của dữ liệu.
B. Xử lý và lưu trữ lượng dữ liệu khổng lồ.
C. Đối phó với nhiều loại dữ liệu khác nhau.
D. Xử lý dữ liệu nhanh chóng trong thời gian thực.

7. Lợi ích chính của việc sử dụng `in-memory processing` (xử lý trong bộ nhớ) trong Dữ liệu lớn là gì?

A. Giảm chi phí lưu trữ dữ liệu.
B. Tăng tốc độ xử lý dữ liệu do giảm thiểu thời gian truy cập đĩa.
C. Cải thiện khả năng mở rộng hệ thống.
D. Đơn giản hóa quá trình quản lý dữ liệu.

8. Phương pháp `Data Federation` (Liên kết dữ liệu) được sử dụng để giải quyết vấn đề gì trong môi trường Dữ liệu lớn phân tán?

A. Đảm bảo bảo mật dữ liệu trên nhiều hệ thống.
B. Tích hợp và truy vấn dữ liệu từ nhiều nguồn khác nhau mà không cần di chuyển dữ liệu.
C. Tăng tốc độ xử lý dữ liệu.
D. Giảm chi phí lưu trữ dữ liệu.

9. Yếu tố nào sau đây KHÔNG phải là một thành phần phổ biến trong kiến trúc xử lý Dữ liệu lớn điển hình?

A. Nguồn dữ liệu (Data Sources)
B. Hệ thống quản lý cơ sở dữ liệu quan hệ (RDBMS)
C. Nền tảng xử lý phân tán (Distributed Processing Platform)
D. Lớp trực quan hóa dữ liệu (Data Visualization Layer)

10. Ứng dụng nào sau đây KHÔNG phải là một ví dụ điển hình của việc sử dụng Dữ liệu lớn?

A. Dự đoán xu hướng thị trường chứng khoán
B. Cá nhân hóa trải nghiệm mua sắm trực tuyến
C. Quản lý danh sách liên hệ cá nhân trên điện thoại
D. Phát hiện gian lận trong giao dịch ngân hàng

11. Trong Dữ liệu lớn, thuật ngữ `Data Silos` (Ống khói dữ liệu) đề cập đến vấn đề gì?

A. Dữ liệu được mã hóa để bảo mật.
B. Dữ liệu được lưu trữ trong các hệ thống phân tán.
C. Dữ liệu bị cô lập và khó truy cập giữa các bộ phận hoặc hệ thống khác nhau trong tổ chức.
D. Dữ liệu được nén để tiết kiệm không gian lưu trữ.

12. Thuật ngữ `Hadoop` thường được liên kết chặt chẽ nhất với khía cạnh nào của Dữ liệu lớn?

A. Trực quan hóa dữ liệu
B. Lưu trữ và xử lý phân tán
C. Phân tích dự đoán
D. Bảo mật dữ liệu

13. Trong bối cảnh Dữ liệu lớn, `Data Lineage` (Dòng dõi dữ liệu) giúp ích gì?

A. Tăng tốc độ truyền tải dữ liệu.
B. Theo dõi nguồn gốc, biến đổi và luồng dữ liệu qua các hệ thống và quy trình.
C. Mã hóa dữ liệu để bảo mật.
D. Nén dữ liệu để tiết kiệm không gian lưu trữ.

14. Trong Dữ liệu lớn, `Data Catalog` (Danh mục dữ liệu) có vai trò tương tự như?

A. Một công cụ trực quan hóa dữ liệu.
B. Một hệ thống quản lý cơ sở dữ liệu.
C. Một thư viện hoặc mục lục cho dữ liệu, cung cấp metadata và thông tin về dữ liệu.
D. Một nền tảng xử lý dữ liệu phân tán.

15. Thử thách lớn nhất liên quan đến `Veracity` (Độ tin cậy) trong 5Vs của Dữ liệu lớn là gì?

A. Khối lượng dữ liệu quá lớn để lưu trữ.
B. Tốc độ dữ liệu tạo ra quá nhanh.
C. Sự không chắc chắn và không nhất quán của dữ liệu.
D. Sự đa dạng của các loại dữ liệu khác nhau.

16. Kỹ thuật `Data Partitioning` (Phân vùng dữ liệu) trong Dữ liệu lớn được sử dụng để cải thiện điều gì?

A. Chất lượng dữ liệu.
B. Bảo mật dữ liệu.
C. Hiệu suất truy vấn và quản lý dữ liệu.
D. Tính toàn vẹn dữ liệu.

17. Công cụ `Apache Kafka` thường được sử dụng cho mục đích chính nào trong hệ sinh thái Dữ liệu lớn?

A. Phân tích dữ liệu lịch sử.
B. Lưu trữ dữ liệu dạng cột.
C. Xây dựng pipeline dữ liệu theo thời gian thực và message broker.
D. Trực quan hóa dữ liệu tương tác.

18. Trong Dữ liệu lớn, `Data Wrangling` (Chuẩn bị dữ liệu) là quá trình bao gồm các bước nào?

A. Chỉ thu thập và lưu trữ dữ liệu.
B. Chỉ phân tích và trực quan hóa dữ liệu.
C. Làm sạch, chuyển đổi, hợp nhất và định dạng lại dữ liệu để phân tích.
D. Chỉ bảo mật và quản lý quyền truy cập dữ liệu.

19. Công nghệ `NoSQL` (Not Only SQL) được phát triển chủ yếu để giải quyết hạn chế nào của cơ sở dữ liệu quan hệ truyền thống (RDBMS) trong bối cảnh Dữ liệu lớn?

A. Thiếu khả năng bảo mật dữ liệu.
B. Khó khăn trong việc mở rộng quy mô để xử lý lượng dữ liệu lớn và tốc độ cao.
C. Hạn chế trong việc hỗ trợ dữ liệu phi cấu trúc.
D. Chi phí lưu trữ dữ liệu quá cao.

20. Ưu điểm chính của việc sử dụng `cloud-based Big Data solutions` (Giải pháp Dữ liệu lớn trên nền tảng đám mây) so với giải pháp tại chỗ (on-premises) là gì?

A. Bảo mật dữ liệu cao hơn.
B. Chi phí ban đầu thấp hơn và khả năng mở rộng linh hoạt theo nhu cầu.
C. Tốc độ xử lý dữ liệu nhanh hơn.
D. Dễ dàng tùy chỉnh phần cứng và phần mềm hơn.

21. Đặc điểm nào sau đây KHÔNG phải là một trong `5Vs` thường được dùng để mô tả Dữ liệu lớn?

A. Volume (Khối lượng)
B. Velocity (Tốc độ)
C. Value (Giá trị)
D. Variety (Đa dạng)

22. Thách thức `Velocity` (Tốc độ) của Dữ liệu lớn đề cập đến điều gì?

A. Sự đa dạng của các loại dữ liệu khác nhau.
B. Khối lượng dữ liệu khổng lồ cần lưu trữ.
C. Tốc độ dữ liệu được tạo ra và cần được xử lý nhanh chóng.
D. Độ tin cậy và chất lượng của dữ liệu.

23. Loại dữ liệu nào sau đây KHÔNG được xem là một nguồn dữ liệu `đa dạng` (Variety) trong bối cảnh Dữ liệu lớn?

A. Bản ghi giao dịch từ hệ thống POS
B. Bài đăng và bình luận trên mạng xã hội
C. Dữ liệu cảm biến từ thiết bị IoT
D. Cơ sở dữ liệu quan hệ truyền thống

24. Trong Dữ liệu lớn, `Data Lakehouse` là một kiến trúc kết hợp ưu điểm của Data Lake và Data Warehouse, vậy nó hướng đến mục tiêu chính nào?

A. Tăng cường bảo mật dữ liệu.
B. Cung cấp khả năng phân tích dữ liệu linh hoạt trên cả dữ liệu thô và dữ liệu đã được cấu trúc hóa, đồng thời hỗ trợ Data Governance.
C. Giảm chi phí lưu trữ dữ liệu.
D. Đơn giản hóa quá trình thu thập dữ liệu.

25. Khi đánh giá một giải pháp Dữ liệu lớn, yếu tố `Scalability` (Khả năng mở rộng) quan trọng nhất khi nào?

A. Khi dữ liệu có độ tin cậy cao.
B. Khi khối lượng dữ liệu và nhu cầu xử lý dự kiến sẽ tăng lên trong tương lai.
C. Khi yêu cầu bảo mật dữ liệu ở mức cao nhất.
D. Khi cần tích hợp dữ liệu từ nhiều nguồn khác nhau.

26. Trong kiến trúc Dữ liệu lớn, `Data Lake` (Hồ dữ liệu) khác biệt chính so với `Data Warehouse` (Kho dữ liệu) ở điểm nào?

A. Data Lake chỉ lưu trữ dữ liệu đã qua xử lý và làm sạch.
B. Data Warehouse linh hoạt hơn trong việc xử lý dữ liệu phi cấu trúc.
C. Data Lake lưu trữ dữ liệu thô ở định dạng gốc, còn Data Warehouse lưu trữ dữ liệu đã được chuyển đổi và cấu trúc.
D. Data Warehouse phù hợp hơn cho phân tích thời gian thực.

27. Trong Dữ liệu lớn, `Data Governance` (Quản trị dữ liệu) đóng vai trò quan trọng nhất trong việc đảm bảo điều gì?

A. Tốc độ xử lý dữ liệu nhanh chóng.
B. Chất lượng, bảo mật, tuân thủ và khả năng sử dụng dữ liệu.
C. Khả năng mở rộng của hệ thống lưu trữ.
D. Sự đa dạng của nguồn dữ liệu.

28. Trong mô hình `Lambda Architecture` cho Dữ liệu lớn, lớp `Speed Layer` (Lớp tốc độ) có chức năng chính là gì?

A. Lưu trữ dữ liệu lịch sử.
B. Xử lý dữ liệu theo lô (batch processing).
C. Xử lý dữ liệu theo dòng (stream processing) thời gian thực.
D. Trực quan hóa dữ liệu.

29. Khái niệm `Schema on Read` (Lược đồ khi đọc) thường được liên kết với loại hệ thống lưu trữ dữ liệu nào?

A. Data Warehouse (Kho dữ liệu)
B. Data Lake (Hồ dữ liệu)
C. Cơ sở dữ liệu quan hệ (RDBMS)
D. Hệ thống OLTP

30. Trong bối cảnh bảo mật Dữ liệu lớn, kỹ thuật `Data Masking` (Che giấu dữ liệu) được sử dụng để làm gì?

A. Mã hóa toàn bộ cơ sở dữ liệu.
B. Phát hiện và ngăn chặn truy cập trái phép.
C. Thay thế dữ liệu nhạy cảm bằng dữ liệu giả mạo hoặc đã được sửa đổi.
D. Sao lưu và phục hồi dữ liệu khi có sự cố.

1 / 30

Category: Đề thi, bài tập trắc nghiệm online Dữ liệu lớn (BigData)

Tags: Bộ đề 7

1. Trong ngữ cảnh Dữ liệu lớn, 'Data Mining' (Khai phá dữ liệu) chủ yếu tập trung vào điều gì?

2 / 30

Category: Đề thi, bài tập trắc nghiệm online Dữ liệu lớn (BigData)

Tags: Bộ đề 7

2. Trong phân tích Dữ liệu lớn, kỹ thuật 'Dimensionality Reduction' (Giảm chiều dữ liệu) nhằm mục đích chính là gì?

3 / 30

Category: Đề thi, bài tập trắc nghiệm online Dữ liệu lớn (BigData)

Tags: Bộ đề 7

3. Công nghệ nào sau đây thường được sử dụng để xử lý dữ liệu 'theo dòng' (stream processing) trong thời gian thực trong môi trường Dữ liệu lớn?

4 / 30

Category: Đề thi, bài tập trắc nghiệm online Dữ liệu lớn (BigData)

Tags: Bộ đề 7

4. Kỹ thuật 'Data Sampling' (Lấy mẫu dữ liệu) thường được sử dụng khi làm việc với Dữ liệu lớn để làm gì?

5 / 30

Category: Đề thi, bài tập trắc nghiệm online Dữ liệu lớn (BigData)

Tags: Bộ đề 7

5. Phương pháp tiếp cận 'ELT' (Extract, Load, Transform) khác biệt so với 'ETL' (Extract, Transform, Load) chủ yếu ở giai đoạn nào?

6 / 30

Category: Đề thi, bài tập trắc nghiệm online Dữ liệu lớn (BigData)

Tags: Bộ đề 7

6. Thách thức về 'Volume' (Khối lượng) trong Dữ liệu lớn chủ yếu liên quan đến vấn đề nào?

7 / 30

Category: Đề thi, bài tập trắc nghiệm online Dữ liệu lớn (BigData)

Tags: Bộ đề 7

7. Lợi ích chính của việc sử dụng 'in-memory processing' (xử lý trong bộ nhớ) trong Dữ liệu lớn là gì?

8 / 30

Category: Đề thi, bài tập trắc nghiệm online Dữ liệu lớn (BigData)

Tags: Bộ đề 7

8. Phương pháp 'Data Federation' (Liên kết dữ liệu) được sử dụng để giải quyết vấn đề gì trong môi trường Dữ liệu lớn phân tán?

9 / 30

Category: Đề thi, bài tập trắc nghiệm online Dữ liệu lớn (BigData)

Tags: Bộ đề 7

9. Yếu tố nào sau đây KHÔNG phải là một thành phần phổ biến trong kiến trúc xử lý Dữ liệu lớn điển hình?

10 / 30

Category: Đề thi, bài tập trắc nghiệm online Dữ liệu lớn (BigData)

Tags: Bộ đề 7

10. Ứng dụng nào sau đây KHÔNG phải là một ví dụ điển hình của việc sử dụng Dữ liệu lớn?

11 / 30

Category: Đề thi, bài tập trắc nghiệm online Dữ liệu lớn (BigData)

Tags: Bộ đề 7

11. Trong Dữ liệu lớn, thuật ngữ 'Data Silos' (Ống khói dữ liệu) đề cập đến vấn đề gì?

12 / 30

Category: Đề thi, bài tập trắc nghiệm online Dữ liệu lớn (BigData)

Tags: Bộ đề 7

12. Thuật ngữ 'Hadoop' thường được liên kết chặt chẽ nhất với khía cạnh nào của Dữ liệu lớn?

13 / 30

Category: Đề thi, bài tập trắc nghiệm online Dữ liệu lớn (BigData)

Tags: Bộ đề 7

13. Trong bối cảnh Dữ liệu lớn, 'Data Lineage' (Dòng dõi dữ liệu) giúp ích gì?

14 / 30

Category: Đề thi, bài tập trắc nghiệm online Dữ liệu lớn (BigData)

Tags: Bộ đề 7

14. Trong Dữ liệu lớn, 'Data Catalog' (Danh mục dữ liệu) có vai trò tương tự như?

15 / 30

Category: Đề thi, bài tập trắc nghiệm online Dữ liệu lớn (BigData)

Tags: Bộ đề 7

15. Thử thách lớn nhất liên quan đến 'Veracity' (Độ tin cậy) trong 5Vs của Dữ liệu lớn là gì?

16 / 30

Category: Đề thi, bài tập trắc nghiệm online Dữ liệu lớn (BigData)

Tags: Bộ đề 7

16. Kỹ thuật 'Data Partitioning' (Phân vùng dữ liệu) trong Dữ liệu lớn được sử dụng để cải thiện điều gì?

17 / 30

Category: Đề thi, bài tập trắc nghiệm online Dữ liệu lớn (BigData)

Tags: Bộ đề 7

17. Công cụ 'Apache Kafka' thường được sử dụng cho mục đích chính nào trong hệ sinh thái Dữ liệu lớn?

18 / 30

Category: Đề thi, bài tập trắc nghiệm online Dữ liệu lớn (BigData)

Tags: Bộ đề 7

18. Trong Dữ liệu lớn, 'Data Wrangling' (Chuẩn bị dữ liệu) là quá trình bao gồm các bước nào?

19 / 30

Category: Đề thi, bài tập trắc nghiệm online Dữ liệu lớn (BigData)

Tags: Bộ đề 7

19. Công nghệ 'NoSQL' (Not Only SQL) được phát triển chủ yếu để giải quyết hạn chế nào của cơ sở dữ liệu quan hệ truyền thống (RDBMS) trong bối cảnh Dữ liệu lớn?

20 / 30

Category: Đề thi, bài tập trắc nghiệm online Dữ liệu lớn (BigData)

Tags: Bộ đề 7

20. Ưu điểm chính của việc sử dụng 'cloud-based Big Data solutions' (Giải pháp Dữ liệu lớn trên nền tảng đám mây) so với giải pháp tại chỗ (on-premises) là gì?

21 / 30

Category: Đề thi, bài tập trắc nghiệm online Dữ liệu lớn (BigData)

Tags: Bộ đề 7

21. Đặc điểm nào sau đây KHÔNG phải là một trong '5Vs' thường được dùng để mô tả Dữ liệu lớn?

22 / 30

Category: Đề thi, bài tập trắc nghiệm online Dữ liệu lớn (BigData)

Tags: Bộ đề 7

22. Thách thức 'Velocity' (Tốc độ) của Dữ liệu lớn đề cập đến điều gì?

23 / 30

Category: Đề thi, bài tập trắc nghiệm online Dữ liệu lớn (BigData)

Tags: Bộ đề 7

23. Loại dữ liệu nào sau đây KHÔNG được xem là một nguồn dữ liệu 'đa dạng' (Variety) trong bối cảnh Dữ liệu lớn?

24 / 30

Category: Đề thi, bài tập trắc nghiệm online Dữ liệu lớn (BigData)

Tags: Bộ đề 7

24. Trong Dữ liệu lớn, 'Data Lakehouse' là một kiến trúc kết hợp ưu điểm của Data Lake và Data Warehouse, vậy nó hướng đến mục tiêu chính nào?

25 / 30

Category: Đề thi, bài tập trắc nghiệm online Dữ liệu lớn (BigData)

Tags: Bộ đề 7

25. Khi đánh giá một giải pháp Dữ liệu lớn, yếu tố 'Scalability' (Khả năng mở rộng) quan trọng nhất khi nào?

26 / 30

Category: Đề thi, bài tập trắc nghiệm online Dữ liệu lớn (BigData)

Tags: Bộ đề 7

26. Trong kiến trúc Dữ liệu lớn, 'Data Lake' (Hồ dữ liệu) khác biệt chính so với 'Data Warehouse' (Kho dữ liệu) ở điểm nào?

27 / 30

Category: Đề thi, bài tập trắc nghiệm online Dữ liệu lớn (BigData)

Tags: Bộ đề 7

27. Trong Dữ liệu lớn, 'Data Governance' (Quản trị dữ liệu) đóng vai trò quan trọng nhất trong việc đảm bảo điều gì?

28 / 30

Category: Đề thi, bài tập trắc nghiệm online Dữ liệu lớn (BigData)

Tags: Bộ đề 7

28. Trong mô hình 'Lambda Architecture' cho Dữ liệu lớn, lớp 'Speed Layer' (Lớp tốc độ) có chức năng chính là gì?

29 / 30

Category: Đề thi, bài tập trắc nghiệm online Dữ liệu lớn (BigData)

Tags: Bộ đề 7

29. Khái niệm 'Schema on Read' (Lược đồ khi đọc) thường được liên kết với loại hệ thống lưu trữ dữ liệu nào?

30 / 30

Category: Đề thi, bài tập trắc nghiệm online Dữ liệu lớn (BigData)

Tags: Bộ đề 7

30. Trong bối cảnh bảo mật Dữ liệu lớn, kỹ thuật 'Data Masking' (Che giấu dữ liệu) được sử dụng để làm gì?