Đề thi, bài tập trắc nghiệm online Khai phá dữ liệu – Đề 1

0

Bạn đã sẵn sàng chưa? 45 phút làm bài bắt đầu!!!

Bạn đã hết giờ làm bài! Xem kết quả các câu hỏi đã làm nhé!!!


Đề thi, bài tập trắc nghiệm online Khai phá dữ liệu

Đề 1 - Bài tập, đề thi trắc nghiệm online Khai phá dữ liệu

1. Phương pháp khai phá dữ liệu nào thường được sử dụng để phân loại khách hàng thành các nhóm dựa trên hành vi mua sắm?

A. Hồi quy tuyến tính
B. Phân cụm (Clustering)
C. Luật kết hợp (Association Rule Mining)
D. Phân tích chuỗi thời gian

2. Trong bối cảnh `khai phá luồng dữ liệu` (data stream mining), thách thức chính là gì?

A. Dung lượng dữ liệu quá nhỏ để khai phá.
B. Dữ liệu tĩnh và không thay đổi theo thời gian.
C. Dữ liệu đến liên tục và cần xử lý theo thời gian thực.
D. Thiếu các thuật toán khai phá dữ liệu phù hợp.

3. Trong bài toán phân loại, `ma trận nhầm lẫn` (confusion matrix) cung cấp thông tin gì?

A. Độ quan trọng của các thuộc tính đầu vào.
B. Phân phối xác suất của các lớp.
C. Số lượng dự đoán đúng và sai cho từng lớp.
D. Độ phức tạp của mô hình phân loại.

4. Phương pháp khai phá dữ liệu nào phù hợp nhất để dự đoán giá nhà dựa trên các yếu tố như diện tích, vị trí, số phòng ngủ?

A. Phân cụm (Clustering)
B. Hồi quy (Regression)
C. Phân loại (Classification)
D. Luật kết hợp (Association Rule Mining)

5. Đâu KHÔNG phải là một ứng dụng phổ biến của khai phá dữ liệu trong lĩnh vực y tế?

A. Dự đoán nguy cơ mắc bệnh của bệnh nhân.
B. Phân tích hiệu quả của các phương pháp điều trị khác nhau.
C. Tối ưu hóa lịch trình làm việc của nhân viên y tế.
D. Phát hiện gian lận trong thanh toán bảo hiểm y tế.

6. Phân biệt sự khác biệt chính giữa `học có giám sát` (supervised learning) và `học không giám sát` (unsupervised learning) trong khai phá dữ liệu.

A. Học có giám sát sử dụng dữ liệu có nhãn, học không giám sát sử dụng dữ liệu không nhãn.
B. Học có giám sát chỉ dùng cho dữ liệu số, học không giám sát dùng cho mọi loại dữ liệu.
C. Học có giám sát luôn cho kết quả chính xác hơn học không giám sát.
D. Học có giám sát chỉ áp dụng cho bài toán phân loại, học không giám sát cho bài toán phân cụm.

7. Mục tiêu chính của khai phá luật kết hợp (Association Rule Mining) là gì?

A. Dự đoán giá trị của một biến số liên tục.
B. Tìm ra các mối quan hệ thú vị giữa các biến số trong cơ sở dữ liệu.
C. Phân loại dữ liệu vào các nhóm đã biết trước.
D. Giảm số chiều dữ liệu để đơn giản hóa phân tích.

8. Kỹ thuật `cross-validation` (kiểm định chéo) được sử dụng để làm gì trong quá trình xây dựng mô hình khai phá dữ liệu?

A. Tăng tốc độ huấn luyện mô hình.
B. Đánh giá khả năng khái quát hóa của mô hình trên dữ liệu mới.
C. Làm sạch dữ liệu huấn luyện.
D. Chọn thuật toán khai phá dữ liệu phù hợp nhất.

9. Trong thuật toán Apriori để khai phá luật kết hợp, nguyên tắc `Apriori property` phát biểu điều gì?

A. Tập phổ biến (frequent itemset) luôn là tập con của một tập phổ biến khác.
B. Mọi tập con của một tập phổ biến đều là tập phổ biến.
C. Tập không phổ biến (infrequent itemset) luôn là tập cha của một tập không phổ biến khác.
D. Mọi tập cha của một tập không phổ biến đều là tập không phổ biến.

10. Trong tiền xử lý dữ liệu, `chuẩn hóa dữ liệu` (data normalization) nhằm mục đích gì?

A. Loại bỏ các giá trị trùng lặp trong dữ liệu.
B. Chuyển đổi dữ liệu sang định dạng phù hợp với thuật toán.
C. Đưa các thuộc tính số về cùng một thang đo giá trị.
D. Xử lý các giá trị bị thiếu trong dữ liệu.

11. Kỹ thuật `giảm chiều dữ liệu` (dimensionality reduction) được sử dụng để làm gì trong khai phá dữ liệu?

A. Tăng số lượng thuộc tính của dữ liệu để có thêm thông tin.
B. Giảm số lượng thuộc tính của dữ liệu trong khi vẫn giữ lại thông tin quan trọng.
C. Tăng độ chính xác của dữ liệu bằng cách loại bỏ nhiễu.
D. Phân chia dữ liệu thành các tập nhỏ hơn để xử lý song song.

12. Khai phá dữ liệu (Data Mining) được định nghĩa chính xác nhất là:

A. Quá trình thu thập dữ liệu từ nhiều nguồn khác nhau.
B. Quá trình phân tích dữ liệu lịch sử để tạo báo cáo.
C. Quá trình khám phá tri thức hữu ích từ lượng lớn dữ liệu.
D. Quá trình trực quan hóa dữ liệu để dễ dàng nhận biết xu hướng.

13. Trong khai phá dữ liệu, `mô hình hộp đen` (black box model) có đặc điểm gì?

A. Dễ dàng giải thích cách mô hình đưa ra quyết định.
B. Khó hoặc không thể hiểu được logic bên trong của mô hình.
C. Luôn cho kết quả chính xác tuyệt đối.
D. Chỉ áp dụng cho dữ liệu văn bản.

14. Chọn phát biểu SAI về `dữ liệu nhiễu` (noisy data) trong khai phá dữ liệu.

A. Dữ liệu nhiễu có thể làm giảm độ chính xác của mô hình khai phá.
B. Dữ liệu nhiễu luôn phải được loại bỏ hoàn toàn trước khi khai phá.
C. Dữ liệu nhiễu có thể bao gồm giá trị ngoại lai hoặc lỗi nhập liệu.
D. Các kỹ thuật tiền xử lý dữ liệu có thể giúp giảm thiểu ảnh hưởng của dữ liệu nhiễu.

15. Đâu là một thách thức ĐẠO ĐỨC quan trọng trong ứng dụng khai phá dữ liệu?

A. Tốc độ xử lý dữ liệu chậm.
B. Khả năng bị lộ thông tin cá nhân và xâm phạm quyền riêng tư.
C. Chi phí triển khai hệ thống khai phá dữ liệu cao.
D. Sự phức tạp của các thuật toán khai phá dữ liệu.

16. Phương pháp nào sau đây KHÔNG thuộc nhóm kỹ thuật `tiền xử lý dữ liệu`?

A. Chuẩn hóa dữ liệu (Normalization)
B. Phân cụm K-means (K-means Clustering)
C. Xử lý giá trị thiếu (Missing value imputation)
D. Rời rạc hóa dữ liệu (Data discretization)

17. Phương pháp khai phá dữ liệu nào thường được sử dụng để phát hiện các giao dịch gian lận thẻ tín dụng?

A. Phân cụm (Clustering)
B. Phát hiện dị thường (Anomaly Detection)
C. Hồi quy (Regression)
D. Phân tích chuỗi thời gian

18. Khi nào việc sử dụng kỹ thuật `ensemble learning` (học tập kết hợp) trở nên đặc biệt hữu ích trong khai phá dữ liệu?

A. Khi dữ liệu có kích thước nhỏ và ít thuộc tính.
B. Khi cần cải thiện độ chính xác và tính ổn định của mô hình dự đoán.
C. Khi chỉ có một thuật toán học máy duy nhất phù hợp với dữ liệu.
D. Khi muốn giảm thiểu thời gian huấn luyện mô hình.

19. Phương pháp đánh giá mô hình phân loại nào đo lường tỷ lệ dự đoán đúng trên tổng số dự đoán?

A. Độ chính xác (Accuracy)
B. Độ thu hồi (Recall)
C. Độ đo F1 (F1-score)
D. Độ chính xác (Precision)

20. Thuật toán K-means thường được sử dụng trong kỹ thuật khai phá dữ liệu nào?

A. Phân loại (Classification)
B. Phân cụm (Clustering)
C. Hồi quy (Regression)
D. Dự báo (Forecasting)

21. Phân tích thành phần chính (Principal Component Analysis - PCA) là một kỹ thuật thuộc nhóm nào trong khai phá dữ liệu?

A. Phân loại (Classification)
B. Phân cụm (Clustering)
C. Giảm chiều dữ liệu (Dimensionality Reduction)
D. Luật kết hợp (Association Rule Mining)

22. Trong khai phá dữ liệu văn bản (text mining), kỹ thuật `bag-of-words` (túi từ) có vai trò gì?

A. Phân tích ngữ nghĩa của văn bản.
B. Biểu diễn văn bản dưới dạng vector số dựa trên tần suất xuất hiện của từ.
C. Tóm tắt nội dung chính của văn bản.
D. Phân loại văn bản theo chủ đề.

23. Trong quy trình khai phá dữ liệu, bước nào sau đây thường diễn ra ĐẦU TIÊN?

A. Đánh giá mô hình
B. Tiền xử lý dữ liệu
C. Triển khai mô hình
D. Lựa chọn thuật toán khai phá

24. Trong ngữ cảnh khai phá dữ liệu web, `web usage mining` (khai phá sử dụng web) tập trung vào việc phân tích loại dữ liệu nào?

A. Nội dung văn bản trên các trang web.
B. Cấu trúc liên kết giữa các trang web.
C. Hành vi duyệt web của người dùng.
D. Hình ảnh và video trên các trang web.

25. Trong khai phá dữ liệu, `k-fold cross-validation` (kiểm định chéo k-lần) với k = 1 tương đương với phương pháp đánh giá mô hình nào?

A. Hold-out validation (Kiểm định giữ lại)
B. Leave-one-out cross-validation (Kiểm định chéo loại bỏ từng mẫu)
C. Random subsampling validation (Kiểm định lấy mẫu ngẫu nhiên)
D. Bootstrap validation (Kiểm định Bootstrap)

26. Trong khai phá dữ liệu, `overfitting` (quá khớp) đề cập đến vấn đề gì?

A. Mô hình hoạt động quá chậm do dữ liệu quá lớn.
B. Mô hình học quá tốt trên dữ liệu huấn luyện nhưng kém hiệu quả trên dữ liệu mới.
C. Dữ liệu đầu vào chứa quá nhiều giá trị ngoại lai.
D. Thuật toán khai phá không phù hợp với loại dữ liệu.

27. Trong khai phá dữ liệu không gian (spatial data mining), loại dữ liệu nào được quan tâm đặc biệt?

A. Dữ liệu văn bản
B. Dữ liệu chuỗi thời gian
C. Dữ liệu địa lý và không gian
D. Dữ liệu hình ảnh

28. Độ đo `lift` trong khai phá luật kết hợp được sử dụng để đánh giá điều gì?

A. Độ phổ biến của một mục hàng trong cơ sở dữ liệu.
B. Mức độ tin cậy của một luật kết hợp.
C. Mức độ hữu ích của một luật kết hợp so với việc lựa chọn ngẫu nhiên.
D. Tỷ lệ các giao dịch chứa cả hai mục hàng trong luật.

29. Đâu là một ví dụ về công cụ khai phá dữ liệu mã nguồn mở?

A. SPSS Modeler
B. SAS Enterprise Miner
C. RapidMiner
D. Tableau

30. Chọn phát biểu ĐÚNG về `dữ liệu lớn` (Big Data) và mối liên hệ với khai phá dữ liệu.

A. Khai phá dữ liệu chỉ có thể áp dụng cho dữ liệu nhỏ.
B. Dữ liệu lớn không liên quan đến khai phá dữ liệu.
C. Khai phá dữ liệu là một công cụ quan trọng để phân tích và khai thác giá trị từ dữ liệu lớn.
D. Dữ liệu lớn làm cho khai phá dữ liệu trở nên kém hiệu quả hơn.

1 / 30

Category: Đề thi, bài tập trắc nghiệm online Khai phá dữ liệu

Tags: Bộ đề 1

1. Phương pháp khai phá dữ liệu nào thường được sử dụng để phân loại khách hàng thành các nhóm dựa trên hành vi mua sắm?

2 / 30

Category: Đề thi, bài tập trắc nghiệm online Khai phá dữ liệu

Tags: Bộ đề 1

2. Trong bối cảnh 'khai phá luồng dữ liệu' (data stream mining), thách thức chính là gì?

3 / 30

Category: Đề thi, bài tập trắc nghiệm online Khai phá dữ liệu

Tags: Bộ đề 1

3. Trong bài toán phân loại, 'ma trận nhầm lẫn' (confusion matrix) cung cấp thông tin gì?

4 / 30

Category: Đề thi, bài tập trắc nghiệm online Khai phá dữ liệu

Tags: Bộ đề 1

4. Phương pháp khai phá dữ liệu nào phù hợp nhất để dự đoán giá nhà dựa trên các yếu tố như diện tích, vị trí, số phòng ngủ?

5 / 30

Category: Đề thi, bài tập trắc nghiệm online Khai phá dữ liệu

Tags: Bộ đề 1

5. Đâu KHÔNG phải là một ứng dụng phổ biến của khai phá dữ liệu trong lĩnh vực y tế?

6 / 30

Category: Đề thi, bài tập trắc nghiệm online Khai phá dữ liệu

Tags: Bộ đề 1

6. Phân biệt sự khác biệt chính giữa 'học có giám sát' (supervised learning) và 'học không giám sát' (unsupervised learning) trong khai phá dữ liệu.

7 / 30

Category: Đề thi, bài tập trắc nghiệm online Khai phá dữ liệu

Tags: Bộ đề 1

7. Mục tiêu chính của khai phá luật kết hợp (Association Rule Mining) là gì?

8 / 30

Category: Đề thi, bài tập trắc nghiệm online Khai phá dữ liệu

Tags: Bộ đề 1

8. Kỹ thuật 'cross-validation' (kiểm định chéo) được sử dụng để làm gì trong quá trình xây dựng mô hình khai phá dữ liệu?

9 / 30

Category: Đề thi, bài tập trắc nghiệm online Khai phá dữ liệu

Tags: Bộ đề 1

9. Trong thuật toán Apriori để khai phá luật kết hợp, nguyên tắc 'Apriori property' phát biểu điều gì?

10 / 30

Category: Đề thi, bài tập trắc nghiệm online Khai phá dữ liệu

Tags: Bộ đề 1

10. Trong tiền xử lý dữ liệu, 'chuẩn hóa dữ liệu' (data normalization) nhằm mục đích gì?

11 / 30

Category: Đề thi, bài tập trắc nghiệm online Khai phá dữ liệu

Tags: Bộ đề 1

11. Kỹ thuật 'giảm chiều dữ liệu' (dimensionality reduction) được sử dụng để làm gì trong khai phá dữ liệu?

12 / 30

Category: Đề thi, bài tập trắc nghiệm online Khai phá dữ liệu

Tags: Bộ đề 1

12. Khai phá dữ liệu (Data Mining) được định nghĩa chính xác nhất là:

13 / 30

Category: Đề thi, bài tập trắc nghiệm online Khai phá dữ liệu

Tags: Bộ đề 1

13. Trong khai phá dữ liệu, 'mô hình hộp đen' (black box model) có đặc điểm gì?

14 / 30

Category: Đề thi, bài tập trắc nghiệm online Khai phá dữ liệu

Tags: Bộ đề 1

14. Chọn phát biểu SAI về 'dữ liệu nhiễu' (noisy data) trong khai phá dữ liệu.

15 / 30

Category: Đề thi, bài tập trắc nghiệm online Khai phá dữ liệu

Tags: Bộ đề 1

15. Đâu là một thách thức ĐẠO ĐỨC quan trọng trong ứng dụng khai phá dữ liệu?

16 / 30

Category: Đề thi, bài tập trắc nghiệm online Khai phá dữ liệu

Tags: Bộ đề 1

16. Phương pháp nào sau đây KHÔNG thuộc nhóm kỹ thuật 'tiền xử lý dữ liệu'?

17 / 30

Category: Đề thi, bài tập trắc nghiệm online Khai phá dữ liệu

Tags: Bộ đề 1

17. Phương pháp khai phá dữ liệu nào thường được sử dụng để phát hiện các giao dịch gian lận thẻ tín dụng?

18 / 30

Category: Đề thi, bài tập trắc nghiệm online Khai phá dữ liệu

Tags: Bộ đề 1

18. Khi nào việc sử dụng kỹ thuật 'ensemble learning' (học tập kết hợp) trở nên đặc biệt hữu ích trong khai phá dữ liệu?

19 / 30

Category: Đề thi, bài tập trắc nghiệm online Khai phá dữ liệu

Tags: Bộ đề 1

19. Phương pháp đánh giá mô hình phân loại nào đo lường tỷ lệ dự đoán đúng trên tổng số dự đoán?

20 / 30

Category: Đề thi, bài tập trắc nghiệm online Khai phá dữ liệu

Tags: Bộ đề 1

20. Thuật toán K-means thường được sử dụng trong kỹ thuật khai phá dữ liệu nào?

21 / 30

Category: Đề thi, bài tập trắc nghiệm online Khai phá dữ liệu

Tags: Bộ đề 1

21. Phân tích thành phần chính (Principal Component Analysis - PCA) là một kỹ thuật thuộc nhóm nào trong khai phá dữ liệu?

22 / 30

Category: Đề thi, bài tập trắc nghiệm online Khai phá dữ liệu

Tags: Bộ đề 1

22. Trong khai phá dữ liệu văn bản (text mining), kỹ thuật 'bag-of-words' (túi từ) có vai trò gì?

23 / 30

Category: Đề thi, bài tập trắc nghiệm online Khai phá dữ liệu

Tags: Bộ đề 1

23. Trong quy trình khai phá dữ liệu, bước nào sau đây thường diễn ra ĐẦU TIÊN?

24 / 30

Category: Đề thi, bài tập trắc nghiệm online Khai phá dữ liệu

Tags: Bộ đề 1

24. Trong ngữ cảnh khai phá dữ liệu web, 'web usage mining' (khai phá sử dụng web) tập trung vào việc phân tích loại dữ liệu nào?

25 / 30

Category: Đề thi, bài tập trắc nghiệm online Khai phá dữ liệu

Tags: Bộ đề 1

25. Trong khai phá dữ liệu, 'k-fold cross-validation' (kiểm định chéo k-lần) với k = 1 tương đương với phương pháp đánh giá mô hình nào?

26 / 30

Category: Đề thi, bài tập trắc nghiệm online Khai phá dữ liệu

Tags: Bộ đề 1

26. Trong khai phá dữ liệu, 'overfitting' (quá khớp) đề cập đến vấn đề gì?

27 / 30

Category: Đề thi, bài tập trắc nghiệm online Khai phá dữ liệu

Tags: Bộ đề 1

27. Trong khai phá dữ liệu không gian (spatial data mining), loại dữ liệu nào được quan tâm đặc biệt?

28 / 30

Category: Đề thi, bài tập trắc nghiệm online Khai phá dữ liệu

Tags: Bộ đề 1

28. Độ đo 'lift' trong khai phá luật kết hợp được sử dụng để đánh giá điều gì?

29 / 30

Category: Đề thi, bài tập trắc nghiệm online Khai phá dữ liệu

Tags: Bộ đề 1

29. Đâu là một ví dụ về công cụ khai phá dữ liệu mã nguồn mở?

30 / 30

Category: Đề thi, bài tập trắc nghiệm online Khai phá dữ liệu

Tags: Bộ đề 1

30. Chọn phát biểu ĐÚNG về 'dữ liệu lớn' (Big Data) và mối liên hệ với khai phá dữ liệu.