Đề thi, bài tập trắc nghiệm online Khai phá dữ liệu – Đề 5

0

Bạn đã sẵn sàng chưa? 45 phút làm bài bắt đầu!!!

Bạn đã hết giờ làm bài! Xem kết quả các câu hỏi đã làm nhé!!!


Đề thi, bài tập trắc nghiệm online Khai phá dữ liệu

Đề 5 - Bài tập, đề thi trắc nghiệm online Khai phá dữ liệu

1. Trong khai phá dữ liệu luồng (stream data mining), thách thức chính là:

A. Dữ liệu có kích thước nhỏ.
B. Dữ liệu đến liên tục và nhanh chóng.
C. Dữ liệu có cấu trúc cố định.
D. Dữ liệu tĩnh và không thay đổi theo thời gian.

2. Phương pháp `PCA` (Principal Component Analysis) thuộc nhóm kỹ thuật:

A. Phân loại (Classification).
B. Phân cụm (Clustering).
C. Giảm chiều dữ liệu (Dimensionality Reduction).
D. Khai phá luật kết hợp (Association Rule Mining).

3. Khái niệm `dữ liệu nhiễu` (noisy data) trong khai phá dữ liệu thường đề cập đến:

A. Dữ liệu có cấu trúc phức tạp.
B. Dữ liệu bị thiếu giá trị.
C. Dữ liệu chứa lỗi, giá trị ngoại lệ hoặc không nhất quán.
D. Dữ liệu có kích thước quá lớn.

4. Phương pháp khai phá dữ liệu nào thường được sử dụng để phân nhóm khách hàng dựa trên hành vi mua sắm tương tự?

A. Phân loại (Classification)
B. Hồi quy (Regression)
C. Phân cụm (Clustering)
D. Luật kết hợp (Association Rule Mining)

5. Độ đo F1-score là trung bình điều hòa của:

A. Độ chính xác (accuracy) và độ phủ (recall).
B. Độ chính xác (precision) và độ phủ (recall).
C. Độ chính xác (precision) và độ đo F2-score.
D. Độ phủ (recall) và độ đo AUC-ROC.

6. Ưu điểm chính của thuật toán Cây quyết định (Decision Tree) là gì?

A. Hiệu suất cao với dữ liệu nhiễu.
B. Khả năng xử lý dữ liệu có chiều cao.
C. Dễ dàng diễn giải và trực quan hóa.
D. Luôn tìm ra mô hình tối ưu toàn cục.

7. Mô hình `hộp đen` (black box model) trong khai phá dữ liệu có đặc điểm:

A. Dễ dàng diễn giải logic bên trong.
B. Khó hoặc không thể hiểu được cơ chế đưa ra quyết định.
C. Luôn cho kết quả chính xác tuyệt đối.
D. Chỉ áp dụng cho dữ liệu văn bản.

8. Thuật toán Apriori được sử dụng phổ biến trong:

A. Phân loại (Classification).
B. Phân cụm (Clustering).
C. Khai phá luật kết hợp (Association Rule Mining).
D. Hồi quy (Regression).

9. Lỗi loại I (Type I error) trong kiểm định giả thuyết thống kê tương ứng với khái niệm nào trong đánh giá mô hình phân loại?

A. Âm tính giả (False Negative).
B. Dương tính giả (False Positive).
C. Âm tính thật (True Negative).
D. Dương tính thật (True Positive).

10. Đâu là thách thức lớn nhất khi khai phá dữ liệu từ dữ liệu lớn (Big Data)?

A. Sự thiếu hụt các thuật toán khai phá dữ liệu.
B. Khả năng tính toán và lưu trữ dữ liệu.
C. Sự đơn giản của dữ liệu lớn.
D. Sự nhất quán của dữ liệu lớn.

11. Trong ngữ cảnh khai phá dữ liệu, `overfitting` xảy ra khi:

A. Mô hình quá đơn giản và không nắm bắt được các mẫu trong dữ liệu.
B. Mô hình học quá kỹ dữ liệu huấn luyện, dẫn đến kém hiệu quả trên dữ liệu mới.
C. Dữ liệu huấn luyện quá nhỏ.
D. Thuật toán khai phá dữ liệu không phù hợp.

12. Trong ngữ cảnh đánh giá mô hình phân loại, `ma trận nhầm lẫn` (confusion matrix) được sử dụng để:

A. Trực quan hóa dữ liệu đầu vào.
B. Tính toán độ đo AUC-ROC.
C. Thống kê số lượng dự đoán đúng và sai cho từng lớp.
D. Giảm chiều dữ liệu đầu vào.

13. Thuật toán nào sau đây KHÔNG thuộc nhóm thuật toán phân loại (Classification)?

A. Cây quyết định (Decision Tree)
B. Máy học vectơ hỗ trợ (Support Vector Machine)
C. K-Means
D. Mạng nơ-ron (Neural Network)

14. Trong khai phá luật kết hợp (Association Rule Mining), độ đo `độ tin cậy` (confidence) của một luật {A} -> {B} được tính bằng:

A. P(A và B) / P(A)
B. P(A và B) / P(B)
C. P(A) / P(A và B)
D. P(B) / P(A và B)

15. Trong thuật toán K-Means, giá trị `K` đại diện cho:

A. Số lượng chiều dữ liệu.
B. Số lượng mẫu dữ liệu.
C. Số lượng cụm mong muốn.
D. Số lần lặp tối đa của thuật toán.

16. Phương pháp đánh giá mô hình khai phá dữ liệu nào chia dữ liệu thành tập huấn luyện và tập kiểm thử?

A. Đánh giá nội tại (Internal validation).
B. Kiểm định chéo (Cross-validation).
C. Đánh giá trực quan (Visual validation).
D. Đánh giá thống kê (Statistical validation).

17. Kỹ thuật `giảm chiều dữ liệu` (Dimensionality Reduction) nhằm mục đích:

A. Tăng số lượng thuộc tính của dữ liệu.
B. Giảm số lượng mẫu dữ liệu.
C. Giảm số lượng thuộc tính nhưng vẫn giữ được thông tin quan trọng.
D. Tăng độ chính xác của dữ liệu.

18. Phương pháp nào sau đây thường được sử dụng để xử lý dữ liệu thiếu (missing data)?

A. Chuẩn hóa dữ liệu (Data normalization).
B. Rời rạc hóa dữ liệu (Data discretization).
C. Thay thế bằng giá trị trung bình (Mean imputation).
D. Giảm chiều dữ liệu (Dimensionality reduction).

19. Trong khai phá dữ liệu không gian (spatial data mining), loại dữ liệu nào sau đây là phổ biến?

A. Dữ liệu giao dịch mua bán.
B. Dữ liệu cảm biến thời gian thực.
C. Dữ liệu bản đồ và vị trí địa lý.
D. Dữ liệu văn bản mạng xã hội.

20. Phương pháp nào sau đây KHÔNG phải là phương pháp phân cụm?

A. K-Means.
B. DBSCAN.
C. Naive Bayes.
D. Phân cụm phân cấp (Hierarchical Clustering).

21. Ứng dụng nào sau đây KHÔNG phải là ứng dụng phổ biến của khai phá dữ liệu?

A. Phát hiện gian lận thẻ tín dụng.
B. Dự báo thời tiết.
C. Đề xuất sản phẩm cho khách hàng trực tuyến.
D. Phân tích rủi ro tín dụng.

22. Trong khai phá dữ liệu chuỗi thời gian (time series data mining), mục tiêu chính thường là:

A. Phân cụm dữ liệu tĩnh.
B. Dự đoán giá trị tương lai dựa trên dữ liệu quá khứ.
C. Phân loại văn bản.
D. Tìm luật kết hợp trong dữ liệu không gian.

23. Ứng dụng của khai phá dữ liệu trong lĩnh vực y tế KHÔNG bao gồm:

A. Dự đoán sự bùng phát dịch bệnh.
B. Phân tích hình ảnh y tế để chẩn đoán bệnh.
C. Quản lý kho hàng.
D. Cá nhân hóa phương pháp điều trị.

24. Trong khai phá dữ liệu, `độ chính xác` (accuracy) thường được sử dụng để đánh giá hiệu quả của mô hình:

A. Phân cụm (Clustering)
B. Phân loại (Classification)
C. Luật kết hợp (Association Rule Mining)
D. Giảm chiều dữ liệu (Dimensionality Reduction)

25. Biện pháp nào sau đây thường được sử dụng để giảm thiểu overfitting trong mô hình học máy?

A. Tăng kích thước tập dữ liệu huấn luyện.
B. Giảm độ phức tạp của mô hình.
C. Sử dụng kỹ thuật chính quy hóa (regularization).
D. Tất cả các đáp án trên.

26. Trong quy trình khai phá dữ liệu CRISP-DM, giai đoạn `Hiểu nghiệp vụ` (Business Understanding) chủ yếu tập trung vào:

A. Làm sạch và chuẩn hóa dữ liệu.
B. Xác định mục tiêu kinh doanh và bài toán khai phá dữ liệu cần giải quyết.
C. Lựa chọn thuật toán và mô hình khai phá dữ liệu phù hợp.
D. Đánh giá hiệu quả của mô hình khai phá dữ liệu.

27. Trong khai phá dữ liệu văn bản (Text Mining), kỹ thuật `TF-IDF` được sử dụng để:

A. Loại bỏ từ dừng (stop words).
B. Đánh trọng số cho từ dựa trên tần suất xuất hiện trong văn bản và toàn bộ tập văn bản.
C. Phân tích cảm xúc (sentiment analysis).
D. Tóm tắt văn bản (text summarization).

28. Trong mô hình hóa dữ liệu, `chuẩn hóa dữ liệu` (data normalization) có vai trò:

A. Giảm số lượng thuộc tính.
B. Chuyển đổi dữ liệu định tính thành định lượng.
C. Đưa các thuộc tính về cùng một thang đo giá trị.
D. Xử lý dữ liệu thiếu.

29. Loại hình học máy nào tập trung vào việc học từ dữ liệu KHÔNG có nhãn?

A. Học có giám sát (Supervised learning).
B. Học bán giám sát (Semi-supervised learning).
C. Học không giám sát (Unsupervised learning).
D. Học tăng cường (Reinforcement learning).

30. Khai phá dữ liệu (Data Mining) được định nghĩa chính xác nhất là:

A. Quá trình thu thập dữ liệu từ nhiều nguồn khác nhau.
B. Quá trình phân tích dữ liệu thống kê để kiểm định các giả thuyết.
C. Quá trình khám phá tri thức hữu ích từ lượng lớn dữ liệu.
D. Quá trình trực quan hóa dữ liệu để trình bày thông tin dễ hiểu.

1 / 30

Category: Đề thi, bài tập trắc nghiệm online Khai phá dữ liệu

Tags: Bộ đề 5

1. Trong khai phá dữ liệu luồng (stream data mining), thách thức chính là:

2 / 30

Category: Đề thi, bài tập trắc nghiệm online Khai phá dữ liệu

Tags: Bộ đề 5

2. Phương pháp 'PCA' (Principal Component Analysis) thuộc nhóm kỹ thuật:

3 / 30

Category: Đề thi, bài tập trắc nghiệm online Khai phá dữ liệu

Tags: Bộ đề 5

3. Khái niệm 'dữ liệu nhiễu' (noisy data) trong khai phá dữ liệu thường đề cập đến:

4 / 30

Category: Đề thi, bài tập trắc nghiệm online Khai phá dữ liệu

Tags: Bộ đề 5

4. Phương pháp khai phá dữ liệu nào thường được sử dụng để phân nhóm khách hàng dựa trên hành vi mua sắm tương tự?

5 / 30

Category: Đề thi, bài tập trắc nghiệm online Khai phá dữ liệu

Tags: Bộ đề 5

5. Độ đo F1-score là trung bình điều hòa của:

6 / 30

Category: Đề thi, bài tập trắc nghiệm online Khai phá dữ liệu

Tags: Bộ đề 5

6. Ưu điểm chính của thuật toán Cây quyết định (Decision Tree) là gì?

7 / 30

Category: Đề thi, bài tập trắc nghiệm online Khai phá dữ liệu

Tags: Bộ đề 5

7. Mô hình 'hộp đen' (black box model) trong khai phá dữ liệu có đặc điểm:

8 / 30

Category: Đề thi, bài tập trắc nghiệm online Khai phá dữ liệu

Tags: Bộ đề 5

8. Thuật toán Apriori được sử dụng phổ biến trong:

9 / 30

Category: Đề thi, bài tập trắc nghiệm online Khai phá dữ liệu

Tags: Bộ đề 5

9. Lỗi loại I (Type I error) trong kiểm định giả thuyết thống kê tương ứng với khái niệm nào trong đánh giá mô hình phân loại?

10 / 30

Category: Đề thi, bài tập trắc nghiệm online Khai phá dữ liệu

Tags: Bộ đề 5

10. Đâu là thách thức lớn nhất khi khai phá dữ liệu từ dữ liệu lớn (Big Data)?

11 / 30

Category: Đề thi, bài tập trắc nghiệm online Khai phá dữ liệu

Tags: Bộ đề 5

11. Trong ngữ cảnh khai phá dữ liệu, 'overfitting' xảy ra khi:

12 / 30

Category: Đề thi, bài tập trắc nghiệm online Khai phá dữ liệu

Tags: Bộ đề 5

12. Trong ngữ cảnh đánh giá mô hình phân loại, 'ma trận nhầm lẫn' (confusion matrix) được sử dụng để:

13 / 30

Category: Đề thi, bài tập trắc nghiệm online Khai phá dữ liệu

Tags: Bộ đề 5

13. Thuật toán nào sau đây KHÔNG thuộc nhóm thuật toán phân loại (Classification)?

14 / 30

Category: Đề thi, bài tập trắc nghiệm online Khai phá dữ liệu

Tags: Bộ đề 5

14. Trong khai phá luật kết hợp (Association Rule Mining), độ đo 'độ tin cậy' (confidence) của một luật {A} -> {B} được tính bằng:

15 / 30

Category: Đề thi, bài tập trắc nghiệm online Khai phá dữ liệu

Tags: Bộ đề 5

15. Trong thuật toán K-Means, giá trị 'K' đại diện cho:

16 / 30

Category: Đề thi, bài tập trắc nghiệm online Khai phá dữ liệu

Tags: Bộ đề 5

16. Phương pháp đánh giá mô hình khai phá dữ liệu nào chia dữ liệu thành tập huấn luyện và tập kiểm thử?

17 / 30

Category: Đề thi, bài tập trắc nghiệm online Khai phá dữ liệu

Tags: Bộ đề 5

17. Kỹ thuật 'giảm chiều dữ liệu' (Dimensionality Reduction) nhằm mục đích:

18 / 30

Category: Đề thi, bài tập trắc nghiệm online Khai phá dữ liệu

Tags: Bộ đề 5

18. Phương pháp nào sau đây thường được sử dụng để xử lý dữ liệu thiếu (missing data)?

19 / 30

Category: Đề thi, bài tập trắc nghiệm online Khai phá dữ liệu

Tags: Bộ đề 5

19. Trong khai phá dữ liệu không gian (spatial data mining), loại dữ liệu nào sau đây là phổ biến?

20 / 30

Category: Đề thi, bài tập trắc nghiệm online Khai phá dữ liệu

Tags: Bộ đề 5

20. Phương pháp nào sau đây KHÔNG phải là phương pháp phân cụm?

21 / 30

Category: Đề thi, bài tập trắc nghiệm online Khai phá dữ liệu

Tags: Bộ đề 5

21. Ứng dụng nào sau đây KHÔNG phải là ứng dụng phổ biến của khai phá dữ liệu?

22 / 30

Category: Đề thi, bài tập trắc nghiệm online Khai phá dữ liệu

Tags: Bộ đề 5

22. Trong khai phá dữ liệu chuỗi thời gian (time series data mining), mục tiêu chính thường là:

23 / 30

Category: Đề thi, bài tập trắc nghiệm online Khai phá dữ liệu

Tags: Bộ đề 5

23. Ứng dụng của khai phá dữ liệu trong lĩnh vực y tế KHÔNG bao gồm:

24 / 30

Category: Đề thi, bài tập trắc nghiệm online Khai phá dữ liệu

Tags: Bộ đề 5

24. Trong khai phá dữ liệu, 'độ chính xác' (accuracy) thường được sử dụng để đánh giá hiệu quả của mô hình:

25 / 30

Category: Đề thi, bài tập trắc nghiệm online Khai phá dữ liệu

Tags: Bộ đề 5

25. Biện pháp nào sau đây thường được sử dụng để giảm thiểu overfitting trong mô hình học máy?

26 / 30

Category: Đề thi, bài tập trắc nghiệm online Khai phá dữ liệu

Tags: Bộ đề 5

26. Trong quy trình khai phá dữ liệu CRISP-DM, giai đoạn 'Hiểu nghiệp vụ' (Business Understanding) chủ yếu tập trung vào:

27 / 30

Category: Đề thi, bài tập trắc nghiệm online Khai phá dữ liệu

Tags: Bộ đề 5

27. Trong khai phá dữ liệu văn bản (Text Mining), kỹ thuật 'TF-IDF' được sử dụng để:

28 / 30

Category: Đề thi, bài tập trắc nghiệm online Khai phá dữ liệu

Tags: Bộ đề 5

28. Trong mô hình hóa dữ liệu, 'chuẩn hóa dữ liệu' (data normalization) có vai trò:

29 / 30

Category: Đề thi, bài tập trắc nghiệm online Khai phá dữ liệu

Tags: Bộ đề 5

29. Loại hình học máy nào tập trung vào việc học từ dữ liệu KHÔNG có nhãn?

30 / 30

Category: Đề thi, bài tập trắc nghiệm online Khai phá dữ liệu

Tags: Bộ đề 5

30. Khai phá dữ liệu (Data Mining) được định nghĩa chính xác nhất là: