Đề thi, bài tập trắc nghiệm online Khai phá dữ liệu

Bạn đã sẵn sàng chưa? 45 phút làm bài bắt đầu!!!

Bạn đã hết giờ làm bài! Xem kết quả các câu hỏi đã làm nhé!!!

Đề thi, bài tập trắc nghiệm online Khai phá dữ liệu

Đề 8 - Bài tập, đề thi trắc nghiệm online Khai phá dữ liệu

1. Trong khai phá dữ liệu chuỗi thời gian, mục tiêu chính thường là gì?

A. Phân nhóm các chuỗi thời gian có hình dạng tương tự.

B. Dự đoán giá trị tương lai của chuỗi thời gian.

C. Tìm luật kết hợp giữa các sự kiện trong chuỗi thời gian.

D. Phân loại các chuỗi thời gian vào các danh mục khác nhau.

2. Trong khai phá dữ liệu mạng xã hội, `community detection` (phát hiện cộng đồng) nhằm mục đích gì?

A. Dự đoán xu hướng lan truyền thông tin trên mạng xã hội.

B. Phân loại người dùng mạng xã hội theo sở thích.

C. Tìm các nhóm người dùng có liên kết chặt chẽ với nhau trong mạng xã hội.

D. Phân tích cảm xúc của các bài đăng trên mạng xã hội.

3. Trong khai phá dữ liệu văn bản, kỹ thuật `TF-IDF` được sử dụng để làm gì?

A. Phân loại văn bản theo chủ đề.

B. Trích xuất thực thể có tên từ văn bản.

C. Đánh trọng số cho từ trong văn bản dựa trên tần suất xuất hiện và độ hiếm của từ.

D. Phân tích cảm xúc của văn bản.

4. Vấn đề `curse of dimensionality` (lời nguyền chiều dữ liệu) thường gây ảnh hưởng tiêu cực đến thuật toán khai phá dữ liệu nào?

A. Các thuật toán phân cụm và phân loại dựa trên khoảng cách.

B. Các thuật toán khai thác luật kết hợp.

C. Các thuật toán hồi quy tuyến tính.

D. Các thuật toán dự báo chuỗi thời gian.

5. Thuật toán Apriori thường được sử dụng trong loại khai phá dữ liệu nào?

A. Phân loại

B. Phân cụm

C. Khai thác luật kết hợp

D. Hồi quy

6. Trong khai phá dữ liệu, `feature selection` và `feature extraction` khác nhau như thế nào?

A. Feature selection tạo ra thuộc tính mới, feature extraction chọn thuộc tính hiện có.

B. Feature selection chọn một tập con thuộc tính hiện có, feature extraction tạo ra thuộc tính mới từ thuộc tính hiện có.

C. Feature selection áp dụng cho dữ liệu số, feature extraction cho dữ liệu văn bản.

D. Feature selection luôn làm giảm chiều dữ liệu, feature extraction luôn tăng chiều dữ liệu.

7. Trong khai phá dữ liệu không gian (spatial data mining), loại dữ liệu đặc biệt nào được quan tâm?

A. Dữ liệu văn bản.

B. Dữ liệu chuỗi thời gian.

C. Dữ liệu địa lý và không gian.

D. Dữ liệu mạng xã hội.

8. Trong khai phá dữ liệu y tế, ứng dụng nào sau đây KHÔNG phổ biến?

A. Dự đoán nguy cơ mắc bệnh dựa trên hồ sơ bệnh án.

B. Phân tích hình ảnh y tế để hỗ trợ chẩn đoán.

C. Tối ưu hóa lộ trình giao hàng của các công ty thương mại điện tử.

D. Phát hiện gian lận bảo hiểm y tế.

9. Thuật toán k-means được sử dụng cho bài toán khai phá dữ liệu nào?

A. Phân loại

B. Phân cụm

C. Hồi quy

D. Khai thác luật kết hợp

10. Phương pháp nào sau đây thường được sử dụng để xử lý dữ liệu bị thiếu (missing values) trong tiền xử lý dữ liệu?

A. Phân cụm dữ liệu.

B. Thay thế bằng giá trị trung bình/trung vị.

C. Giảm chiều dữ liệu.

D. Khai thác luật kết hợp.

11. Đâu là một thách thức lớn trong khai phá dữ liệu trên dữ liệu lớn (big data)?

A. Sự thiếu hụt các thuật toán khai phá dữ liệu hiệu quả.

B. Khả năng mở rộng và hiệu suất tính toán của thuật toán.

C. Khó khăn trong việc biểu diễn tri thức khai phá được.

D. Sự khan hiếm dữ liệu.

12. Kỹ thuật `cross-validation` (kiểm định chéo) thường được sử dụng để làm gì trong khai phá dữ liệu?

A. Tăng kích thước tập dữ liệu huấn luyện.

B. Đánh giá hiệu năng của mô hình trên dữ liệu độc lập.

C. Giảm thiểu overfitting bằng cách đơn giản hóa mô hình.

D. Chọn thuật toán khai phá dữ liệu phù hợp nhất.

13. Trong khai phá dữ liệu, vấn đề đạo đức và riêng tư dữ liệu ngày càng được quan tâm, đặc biệt trong bối cảnh nào?

A. Khai thác dữ liệu từ các nguồn công khai.

B. Sử dụng dữ liệu tổng hợp và ẩn danh.

C. Khai thác dữ liệu cá nhân nhạy cảm như thông tin y tế, tài chính, hành vi trực tuyến.

D. Phân tích dữ liệu thống kê cho mục đích nghiên cứu khoa học.

14. Độ đo `precision` trong đánh giá mô hình phân loại đo lường điều gì?

A. Tỷ lệ dự đoán đúng trên tổng số mẫu thực tế là dương tính.

B. Tỷ lệ dự đoán đúng trên tổng số mẫu được dự đoán là dương tính.

C. Tỷ lệ mẫu âm tính được dự đoán đúng trên tổng số mẫu âm tính thực tế.

D. Tỷ lệ mẫu dương tính được dự đoán đúng trên tổng số mẫu âm tính thực tế.

15. Phương pháp `Principal Component Analysis` (PCA) thuộc loại kỹ thuật nào trong khai phá dữ liệu?

A. Phân loại

B. Phân cụm

C. Giảm chiều dữ liệu

D. Khai thác luật kết hợp

16. Trong khai phá dữ liệu, bước nào sau đây tập trung vào việc làm sạch và chuyển đổi dữ liệu thô sang định dạng phù hợp cho phân tích?

A. Đánh giá mô hình

B. Tiền xử lý dữ liệu

C. Khai thác mẫu

D. Biểu diễn tri thức

17. Phương pháp nào sau đây KHÔNG thuộc nhóm kỹ thuật tiền xử lý dữ liệu?

A. Chuẩn hóa dữ liệu (Normalization)

B. Rút gọn chiều dữ liệu (Dimensionality Reduction)

C. Phân cụm dữ liệu (Clustering)

D. Làm sạch dữ liệu (Data Cleaning)

18. Trong ngữ cảnh khai phá dữ liệu, `overfitting` đề cập đến vấn đề gì?

A. Mô hình quá phức tạp và hoạt động kém trên dữ liệu mới.

B. Dữ liệu đầu vào chứa quá nhiều giá trị ngoại lai.

C. Thuật toán khai phá dữ liệu không hội tụ.

D. Mô hình quá đơn giản và không nắm bắt được các mẫu trong dữ liệu.

19. Trong ngữ cảnh khai thác luật kết hợp, độ đo `support` (hỗ trợ) của một tập mục (itemset) thể hiện điều gì?

A. Độ tin cậy của luật kết hợp được sinh ra từ tập mục đó.

B. Tần suất xuất hiện của tập mục trong cơ sở dữ liệu giao dịch.

C. Độ quan trọng của tập mục đối với việc phân loại.

D. Mức độ cải thiện hiệu suất dự đoán khi sử dụng tập mục đó.

20. Mục tiêu chính của việc `biểu diễn tri thức` (knowledge representation) trong quy trình khai phá dữ liệu là gì?

A. Tăng tốc độ tính toán của thuật toán khai phá.

B. Làm cho kết quả khai phá dễ hiểu và hữu ích cho người dùng.

C. Cải thiện độ chính xác của mô hình dự đoán.

D. Tự động hóa quá trình thu thập dữ liệu.

21. Kỹ thuật `ensemble learning` (học tập hợp) trong khai phá dữ liệu là gì và mục đích chính của nó là gì?

A. Chia nhỏ dữ liệu thành các phần nhỏ để huấn luyện mô hình nhanh hơn.

B. Kết hợp kết quả dự đoán của nhiều mô hình học máy để cải thiện độ chính xác và độ ổn định.

C. Tự động hóa quá trình lựa chọn thuật toán khai phá dữ liệu tốt nhất.

D. Giảm overfitting bằng cách đơn giản hóa mô hình.

22. Trong khai phá dữ liệu web, `web usage mining` (khai thác sử dụng web) tập trung vào việc phân tích loại dữ liệu nào?

A. Nội dung của các trang web.

B. Cấu trúc liên kết giữa các trang web.

C. Hành vi duyệt web của người dùng.

D. Metadata của các trang web.

23. Kỹ thuật `bootstrapping` thường được sử dụng trong khai phá dữ liệu để làm gì?

A. Giảm kích thước tập dữ liệu.

B. Ước lượng độ tin cậy của mô hình hoặc thống kê.

C. Tăng tốc độ huấn luyện mô hình.

D. Xử lý dữ liệu ngoại lai.

24. Mô hình `cây quyết định` (decision tree) thuộc loại mô hình học máy nào và có ưu điểm gì?

A. Phân cụm; dễ dàng xử lý dữ liệu nhiễu.

B. Phân loại và hồi quy; dễ diễn giải và trực quan hóa.

C. Khai thác luật kết hợp; hiệu quả với dữ liệu kích thước lớn.

D. Giảm chiều dữ liệu; bảo toàn thông tin tốt.

25. Trong ngữ cảnh phân loại, ma trận nhầm lẫn (confusion matrix) được sử dụng để làm gì?

A. Trực quan hóa cấu trúc dữ liệu đầu vào.

B. Đánh giá chi tiết hiệu năng của mô hình phân loại.

C. Lựa chọn thuộc tính quan trọng nhất cho mô hình.

D. So sánh hiệu năng giữa các thuật toán phân loại khác nhau.

26. Kỹ thuật giảm chiều dữ liệu (dimensionality reduction) nhằm mục đích chính là gì?

A. Tăng độ phức tạp của mô hình.

B. Giảm số lượng biến đầu vào trong khi vẫn giữ được thông tin quan trọng.

C. Tăng cường nhiễu trong dữ liệu.

D. Tăng tốc độ thu thập dữ liệu.

27. Độ đo `recall` (độ phủ) trong đánh giá mô hình phân loại đo lường điều gì?

A. Tỷ lệ dự đoán đúng trên tổng số mẫu được dự đoán là dương tính.

B. Tỷ lệ dự đoán đúng trên tổng số mẫu thực tế là dương tính.

C. Tỷ lệ mẫu âm tính được dự đoán đúng trên tổng số mẫu âm tính thực tế.

D. Tỷ lệ mẫu dương tính được dự đoán đúng trên tổng số mẫu âm tính thực tế.

28. Độ đo `confidence` (độ tin cậy) trong khai thác luật kết hợp thể hiện điều gì?

A. Tần suất xuất hiện của luật kết hợp trong cơ sở dữ liệu.

B. Xác suất điều kiện kéo theo kết luận trong luật kết hợp là đúng.

C. Mức độ quan trọng của luật kết hợp đối với việc dự đoán.

D. Độ phổ biến của các mục trong luật kết hợp.

29. Thuật toán DBSCAN được sử dụng cho bài toán khai phá dữ liệu nào và có ưu điểm gì so với k-means?

A. Phân loại; DBSCAN nhanh hơn k-means.

B. Phân cụm; DBSCAN không yêu cầu xác định trước số cụm và có thể tìm cụm có hình dạng bất kỳ.

C. Hồi quy; DBSCAN chính xác hơn k-means.

D. Khai thác luật kết hợp; DBSCAN dễ cài đặt hơn k-means.

30. Phương pháp khai phá dữ liệu nào thường được sử dụng để phân nhóm khách hàng dựa trên hành vi mua hàng tương tự?

A. Phân loại

B. Hồi quy

C. Phân cụm

D. Dự báo chuỗi thời gian

1 / 30

Category: Đề thi, bài tập trắc nghiệm online Khai phá dữ liệu

Tags: Bộ đề 6

1. Trong khai phá dữ liệu chuỗi thời gian, mục tiêu chính thường là gì?

A. Phân nhóm các chuỗi thời gian có hình dạng tương tự.

B. Dự đoán giá trị tương lai của chuỗi thời gian.

C. Tìm luật kết hợp giữa các sự kiện trong chuỗi thời gian.

D. Phân loại các chuỗi thời gian vào các danh mục khác nhau.

2 / 30

Category: Đề thi, bài tập trắc nghiệm online Khai phá dữ liệu

Tags: Bộ đề 6

2. Trong khai phá dữ liệu mạng xã hội, 'community detection' (phát hiện cộng đồng) nhằm mục đích gì?

A. Dự đoán xu hướng lan truyền thông tin trên mạng xã hội.

B. Phân loại người dùng mạng xã hội theo sở thích.

C. Tìm các nhóm người dùng có liên kết chặt chẽ với nhau trong mạng xã hội.

D. Phân tích cảm xúc của các bài đăng trên mạng xã hội.

3 / 30

Category: Đề thi, bài tập trắc nghiệm online Khai phá dữ liệu

Tags: Bộ đề 6

3. Trong khai phá dữ liệu văn bản, kỹ thuật 'TF-IDF' được sử dụng để làm gì?

A. Phân loại văn bản theo chủ đề.

B. Trích xuất thực thể có tên từ văn bản.

C. Đánh trọng số cho từ trong văn bản dựa trên tần suất xuất hiện và độ hiếm của từ.

D. Phân tích cảm xúc của văn bản.

4 / 30

Category: Đề thi, bài tập trắc nghiệm online Khai phá dữ liệu

Tags: Bộ đề 6

4. Vấn đề 'curse of dimensionality' (lời nguyền chiều dữ liệu) thường gây ảnh hưởng tiêu cực đến thuật toán khai phá dữ liệu nào?

A. Các thuật toán phân cụm và phân loại dựa trên khoảng cách.

B. Các thuật toán khai thác luật kết hợp.

C. Các thuật toán hồi quy tuyến tính.

D. Các thuật toán dự báo chuỗi thời gian.

5 / 30

Category: Đề thi, bài tập trắc nghiệm online Khai phá dữ liệu

Tags: Bộ đề 6

5. Thuật toán Apriori thường được sử dụng trong loại khai phá dữ liệu nào?

A. Phân loại

B. Phân cụm

C. Khai thác luật kết hợp

D. Hồi quy

6 / 30

Category: Đề thi, bài tập trắc nghiệm online Khai phá dữ liệu

Tags: Bộ đề 6

6. Trong khai phá dữ liệu, 'feature selection' và 'feature extraction' khác nhau như thế nào?

A. Feature selection tạo ra thuộc tính mới, feature extraction chọn thuộc tính hiện có.

B. Feature selection chọn một tập con thuộc tính hiện có, feature extraction tạo ra thuộc tính mới từ thuộc tính hiện có.

C. Feature selection áp dụng cho dữ liệu số, feature extraction cho dữ liệu văn bản.

D. Feature selection luôn làm giảm chiều dữ liệu, feature extraction luôn tăng chiều dữ liệu.

7 / 30

Category: Đề thi, bài tập trắc nghiệm online Khai phá dữ liệu

Tags: Bộ đề 6

7. Trong khai phá dữ liệu không gian (spatial data mining), loại dữ liệu đặc biệt nào được quan tâm?

A. Dữ liệu văn bản.

B. Dữ liệu chuỗi thời gian.

C. Dữ liệu địa lý và không gian.

D. Dữ liệu mạng xã hội.

8 / 30

Category: Đề thi, bài tập trắc nghiệm online Khai phá dữ liệu

Tags: Bộ đề 6

8. Trong khai phá dữ liệu y tế, ứng dụng nào sau đây KHÔNG phổ biến?

A. Dự đoán nguy cơ mắc bệnh dựa trên hồ sơ bệnh án.

B. Phân tích hình ảnh y tế để hỗ trợ chẩn đoán.

C. Tối ưu hóa lộ trình giao hàng của các công ty thương mại điện tử.

D. Phát hiện gian lận bảo hiểm y tế.

9 / 30

Category: Đề thi, bài tập trắc nghiệm online Khai phá dữ liệu

Tags: Bộ đề 6

9. Thuật toán k-means được sử dụng cho bài toán khai phá dữ liệu nào?

A. Phân loại

B. Phân cụm

C. Hồi quy

D. Khai thác luật kết hợp

10 / 30

Category: Đề thi, bài tập trắc nghiệm online Khai phá dữ liệu

Tags: Bộ đề 6

10. Phương pháp nào sau đây thường được sử dụng để xử lý dữ liệu bị thiếu (missing values) trong tiền xử lý dữ liệu?

A. Phân cụm dữ liệu.

B. Thay thế bằng giá trị trung bình/trung vị.

C. Giảm chiều dữ liệu.

D. Khai thác luật kết hợp.

11 / 30

Category: Đề thi, bài tập trắc nghiệm online Khai phá dữ liệu

Tags: Bộ đề 6

11. Đâu là một thách thức lớn trong khai phá dữ liệu trên dữ liệu lớn (big data)?

A. Sự thiếu hụt các thuật toán khai phá dữ liệu hiệu quả.

B. Khả năng mở rộng và hiệu suất tính toán của thuật toán.

C. Khó khăn trong việc biểu diễn tri thức khai phá được.

D. Sự khan hiếm dữ liệu.

12 / 30

Category: Đề thi, bài tập trắc nghiệm online Khai phá dữ liệu

Tags: Bộ đề 6

12. Kỹ thuật 'cross-validation' (kiểm định chéo) thường được sử dụng để làm gì trong khai phá dữ liệu?

A. Tăng kích thước tập dữ liệu huấn luyện.

B. Đánh giá hiệu năng của mô hình trên dữ liệu độc lập.

C. Giảm thiểu overfitting bằng cách đơn giản hóa mô hình.

D. Chọn thuật toán khai phá dữ liệu phù hợp nhất.

13 / 30

Category: Đề thi, bài tập trắc nghiệm online Khai phá dữ liệu

Tags: Bộ đề 6

13. Trong khai phá dữ liệu, vấn đề đạo đức và riêng tư dữ liệu ngày càng được quan tâm, đặc biệt trong bối cảnh nào?

A. Khai thác dữ liệu từ các nguồn công khai.

B. Sử dụng dữ liệu tổng hợp và ẩn danh.

C. Khai thác dữ liệu cá nhân nhạy cảm như thông tin y tế, tài chính, hành vi trực tuyến.

D. Phân tích dữ liệu thống kê cho mục đích nghiên cứu khoa học.

14 / 30

Category: Đề thi, bài tập trắc nghiệm online Khai phá dữ liệu

Tags: Bộ đề 6

14. Độ đo 'precision' trong đánh giá mô hình phân loại đo lường điều gì?

A. Tỷ lệ dự đoán đúng trên tổng số mẫu thực tế là dương tính.

B. Tỷ lệ dự đoán đúng trên tổng số mẫu được dự đoán là dương tính.

C. Tỷ lệ mẫu âm tính được dự đoán đúng trên tổng số mẫu âm tính thực tế.

D. Tỷ lệ mẫu dương tính được dự đoán đúng trên tổng số mẫu âm tính thực tế.

15 / 30

Category: Đề thi, bài tập trắc nghiệm online Khai phá dữ liệu

Tags: Bộ đề 6

15. Phương pháp 'Principal Component Analysis' (PCA) thuộc loại kỹ thuật nào trong khai phá dữ liệu?

A. Phân loại

B. Phân cụm

C. Giảm chiều dữ liệu

D. Khai thác luật kết hợp

16 / 30

Category: Đề thi, bài tập trắc nghiệm online Khai phá dữ liệu

Tags: Bộ đề 6

16. Trong khai phá dữ liệu, bước nào sau đây tập trung vào việc làm sạch và chuyển đổi dữ liệu thô sang định dạng phù hợp cho phân tích?

A. Đánh giá mô hình

B. Tiền xử lý dữ liệu

C. Khai thác mẫu

D. Biểu diễn tri thức

17 / 30

Category: Đề thi, bài tập trắc nghiệm online Khai phá dữ liệu

Tags: Bộ đề 6

17. Phương pháp nào sau đây KHÔNG thuộc nhóm kỹ thuật tiền xử lý dữ liệu?

A. Chuẩn hóa dữ liệu (Normalization)

B. Rút gọn chiều dữ liệu (Dimensionality Reduction)

C. Phân cụm dữ liệu (Clustering)

D. Làm sạch dữ liệu (Data Cleaning)

18 / 30

Category: Đề thi, bài tập trắc nghiệm online Khai phá dữ liệu

Tags: Bộ đề 6

18. Trong ngữ cảnh khai phá dữ liệu, 'overfitting' đề cập đến vấn đề gì?

A. Mô hình quá phức tạp và hoạt động kém trên dữ liệu mới.

B. Dữ liệu đầu vào chứa quá nhiều giá trị ngoại lai.

C. Thuật toán khai phá dữ liệu không hội tụ.

D. Mô hình quá đơn giản và không nắm bắt được các mẫu trong dữ liệu.

19 / 30

Category: Đề thi, bài tập trắc nghiệm online Khai phá dữ liệu

Tags: Bộ đề 6

19. Trong ngữ cảnh khai thác luật kết hợp, độ đo 'support' (hỗ trợ) của một tập mục (itemset) thể hiện điều gì?

A. Độ tin cậy của luật kết hợp được sinh ra từ tập mục đó.

B. Tần suất xuất hiện của tập mục trong cơ sở dữ liệu giao dịch.

C. Độ quan trọng của tập mục đối với việc phân loại.

D. Mức độ cải thiện hiệu suất dự đoán khi sử dụng tập mục đó.

20 / 30

Category: Đề thi, bài tập trắc nghiệm online Khai phá dữ liệu

Tags: Bộ đề 6

20. Mục tiêu chính của việc 'biểu diễn tri thức' (knowledge representation) trong quy trình khai phá dữ liệu là gì?

A. Tăng tốc độ tính toán của thuật toán khai phá.

B. Làm cho kết quả khai phá dễ hiểu và hữu ích cho người dùng.

C. Cải thiện độ chính xác của mô hình dự đoán.

D. Tự động hóa quá trình thu thập dữ liệu.

21 / 30

Category: Đề thi, bài tập trắc nghiệm online Khai phá dữ liệu

Tags: Bộ đề 6

21. Kỹ thuật 'ensemble learning' (học tập hợp) trong khai phá dữ liệu là gì và mục đích chính của nó là gì?

A. Chia nhỏ dữ liệu thành các phần nhỏ để huấn luyện mô hình nhanh hơn.

B. Kết hợp kết quả dự đoán của nhiều mô hình học máy để cải thiện độ chính xác và độ ổn định.

C. Tự động hóa quá trình lựa chọn thuật toán khai phá dữ liệu tốt nhất.

D. Giảm overfitting bằng cách đơn giản hóa mô hình.

22 / 30

Category: Đề thi, bài tập trắc nghiệm online Khai phá dữ liệu

Tags: Bộ đề 6

22. Trong khai phá dữ liệu web, 'web usage mining' (khai thác sử dụng web) tập trung vào việc phân tích loại dữ liệu nào?

A. Nội dung của các trang web.

B. Cấu trúc liên kết giữa các trang web.

C. Hành vi duyệt web của người dùng.

D. Metadata của các trang web.

23 / 30

Category: Đề thi, bài tập trắc nghiệm online Khai phá dữ liệu

Tags: Bộ đề 6

23. Kỹ thuật 'bootstrapping' thường được sử dụng trong khai phá dữ liệu để làm gì?

A. Giảm kích thước tập dữ liệu.

B. Ước lượng độ tin cậy của mô hình hoặc thống kê.

C. Tăng tốc độ huấn luyện mô hình.

D. Xử lý dữ liệu ngoại lai.

24 / 30

Category: Đề thi, bài tập trắc nghiệm online Khai phá dữ liệu

Tags: Bộ đề 6

24. Mô hình 'cây quyết định' (decision tree) thuộc loại mô hình học máy nào và có ưu điểm gì?

A. Phân cụm; dễ dàng xử lý dữ liệu nhiễu.

B. Phân loại và hồi quy; dễ diễn giải và trực quan hóa.

C. Khai thác luật kết hợp; hiệu quả với dữ liệu kích thước lớn.

D. Giảm chiều dữ liệu; bảo toàn thông tin tốt.

25 / 30

Category: Đề thi, bài tập trắc nghiệm online Khai phá dữ liệu

Tags: Bộ đề 6

25. Trong ngữ cảnh phân loại, ma trận nhầm lẫn (confusion matrix) được sử dụng để làm gì?

A. Trực quan hóa cấu trúc dữ liệu đầu vào.

B. Đánh giá chi tiết hiệu năng của mô hình phân loại.

C. Lựa chọn thuộc tính quan trọng nhất cho mô hình.

D. So sánh hiệu năng giữa các thuật toán phân loại khác nhau.

26 / 30

Category: Đề thi, bài tập trắc nghiệm online Khai phá dữ liệu

Tags: Bộ đề 6

26. Kỹ thuật giảm chiều dữ liệu (dimensionality reduction) nhằm mục đích chính là gì?

A. Tăng độ phức tạp của mô hình.

B. Giảm số lượng biến đầu vào trong khi vẫn giữ được thông tin quan trọng.

C. Tăng cường nhiễu trong dữ liệu.

D. Tăng tốc độ thu thập dữ liệu.

27 / 30

Category: Đề thi, bài tập trắc nghiệm online Khai phá dữ liệu

Tags: Bộ đề 6

27. Độ đo 'recall' (độ phủ) trong đánh giá mô hình phân loại đo lường điều gì?

A. Tỷ lệ dự đoán đúng trên tổng số mẫu được dự đoán là dương tính.

B. Tỷ lệ dự đoán đúng trên tổng số mẫu thực tế là dương tính.

C. Tỷ lệ mẫu âm tính được dự đoán đúng trên tổng số mẫu âm tính thực tế.

D. Tỷ lệ mẫu dương tính được dự đoán đúng trên tổng số mẫu âm tính thực tế.

28 / 30

Category: Đề thi, bài tập trắc nghiệm online Khai phá dữ liệu

Tags: Bộ đề 6

28. Độ đo 'confidence' (độ tin cậy) trong khai thác luật kết hợp thể hiện điều gì?

A. Tần suất xuất hiện của luật kết hợp trong cơ sở dữ liệu.

B. Xác suất điều kiện kéo theo kết luận trong luật kết hợp là đúng.

C. Mức độ quan trọng của luật kết hợp đối với việc dự đoán.

D. Độ phổ biến của các mục trong luật kết hợp.

29 / 30

Category: Đề thi, bài tập trắc nghiệm online Khai phá dữ liệu

Tags: Bộ đề 6

29. Thuật toán DBSCAN được sử dụng cho bài toán khai phá dữ liệu nào và có ưu điểm gì so với k-means?

A. Phân loại; DBSCAN nhanh hơn k-means.

B. Phân cụm; DBSCAN không yêu cầu xác định trước số cụm và có thể tìm cụm có hình dạng bất kỳ.

C. Hồi quy; DBSCAN chính xác hơn k-means.

D. Khai thác luật kết hợp; DBSCAN dễ cài đặt hơn k-means.

30 / 30

Category: Đề thi, bài tập trắc nghiệm online Khai phá dữ liệu

Tags: Bộ đề 6

30. Phương pháp khai phá dữ liệu nào thường được sử dụng để phân nhóm khách hàng dựa trên hành vi mua hàng tương tự?

A. Phân loại

B. Hồi quy

C. Phân cụm

D. Dự báo chuỗi thời gian

Xem kết quả

Đề trắc nghiệm liên quan: