Đề thi, bài tập trắc nghiệm online Khai phá dữ liệu – Đề 9

0

Bạn đã sẵn sàng chưa? 45 phút làm bài bắt đầu!!!

Bạn đã hết giờ làm bài! Xem kết quả các câu hỏi đã làm nhé!!!


Đề thi, bài tập trắc nghiệm online Khai phá dữ liệu

Đề 9 - Bài tập, đề thi trắc nghiệm online Khai phá dữ liệu

1. Sự khác biệt chính giữa `học có giám sát` (supervised learning) và `học không giám sát` (unsupervised learning) là gì?

A. Học có giám sát sử dụng dữ liệu lớn hơn, học không giám sát sử dụng dữ liệu nhỏ hơn.
B. Học có giám sát cần dữ liệu có nhãn (labeled data), học không giám sát không cần.
C. Học có giám sát cho kết quả chính xác hơn học không giám sát.
D. Học có giám sát chỉ áp dụng cho dữ liệu số, học không giám sát cho dữ liệu phi số.

2. Lỗi `overfitting` (quá khớp) trong mô hình học máy xảy ra khi nào?

A. Mô hình quá đơn giản và không nắm bắt được mẫu trong dữ liệu.
B. Mô hình hoạt động kém trên cả dữ liệu huấn luyện và dữ liệu kiểm thử.
C. Mô hình học quá kỹ dữ liệu huấn luyện, dẫn đến kém hiệu quả trên dữ liệu mới.
D. Mô hình không hội tụ trong quá trình huấn luyện.

3. Trong quá trình đánh giá mô hình phân loại, ma trận nhầm lẫn (confusion matrix) cung cấp thông tin gì?

A. Độ chính xác tổng thể của mô hình.
B. Phân phối xác suất dự đoán của mô hình.
C. Số lượng dự đoán đúng và sai cho từng lớp.
D. Độ phức tạp của mô hình.

4. Trong khai phá dữ liệu không gian, `spatial clustering` (phân cụm không gian) khác với phân cụm thông thường như thế nào?

A. Phân cụm không gian chỉ áp dụng cho dữ liệu hình ảnh.
B. Phân cụm không gian xem xét vị trí địa lý và mối quan hệ không gian giữa các đối tượng.
C. Phân cụm không gian luôn cho kết quả chính xác hơn.
D. Phân cụm không gian không sử dụng thuật toán k-means.

5. Phương pháp `cross-validation` (kiểm định chéo) được sử dụng để làm gì trong khai phá dữ liệu?

A. Tăng tốc độ huấn luyện mô hình.
B. Đánh giá độ tin cậy và khả năng khái quát hóa của mô hình.
C. Giảm chiều dữ liệu đầu vào.
D. Trực quan hóa kết quả khai phá dữ liệu.

6. Mục tiêu của `khai phá chuỗi thời gian` (time series data mining) là gì?

A. Phân tích dữ liệu tĩnh tại một thời điểm.
B. Phân tích dữ liệu có cấu trúc dạng bảng.
C. Phân tích dữ liệu theo thời gian để tìm kiếm mẫu, xu hướng, và dự đoán.
D. Phân tích dữ liệu hình ảnh theo thời gian.

7. Trong khai phá dữ liệu mạng xã hội, phân tích `sentiment` (cảm xúc) thường được sử dụng để làm gì?

A. Phân tích cấu trúc mạng lưới quan hệ.
B. Xác định chủ đề thảo luận phổ biến.
C. Xác định thái độ, ý kiến (tích cực, tiêu cực, trung lập) trong văn bản.
D. Dự đoán lan truyền thông tin trong mạng xã hội.

8. Phương pháp `gradient boosting` là một loại thuật toán học máy nào?

A. Thuật toán phân cụm.
B. Thuật toán khai thác luật kết hợp.
C. Thuật toán học ансамбль (ensemble learning).
D. Thuật toán giảm chiều dữ liệu.

9. Độ đo `support` (độ hỗ trợ) trong khai thác luật kết hợp thể hiện điều gì?

A. Độ chính xác của luật.
B. Tần suất xuất hiện của tập mục trong cơ sở dữ liệu.
C. Độ tin cậy của luật.
D. Mức độ thú vị của luật.

10. Trong bối cảnh khai phá dữ liệu web, `web usage mining` (khai phá sử dụng web) tập trung vào việc phân tích loại dữ liệu nào?

A. Nội dung văn bản trên các trang web.
B. Cấu trúc liên kết giữa các trang web.
C. Hành vi duyệt web của người dùng (log truy cập web).
D. Hình ảnh và video trên các trang web.

11. Kỹ thuật `anomaly detection` (phát hiện dị thường) được sử dụng để làm gì?

A. Phân loại dữ liệu thành các nhóm.
B. Dự đoán xu hướng trong dữ liệu.
C. Xác định các điểm dữ liệu bất thường, khác biệt so với phần lớn dữ liệu.
D. Giảm nhiễu trong dữ liệu.

12. Phương pháp `decision tree` (cây quyết định) thường được sử dụng cho bài toán nào?

A. Phân cụm (clustering).
B. Hồi quy (regression) và phân loại (classification).
C. Giảm chiều dữ liệu (dimensionality reduction).
D. Khai thác luật kết hợp (association rule mining).

13. Phân tích `cohort` (nhóm когорта) thường được sử dụng trong lĩnh vực nào của khai phá dữ liệu?

A. Xử lý ngôn ngữ tự nhiên.
B. Phân tích mạng xã hội.
C. Phân tích hành vi khách hàng và marketing.
D. Phân tích dữ liệu cảm biến.

14. Đâu là mục tiêu chính của khai phá dữ liệu?

A. Tạo ra các báo cáo thống kê mô tả dữ liệu hiện có.
B. Tối ưu hóa hiệu suất của hệ quản trị cơ sở dữ liệu.
C. Phát hiện tri thức, mẫu ẩn, và xu hướng tiềm ẩn từ lượng lớn dữ liệu.
D. Xây dựng giao diện người dùng thân thiện cho các ứng dụng dữ liệu.

15. Trong quy trình khai phá dữ liệu, giai đoạn nào thường liên quan đến việc làm sạch dữ liệu, xử lý dữ liệu thiếu và chuyển đổi dữ liệu?

A. Đánh giá mô hình
B. Tiền xử lý dữ liệu
C. Triển khai mô hình
D. Khai thác mẫu

16. Độ đo `lift` trong khai thác luật kết hợp được sử dụng để đánh giá điều gì?

A. Độ chính xác của luật.
B. Mức độ thú vị của luật, so với việc chọn ngẫu nhiên.
C. Tần suất xuất hiện của luật.
D. Độ tin cậy của luật.

17. Phương pháp `principal component analysis` (PCA) là một ví dụ của kỹ thuật nào?

A. Phân loại (classification).
B. Phân cụm (clustering).
C. Giảm chiều dữ liệu (dimensionality reduction).
D. Khai thác luật kết hợp (association rule mining).

18. Đâu là một công cụ hoặc thư viện phổ biến được sử dụng cho khai phá dữ liệu bằng ngôn ngữ Python?

A. Microsoft Excel.
B. Apache Hadoop.
C. Scikit-learn.
D. Adobe Photoshop.

19. Trong khai phá dữ liệu, `feature selection` (lựa chọn thuộc tính) nhằm mục đích gì?

A. Tăng số lượng thuộc tính của dữ liệu.
B. Chọn ra tập hợp con các thuộc tính quan trọng nhất để xây dựng mô hình.
C. Chuyển đổi dữ liệu sang định dạng khác.
D. Tăng kích thước dữ liệu huấn luyện.

20. Đâu là một thách thức lớn khi khai phá dữ liệu lớn (Big Data)?

A. Dữ liệu quá nhỏ để phân tích.
B. Thiếu các thuật toán khai phá dữ liệu hiệu quả.
C. Khả năng mở rộng và hiệu suất tính toán với lượng dữ liệu khổng lồ.
D. Dữ liệu quá sạch và dễ xử lý.

21. Trong khai phá dữ liệu văn bản, kỹ thuật `TF-IDF` được sử dụng để làm gì?

A. Phân loại văn bản theo chủ đề.
B. Trích xuất thông tin quan trọng từ văn bản.
C. Tính trọng số của từ trong một tài liệu và trong toàn bộ tập tài liệu.
D. Phân tích cảm xúc của văn bản (sentiment analysis).

22. Kỹ thuật giảm chiều dữ liệu (dimensionality reduction) được sử dụng khi nào trong khai phá dữ liệu?

A. Khi dữ liệu có quá ít thuộc tính.
B. Khi cần tăng độ phức tạp của mô hình.
C. Khi dữ liệu có quá nhiều thuộc tính, gây khó khăn trong xử lý và giảm hiệu suất.
D. Khi muốn tăng cường tính bảo mật của dữ liệu.

23. Độ đo `độ chính xác` (accuracy) trong đánh giá mô hình phân loại được tính như thế nào?

A. Tỷ lệ số lượng dự đoán đúng trên tổng số dự đoán.
B. Tỷ lệ số lượng dự đoán đúng trên tổng số mẫu thực tế thuộc lớp dương tính.
C. Tỷ lệ số lượng dự đoán dương tính đúng trên tổng số mẫu dự đoán dương tính.
D. Trung bình cộng của độ chính xác và độ phủ.

24. Đâu là một ví dụ về ứng dụng của khai phá dữ liệu trong lĩnh vực y tế?

A. Dự báo thời tiết.
B. Phát hiện gian lận thẻ tín dụng.
C. Dự đoán nguy cơ mắc bệnh và hỗ trợ chẩn đoán.
D. Tối ưu hóa chuỗi cung ứng.

25. Phương pháp `k-means` là một thuật toán thuộc loại nào trong khai phá dữ liệu?

A. Phân loại (classification).
B. Hồi quy (regression).
C. Phân cụm (clustering).
D. Khai thác luật kết hợp (association rule mining).

26. Thuật toán phân cụm (clustering) thường được sử dụng để giải quyết loại bài toán khai phá dữ liệu nào?

A. Dự đoán giá trị liên tục (regression).
B. Phân loại đối tượng vào các nhóm định trước (classification).
C. Nhóm các đối tượng tương tự nhau thành cụm (grouping similar objects).
D. Tìm kiếm luật kết hợp giữa các thuộc tính (association rule mining).

27. Độ đo `confidence` (độ tin cậy) trong khai thác luật kết hợp thể hiện điều gì?

A. Tần suất xuất hiện của tiền đề.
B. Xác suất xuất hiện hậu quả khi tiền đề đã xảy ra.
C. Mức độ thú vị của luật.
D. Tần suất xuất hiện của hậu quả.

28. Luật kết hợp (association rule mining) thường được biểu diễn dưới dạng `Nếu A thì B` (If A then B). Trong đó, A và B được gọi là gì?

A. A là tiền đề (antecedent), B là hậu quả (consequent).
B. A là thuộc tính đầu vào, B là thuộc tính đầu ra.
C. A là biến phụ thuộc, B là biến độc lập.
D. A và B đều là biến mục tiêu.

29. Trong thuật toán k-means, giá trị `k` đại diện cho điều gì?

A. Số chiều của dữ liệu.
B. Số lượng cụm mong muốn.
C. Số lần lặp tối đa của thuật toán.
D. Khoảng cách tối thiểu giữa các cụm.

30. Phân loại (classification) khác biệt với hồi quy (regression) chủ yếu ở điểm nào?

A. Phân loại sử dụng dữ liệu có nhãn, hồi quy thì không.
B. Phân loại dự đoán giá trị rời rạc (nhãn lớp), hồi quy dự đoán giá trị liên tục.
C. Phân loại chỉ áp dụng cho dữ liệu văn bản, hồi quy cho dữ liệu số.
D. Phân loại luôn cho kết quả chính xác hơn hồi quy.

1 / 30

Category: Đề thi, bài tập trắc nghiệm online Khai phá dữ liệu

Tags: Bộ đề 9

1. Sự khác biệt chính giữa 'học có giám sát' (supervised learning) và 'học không giám sát' (unsupervised learning) là gì?

2 / 30

Category: Đề thi, bài tập trắc nghiệm online Khai phá dữ liệu

Tags: Bộ đề 9

2. Lỗi 'overfitting' (quá khớp) trong mô hình học máy xảy ra khi nào?

3 / 30

Category: Đề thi, bài tập trắc nghiệm online Khai phá dữ liệu

Tags: Bộ đề 9

3. Trong quá trình đánh giá mô hình phân loại, ma trận nhầm lẫn (confusion matrix) cung cấp thông tin gì?

4 / 30

Category: Đề thi, bài tập trắc nghiệm online Khai phá dữ liệu

Tags: Bộ đề 9

4. Trong khai phá dữ liệu không gian, 'spatial clustering' (phân cụm không gian) khác với phân cụm thông thường như thế nào?

5 / 30

Category: Đề thi, bài tập trắc nghiệm online Khai phá dữ liệu

Tags: Bộ đề 9

5. Phương pháp 'cross-validation' (kiểm định chéo) được sử dụng để làm gì trong khai phá dữ liệu?

6 / 30

Category: Đề thi, bài tập trắc nghiệm online Khai phá dữ liệu

Tags: Bộ đề 9

6. Mục tiêu của 'khai phá chuỗi thời gian' (time series data mining) là gì?

7 / 30

Category: Đề thi, bài tập trắc nghiệm online Khai phá dữ liệu

Tags: Bộ đề 9

7. Trong khai phá dữ liệu mạng xã hội, phân tích 'sentiment' (cảm xúc) thường được sử dụng để làm gì?

8 / 30

Category: Đề thi, bài tập trắc nghiệm online Khai phá dữ liệu

Tags: Bộ đề 9

8. Phương pháp 'gradient boosting' là một loại thuật toán học máy nào?

9 / 30

Category: Đề thi, bài tập trắc nghiệm online Khai phá dữ liệu

Tags: Bộ đề 9

9. Độ đo 'support' (độ hỗ trợ) trong khai thác luật kết hợp thể hiện điều gì?

10 / 30

Category: Đề thi, bài tập trắc nghiệm online Khai phá dữ liệu

Tags: Bộ đề 9

10. Trong bối cảnh khai phá dữ liệu web, 'web usage mining' (khai phá sử dụng web) tập trung vào việc phân tích loại dữ liệu nào?

11 / 30

Category: Đề thi, bài tập trắc nghiệm online Khai phá dữ liệu

Tags: Bộ đề 9

11. Kỹ thuật 'anomaly detection' (phát hiện dị thường) được sử dụng để làm gì?

12 / 30

Category: Đề thi, bài tập trắc nghiệm online Khai phá dữ liệu

Tags: Bộ đề 9

12. Phương pháp 'decision tree' (cây quyết định) thường được sử dụng cho bài toán nào?

13 / 30

Category: Đề thi, bài tập trắc nghiệm online Khai phá dữ liệu

Tags: Bộ đề 9

13. Phân tích 'cohort' (nhóm когорта) thường được sử dụng trong lĩnh vực nào của khai phá dữ liệu?

14 / 30

Category: Đề thi, bài tập trắc nghiệm online Khai phá dữ liệu

Tags: Bộ đề 9

14. Đâu là mục tiêu chính của khai phá dữ liệu?

15 / 30

Category: Đề thi, bài tập trắc nghiệm online Khai phá dữ liệu

Tags: Bộ đề 9

15. Trong quy trình khai phá dữ liệu, giai đoạn nào thường liên quan đến việc làm sạch dữ liệu, xử lý dữ liệu thiếu và chuyển đổi dữ liệu?

16 / 30

Category: Đề thi, bài tập trắc nghiệm online Khai phá dữ liệu

Tags: Bộ đề 9

16. Độ đo 'lift' trong khai thác luật kết hợp được sử dụng để đánh giá điều gì?

17 / 30

Category: Đề thi, bài tập trắc nghiệm online Khai phá dữ liệu

Tags: Bộ đề 9

17. Phương pháp 'principal component analysis' (PCA) là một ví dụ của kỹ thuật nào?

18 / 30

Category: Đề thi, bài tập trắc nghiệm online Khai phá dữ liệu

Tags: Bộ đề 9

18. Đâu là một công cụ hoặc thư viện phổ biến được sử dụng cho khai phá dữ liệu bằng ngôn ngữ Python?

19 / 30

Category: Đề thi, bài tập trắc nghiệm online Khai phá dữ liệu

Tags: Bộ đề 9

19. Trong khai phá dữ liệu, 'feature selection' (lựa chọn thuộc tính) nhằm mục đích gì?

20 / 30

Category: Đề thi, bài tập trắc nghiệm online Khai phá dữ liệu

Tags: Bộ đề 9

20. Đâu là một thách thức lớn khi khai phá dữ liệu lớn (Big Data)?

21 / 30

Category: Đề thi, bài tập trắc nghiệm online Khai phá dữ liệu

Tags: Bộ đề 9

21. Trong khai phá dữ liệu văn bản, kỹ thuật 'TF-IDF' được sử dụng để làm gì?

22 / 30

Category: Đề thi, bài tập trắc nghiệm online Khai phá dữ liệu

Tags: Bộ đề 9

22. Kỹ thuật giảm chiều dữ liệu (dimensionality reduction) được sử dụng khi nào trong khai phá dữ liệu?

23 / 30

Category: Đề thi, bài tập trắc nghiệm online Khai phá dữ liệu

Tags: Bộ đề 9

23. Độ đo 'độ chính xác' (accuracy) trong đánh giá mô hình phân loại được tính như thế nào?

24 / 30

Category: Đề thi, bài tập trắc nghiệm online Khai phá dữ liệu

Tags: Bộ đề 9

24. Đâu là một ví dụ về ứng dụng của khai phá dữ liệu trong lĩnh vực y tế?

25 / 30

Category: Đề thi, bài tập trắc nghiệm online Khai phá dữ liệu

Tags: Bộ đề 9

25. Phương pháp 'k-means' là một thuật toán thuộc loại nào trong khai phá dữ liệu?

26 / 30

Category: Đề thi, bài tập trắc nghiệm online Khai phá dữ liệu

Tags: Bộ đề 9

26. Thuật toán phân cụm (clustering) thường được sử dụng để giải quyết loại bài toán khai phá dữ liệu nào?

27 / 30

Category: Đề thi, bài tập trắc nghiệm online Khai phá dữ liệu

Tags: Bộ đề 9

27. Độ đo 'confidence' (độ tin cậy) trong khai thác luật kết hợp thể hiện điều gì?

28 / 30

Category: Đề thi, bài tập trắc nghiệm online Khai phá dữ liệu

Tags: Bộ đề 9

28. Luật kết hợp (association rule mining) thường được biểu diễn dưới dạng 'Nếu A thì B' (If A then B). Trong đó, A và B được gọi là gì?

29 / 30

Category: Đề thi, bài tập trắc nghiệm online Khai phá dữ liệu

Tags: Bộ đề 9

29. Trong thuật toán k-means, giá trị 'k' đại diện cho điều gì?

30 / 30

Category: Đề thi, bài tập trắc nghiệm online Khai phá dữ liệu

Tags: Bộ đề 9

30. Phân loại (classification) khác biệt với hồi quy (regression) chủ yếu ở điểm nào?