Đề thi, bài tập trắc nghiệm online Khai phá dữ liệu – Đề 10

0

Bạn đã sẵn sàng chưa? 45 phút làm bài bắt đầu!!!

Bạn đã hết giờ làm bài! Xem kết quả các câu hỏi đã làm nhé!!!


Đề thi, bài tập trắc nghiệm online Khai phá dữ liệu

Đề 10 - Bài tập, đề thi trắc nghiệm online Khai phá dữ liệu

1. Đường cong ROC (Receiver Operating Characteristic) và diện tích dưới đường cong AUC (Area Under the Curve) được sử dụng để đánh giá hiệu suất của mô hình nào?

A. Mô hình hồi quy (Regression).
B. Mô hình phân cụm (Clustering).
C. Mô hình phân loại nhị phân (Binary Classification).
D. Mô hình khai phá luật kết hợp (Association Rule Mining).

2. Nguyên tắc hoạt động chính của thuật toán Apriori trong khai phá luật kết hợp là gì?

A. Tìm kiếm luật kết hợp bằng cách duyệt toàn bộ không gian luật.
B. Sử dụng độ đo confidence để loại bỏ các luật không quan trọng.
C. Tính chất `tần suất giảm dần` (downward closure property): nếu một tập hợp mục là không phổ biến, thì mọi tập con của nó cũng không phổ biến.
D. Phân cụm dữ liệu giao dịch trước khi tìm luật kết hợp.

3. Mạng nơ-ron (neural network) thường được sử dụng hiệu quả nhất cho loại bài toán khai phá dữ liệu nào?

A. Khai phá luật kết hợp.
B. Phân cụm dữ liệu.
C. Phân loại và hồi quy phức tạp, đặc biệt với dữ liệu phi tuyến tính.
D. Giảm chiều dữ liệu.

4. Trong khai phá dữ liệu văn bản (text mining), kỹ thuật `TF-IDF` (Term Frequency-Inverse Document Frequency) được sử dụng để làm gì?

A. Phân loại văn bản theo chủ đề.
B. Phân tích cảm xúc của văn bản.
C. Tính trọng số của từ trong một văn bản và trong tập hợp văn bản.
D. Tóm tắt văn bản.

5. So sánh thuật toán K-means và DBSCAN trong phân cụm. Điểm khác biệt chính là gì?

A. K-means hiệu quả hơn với dữ liệu nhiễu.
B. DBSCAN yêu cầu xác định trước số cụm, K-means thì không.
C. K-means phân cụm dựa trên khoảng cách, DBSCAN dựa trên mật độ điểm dữ liệu.
D. DBSCAN chỉ hoạt động với dữ liệu số, K-means có thể xử lý dữ liệu phi số.

6. Trong bài toán hồi quy (regression), độ đo `RMSE` (Root Mean Squared Error) thể hiện điều gì?

A. Độ chính xác của mô hình trong việc phân loại.
B. Sai số trung bình bình phương gốc giữa giá trị dự đoán và giá trị thực tế.
C. Tỷ lệ phương sai được giải thích bởi mô hình.
D. Độ lệch chuẩn của sai số.

7. Trong khai phá dữ liệu, `data warehouse` (kho dữ liệu) có vai trò gì?

A. Nguồn dữ liệu đầu vào trực tiếp cho các thuật toán khai phá dữ liệu trong thời gian thực.
B. Hệ thống lưu trữ dữ liệu đã được tích hợp, làm sạch và chuyển đổi, phục vụ cho mục đích phân tích và báo cáo, bao gồm cả khai phá dữ liệu.
C. Công cụ trực quan hóa dữ liệu.
D. Phần mềm quản lý cơ sở dữ liệu quan hệ.

8. Khai phá dữ liệu (Data Mining) được định nghĩa chính xác nhất là:

A. Quá trình thu thập dữ liệu từ nhiều nguồn khác nhau.
B. Quá trình biến đổi dữ liệu thành các định dạng trực quan để dễ hiểu.
C. Quá trình khám phá tri thức hữu ích, tiềm ẩn từ lượng lớn dữ liệu.
D. Quá trình xây dựng các mô hình dự đoán dựa trên dữ liệu lịch sử.

9. Ứng dụng của khai phá dữ liệu trong lĩnh vực y tế là gì?

A. Dự báo thời tiết.
B. Phân tích hồ sơ bệnh án để phát hiện bệnh tiềm ẩn và hỗ trợ chẩn đoán.
C. Quản lý kho hàng.
D. Tối ưu hóa lộ trình giao hàng.

10. Trong bài toán phân loại (classification), độ đo `precision` (độ chính xác) được tính như thế nào?

A. Tỷ lệ dự đoán đúng trên tổng số dự đoán.
B. Tỷ lệ dự đoán đúng trên tổng số thực tế là tích cực.
C. Tỷ lệ dự đoán sai trên tổng số thực tế là tiêu cực.
D. Tỷ lệ thực tế là tích cực trên tổng số dự đoán là tích cực.

11. Trong quy trình Khám phá tri thức từ dữ liệu (KDD), bước nào sau đây diễn ra **trước** bước Khai phá dữ liệu?

A. Đánh giá mẫu (Pattern Evaluation).
B. Làm sạch dữ liệu (Data Cleaning).
C. Chuyển đổi dữ liệu (Data Transformation).
D. Chọn lọc dữ liệu (Data Selection).

12. Phương pháp `cross-validation` (kiểm định chéo) được sử dụng để làm gì trong đánh giá mô hình khai phá dữ liệu?

A. Tăng tốc độ huấn luyện mô hình.
B. Ước lượng khả năng khái quát hóa của mô hình trên dữ liệu mới, chưa từng thấy.
C. Giảm thiểu overfitting.
D. Lựa chọn thuật toán khai phá dữ liệu tốt nhất.

13. Khái niệm `curse of dimensionality` (lời nguyền chiều dữ liệu) trong khai phá dữ liệu đề cập đến vấn đề gì?

A. Dữ liệu có quá nhiều lỗi.
B. Khi số chiều dữ liệu (số thuộc tính) tăng lên quá cao, hiệu suất của nhiều thuật toán học máy giảm đi.
C. Dữ liệu không đủ lớn để huấn luyện mô hình.
D. Thời gian tính toán tăng lên theo cấp số nhân khi kích thước dữ liệu tăng.

14. Kỹ thuật `feature selection` (chọn lọc đặc trưng) trong tiền xử lý dữ liệu nhằm mục đích chính gì?

A. Tăng kích thước dữ liệu để chứa được nhiều thông tin hơn.
B. Giảm số lượng đặc trưng không liên quan hoặc dư thừa, cải thiện hiệu suất mô hình.
C. Chuyển đổi dữ liệu dạng số sang dạng văn bản để dễ phân tích.
D. Mã hóa dữ liệu để bảo mật thông tin.

15. Phương pháp nào sau đây thường được sử dụng để xử lý dữ liệu bị thiếu (missing data)?

A. Principal Component Analysis (PCA).
B. K-Nearest Neighbors (KNN).
C. Imputation (ước tính giá trị thiếu).
D. Decision Tree (cây quyết định).

16. Ứng dụng nào sau đây **KHÔNG** phải là ứng dụng phổ biến của khai phá dữ liệu?

A. Phân tích hành vi khách hàng để tối ưu chiến dịch marketing.
B. Dự đoán xu hướng thị trường chứng khoán.
C. Kiểm soát chất lượng sản phẩm trong quy trình sản xuất tự động.
D. Soạn thảo văn bản pháp luật dựa trên tiền lệ pháp lý.

17. Nhược điểm của thuật toán K-means clustering là gì?

A. Không hiệu quả với dữ liệu số lượng lớn.
B. Yêu cầu phải xác định trước số lượng cụm (k).
C. Chỉ hoạt động tốt với dữ liệu dạng số.
D. Kết quả phân cụm không ổn định, thay đổi theo mỗi lần chạy.

18. Phương pháp nào sau đây thuộc nhóm kỹ thuật `clustering` (phân cụm) trong khai phá dữ liệu?

A. Cây quyết định (Decision Tree).
B. Hồi quy tuyến tính (Linear Regression).
C. K-means.
D. Mạng nơ-ron (Neural Network).

19. Độ đo `support` (hỗ trợ) trong khai phá luật kết hợp (association rule mining) thể hiện điều gì?

A. Xác suất luật kết hợp là đúng.
B. Tần suất xuất hiện đồng thời của các mục trong luật kết hợp trong tập dữ liệu.
C. Mức độ quan trọng của luật kết hợp đối với người dùng.
D. Độ tin cậy của luật kết hợp trong việc dự đoán.

20. Trong khai phá dữ liệu, `overfitting` (quá khớp) đề cập đến vấn đề gì?

A. Mô hình học quá chậm do dữ liệu quá lớn.
B. Mô hình học quá tốt trên dữ liệu huấn luyện nhưng kém trên dữ liệu mới.
C. Dữ liệu huấn luyện không đủ lớn để mô hình học hiệu quả.
D. Mô hình quá phức tạp dẫn đến thời gian tính toán kéo dài.

21. Kỹ thuật `anomaly detection` (phát hiện bất thường) được sử dụng để làm gì trong khai phá dữ liệu?

A. Phân loại dữ liệu thành các nhóm có quy luật.
B. Dự đoán giá trị tương lai dựa trên dữ liệu quá khứ.
C. Xác định các mẫu dữ liệu khác biệt đáng kể so với phần lớn dữ liệu bình thường.
D. Tìm ra các luật kết hợp giữa các thuộc tính dữ liệu.

22. Trong khai phá dữ liệu chuỗi thời gian (time series data mining), mục tiêu chính thường là gì?

A. Phân loại văn bản dựa trên thời gian xuất bản.
B. Dự đoán giá trị tương lai của chuỗi thời gian dựa trên dữ liệu quá khứ.
C. Phân cụm các đối tượng dựa trên thuộc tính thời gian.
D. Tìm luật kết hợp giữa các sự kiện xảy ra trong cùng một khoảng thời gian.

23. Trong quá trình tiền xử lý dữ liệu, kỹ thuật `normalization` (chuẩn hóa) dữ liệu nhằm mục đích gì?

A. Loại bỏ các giá trị ngoại lai (outliers).
B. Chuyển đổi dữ liệu dạng văn bản sang dạng số.
C. Đưa các thuộc tính số về cùng một thang đo, tránh trường hợp một thuộc tính có giá trị lớn chi phối mô hình.
D. Thay thế các giá trị bị thiếu bằng giá trị trung bình.

24. Phân biệt chính giữa giữa khai phá dữ liệu và thống kê truyền thống là gì?

A. Thống kê truyền thống làm việc với dữ liệu mẫu nhỏ, khai phá dữ liệu làm việc với dữ liệu lớn.
B. Thống kê truyền thống tập trung vào mô tả dữ liệu, khai phá dữ liệu tập trung vào dự đoán.
C. Thống kê truyền thống thường kiểm định giả thuyết đã có, khai phá dữ liệu khám phá ra giả thuyết mới từ dữ liệu.
D. Thống kê truyền thống sử dụng công cụ toán học, khai phá dữ liệu sử dụng công cụ lập trình.

25. Vấn đề `imbalanced dataset` (dữ liệu mất cân bằng) trong phân loại xảy ra khi nào?

A. Dữ liệu chứa nhiều thuộc tính không liên quan.
B. Số lượng mẫu dữ liệu giữa các lớp (class) phân loại quá chênh lệch.
C. Dữ liệu có nhiều giá trị bị thiếu (missing values).
D. Dữ liệu không được chuẩn hóa.

26. Khái niệm `ensemble learning` (học tập kết hợp) trong khai phá dữ liệu là gì?

A. Sử dụng một thuật toán khai phá dữ liệu duy nhất cho nhiều bài toán khác nhau.
B. Kết hợp kết quả dự đoán của nhiều mô hình học máy khác nhau để cải thiện độ chính xác.
C. Chia dữ liệu lớn thành các phần nhỏ hơn để huấn luyện mô hình nhanh hơn.
D. Tự động lựa chọn thuật toán khai phá dữ liệu tốt nhất cho một bài toán cụ thể.

27. Trong khai phá dữ liệu web (web mining), `web usage mining` (khai phá sử dụng web) tập trung vào việc phân tích loại dữ liệu nào?

A. Nội dung văn bản trên các trang web.
B. Cấu trúc liên kết giữa các trang web.
C. Hành vi duyệt web của người dùng (log truy cập, lịch sử duyệt web).
D. Hình ảnh và video trên các trang web.

28. Phương pháp `dimensionality reduction` (giảm chiều dữ liệu) như PCA (Principal Component Analysis) hoạt động dựa trên nguyên tắc nào?

A. Loại bỏ hoàn toàn các đặc trưng có phương sai thấp.
B. Tìm ra một tập hợp mới các đặc trưng tổng hợp (thành phần chính) giữ lại phần lớn phương sai của dữ liệu gốc.
C. Chọn ngẫu nhiên một số lượng đặc trưng nhất định từ dữ liệu gốc.
D. Thay thế các đặc trưng số bằng các đặc trưng phân loại.

29. Ưu điểm chính của cây quyết định (decision tree) so với các mô hình phân loại khác là gì?

A. Độ chính xác dự đoán cao nhất trong mọi trường hợp.
B. Khả năng giải thích kết quả dự đoán dễ dàng, trực quan.
C. Tốc độ huấn luyện mô hình rất nhanh.
D. Khả năng xử lý tốt dữ liệu nhiễu.

30. Chỉ số `F1-score` là trung bình điều hòa (harmonic mean) của hai độ đo nào trong đánh giá mô hình phân loại?

A. Precision (độ chính xác) và Accuracy (độ đúng).
B. Recall (độ phủ) và Accuracy (độ đúng).
C. Precision (độ chính xác) và Recall (độ phủ).
D. Specificity (độ đặc hiệu) và Sensitivity (độ nhạy).

1 / 30

Category: Đề thi, bài tập trắc nghiệm online Khai phá dữ liệu

Tags: Bộ đề 10

1. Đường cong ROC (Receiver Operating Characteristic) và diện tích dưới đường cong AUC (Area Under the Curve) được sử dụng để đánh giá hiệu suất của mô hình nào?

2 / 30

Category: Đề thi, bài tập trắc nghiệm online Khai phá dữ liệu

Tags: Bộ đề 10

2. Nguyên tắc hoạt động chính của thuật toán Apriori trong khai phá luật kết hợp là gì?

3 / 30

Category: Đề thi, bài tập trắc nghiệm online Khai phá dữ liệu

Tags: Bộ đề 10

3. Mạng nơ-ron (neural network) thường được sử dụng hiệu quả nhất cho loại bài toán khai phá dữ liệu nào?

4 / 30

Category: Đề thi, bài tập trắc nghiệm online Khai phá dữ liệu

Tags: Bộ đề 10

4. Trong khai phá dữ liệu văn bản (text mining), kỹ thuật 'TF-IDF' (Term Frequency-Inverse Document Frequency) được sử dụng để làm gì?

5 / 30

Category: Đề thi, bài tập trắc nghiệm online Khai phá dữ liệu

Tags: Bộ đề 10

5. So sánh thuật toán K-means và DBSCAN trong phân cụm. Điểm khác biệt chính là gì?

6 / 30

Category: Đề thi, bài tập trắc nghiệm online Khai phá dữ liệu

Tags: Bộ đề 10

6. Trong bài toán hồi quy (regression), độ đo 'RMSE' (Root Mean Squared Error) thể hiện điều gì?

7 / 30

Category: Đề thi, bài tập trắc nghiệm online Khai phá dữ liệu

Tags: Bộ đề 10

7. Trong khai phá dữ liệu, 'data warehouse' (kho dữ liệu) có vai trò gì?

8 / 30

Category: Đề thi, bài tập trắc nghiệm online Khai phá dữ liệu

Tags: Bộ đề 10

8. Khai phá dữ liệu (Data Mining) được định nghĩa chính xác nhất là:

9 / 30

Category: Đề thi, bài tập trắc nghiệm online Khai phá dữ liệu

Tags: Bộ đề 10

9. Ứng dụng của khai phá dữ liệu trong lĩnh vực y tế là gì?

10 / 30

Category: Đề thi, bài tập trắc nghiệm online Khai phá dữ liệu

Tags: Bộ đề 10

10. Trong bài toán phân loại (classification), độ đo 'precision' (độ chính xác) được tính như thế nào?

11 / 30

Category: Đề thi, bài tập trắc nghiệm online Khai phá dữ liệu

Tags: Bộ đề 10

11. Trong quy trình Khám phá tri thức từ dữ liệu (KDD), bước nào sau đây diễn ra **trước** bước Khai phá dữ liệu?

12 / 30

Category: Đề thi, bài tập trắc nghiệm online Khai phá dữ liệu

Tags: Bộ đề 10

12. Phương pháp 'cross-validation' (kiểm định chéo) được sử dụng để làm gì trong đánh giá mô hình khai phá dữ liệu?

13 / 30

Category: Đề thi, bài tập trắc nghiệm online Khai phá dữ liệu

Tags: Bộ đề 10

13. Khái niệm 'curse of dimensionality' (lời nguyền chiều dữ liệu) trong khai phá dữ liệu đề cập đến vấn đề gì?

14 / 30

Category: Đề thi, bài tập trắc nghiệm online Khai phá dữ liệu

Tags: Bộ đề 10

14. Kỹ thuật 'feature selection' (chọn lọc đặc trưng) trong tiền xử lý dữ liệu nhằm mục đích chính gì?

15 / 30

Category: Đề thi, bài tập trắc nghiệm online Khai phá dữ liệu

Tags: Bộ đề 10

15. Phương pháp nào sau đây thường được sử dụng để xử lý dữ liệu bị thiếu (missing data)?

16 / 30

Category: Đề thi, bài tập trắc nghiệm online Khai phá dữ liệu

Tags: Bộ đề 10

16. Ứng dụng nào sau đây **KHÔNG** phải là ứng dụng phổ biến của khai phá dữ liệu?

17 / 30

Category: Đề thi, bài tập trắc nghiệm online Khai phá dữ liệu

Tags: Bộ đề 10

17. Nhược điểm của thuật toán K-means clustering là gì?

18 / 30

Category: Đề thi, bài tập trắc nghiệm online Khai phá dữ liệu

Tags: Bộ đề 10

18. Phương pháp nào sau đây thuộc nhóm kỹ thuật 'clustering' (phân cụm) trong khai phá dữ liệu?

19 / 30

Category: Đề thi, bài tập trắc nghiệm online Khai phá dữ liệu

Tags: Bộ đề 10

19. Độ đo 'support' (hỗ trợ) trong khai phá luật kết hợp (association rule mining) thể hiện điều gì?

20 / 30

Category: Đề thi, bài tập trắc nghiệm online Khai phá dữ liệu

Tags: Bộ đề 10

20. Trong khai phá dữ liệu, 'overfitting' (quá khớp) đề cập đến vấn đề gì?

21 / 30

Category: Đề thi, bài tập trắc nghiệm online Khai phá dữ liệu

Tags: Bộ đề 10

21. Kỹ thuật 'anomaly detection' (phát hiện bất thường) được sử dụng để làm gì trong khai phá dữ liệu?

22 / 30

Category: Đề thi, bài tập trắc nghiệm online Khai phá dữ liệu

Tags: Bộ đề 10

22. Trong khai phá dữ liệu chuỗi thời gian (time series data mining), mục tiêu chính thường là gì?

23 / 30

Category: Đề thi, bài tập trắc nghiệm online Khai phá dữ liệu

Tags: Bộ đề 10

23. Trong quá trình tiền xử lý dữ liệu, kỹ thuật 'normalization' (chuẩn hóa) dữ liệu nhằm mục đích gì?

24 / 30

Category: Đề thi, bài tập trắc nghiệm online Khai phá dữ liệu

Tags: Bộ đề 10

24. Phân biệt chính giữa giữa khai phá dữ liệu và thống kê truyền thống là gì?

25 / 30

Category: Đề thi, bài tập trắc nghiệm online Khai phá dữ liệu

Tags: Bộ đề 10

25. Vấn đề 'imbalanced dataset' (dữ liệu mất cân bằng) trong phân loại xảy ra khi nào?

26 / 30

Category: Đề thi, bài tập trắc nghiệm online Khai phá dữ liệu

Tags: Bộ đề 10

26. Khái niệm 'ensemble learning' (học tập kết hợp) trong khai phá dữ liệu là gì?

27 / 30

Category: Đề thi, bài tập trắc nghiệm online Khai phá dữ liệu

Tags: Bộ đề 10

27. Trong khai phá dữ liệu web (web mining), 'web usage mining' (khai phá sử dụng web) tập trung vào việc phân tích loại dữ liệu nào?

28 / 30

Category: Đề thi, bài tập trắc nghiệm online Khai phá dữ liệu

Tags: Bộ đề 10

28. Phương pháp 'dimensionality reduction' (giảm chiều dữ liệu) như PCA (Principal Component Analysis) hoạt động dựa trên nguyên tắc nào?

29 / 30

Category: Đề thi, bài tập trắc nghiệm online Khai phá dữ liệu

Tags: Bộ đề 10

29. Ưu điểm chính của cây quyết định (decision tree) so với các mô hình phân loại khác là gì?

30 / 30

Category: Đề thi, bài tập trắc nghiệm online Khai phá dữ liệu

Tags: Bộ đề 10

30. Chỉ số 'F1-score' là trung bình điều hòa (harmonic mean) của hai độ đo nào trong đánh giá mô hình phân loại?