Trắc nghiệm Khoa học máy tính 12 Kết nối bài 27: Máy tính và Khoa học dữ liệu

Bạn đã sẵn sàng chưa? 45 phút làm bài bắt đầu!!!

Bạn đã hết giờ làm bài! Xem kết quả các câu hỏi đã làm nhé!!!

Trắc nghiệm Khoa học máy tính 12 Kết nối bài 27: Máy tính và Khoa học dữ liệu

1. Thuật ngữ "Feature Engineering" trong Khoa học dữ liệu đề cập đến quá trình nào?

A. Xây dựng các thuật toán học máy mới

B. Tạo ra các biến mới (features) từ dữ liệu gốc để cải thiện hiệu suất mô hình

C. Làm sạch và loại bỏ các giá trị thiếu trong dữ liệu

D. Đánh giá độ chính xác của mô hình đã huấn luyện

2. Kỹ thuật nào giúp khám phá các mối quan hệ ẩn giữa các mục trong một tập dữ liệu lớn, thường được áp dụng trong phân tích giỏ hàng (market basket analysis)?

A. Phân tích hồi quy (Regression Analysis)

B. Phân tích luật kết hợp (Association Rule Mining)

C. Phân tích chuỗi thời gian (Time Series Analysis)

D. Phân tích cụm (Cluster Analysis)

3. Trong Khoa học dữ liệu, thuật ngữ "Feature Selection" liên quan đến việc gì?

A. Tạo ra các biến mới từ dữ liệu gốc

B. Giảm số chiều của dữ liệu bằng cách chọn ra các biến quan trọng nhất

C. Huấn luyện mô hình học máy

D. Đánh giá hiệu suất của mô hình bằng các chỉ số

4. Trong Khoa học dữ liệu, thuật ngữ "Model Training" đề cập đến quá trình nào?

A. Trực quan hóa kết quả phân tích

B. Huấn luyện thuật toán học máy trên dữ liệu để nó học các mẫu hình và đưa ra dự đoán

C. Làm sạch và chuẩn bị dữ liệu

D. Viết báo cáo kết quả phân tích

5. Mục tiêu chính của "Data Visualization" trong Khoa học dữ liệu là gì?

A. Tăng cường khả năng tính toán của máy tính

B. Tìm kiếm các mẫu hình và xu hướng ẩn trong dữ liệu một cách trực quan

C. Xóa bỏ các giá trị ngoại lai (outliers) khỏi tập dữ liệu

D. Tự động hóa hoàn toàn quá trình phân tích dữ liệu

6. Ngôn ngữ lập trình nào được sử dụng phổ biến nhất trong Khoa học dữ liệu và Học máy hiện nay?

A. Java

B. C++

C. Python

D. JavaScript

7. Mục đích chính của việc đánh giá mô hình học máy là gì?

A. Tăng tốc độ huấn luyện mô hình

B. Kiểm tra khả năng tổng quát hóa của mô hình trên dữ liệu mới

C. Giảm dung lượng bộ nhớ cần thiết cho mô hình

D. Tìm kiếm các thuật toán học máy phù hợp nhất

8. Thư viện Python nào rất mạnh mẽ cho việc thao tác và phân tích dữ liệu dạng bảng (tabular data)?

A. Matplotlib

B. Scikit-learn

C. Pandas

D. TensorFlow

9. Loại dữ liệu nào thường được biểu diễn dưới dạng các hàng và cột, tương tự như bảng tính?

A. Dữ liệu văn bản (Text Data)

B. Dữ liệu hình ảnh (Image Data)

C. Dữ liệu có cấu trúc (Structured Data)

D. Dữ liệu âm thanh (Audio Data)

10. Kỹ thuật nào sau đây thường được sử dụng để giảm số chiều của dữ liệu mà vẫn giữ được phần lớn thông tin quan trọng?

A. Phân tích hồi quy (Regression Analysis)

B. Phân tích cụm (Cluster Analysis)

C. Giảm chiều dữ liệu (Dimensionality Reduction)

D. Học sâu (Deep Learning)

11. Thuật toán "Decision Tree" (Cây quyết định) có thể được sử dụng cho cả bài toán nào sau đây?

A. Chỉ phân loại (Classification)

B. Chỉ hồi quy (Regression)

C. Phân loại (Classification) và Hồi quy (Regression)

D. Phân cụm (Clustering)

12. Kỹ thuật nào sau đây thuộc nhóm "Supervised Learning" và thường được sử dụng để phân loại dữ liệu?

A. K-Means Clustering

B. Principal Component Analysis (PCA)

C. Linear Regression

D. Support Vector Machine (SVM)

13. Khi dữ liệu có nhiều giá trị bị thiếu (missing values), phương pháp nào sau đây KHÔNG phải là một chiến lược xử lý phổ biến?

A. Xóa bỏ các hàng hoặc cột có giá trị thiếu

B. Điền giá trị thiếu bằng giá trị trung bình (mean) hoặc trung vị (median)

C. Sử dụng các thuật toán học máy nâng cao để dự đoán giá trị thiếu

D. Tự động tạo ra các biến mới không liên quan đến dữ liệu gốc để thay thế

14. Trong các kỹ thuật "Unsupervised Learning", phương pháp nào được sử dụng để nhóm các điểm dữ liệu tương tự nhau thành các cụm?

A. Hồi quy tuyến tính (Linear Regression)

B. Phân tích thành phần chính (PCA)

C. Phân cụm K-Means (K-Means Clustering)

D. Cây quyết định (Decision Tree)

15. Thuật toán nào sau đây thường được sử dụng cho các bài toán phân loại nhị phân (binary classification)?

A. K-Means Clustering

B. Linear Regression

C. Logistic Regression

D. Principal Component Analysis (PCA)

16. Kỹ thuật "Cross-validation" (kiểm định chéo) được sử dụng trong Khoa học dữ liệu chủ yếu để làm gì?

A. Tăng tốc độ xử lý dữ liệu

B. Tạo ra các biến mới từ dữ liệu gốc

C. Đánh giá độ tin cậy và khả năng tổng quát hóa của mô hình một cách khách quan hơn

D. Làm sạch dữ liệu bị thiếu

17. Một ví dụ về "Unsupervised Learning" là gì?

A. Dự đoán giá nhà dựa trên diện tích và vị trí

B. Phân loại email là thư rác hoặc không phải thư rác

C. Nhóm các khách hàng có hành vi mua sắm tương tự nhau

D. Nhận dạng chữ viết tay

18. Trong Khoa học dữ liệu, thuật ngữ "Big Data" thường được mô tả bởi những thuộc tính nào?

A. Tốc độ (Velocity), Khối lượng (Volume), Đa dạng (Variety), Chân thực (Veracity), Giá trị (Value)

B. Tốc độ (Velocity), Khối lượng (Volume), Đa dạng (Variety), Độ chính xác (Accuracy)

C. Khối lượng (Volume), Đa dạng (Variety), Chi phí (Cost), Tốc độ (Velocity)

D. Tốc độ (Velocity), Đa dạng (Variety), Độ tin cậy (Reliability), Giá trị (Value)

19. Trong Khoa học dữ liệu, khái niệm "Overfitting" (quá khớp) xảy ra khi nào?

A. Mô hình hoạt động tốt trên dữ liệu huấn luyện nhưng kém trên dữ liệu kiểm tra

B. Mô hình hoạt động kém trên cả dữ liệu huấn luyện và dữ liệu kiểm tra

C. Mô hình quá đơn giản, không nắm bắt được mối quan hệ trong dữ liệu

D. Mô hình huấn luyện quá nhanh

20. Trong Khoa học dữ liệu, mô hình học máy "Supervised Learning" khác với "Unsupervised Learning" ở điểm nào cơ bản nhất?

A. Supervised Learning sử dụng dữ liệu có nhãn (labeled data), Unsupervised Learning sử dụng dữ liệu không nhãn (unlabeled data)

B. Supervised Learning chỉ áp dụng cho dữ liệu số, Unsupervised Learning áp dụng cho cả dữ liệu số và văn bản

C. Supervised Learning luôn cho kết quả chính xác hơn Unsupervised Learning

D. Unsupervised Learning yêu cầu nhiều tài nguyên tính toán hơn Supervised Learning

21. Khi làm việc với dữ liệu chuỗi thời gian (time series data), những thách thức nào thường gặp phải?

A. Dữ liệu không có tính phụ thuộc thời gian

B. Tính mùa vụ, xu hướng và tính tự tương quan (autocorrelation)

C. Dữ liệu luôn có phân phối chuẩn

D. Tất cả các biến đều độc lập với nhau

22. Một trong những bước quan trọng nhất trong quy trình Khoa học dữ liệu là gì, liên quan đến việc làm sạch và chuẩn bị dữ liệu cho phân tích?

A. Trực quan hóa dữ liệu (Data Visualization)

B. Tiền xử lý dữ liệu (Data Preprocessing)

C. Học máy (Machine Learning)

D. Tối ưu hóa mô hình (Model Optimization)

23. Loại phân tích dữ liệu nào tập trung vào việc mô tả dữ liệu hiện có, trả lời câu hỏi "Điều gì đã xảy ra?"

A. Phân tích dự đoán (Predictive Analysis)

B. Phân tích chuẩn đoán (Diagnostic Analysis)

C. Phân tích mô tả (Descriptive Analysis)

D. Phân tích đề xuất (Prescriptive Analysis)

24. Trong Khoa học dữ liệu, "Data Cleaning" là quá trình gì?

A. Tạo ra các biểu đồ đẹp mắt từ dữ liệu

B. Xử lý các dữ liệu không chính xác, không đầy đủ, mâu thuẫn hoặc bị trùng lặp

C. Huấn luyện mô hình học máy với dữ liệu sạch

D. Xây dựng cơ sở dữ liệu mới

25. Thư viện Python nào thường được sử dụng để tạo ra các biểu đồ và trực quan hóa dữ liệu?

A. NumPy

B. Pandas

C. Matplotlib

D. Scikit-learn

1 / 25

Category: Trắc nghiệm Khoa học máy tính 12 Kết nối bài 27: Máy tính và Khoa học dữ liệu

Tags: Bộ đề 1

1. Thuật ngữ Feature Engineering trong Khoa học dữ liệu đề cập đến quá trình nào?

A. Xây dựng các thuật toán học máy mới

B. Tạo ra các biến mới (features) từ dữ liệu gốc để cải thiện hiệu suất mô hình

C. Làm sạch và loại bỏ các giá trị thiếu trong dữ liệu

D. Đánh giá độ chính xác của mô hình đã huấn luyện

2 / 25

Category: Trắc nghiệm Khoa học máy tính 12 Kết nối bài 27: Máy tính và Khoa học dữ liệu

Tags: Bộ đề 1

A. Phân tích hồi quy (Regression Analysis)

B. Phân tích luật kết hợp (Association Rule Mining)

C. Phân tích chuỗi thời gian (Time Series Analysis)

D. Phân tích cụm (Cluster Analysis)

3 / 25

Category: Trắc nghiệm Khoa học máy tính 12 Kết nối bài 27: Máy tính và Khoa học dữ liệu

Tags: Bộ đề 1

3. Trong Khoa học dữ liệu, thuật ngữ Feature Selection liên quan đến việc gì?

A. Tạo ra các biến mới từ dữ liệu gốc

B. Giảm số chiều của dữ liệu bằng cách chọn ra các biến quan trọng nhất

C. Huấn luyện mô hình học máy

D. Đánh giá hiệu suất của mô hình bằng các chỉ số

4 / 25

Category: Trắc nghiệm Khoa học máy tính 12 Kết nối bài 27: Máy tính và Khoa học dữ liệu

Tags: Bộ đề 1

4. Trong Khoa học dữ liệu, thuật ngữ Model Training đề cập đến quá trình nào?

A. Trực quan hóa kết quả phân tích

B. Huấn luyện thuật toán học máy trên dữ liệu để nó học các mẫu hình và đưa ra dự đoán

C. Làm sạch và chuẩn bị dữ liệu

D. Viết báo cáo kết quả phân tích

5 / 25

Category: Trắc nghiệm Khoa học máy tính 12 Kết nối bài 27: Máy tính và Khoa học dữ liệu

Tags: Bộ đề 1

5. Mục tiêu chính của Data Visualization trong Khoa học dữ liệu là gì?

A. Tăng cường khả năng tính toán của máy tính

B. Tìm kiếm các mẫu hình và xu hướng ẩn trong dữ liệu một cách trực quan

C. Xóa bỏ các giá trị ngoại lai (outliers) khỏi tập dữ liệu

D. Tự động hóa hoàn toàn quá trình phân tích dữ liệu

6 / 25

Category: Trắc nghiệm Khoa học máy tính 12 Kết nối bài 27: Máy tính và Khoa học dữ liệu

Tags: Bộ đề 1

6. Ngôn ngữ lập trình nào được sử dụng phổ biến nhất trong Khoa học dữ liệu và Học máy hiện nay?

A. Java

B. C++

C. Python

D. JavaScript

7 / 25

Category: Trắc nghiệm Khoa học máy tính 12 Kết nối bài 27: Máy tính và Khoa học dữ liệu

Tags: Bộ đề 1

7. Mục đích chính của việc đánh giá mô hình học máy là gì?

A. Tăng tốc độ huấn luyện mô hình

B. Kiểm tra khả năng tổng quát hóa của mô hình trên dữ liệu mới

C. Giảm dung lượng bộ nhớ cần thiết cho mô hình

D. Tìm kiếm các thuật toán học máy phù hợp nhất

8 / 25

Category: Trắc nghiệm Khoa học máy tính 12 Kết nối bài 27: Máy tính và Khoa học dữ liệu

Tags: Bộ đề 1

8. Thư viện Python nào rất mạnh mẽ cho việc thao tác và phân tích dữ liệu dạng bảng (tabular data)?

A. Matplotlib

B. Scikit-learn

C. Pandas

D. TensorFlow

9 / 25

Category: Trắc nghiệm Khoa học máy tính 12 Kết nối bài 27: Máy tính và Khoa học dữ liệu

Tags: Bộ đề 1

9. Loại dữ liệu nào thường được biểu diễn dưới dạng các hàng và cột, tương tự như bảng tính?

A. Dữ liệu văn bản (Text Data)

B. Dữ liệu hình ảnh (Image Data)

C. Dữ liệu có cấu trúc (Structured Data)

D. Dữ liệu âm thanh (Audio Data)

10 / 25

Category: Trắc nghiệm Khoa học máy tính 12 Kết nối bài 27: Máy tính và Khoa học dữ liệu

Tags: Bộ đề 1

10. Kỹ thuật nào sau đây thường được sử dụng để giảm số chiều của dữ liệu mà vẫn giữ được phần lớn thông tin quan trọng?

A. Phân tích hồi quy (Regression Analysis)

B. Phân tích cụm (Cluster Analysis)

C. Giảm chiều dữ liệu (Dimensionality Reduction)

D. Học sâu (Deep Learning)

11 / 25

Category: Trắc nghiệm Khoa học máy tính 12 Kết nối bài 27: Máy tính và Khoa học dữ liệu

Tags: Bộ đề 1

11. Thuật toán Decision Tree (Cây quyết định) có thể được sử dụng cho cả bài toán nào sau đây?

A. Chỉ phân loại (Classification)

B. Chỉ hồi quy (Regression)

C. Phân loại (Classification) và Hồi quy (Regression)

D. Phân cụm (Clustering)

12 / 25

Category: Trắc nghiệm Khoa học máy tính 12 Kết nối bài 27: Máy tính và Khoa học dữ liệu

Tags: Bộ đề 1

12. Kỹ thuật nào sau đây thuộc nhóm Supervised Learning và thường được sử dụng để phân loại dữ liệu?

A. K-Means Clustering

B. Principal Component Analysis (PCA)

C. Linear Regression

D. Support Vector Machine (SVM)

13 / 25

Category: Trắc nghiệm Khoa học máy tính 12 Kết nối bài 27: Máy tính và Khoa học dữ liệu

Tags: Bộ đề 1

13. Khi dữ liệu có nhiều giá trị bị thiếu (missing values), phương pháp nào sau đây KHÔNG phải là một chiến lược xử lý phổ biến?

A. Xóa bỏ các hàng hoặc cột có giá trị thiếu

B. Điền giá trị thiếu bằng giá trị trung bình (mean) hoặc trung vị (median)

C. Sử dụng các thuật toán học máy nâng cao để dự đoán giá trị thiếu

D. Tự động tạo ra các biến mới không liên quan đến dữ liệu gốc để thay thế

14 / 25

Category: Trắc nghiệm Khoa học máy tính 12 Kết nối bài 27: Máy tính và Khoa học dữ liệu

Tags: Bộ đề 1

14. Trong các kỹ thuật Unsupervised Learning, phương pháp nào được sử dụng để nhóm các điểm dữ liệu tương tự nhau thành các cụm?

A. Hồi quy tuyến tính (Linear Regression)

B. Phân tích thành phần chính (PCA)

C. Phân cụm K-Means (K-Means Clustering)

D. Cây quyết định (Decision Tree)

15 / 25

Category: Trắc nghiệm Khoa học máy tính 12 Kết nối bài 27: Máy tính và Khoa học dữ liệu

Tags: Bộ đề 1

15. Thuật toán nào sau đây thường được sử dụng cho các bài toán phân loại nhị phân (binary classification)?

A. K-Means Clustering

B. Linear Regression

C. Logistic Regression

D. Principal Component Analysis (PCA)

16 / 25

Category: Trắc nghiệm Khoa học máy tính 12 Kết nối bài 27: Máy tính và Khoa học dữ liệu

Tags: Bộ đề 1

16. Kỹ thuật Cross-validation (kiểm định chéo) được sử dụng trong Khoa học dữ liệu chủ yếu để làm gì?

A. Tăng tốc độ xử lý dữ liệu

B. Tạo ra các biến mới từ dữ liệu gốc

C. Đánh giá độ tin cậy và khả năng tổng quát hóa của mô hình một cách khách quan hơn

D. Làm sạch dữ liệu bị thiếu

17 / 25

Category: Trắc nghiệm Khoa học máy tính 12 Kết nối bài 27: Máy tính và Khoa học dữ liệu

Tags: Bộ đề 1

17. Một ví dụ về Unsupervised Learning là gì?

A. Dự đoán giá nhà dựa trên diện tích và vị trí

B. Phân loại email là thư rác hoặc không phải thư rác

C. Nhóm các khách hàng có hành vi mua sắm tương tự nhau

D. Nhận dạng chữ viết tay

18 / 25

Category: Trắc nghiệm Khoa học máy tính 12 Kết nối bài 27: Máy tính và Khoa học dữ liệu

Tags: Bộ đề 1

18. Trong Khoa học dữ liệu, thuật ngữ Big Data thường được mô tả bởi những thuộc tính nào?

A. Tốc độ (Velocity), Khối lượng (Volume), Đa dạng (Variety), Chân thực (Veracity), Giá trị (Value)

B. Tốc độ (Velocity), Khối lượng (Volume), Đa dạng (Variety), Độ chính xác (Accuracy)

C. Khối lượng (Volume), Đa dạng (Variety), Chi phí (Cost), Tốc độ (Velocity)

D. Tốc độ (Velocity), Đa dạng (Variety), Độ tin cậy (Reliability), Giá trị (Value)

19 / 25

Category: Trắc nghiệm Khoa học máy tính 12 Kết nối bài 27: Máy tính và Khoa học dữ liệu

Tags: Bộ đề 1

19. Trong Khoa học dữ liệu, khái niệm Overfitting (quá khớp) xảy ra khi nào?

A. Mô hình hoạt động tốt trên dữ liệu huấn luyện nhưng kém trên dữ liệu kiểm tra

B. Mô hình hoạt động kém trên cả dữ liệu huấn luyện và dữ liệu kiểm tra

C. Mô hình quá đơn giản, không nắm bắt được mối quan hệ trong dữ liệu

D. Mô hình huấn luyện quá nhanh

20 / 25

Category: Trắc nghiệm Khoa học máy tính 12 Kết nối bài 27: Máy tính và Khoa học dữ liệu

Tags: Bộ đề 1

20. Trong Khoa học dữ liệu, mô hình học máy Supervised Learning khác với Unsupervised Learning ở điểm nào cơ bản nhất?

A. Supervised Learning sử dụng dữ liệu có nhãn (labeled data), Unsupervised Learning sử dụng dữ liệu không nhãn (unlabeled data)

B. Supervised Learning chỉ áp dụng cho dữ liệu số, Unsupervised Learning áp dụng cho cả dữ liệu số và văn bản

C. Supervised Learning luôn cho kết quả chính xác hơn Unsupervised Learning

D. Unsupervised Learning yêu cầu nhiều tài nguyên tính toán hơn Supervised Learning

21 / 25

Category: Trắc nghiệm Khoa học máy tính 12 Kết nối bài 27: Máy tính và Khoa học dữ liệu

Tags: Bộ đề 1

21. Khi làm việc với dữ liệu chuỗi thời gian (time series data), những thách thức nào thường gặp phải?

A. Dữ liệu không có tính phụ thuộc thời gian

B. Tính mùa vụ, xu hướng và tính tự tương quan (autocorrelation)

C. Dữ liệu luôn có phân phối chuẩn

D. Tất cả các biến đều độc lập với nhau

22 / 25

Category: Trắc nghiệm Khoa học máy tính 12 Kết nối bài 27: Máy tính và Khoa học dữ liệu

Tags: Bộ đề 1

22. Một trong những bước quan trọng nhất trong quy trình Khoa học dữ liệu là gì, liên quan đến việc làm sạch và chuẩn bị dữ liệu cho phân tích?

A. Trực quan hóa dữ liệu (Data Visualization)

B. Tiền xử lý dữ liệu (Data Preprocessing)

C. Học máy (Machine Learning)

D. Tối ưu hóa mô hình (Model Optimization)

23 / 25

Category: Trắc nghiệm Khoa học máy tính 12 Kết nối bài 27: Máy tính và Khoa học dữ liệu

Tags: Bộ đề 1

23. Loại phân tích dữ liệu nào tập trung vào việc mô tả dữ liệu hiện có, trả lời câu hỏi Điều gì đã xảy ra?

A. Phân tích dự đoán (Predictive Analysis)

B. Phân tích chuẩn đoán (Diagnostic Analysis)

C. Phân tích mô tả (Descriptive Analysis)

D. Phân tích đề xuất (Prescriptive Analysis)

24 / 25

Category: Trắc nghiệm Khoa học máy tính 12 Kết nối bài 27: Máy tính và Khoa học dữ liệu

Tags: Bộ đề 1

24. Trong Khoa học dữ liệu, Data Cleaning là quá trình gì?

A. Tạo ra các biểu đồ đẹp mắt từ dữ liệu

B. Xử lý các dữ liệu không chính xác, không đầy đủ, mâu thuẫn hoặc bị trùng lặp

C. Huấn luyện mô hình học máy với dữ liệu sạch

D. Xây dựng cơ sở dữ liệu mới

25 / 25

Category: Trắc nghiệm Khoa học máy tính 12 Kết nối bài 27: Máy tính và Khoa học dữ liệu

Tags: Bộ đề 1

25. Thư viện Python nào thường được sử dụng để tạo ra các biểu đồ và trực quan hóa dữ liệu?

A. NumPy

B. Pandas

C. Matplotlib

D. Scikit-learn

Xem kết quả

Đề trắc nghiệm liên quan: