Trắc nghiệm Khoa học máy tính 12 Chân trời bài F17: Hoạt động trải nghiệm về Khoa học dữ liệu

0

Bạn đã sẵn sàng chưa? 45 phút làm bài bắt đầu!!!

Bạn đã hết giờ làm bài! Xem kết quả các câu hỏi đã làm nhé!!!


Trắc nghiệm Khoa học máy tính 12 Chân trời bài F17: Hoạt động trải nghiệm về Khoa học dữ liệu

Trắc nghiệm Khoa học máy tính 12 Chân trời bài F17: Hoạt động trải nghiệm về Khoa học dữ liệu

1. Trong phân tích dữ liệu, "Outlier" (Ngoại lệ) là gì?

A. Các giá trị dữ liệu phổ biến nhất trong một tập dữ liệu.
B. Các giá trị dữ liệu bất thường, khác biệt đáng kể so với phần lớn các điểm dữ liệu khác.
C. Các giá trị dữ liệu bị thiếu trong tập dữ liệu.
D. Các thuộc tính quan trọng nhất của tập dữ liệu.

2. Một doanh nghiệp muốn phân tích hành vi mua sắm của khách hàng để đưa ra các chương trình khuyến mãi phù hợp. Dữ liệu nào sau đây là phù hợp nhất để thực hiện phân tích này?

A. Dữ liệu về thời tiết hàng ngày tại địa phương
B. Dữ liệu lịch sử giao dịch mua hàng của khách hàng (sản phẩm, số lượng, thời gian, giá trị)
C. Dữ liệu về số lượng nhân viên của công ty
D. Dữ liệu về báo cáo tài chính của công ty trong năm

3. Một nhà khoa học dữ liệu muốn xây dựng một mô hình dự đoán giá nhà dựa trên các đặc điểm như diện tích, số phòng, vị trí, v.v. Thuật toán nào sau đây thường được áp dụng cho bài toán dự đoán một giá trị liên tục?

A. Logistic Regression
B. K-Nearest Neighbors (KNN) cho phân loại
C. Linear Regression
D. Decision Tree cho phân loại

4. Trong trực quan hóa dữ liệu, biểu đồ nào sau đây phù hợp nhất để hiển thị sự phân phối của một biến định lượng liên tục, cho thấy tần suất xuất hiện của các giá trị trong các khoảng khác nhau?

A. Biểu đồ cột (Bar Chart)
B. Biểu đồ tròn (Pie Chart)
C. Biểu đồ phân tán (Scatter Plot)
D. Biểu đồ tần suất (Histogram)

5. Một nhà khoa học dữ liệu đang xây dựng mô hình dự đoán khả năng khách hàng rời bỏ dịch vụ (churn prediction). Dữ liệu về hành vi sử dụng dịch vụ của khách hàng theo thời gian là loại dữ liệu gì?

A. Dữ liệu cắt ngang (Cross-sectional Data)
B. Dữ liệu chuỗi thời gian (Time Series Data)
C. Dữ liệu bảng (Panel Data)
D. Dữ liệu không có cấu trúc (Unstructured Data)

6. Trong khai phá dữ liệu, thuật toán K-Means được sử dụng chủ yếu cho loại bài toán nào?

A. Phân loại (Classification)
B. Hồi quy (Regression)
C. Phân cụm (Clustering)
D. Giảm chiều dữ liệu (Dimensionality Reduction)

7. Một công ty thương mại điện tử muốn xây dựng hệ thống gợi ý sản phẩm cho khách hàng dựa trên lịch sử mua sắm và hành vi duyệt web của họ. Phương pháp nào sau đây thuộc nhóm "Học tăng cường" (Reinforcement Learning) có thể được áp dụng cho bài toán này?

A. Phân tích thành phần chính (PCA)
B. Thuật toán Apriori
C. Học sâu (Deep Learning)
D. Hệ thống gợi ý dựa trên học tăng cường (Reinforcement Learning-based Recommender Systems)

8. Một nhà khoa học dữ liệu đang làm việc với một bộ dữ liệu lớn chứa nhiều giá trị bị thiếu. Phương pháp nào sau đây là phù hợp nhất để xử lý các giá trị bị thiếu trong trường hợp này để tránh làm sai lệch kết quả phân tích?

A. Xóa bỏ hoàn toàn các hàng chứa giá trị bị thiếu
B. Điền các giá trị bị thiếu bằng giá trị trung bình hoặc trung vị của cột đó
C. Điền các giá trị bị thiếu bằng giá trị xuất hiện nhiều nhất (mode) của cột đó
D. Sử dụng các thuật toán nội suy hoặc mô hình dự đoán để ước tính giá trị bị thiếu

9. Trong phân tích chuỗi thời gian, một hiện tượng lặp lại theo chu kỳ cố định (ví dụ: doanh số tăng vào mỗi cuối tuần) được gọi là gì?

A. Xu hướng (Trend)
B. Tính thời vụ (Seasonality)
C. Tạp âm (Noise)
D. Tính ngẫu nhiên (Randomness)

10. Khi đánh giá hiệu suất của một mô hình phân loại, chỉ số Accuracy (Độ chính xác) có thể không phản ánh đúng hiệu quả nếu tập dữ liệu bị mất cân bằng (ví dụ: số lượng mẫu của một lớp vượt trội so với các lớp khác). Trong trường hợp này, chỉ số nào sau đây thường được ưu tiên sử dụng hơn?

A. Mean Squared Error (MSE)
B. F1-Score
C. R-squared
D. Mean Absolute Error (MAE)

11. Trong phân tích dữ liệu, "Bias-Variance Tradeoff" (Đánh đổi giữa Thiên vị và Phương sai) là một khái niệm quan trọng. Mô hình có "high bias" (thiên vị cao) thường có đặc điểm gì?

A. Quá phức tạp, khớp chặt với dữ liệu huấn luyện nhưng kém hiệu quả trên dữ liệu mới.
B. Quá đơn giản, không nắm bắt được các mối quan hệ phức tạp trong dữ liệu, dẫn đến sai số cao trên cả dữ liệu huấn luyện và dữ liệu mới.
C. Có phương sai thấp, ít nhạy cảm với sự thay đổi của dữ liệu huấn luyện.
D. Có độ chính xác cao trên cả dữ liệu huấn luyện và dữ liệu mới.

12. Trong quá trình làm sạch dữ liệu, việc xác định và xử lý các bản ghi trùng lặp (Duplicate Records) là một bước quan trọng. Phương pháp nào thường được sử dụng để phát hiện các bản ghi trùng lặp trong các tập dữ liệu lớn?

A. Chỉ so sánh bản ghi đầu tiên và cuối cùng của tập dữ liệu.
B. Sử dụng các thuật toán so khớp fuzzy (fuzzy matching) hoặc băm dữ liệu (data hashing) để xác định các bản ghi tương tự hoặc giống hệt nhau.
C. Xóa bỏ ngẫu nhiên một số bản ghi để giảm thiểu trùng lặp.
D. Chỉ tập trung vào các bản ghi có giá trị giống nhau ở tất cả các cột.

13. Khi thực hiện tiền xử lý dữ liệu cho mô hình học máy, việc chuẩn hóa dữ liệu (Data Normalization) thường được thực hiện để đảm bảo các thuộc tính có thang đo khác nhau không ảnh hưởng một cách không cân xứng đến mô hình. Phương pháp chuẩn hóa nào đưa tất cả các giá trị về một phạm vi cố định, ví dụ từ 0 đến 1?

A. Chuẩn hóa Z-score (Z-score Standardization)
B. Chuẩn hóa Min-Max (Min-Max Scaling)
C. Chuẩn hóa Robust (Robust Scaling)
D. Chuẩn hóa L1 (L1 Regularization)

14. Một nhà khoa học dữ liệu muốn trực quan hóa mối quan hệ giữa hai biến định lượng và xác định xem có mối tương quan tuyến tính hay không. Biểu đồ nào là phù hợp nhất cho mục đích này?

A. Biểu đồ cột (Bar Chart)
B. Biểu đồ đường (Line Chart)
C. Biểu đồ phân tán (Scatter Plot)
D. Biểu đồ hộp (Box Plot)

15. Trong mô hình hồi quy logistic, ngoài việc dự đoán xác suất, để hiểu rõ hơn về ảnh hưởng của từng biến độc lập đến biến phụ thuộc, người ta thường xem xét các hệ số hồi quy. Hệ số hồi quy trong mô hình logistic có ý nghĩa gì?

A. Là sự thay đổi trong biến phụ thuộc khi biến độc lập thay đổi một đơn vị.
B. Là sự thay đổi trong log-odds (logarit của tỉ lệ khả năng) của biến phụ thuộc khi biến độc lập thay đổi một đơn vị.
C. Là tỉ lệ thay đổi của biến phụ thuộc so với biến độc lập.
D. Là độ lệch chuẩn của biến phụ thuộc.

16. Một nhà phân tích dữ liệu đang xem xét mối quan hệ giữa số giờ học và điểm thi của sinh viên. Họ sử dụng biểu đồ phân tán (Scatter Plot) để trực quan hóa dữ liệu này. Nếu các điểm dữ liệu có xu hướng tạo thành một đường đi lên từ trái sang phải, điều này cho thấy mối quan hệ gì giữa hai biến?

A. Mối quan hệ nghịch đảo (Negative Correlation)
B. Không có mối quan hệ (No Correlation)
C. Mối quan hệ đồng biến/tương quan dương (Positive Correlation)
D. Mối quan hệ phi tuyến tính (Non-linear Relationship)

17. Trong quy trình Khoa học dữ liệu, bước nào thường được coi là quan trọng nhất và tốn nhiều thời gian nhất, ảnh hưởng trực tiếp đến chất lượng của các bước tiếp theo?

A. Trực quan hóa dữ liệu
B. Thu thập và làm sạch dữ liệu
C. Xây dựng mô hình
D. Triển khai mô hình

18. Trong kho dữ liệu (Data Warehouse), khái niệm "ETL" là viết tắt của quy trình nào?

A. Extract, Test, Load
B. Execute, Transform, Link
C. Extract, Transform, Load
D. Evaluate, Transfer, Log

19. Trong học máy, thuật toán "Random Forest" (Rừng ngẫu nhiên) là một phương pháp dựa trên tập hợp các "Decision Tree". Mục đích chính của việc sử dụng Random Forest là gì?

A. Giảm thiểu số lượng thuộc tính trong dữ liệu.
B. Tăng cường độ chính xác và giảm hiện tượng overfitting bằng cách kết hợp nhiều cây quyết định.
C. Phân cụm dữ liệu thành các nhóm khác nhau.
D. Dự đoán giá trị liên tục dựa trên mối quan hệ tuyến tính.

20. Phương pháp nào được sử dụng để giảm số lượng thuộc tính (features) trong một tập dữ liệu mà vẫn giữ lại phần lớn thông tin quan trọng, thường là bằng cách tạo ra các thuộc tính mới là tổ hợp tuyến tính của các thuộc tính gốc?

A. Phân cụm (Clustering)
B. Phân loại (Classification)
C. Phân tích thành phần chính (Principal Component Analysis - PCA)
D. Hồi quy (Regression)

21. Khi thực hiện phân tích liên kết (Association Rule Mining), mục tiêu chính là khám phá mối quan hệ giữa các mặt hàng hoặc sự kiện thường xuất hiện cùng nhau trong một tập dữ liệu. Một quy tắc liên kết có thể được biểu diễn dưới dạng nào?

A. {A, B} -> {C}
B. X + Y = Z
C. IF (A AND B) THEN (C)
D. A < B > C

22. Một nhà khoa học dữ liệu muốn tìm hiểu xem liệu có sự khác biệt đáng kể về điểm trung bình giữa hai nhóm sinh viên (ví dụ: nhóm học thêm và nhóm không học thêm). Phương pháp thống kê nào thường được sử dụng để so sánh giá trị trung bình của hai nhóm độc lập?

A. Phân tích hồi quy (Regression Analysis)
B. Kiểm định t độc lập (Independent Samples t-test)
C. Phân tích phương sai (ANOVA)
D. Kiểm định Chi-squared (Chi-squared test)

23. Khi làm việc với dữ liệu văn bản (text data), bước đầu tiên thường bao gồm việc chuyển đổi văn bản thành dạng số để các thuật toán học máy có thể xử lý. Quá trình này được gọi là gì?

A. Phân tích cảm xúc (Sentiment Analysis)
B. Xử lý ngôn ngữ tự nhiên (Natural Language Processing - NLP) ban đầu
C. Vector hóa văn bản (Text Vectorization)
D. Trích xuất đặc trưng (Feature Extraction)

24. Thuật toán "Decision Tree" (Cây quyết định) thuộc loại hình học máy nào?

A. Học không giám sát (Unsupervised Learning)
B. Học bán giám sát (Semi-supervised Learning)
C. Học có giám sát (Supervised Learning)
D. Học tăng cường (Reinforcement Learning)

25. Trong lĩnh vực Khoa học dữ liệu, thuật ngữ "Big Data" thường đề cập đến các tập dữ liệu có đặc điểm nào sau đây (ngoài "Volume" - Khối lượng)?

A. Chỉ đề cập đến kích thước dữ liệu lớn
B. Tốc độ xử lý cao và tính xác thực
C. Đa dạng (Variety), Tốc độ (Velocity) và Tính xác thực (Veracity)
D. Tính linh hoạt và khả năng mở rộng

1 / 25

Category: Trắc nghiệm Khoa học máy tính 12 Chân trời bài F17: Hoạt động trải nghiệm về Khoa học dữ liệu

Tags: Bộ đề 1

1. Trong phân tích dữ liệu, Outlier (Ngoại lệ) là gì?

2 / 25

Category: Trắc nghiệm Khoa học máy tính 12 Chân trời bài F17: Hoạt động trải nghiệm về Khoa học dữ liệu

Tags: Bộ đề 1

2. Một doanh nghiệp muốn phân tích hành vi mua sắm của khách hàng để đưa ra các chương trình khuyến mãi phù hợp. Dữ liệu nào sau đây là phù hợp nhất để thực hiện phân tích này?

3 / 25

Category: Trắc nghiệm Khoa học máy tính 12 Chân trời bài F17: Hoạt động trải nghiệm về Khoa học dữ liệu

Tags: Bộ đề 1

3. Một nhà khoa học dữ liệu muốn xây dựng một mô hình dự đoán giá nhà dựa trên các đặc điểm như diện tích, số phòng, vị trí, v.v. Thuật toán nào sau đây thường được áp dụng cho bài toán dự đoán một giá trị liên tục?

4 / 25

Category: Trắc nghiệm Khoa học máy tính 12 Chân trời bài F17: Hoạt động trải nghiệm về Khoa học dữ liệu

Tags: Bộ đề 1

4. Trong trực quan hóa dữ liệu, biểu đồ nào sau đây phù hợp nhất để hiển thị sự phân phối của một biến định lượng liên tục, cho thấy tần suất xuất hiện của các giá trị trong các khoảng khác nhau?

5 / 25

Category: Trắc nghiệm Khoa học máy tính 12 Chân trời bài F17: Hoạt động trải nghiệm về Khoa học dữ liệu

Tags: Bộ đề 1

5. Một nhà khoa học dữ liệu đang xây dựng mô hình dự đoán khả năng khách hàng rời bỏ dịch vụ (churn prediction). Dữ liệu về hành vi sử dụng dịch vụ của khách hàng theo thời gian là loại dữ liệu gì?

6 / 25

Category: Trắc nghiệm Khoa học máy tính 12 Chân trời bài F17: Hoạt động trải nghiệm về Khoa học dữ liệu

Tags: Bộ đề 1

6. Trong khai phá dữ liệu, thuật toán K-Means được sử dụng chủ yếu cho loại bài toán nào?

7 / 25

Category: Trắc nghiệm Khoa học máy tính 12 Chân trời bài F17: Hoạt động trải nghiệm về Khoa học dữ liệu

Tags: Bộ đề 1

7. Một công ty thương mại điện tử muốn xây dựng hệ thống gợi ý sản phẩm cho khách hàng dựa trên lịch sử mua sắm và hành vi duyệt web của họ. Phương pháp nào sau đây thuộc nhóm Học tăng cường (Reinforcement Learning) có thể được áp dụng cho bài toán này?

8 / 25

Category: Trắc nghiệm Khoa học máy tính 12 Chân trời bài F17: Hoạt động trải nghiệm về Khoa học dữ liệu

Tags: Bộ đề 1

8. Một nhà khoa học dữ liệu đang làm việc với một bộ dữ liệu lớn chứa nhiều giá trị bị thiếu. Phương pháp nào sau đây là phù hợp nhất để xử lý các giá trị bị thiếu trong trường hợp này để tránh làm sai lệch kết quả phân tích?

9 / 25

Category: Trắc nghiệm Khoa học máy tính 12 Chân trời bài F17: Hoạt động trải nghiệm về Khoa học dữ liệu

Tags: Bộ đề 1

9. Trong phân tích chuỗi thời gian, một hiện tượng lặp lại theo chu kỳ cố định (ví dụ: doanh số tăng vào mỗi cuối tuần) được gọi là gì?

10 / 25

Category: Trắc nghiệm Khoa học máy tính 12 Chân trời bài F17: Hoạt động trải nghiệm về Khoa học dữ liệu

Tags: Bộ đề 1

10. Khi đánh giá hiệu suất của một mô hình phân loại, chỉ số Accuracy (Độ chính xác) có thể không phản ánh đúng hiệu quả nếu tập dữ liệu bị mất cân bằng (ví dụ: số lượng mẫu của một lớp vượt trội so với các lớp khác). Trong trường hợp này, chỉ số nào sau đây thường được ưu tiên sử dụng hơn?

11 / 25

Category: Trắc nghiệm Khoa học máy tính 12 Chân trời bài F17: Hoạt động trải nghiệm về Khoa học dữ liệu

Tags: Bộ đề 1

11. Trong phân tích dữ liệu, Bias-Variance Tradeoff (Đánh đổi giữa Thiên vị và Phương sai) là một khái niệm quan trọng. Mô hình có high bias (thiên vị cao) thường có đặc điểm gì?

12 / 25

Category: Trắc nghiệm Khoa học máy tính 12 Chân trời bài F17: Hoạt động trải nghiệm về Khoa học dữ liệu

Tags: Bộ đề 1

12. Trong quá trình làm sạch dữ liệu, việc xác định và xử lý các bản ghi trùng lặp (Duplicate Records) là một bước quan trọng. Phương pháp nào thường được sử dụng để phát hiện các bản ghi trùng lặp trong các tập dữ liệu lớn?

13 / 25

Category: Trắc nghiệm Khoa học máy tính 12 Chân trời bài F17: Hoạt động trải nghiệm về Khoa học dữ liệu

Tags: Bộ đề 1

13. Khi thực hiện tiền xử lý dữ liệu cho mô hình học máy, việc chuẩn hóa dữ liệu (Data Normalization) thường được thực hiện để đảm bảo các thuộc tính có thang đo khác nhau không ảnh hưởng một cách không cân xứng đến mô hình. Phương pháp chuẩn hóa nào đưa tất cả các giá trị về một phạm vi cố định, ví dụ từ 0 đến 1?

14 / 25

Category: Trắc nghiệm Khoa học máy tính 12 Chân trời bài F17: Hoạt động trải nghiệm về Khoa học dữ liệu

Tags: Bộ đề 1

14. Một nhà khoa học dữ liệu muốn trực quan hóa mối quan hệ giữa hai biến định lượng và xác định xem có mối tương quan tuyến tính hay không. Biểu đồ nào là phù hợp nhất cho mục đích này?

15 / 25

Category: Trắc nghiệm Khoa học máy tính 12 Chân trời bài F17: Hoạt động trải nghiệm về Khoa học dữ liệu

Tags: Bộ đề 1

15. Trong mô hình hồi quy logistic, ngoài việc dự đoán xác suất, để hiểu rõ hơn về ảnh hưởng của từng biến độc lập đến biến phụ thuộc, người ta thường xem xét các hệ số hồi quy. Hệ số hồi quy trong mô hình logistic có ý nghĩa gì?

16 / 25

Category: Trắc nghiệm Khoa học máy tính 12 Chân trời bài F17: Hoạt động trải nghiệm về Khoa học dữ liệu

Tags: Bộ đề 1

16. Một nhà phân tích dữ liệu đang xem xét mối quan hệ giữa số giờ học và điểm thi của sinh viên. Họ sử dụng biểu đồ phân tán (Scatter Plot) để trực quan hóa dữ liệu này. Nếu các điểm dữ liệu có xu hướng tạo thành một đường đi lên từ trái sang phải, điều này cho thấy mối quan hệ gì giữa hai biến?

17 / 25

Category: Trắc nghiệm Khoa học máy tính 12 Chân trời bài F17: Hoạt động trải nghiệm về Khoa học dữ liệu

Tags: Bộ đề 1

17. Trong quy trình Khoa học dữ liệu, bước nào thường được coi là quan trọng nhất và tốn nhiều thời gian nhất, ảnh hưởng trực tiếp đến chất lượng của các bước tiếp theo?

18 / 25

Category: Trắc nghiệm Khoa học máy tính 12 Chân trời bài F17: Hoạt động trải nghiệm về Khoa học dữ liệu

Tags: Bộ đề 1

18. Trong kho dữ liệu (Data Warehouse), khái niệm ETL là viết tắt của quy trình nào?

19 / 25

Category: Trắc nghiệm Khoa học máy tính 12 Chân trời bài F17: Hoạt động trải nghiệm về Khoa học dữ liệu

Tags: Bộ đề 1

19. Trong học máy, thuật toán Random Forest (Rừng ngẫu nhiên) là một phương pháp dựa trên tập hợp các Decision Tree. Mục đích chính của việc sử dụng Random Forest là gì?

20 / 25

Category: Trắc nghiệm Khoa học máy tính 12 Chân trời bài F17: Hoạt động trải nghiệm về Khoa học dữ liệu

Tags: Bộ đề 1

20. Phương pháp nào được sử dụng để giảm số lượng thuộc tính (features) trong một tập dữ liệu mà vẫn giữ lại phần lớn thông tin quan trọng, thường là bằng cách tạo ra các thuộc tính mới là tổ hợp tuyến tính của các thuộc tính gốc?

21 / 25

Category: Trắc nghiệm Khoa học máy tính 12 Chân trời bài F17: Hoạt động trải nghiệm về Khoa học dữ liệu

Tags: Bộ đề 1

21. Khi thực hiện phân tích liên kết (Association Rule Mining), mục tiêu chính là khám phá mối quan hệ giữa các mặt hàng hoặc sự kiện thường xuất hiện cùng nhau trong một tập dữ liệu. Một quy tắc liên kết có thể được biểu diễn dưới dạng nào?

22 / 25

Category: Trắc nghiệm Khoa học máy tính 12 Chân trời bài F17: Hoạt động trải nghiệm về Khoa học dữ liệu

Tags: Bộ đề 1

22. Một nhà khoa học dữ liệu muốn tìm hiểu xem liệu có sự khác biệt đáng kể về điểm trung bình giữa hai nhóm sinh viên (ví dụ: nhóm học thêm và nhóm không học thêm). Phương pháp thống kê nào thường được sử dụng để so sánh giá trị trung bình của hai nhóm độc lập?

23 / 25

Category: Trắc nghiệm Khoa học máy tính 12 Chân trời bài F17: Hoạt động trải nghiệm về Khoa học dữ liệu

Tags: Bộ đề 1

23. Khi làm việc với dữ liệu văn bản (text data), bước đầu tiên thường bao gồm việc chuyển đổi văn bản thành dạng số để các thuật toán học máy có thể xử lý. Quá trình này được gọi là gì?

24 / 25

Category: Trắc nghiệm Khoa học máy tính 12 Chân trời bài F17: Hoạt động trải nghiệm về Khoa học dữ liệu

Tags: Bộ đề 1

24. Thuật toán Decision Tree (Cây quyết định) thuộc loại hình học máy nào?

25 / 25

Category: Trắc nghiệm Khoa học máy tính 12 Chân trời bài F17: Hoạt động trải nghiệm về Khoa học dữ liệu

Tags: Bộ đề 1

25. Trong lĩnh vực Khoa học dữ liệu, thuật ngữ Big Data thường đề cập đến các tập dữ liệu có đặc điểm nào sau đây (ngoài Volume - Khối lượng)?