Trắc nghiệm Khoa học máy tính 12 Kết nối bài 26: Làm quen với Khoa học dữ liệu

0

Bạn đã sẵn sàng chưa? 45 phút làm bài bắt đầu!!!

Bạn đã hết giờ làm bài! Xem kết quả các câu hỏi đã làm nhé!!!


Trắc nghiệm Khoa học máy tính 12 Kết nối bài 26: Làm quen với Khoa học dữ liệu

Trắc nghiệm Khoa học máy tính 12 Kết nối bài 26: Làm quen với Khoa học dữ liệu

1. Trong chu trình phát triển mô hình Khoa học dữ liệu, "model deployment" (triển khai mô hình) liên quan đến việc gì?

A. Thu thập dữ liệu mới.
B. Đưa mô hình đã huấn luyện và kiểm tra vào hoạt động trong môi trường thực tế.
C. Thực hiện phân tích khám phá dữ liệu.
D. Xóa bỏ các đặc trưng không cần thiết.

2. Trong Khoa học dữ liệu, "correlation" (tương quan) giữa hai biến cho biết điều gì?

A. Một biến chắc chắn gây ra sự thay đổi ở biến kia.
B. Mức độ mà hai biến có xu hướng thay đổi cùng nhau.
C. Hai biến hoàn toàn không liên quan đến nhau.
D. Chỉ có ý nghĩa khi một biến là định tính và biến kia là định lượng.

3. Đâu là một ví dụ về "metadata" (siêu dữ liệu) trong Khoa học dữ liệu?

A. Nội dung của một bức ảnh.
B. Thông tin mô tả về dữ liệu, ví dụ như ngày tạo, định dạng tệp, hoặc ý nghĩa của các cột trong bảng dữ liệu.
C. Kết quả phân tích thống kê.
D. Các đoạn mã Python được sử dụng để xử lý dữ liệu.

4. Khi làm việc với dữ liệu chuỗi thời gian (time series data), phương pháp nào sau đây thường được sử dụng để dự đoán giá trị tương lai?

A. Thuật toán phân cụm K-Means.
B. Các mô hình thống kê như ARIMA hoặc các mô hình học sâu như LSTM.
C. Thuật toán cây quyết định (Decision Tree).
D. Phân tích thành phần chính (PCA).

5. Trong Khoa học dữ liệu, "feature engineering" (kỹ thuật đặc trưng) là quá trình?

A. Thu thập dữ liệu từ các API.
B. Tạo ra các biến đầu vào mới (features) từ dữ liệu thô để cải thiện hiệu suất mô hình.
C. Đánh giá độ chính xác của mô hình đã huấn luyện.
D. Lưu trữ kết quả phân tích vào cơ sở dữ liệu.

6. Chỉ số "Recall" (Độ phủ) trong đánh giá mô hình phân loại tập trung vào khía cạnh nào?

A. Tỷ lệ các trường hợp được mô hình dự đoán là dương mà thực tế cũng là dương.
B. Tỷ lệ các trường hợp thực tế dương được mô hình dự đoán đúng.
C. Tỷ lệ các trường hợp thực tế âm được mô hình dự đoán đúng.
D. Tỷ lệ các trường hợp được mô hình dự đoán là âm mà thực tế cũng là âm.

7. Trong lĩnh vực Khoa học dữ liệu, vai trò của "Data Scientist" (Nhà khoa học dữ liệu) chủ yếu là gì?

A. Chỉ chịu trách nhiệm thu thập và làm sạch dữ liệu.
B. Phân tích dữ liệu để rút ra thông tin chi tiết, xây dựng mô hình dự đoán và giải quyết các vấn đề kinh doanh.
C. Chỉ tập trung vào việc thiết kế giao diện người dùng cho các ứng dụng dữ liệu.
D. Quản lý hạ tầng máy chủ cho các hệ thống dữ liệu.

8. Nếu một mô hình có "high bias" (độ chệch cao), điều đó thường có nghĩa là gì?

A. Mô hình quá phức tạp, học theo cả nhiễu của dữ liệu huấn luyện.
B. Mô hình quá đơn giản, không nắm bắt được các mối quan hệ cơ bản trong dữ liệu.
C. Mô hình hoạt động tốt trên cả dữ liệu huấn luyện và dữ liệu kiểm tra.
D. Dữ liệu huấn luyện có quá nhiều giá trị ngoại lai.

9. Trong Khoa học dữ liệu, "overfitting" (quá khớp) xảy ra khi nào?

A. Mô hình quá đơn giản, không nắm bắt được xu hướng của dữ liệu.
B. Mô hình học quá tốt trên dữ liệu huấn luyện nhưng hoạt động kém trên dữ liệu mới, chưa thấy.
C. Dữ liệu huấn luyện bị thiếu.
D. Thuật toán học máy không được lựa chọn phù hợp.

10. Mục tiêu chính của giai đoạn "Exploratory Data Analysis" (Phân tích Khám phá Dữ liệu) trong Khoa học dữ liệu là gì?

A. Xây dựng các mô hình dự đoán cuối cùng.
B. Trình bày báo cáo chi tiết cho các bên liên quan.
C. Hiểu rõ các đặc điểm, mẫu hình, mối quan hệ và các điểm bất thường trong dữ liệu.
D. Triển khai mô hình vào môi trường sản xuất.

11. Một chuyên gia Khoa học dữ liệu đang tìm cách giảm số lượng biến trong một tập dữ liệu lớn mà vẫn giữ lại phần lớn thông tin quan trọng. Phương pháp nào phù hợp cho mục tiêu này?

A. Tạo đặc trưng kết hợp (Feature Combination).
B. Lựa chọn đặc trưng (Feature Selection).
C. Giảm chiều dữ liệu (Dimensionality Reduction) như PCA.
D. Điền giá trị thiếu (Imputation).

12. Trong Khoa học dữ liệu, "data visualization" (trực quan hóa dữ liệu) đóng vai trò quan trọng trong việc gì?

A. Chỉ để làm cho báo cáo trông đẹp mắt hơn.
B. Giúp hiểu dữ liệu, khám phá các mẫu hình, xu hướng và truyền đạt kết quả phân tích một cách hiệu quả.
C. Tự động hóa hoàn toàn quá trình làm sạch dữ liệu.
D. Thay thế hoàn toàn việc xây dựng mô hình học máy.

13. Trong quy trình Khoa học dữ liệu, sau khi mô hình đã được huấn luyện và đánh giá, bước tiếp theo thường là gì?

A. Quay lại giai đoạn thu thập dữ liệu.
B. Triển khai mô hình vào môi trường thực tế (production) để đưa ra dự đoán hoặc quyết định.
C. Bắt đầu xây dựng một mô hình hoàn toàn mới.
D. Xóa bỏ toàn bộ dữ liệu đã sử dụng.

14. Khi thực hiện "feature scaling" (tỷ lệ hóa đặc trưng), mục đích chính là gì?

A. Tăng số lượng đặc trưng trong tập dữ liệu.
B. Đảm bảo các đặc trưng có thang đo tương tự nhau, tránh ảnh hưởng của thang đo đến thuật toán.
C. Xóa bỏ các đặc trưng không quan trọng.
D. Làm cho dữ liệu dễ đọc hơn đối với con người.

15. Thuật ngữ "Big Data" thường ám chỉ các tập dữ liệu có đặc điểm nào sau đây, được gọi là 3V (hoặc nhiều hơn)?

A. Volume (Khối lượng), Velocity (Tốc độ), Variety (Đa dạng).
B. Value (Giá trị), Verification (Xác minh), Validation (Hợp lệ).
C. Visibility (Tầm nhìn), Vision (Tầm nhìn), Voice (Giọng nói).
D. Veracity (Độ tin cậy), Vitality (Sức sống), Versatility (Tính linh hoạt).

16. Một nhà khoa học dữ liệu sử dụng thuật toán K-Means để phân nhóm khách hàng dựa trên hành vi mua sắm. Đây là ví dụ về loại bài toán nào trong học máy?

A. Hồi quy (Regression).
B. Phân loại (Classification).
C. Phân cụm (Clustering).
D. Giảm chiều dữ liệu (Dimensionality Reduction).

17. Trong quá trình "feature engineering", việc tạo ra một biến đặc trưng mới bằng cách kết hợp hai biến hiện có (ví dụ: tỷ lệ giữa doanh thu và số lượng sản phẩm) được gọi là gì?

A. Mã hóa (Encoding).
B. Chuẩn hóa (Standardization).
C. Tạo đặc trưng kết hợp (Feature Combination/Creation).
D. Lựa chọn đặc trưng (Feature Selection).

18. Chỉ số "Precision" (Độ chính xác) trong đánh giá mô hình phân loại tập trung vào khía cạnh nào?

A. Tỷ lệ các trường hợp thực tế dương được mô hình dự đoán đúng.
B. Tỷ lệ các trường hợp được mô hình dự đoán là dương mà thực tế cũng là dương.
C. Tỷ lệ các trường hợp thực tế âm được mô hình dự đoán đúng.
D. Tỷ lệ các trường hợp được mô hình dự đoán là âm mà thực tế cũng là âm.

19. Khi đánh giá một mô hình phân loại trong Khoa học dữ liệu, chỉ số nào sau đây đo lường tỷ lệ các trường hợp dự đoán đúng trên tổng số trường hợp dự đoán?

A. Precision (Độ chính xác).
B. Recall (Độ phủ).
C. F1-Score.
D. Accuracy (Độ chính xác tổng thể).

20. Đâu là một ví dụ về dữ liệu phi cấu trúc (unstructured data)?

A. Bảng tính Excel chứa thông tin khách hàng.
B. Cơ sở dữ liệu quan hệ với các bảng và cột được định nghĩa rõ ràng.
C. Tệp âm thanh ghi lại cuộc phỏng vấn.
D. Dữ liệu giao dịch ngân hàng được lưu trữ trong SQL.

21. Một nhà khoa học dữ liệu đang xây dựng mô hình dự đoán giá nhà. Biến đầu vào "diện tích" có đơn vị là mét vuông (m²), trong khi biến đầu vào "số phòng ngủ" là một số đếm. Sự khác biệt về thang đo này có thể gây ra vấn đề gì cho một số thuật toán học máy?

A. Các thuật toán sẽ không thể xử lý dữ liệu số.
B. Các thuật toán nhạy cảm với thang đo có thể ưu tiên các đặc trưng có giá trị lớn hơn (như diện tích).
C. Số lượng phòng ngủ sẽ bị coi là không liên quan.
D. Mô hình sẽ luôn dự đoán sai giá trị.

22. Một tập dữ liệu có các giá trị bị thiếu (missing values) cần được xử lý trước khi tiến hành phân tích. Phương pháp nào sau đây KHÔNG phải là kỹ thuật phổ biến để xử lý giá trị thiếu?

A. Xóa các hàng hoặc cột chứa giá trị thiếu.
B. Điền giá trị thiếu bằng giá trị trung bình, trung vị hoặc mode của cột.
C. Sử dụng các thuật toán học máy để ước tính và điền giá trị thiếu.
D. Tự động gán giá trị ngẫu nhiên không liên quan cho tất cả các ô trống.

23. Đâu là một ví dụ về dữ liệu có cấu trúc (structured data)?

A. Các bài đăng trên mạng xã hội.
B. Các video YouTube.
C. Bảng dữ liệu về doanh số bán hàng của một cửa hàng.
D. Các bản ghi âm cuộc gọi hỗ trợ khách hàng.

24. Trong bối cảnh Khoa học dữ liệu, thuật ngữ "data wrangling" (biến đổi dữ liệu) thường đề cập đến giai đoạn nào của quy trình làm việc với dữ liệu?

A. Thu thập dữ liệu từ nhiều nguồn khác nhau.
B. Làm sạch, chuyển đổi và cấu trúc lại dữ liệu thô để sẵn sàng cho phân tích.
C. Xây dựng các mô hình học máy phức tạp.
D. Trực quan hóa kết quả phân tích dưới dạng biểu đồ.

25. Một nhà khoa học dữ liệu muốn dự đoán xem một email có phải là thư rác (spam) hay không. Đây là ví dụ về loại bài toán nào trong học máy?

A. Hồi quy (Regression).
B. Phân loại (Classification).
C. Phân cụm (Clustering).
D. Giảm chiều dữ liệu (Dimensionality Reduction).

1 / 25

Category: Trắc nghiệm Khoa học máy tính 12 Kết nối bài 26: Làm quen với Khoa học dữ liệu

Tags: Bộ đề 1

1. Trong chu trình phát triển mô hình Khoa học dữ liệu, model deployment (triển khai mô hình) liên quan đến việc gì?

2 / 25

Category: Trắc nghiệm Khoa học máy tính 12 Kết nối bài 26: Làm quen với Khoa học dữ liệu

Tags: Bộ đề 1

2. Trong Khoa học dữ liệu, correlation (tương quan) giữa hai biến cho biết điều gì?

3 / 25

Category: Trắc nghiệm Khoa học máy tính 12 Kết nối bài 26: Làm quen với Khoa học dữ liệu

Tags: Bộ đề 1

3. Đâu là một ví dụ về metadata (siêu dữ liệu) trong Khoa học dữ liệu?

4 / 25

Category: Trắc nghiệm Khoa học máy tính 12 Kết nối bài 26: Làm quen với Khoa học dữ liệu

Tags: Bộ đề 1

4. Khi làm việc với dữ liệu chuỗi thời gian (time series data), phương pháp nào sau đây thường được sử dụng để dự đoán giá trị tương lai?

5 / 25

Category: Trắc nghiệm Khoa học máy tính 12 Kết nối bài 26: Làm quen với Khoa học dữ liệu

Tags: Bộ đề 1

5. Trong Khoa học dữ liệu, feature engineering (kỹ thuật đặc trưng) là quá trình?

6 / 25

Category: Trắc nghiệm Khoa học máy tính 12 Kết nối bài 26: Làm quen với Khoa học dữ liệu

Tags: Bộ đề 1

6. Chỉ số Recall (Độ phủ) trong đánh giá mô hình phân loại tập trung vào khía cạnh nào?

7 / 25

Category: Trắc nghiệm Khoa học máy tính 12 Kết nối bài 26: Làm quen với Khoa học dữ liệu

Tags: Bộ đề 1

7. Trong lĩnh vực Khoa học dữ liệu, vai trò của Data Scientist (Nhà khoa học dữ liệu) chủ yếu là gì?

8 / 25

Category: Trắc nghiệm Khoa học máy tính 12 Kết nối bài 26: Làm quen với Khoa học dữ liệu

Tags: Bộ đề 1

8. Nếu một mô hình có high bias (độ chệch cao), điều đó thường có nghĩa là gì?

9 / 25

Category: Trắc nghiệm Khoa học máy tính 12 Kết nối bài 26: Làm quen với Khoa học dữ liệu

Tags: Bộ đề 1

9. Trong Khoa học dữ liệu, overfitting (quá khớp) xảy ra khi nào?

10 / 25

Category: Trắc nghiệm Khoa học máy tính 12 Kết nối bài 26: Làm quen với Khoa học dữ liệu

Tags: Bộ đề 1

10. Mục tiêu chính của giai đoạn Exploratory Data Analysis (Phân tích Khám phá Dữ liệu) trong Khoa học dữ liệu là gì?

11 / 25

Category: Trắc nghiệm Khoa học máy tính 12 Kết nối bài 26: Làm quen với Khoa học dữ liệu

Tags: Bộ đề 1

11. Một chuyên gia Khoa học dữ liệu đang tìm cách giảm số lượng biến trong một tập dữ liệu lớn mà vẫn giữ lại phần lớn thông tin quan trọng. Phương pháp nào phù hợp cho mục tiêu này?

12 / 25

Category: Trắc nghiệm Khoa học máy tính 12 Kết nối bài 26: Làm quen với Khoa học dữ liệu

Tags: Bộ đề 1

12. Trong Khoa học dữ liệu, data visualization (trực quan hóa dữ liệu) đóng vai trò quan trọng trong việc gì?

13 / 25

Category: Trắc nghiệm Khoa học máy tính 12 Kết nối bài 26: Làm quen với Khoa học dữ liệu

Tags: Bộ đề 1

13. Trong quy trình Khoa học dữ liệu, sau khi mô hình đã được huấn luyện và đánh giá, bước tiếp theo thường là gì?

14 / 25

Category: Trắc nghiệm Khoa học máy tính 12 Kết nối bài 26: Làm quen với Khoa học dữ liệu

Tags: Bộ đề 1

14. Khi thực hiện feature scaling (tỷ lệ hóa đặc trưng), mục đích chính là gì?

15 / 25

Category: Trắc nghiệm Khoa học máy tính 12 Kết nối bài 26: Làm quen với Khoa học dữ liệu

Tags: Bộ đề 1

15. Thuật ngữ Big Data thường ám chỉ các tập dữ liệu có đặc điểm nào sau đây, được gọi là 3V (hoặc nhiều hơn)?

16 / 25

Category: Trắc nghiệm Khoa học máy tính 12 Kết nối bài 26: Làm quen với Khoa học dữ liệu

Tags: Bộ đề 1

16. Một nhà khoa học dữ liệu sử dụng thuật toán K-Means để phân nhóm khách hàng dựa trên hành vi mua sắm. Đây là ví dụ về loại bài toán nào trong học máy?

17 / 25

Category: Trắc nghiệm Khoa học máy tính 12 Kết nối bài 26: Làm quen với Khoa học dữ liệu

Tags: Bộ đề 1

17. Trong quá trình feature engineering, việc tạo ra một biến đặc trưng mới bằng cách kết hợp hai biến hiện có (ví dụ: tỷ lệ giữa doanh thu và số lượng sản phẩm) được gọi là gì?

18 / 25

Category: Trắc nghiệm Khoa học máy tính 12 Kết nối bài 26: Làm quen với Khoa học dữ liệu

Tags: Bộ đề 1

18. Chỉ số Precision (Độ chính xác) trong đánh giá mô hình phân loại tập trung vào khía cạnh nào?

19 / 25

Category: Trắc nghiệm Khoa học máy tính 12 Kết nối bài 26: Làm quen với Khoa học dữ liệu

Tags: Bộ đề 1

19. Khi đánh giá một mô hình phân loại trong Khoa học dữ liệu, chỉ số nào sau đây đo lường tỷ lệ các trường hợp dự đoán đúng trên tổng số trường hợp dự đoán?

20 / 25

Category: Trắc nghiệm Khoa học máy tính 12 Kết nối bài 26: Làm quen với Khoa học dữ liệu

Tags: Bộ đề 1

20. Đâu là một ví dụ về dữ liệu phi cấu trúc (unstructured data)?

21 / 25

Category: Trắc nghiệm Khoa học máy tính 12 Kết nối bài 26: Làm quen với Khoa học dữ liệu

Tags: Bộ đề 1

21. Một nhà khoa học dữ liệu đang xây dựng mô hình dự đoán giá nhà. Biến đầu vào diện tích có đơn vị là mét vuông (m²), trong khi biến đầu vào số phòng ngủ là một số đếm. Sự khác biệt về thang đo này có thể gây ra vấn đề gì cho một số thuật toán học máy?

22 / 25

Category: Trắc nghiệm Khoa học máy tính 12 Kết nối bài 26: Làm quen với Khoa học dữ liệu

Tags: Bộ đề 1

22. Một tập dữ liệu có các giá trị bị thiếu (missing values) cần được xử lý trước khi tiến hành phân tích. Phương pháp nào sau đây KHÔNG phải là kỹ thuật phổ biến để xử lý giá trị thiếu?

23 / 25

Category: Trắc nghiệm Khoa học máy tính 12 Kết nối bài 26: Làm quen với Khoa học dữ liệu

Tags: Bộ đề 1

23. Đâu là một ví dụ về dữ liệu có cấu trúc (structured data)?

24 / 25

Category: Trắc nghiệm Khoa học máy tính 12 Kết nối bài 26: Làm quen với Khoa học dữ liệu

Tags: Bộ đề 1

24. Trong bối cảnh Khoa học dữ liệu, thuật ngữ data wrangling (biến đổi dữ liệu) thường đề cập đến giai đoạn nào của quy trình làm việc với dữ liệu?

25 / 25

Category: Trắc nghiệm Khoa học máy tính 12 Kết nối bài 26: Làm quen với Khoa học dữ liệu

Tags: Bộ đề 1

25. Một nhà khoa học dữ liệu muốn dự đoán xem một email có phải là thư rác (spam) hay không. Đây là ví dụ về loại bài toán nào trong học máy?