Trắc nghiệm Khoa học máy tính 12 Cánh diều bài 4: Thực hành phân tích dữ liệu

0

Bạn đã sẵn sàng chưa? 45 phút làm bài bắt đầu!!!

Bạn đã hết giờ làm bài! Xem kết quả các câu hỏi đã làm nhé!!!


Trắc nghiệm Khoa học máy tính 12 Cánh diều bài 4: Thực hành phân tích dữ liệu

Trắc nghiệm Khoa học máy tính 12 Cánh diều bài 4: Thực hành phân tích dữ liệu

1. Khi gặp các giá trị bị thiếu (missing values) trong tập dữ liệu, phương pháp nào sau đây thường được áp dụng để xử lý?

A. Xóa bỏ hoàn toàn các hàng hoặc cột chứa giá trị thiếu nếu chúng chiếm tỷ lệ lớn.
B. Điền giá trị thiếu bằng giá trị trung bình, trung vị, hoặc sử dụng các phương pháp nội suy/dự đoán.
C. Thay thế tất cả các giá trị thiếu bằng số 0.
D. Báo cáo lỗi và dừng quá trình phân tích.

2. Mục tiêu của bước "Trực quan hóa dữ liệu" là gì?

A. Để giảm thiểu kích thước của tập dữ liệu.
B. Để trình bày thông tin và xu hướng trong dữ liệu một cách dễ hiểu, trực quan.
C. Để xây dựng các mô hình dự đoán phức tạp.
D. Để xác định các giá trị ngoại lai.

3. Tại sao việc lựa chọn đặc trưng (feature selection) lại quan trọng trong xây dựng mô hình phân tích dữ liệu?

A. Để tăng số lượng đặc trưng, làm cho mô hình phức tạp hơn.
B. Để loại bỏ các đặc trưng không liên quan hoặc dư thừa, giúp cải thiện hiệu suất, giảm overfitting và tăng khả năng diễn giải.
C. Để đảm bảo tất cả các đặc trưng đều có giá trị ngoại lai.
D. Để làm cho dữ liệu có thể đọc được bởi con người.

4. Trong phân tích dữ liệu, khái niệm "đặc trưng" (feature) thường đề cập đến:

A. Kết quả cuối cùng của quá trình phân tích.
B. Các thuộc tính hoặc biến đo lường của đối tượng dữ liệu được sử dụng để phân tích.
C. Các thuật toán được áp dụng để xử lý dữ liệu.
D. Các lỗi tìm thấy trong quá trình làm sạch dữ liệu.

5. Trong phân tích dữ liệu, "giá trị ngoại lai" (outlier) là gì?

A. Giá trị xuất hiện nhiều nhất trong tập dữ liệu.
B. Giá trị trung bình của toàn bộ tập dữ liệu.
C. Một điểm dữ liệu khác biệt đáng kể so với phần lớn các điểm dữ liệu khác.
D. Giá trị được điền vào các vị trí thiếu dữ liệu.

6. Khi xây dựng một mô hình phân tích dữ liệu, bước nào thường theo sau việc làm sạch và chuẩn bị dữ liệu?

A. Trực quan hóa dữ liệu.
B. Lựa chọn và huấn luyện mô hình.
C. Thu thập thêm dữ liệu thô.
D. Đánh giá hiệu suất của hệ thống máy tính.

7. Mục tiêu chính của bước "Làm sạch dữ liệu" (Data Cleaning) trong phân tích dữ liệu là gì?

A. Tạo ra các biến mới dựa trên các biến hiện có để tăng cường thông tin.
B. Xác định và sửa chữa các lỗi, giá trị thiếu, hoặc dữ liệu không nhất quán trong tập dữ liệu.
C. Trực quan hóa dữ liệu dưới dạng biểu đồ và đồ thị để dễ hiểu hơn.
D. Áp dụng các thuật toán học máy để xây dựng mô hình dự đoán.

8. Trong các phương pháp làm sạch dữ liệu, việc "đông nhất hóa dữ liệu" (data normalization) thường liên quan đến việc gì?

A. Biến đổi dữ liệu về một phạm vi chung, ví dụ từ 0 đến 1.
B. Xóa bỏ tất cả các ký tự đặc biệt.
C. Chuyển đổi dữ liệu văn bản thành số.
D. Xác định các giá trị ngoại lai.

9. Kỹ thuật "Phân tích cụm" (Clustering) trong phân tích dữ liệu được sử dụng để làm gì?

A. Dự đoán giá trị tương lai của một biến số.
B. Phân nhóm các đối tượng dữ liệu tương tự nhau dựa trên các thuộc tính của chúng.
C. Xác định mối quan hệ nhân quả giữa các biến.
D. Phân loại dữ liệu vào các danh mục đã biết trước.

10. Khi phân tích dữ liệu về hành vi người dùng trên một website, "thời gian trên trang" (time on page) và "tỷ lệ thoát" (bounce rate) là các loại chỉ số nào?

A. Chỉ số kỹ thuật của website.
B. Chỉ số đo lường sự tương tác và mức độ gắn bó của người dùng.
C. Chỉ số về hiệu suất quảng cáo.
D. Chỉ số về bảo mật dữ liệu.

11. Một tập dữ liệu có các cột "Tuổi", "Giới tính", "Mức lương". Trong đó, "Mức lương" có thể có giá trị rất lớn so với "Tuổi" và "Giới tính". Thuật toán nào sau đây sẽ bị ảnh hưởng nhiều nhất nếu không chuẩn hóa dữ liệu?

A. Cây quyết định (Decision Tree).
B. Hồi quy tuyến tính (Linear Regression).
C. K-Means Clustering.
D. Phân tích thành phần chính (Principal Component Analysis - PCA).

12. Bước "Khám phá dữ liệu" (Exploratory Data Analysis - EDA) thường bao gồm hoạt động nào sau đây?

A. Viết báo cáo kết luận dựa trên các giả thuyết đã được chứng minh.
B. Áp dụng các mô hình học sâu phức tạp để tìm ra các quy luật ẩn.
C. Sử dụng các kỹ thuật thống kê mô tả, trực quan hóa để hiểu đặc điểm và mối quan hệ của dữ liệu.
D. Triển khai mô hình phân tích trên môi trường sản phẩm.

13. Trong phân tích dữ liệu, "dữ liệu định tính" (qualitative data) là gì?

A. Dữ liệu có thể đo lường bằng số, ví dụ như chiều cao, cân nặng.
B. Dữ liệu mô tả các đặc điểm, thuộc tính, ý kiến, hoặc thái độ, không thể biểu diễn bằng số một cách trực tiếp.
C. Dữ liệu được thu thập từ các cảm biến.
D. Dữ liệu đã được làm sạch và chuẩn hóa.

14. Tại sao việc chuẩn hóa dữ liệu (Data Standardization) lại quan trọng trong một số thuật toán phân tích dữ liệu?

A. Để làm cho dữ liệu có thể đọc được bởi con người dễ dàng hơn.
B. Để đảm bảo rằng các biến có thang đo hoặc phạm vi giá trị khác nhau không ảnh hưởng đến kết quả của các thuật toán nhạy cảm với thang đo.
C. Để tăng kích thước của tập dữ liệu và cải thiện hiệu suất tính toán.
D. Để loại bỏ tất cả các giá trị ngoại lai (outliers) khỏi tập dữ liệu.

15. Khi phân tích dữ liệu chuỗi thời gian (time series data), yếu tố nào cần được xem xét đặc biệt?

A. Sự phân bố chuẩn của dữ liệu.
B. Tính tuần tự và sự phụ thuộc theo thời gian giữa các điểm dữ liệu.
C. Số lượng đặc trưng trong tập dữ liệu.
D. Sự hiện diện của các giá trị ngoại lai.

16. Trong quá trình phân tích dữ liệu, yếu tố nào sau đây được xem là "dữ liệu thô" cần xử lý ban đầu?

A. Các báo cáo tổng hợp đã được xử lý và trình bày dưới dạng biểu đồ.
B. Các tệp văn bản chứa thông tin chưa được định dạng hoặc tổ chức một cách có hệ thống.
C. Các kết quả phân tích cuối cùng được rút ra từ việc áp dụng các thuật toán.
D. Các mô hình dự đoán đã được xây dựng và xác thực.

17. Khi thực hiện phân tích dữ liệu, nếu một biến có quá nhiều giá trị bị thiếu, hành động hợp lý nhất là gì?

A. Điền tất cả các giá trị thiếu bằng giá trị trung bình.
B. Xóa bỏ biến đó khỏi tập dữ liệu nếu nó không quá quan trọng cho mục tiêu phân tích.
C. Tăng gấp đôi số lượng giá trị thiếu.
D. Báo cáo lỗi và yêu cầu người cung cấp dữ liệu bổ sung.

18. Yếu tố nào sau đây KHÔNG phải là một loại trực quan hóa dữ liệu phổ biến?

A. Biểu đồ cột (Bar chart).
B. Biểu đồ phân tán (Scatter plot).
C. Bảng tính Excel đã định dạng.
D. Biểu đồ đường (Line chart).

19. Phân tích dữ liệu hỗ trợ quyết định kinh doanh bằng cách nào?

A. Tự động đưa ra các quyết định mà không cần con người can thiệp.
B. Cung cấp thông tin chi tiết, xu hướng và các dự báo dựa trên dữ liệu để hỗ trợ việc đưa ra quyết định.
C. Chỉ tập trung vào việc thu thập dữ liệu.
D. Thay thế hoàn toàn bộ phận marketing của doanh nghiệp.

20. Phương pháp "Nội suy" (Interpolation) thường được sử dụng trong bước nào của phân tích dữ liệu?

A. Xây dựng mô hình dự đoán.
B. Làm sạch dữ liệu, cụ thể là điền các giá trị bị thiếu.
C. Trực quan hóa kết quả phân tích.
D. Lựa chọn đặc trưng.

21. Khái niệm "độ chính xác" (accuracy) trong đánh giá mô hình phân loại là gì?

A. Tỷ lệ các dự đoán đúng trên tổng số các dự đoán.
B. Tỷ lệ các dự đoán sai trên tổng số các dự đoán.
C. Tỷ lệ các trường hợp dương tính thực sự được dự đoán đúng.
D. Tỷ lệ các trường hợp âm tính thực sự được dự đoán đúng.

22. Trong lĩnh vực phân tích dữ liệu, "tiền xử lý dữ liệu" (data preprocessing) bao gồm các bước nào là chủ yếu?

A. Xây dựng mô hình và đánh giá.
B. Làm sạch, chuyển đổi và giảm chiều dữ liệu.
C. Trực quan hóa và báo cáo kết quả.
D. Thu thập và lưu trữ dữ liệu.

23. Khái niệm "tính biến động" (variance) trong thống kê mô tả có ý nghĩa gì trong phân tích dữ liệu?

A. Giá trị trung bình của dữ liệu.
B. Độ lệch của các điểm dữ liệu so với giá trị trung bình.
C. Tần suất xuất hiện của mỗi giá trị.
D. Mối quan hệ giữa hai biến.

24. Khi làm việc với dữ liệu văn bản, bước "Tokenization" có ý nghĩa là gì?

A. Biến đổi văn bản thành dạng số để máy tính hiểu.
B. Chia văn bản thành các đơn vị nhỏ hơn như từ, câu hoặc ký tự.
C. Loại bỏ các từ phổ biến không mang nhiều ý nghĩa (stop words).
D. Chuyển đổi các từ về dạng gốc của chúng (stemming/lemmatization).

25. Việc lựa chọn tập dữ liệu huấn luyện (training dataset) và tập dữ liệu kiểm tra (testing dataset) là quan trọng để:

A. Tăng tốc độ huấn luyện mô hình.
B. Đánh giá khả năng tổng quát hóa của mô hình trên dữ liệu mới, chưa từng thấy.
C. Giảm thiểu số lượng giá trị thiếu trong tập dữ liệu.
D. Trực quan hóa dữ liệu một cách hiệu quả hơn.

1 / 25

Category: Trắc nghiệm Khoa học máy tính 12 Cánh diều bài 4: Thực hành phân tích dữ liệu

Tags: Bộ đề 1

1. Khi gặp các giá trị bị thiếu (missing values) trong tập dữ liệu, phương pháp nào sau đây thường được áp dụng để xử lý?

2 / 25

Category: Trắc nghiệm Khoa học máy tính 12 Cánh diều bài 4: Thực hành phân tích dữ liệu

Tags: Bộ đề 1

2. Mục tiêu của bước Trực quan hóa dữ liệu là gì?

3 / 25

Category: Trắc nghiệm Khoa học máy tính 12 Cánh diều bài 4: Thực hành phân tích dữ liệu

Tags: Bộ đề 1

3. Tại sao việc lựa chọn đặc trưng (feature selection) lại quan trọng trong xây dựng mô hình phân tích dữ liệu?

4 / 25

Category: Trắc nghiệm Khoa học máy tính 12 Cánh diều bài 4: Thực hành phân tích dữ liệu

Tags: Bộ đề 1

4. Trong phân tích dữ liệu, khái niệm đặc trưng (feature) thường đề cập đến:

5 / 25

Category: Trắc nghiệm Khoa học máy tính 12 Cánh diều bài 4: Thực hành phân tích dữ liệu

Tags: Bộ đề 1

5. Trong phân tích dữ liệu, giá trị ngoại lai (outlier) là gì?

6 / 25

Category: Trắc nghiệm Khoa học máy tính 12 Cánh diều bài 4: Thực hành phân tích dữ liệu

Tags: Bộ đề 1

6. Khi xây dựng một mô hình phân tích dữ liệu, bước nào thường theo sau việc làm sạch và chuẩn bị dữ liệu?

7 / 25

Category: Trắc nghiệm Khoa học máy tính 12 Cánh diều bài 4: Thực hành phân tích dữ liệu

Tags: Bộ đề 1

7. Mục tiêu chính của bước Làm sạch dữ liệu (Data Cleaning) trong phân tích dữ liệu là gì?

8 / 25

Category: Trắc nghiệm Khoa học máy tính 12 Cánh diều bài 4: Thực hành phân tích dữ liệu

Tags: Bộ đề 1

8. Trong các phương pháp làm sạch dữ liệu, việc đông nhất hóa dữ liệu (data normalization) thường liên quan đến việc gì?

9 / 25

Category: Trắc nghiệm Khoa học máy tính 12 Cánh diều bài 4: Thực hành phân tích dữ liệu

Tags: Bộ đề 1

9. Kỹ thuật Phân tích cụm (Clustering) trong phân tích dữ liệu được sử dụng để làm gì?

10 / 25

Category: Trắc nghiệm Khoa học máy tính 12 Cánh diều bài 4: Thực hành phân tích dữ liệu

Tags: Bộ đề 1

10. Khi phân tích dữ liệu về hành vi người dùng trên một website, thời gian trên trang (time on page) và tỷ lệ thoát (bounce rate) là các loại chỉ số nào?

11 / 25

Category: Trắc nghiệm Khoa học máy tính 12 Cánh diều bài 4: Thực hành phân tích dữ liệu

Tags: Bộ đề 1

11. Một tập dữ liệu có các cột Tuổi, Giới tính, Mức lương. Trong đó, Mức lương có thể có giá trị rất lớn so với Tuổi và Giới tính. Thuật toán nào sau đây sẽ bị ảnh hưởng nhiều nhất nếu không chuẩn hóa dữ liệu?

12 / 25

Category: Trắc nghiệm Khoa học máy tính 12 Cánh diều bài 4: Thực hành phân tích dữ liệu

Tags: Bộ đề 1

12. Bước Khám phá dữ liệu (Exploratory Data Analysis - EDA) thường bao gồm hoạt động nào sau đây?

13 / 25

Category: Trắc nghiệm Khoa học máy tính 12 Cánh diều bài 4: Thực hành phân tích dữ liệu

Tags: Bộ đề 1

13. Trong phân tích dữ liệu, dữ liệu định tính (qualitative data) là gì?

14 / 25

Category: Trắc nghiệm Khoa học máy tính 12 Cánh diều bài 4: Thực hành phân tích dữ liệu

Tags: Bộ đề 1

14. Tại sao việc chuẩn hóa dữ liệu (Data Standardization) lại quan trọng trong một số thuật toán phân tích dữ liệu?

15 / 25

Category: Trắc nghiệm Khoa học máy tính 12 Cánh diều bài 4: Thực hành phân tích dữ liệu

Tags: Bộ đề 1

15. Khi phân tích dữ liệu chuỗi thời gian (time series data), yếu tố nào cần được xem xét đặc biệt?

16 / 25

Category: Trắc nghiệm Khoa học máy tính 12 Cánh diều bài 4: Thực hành phân tích dữ liệu

Tags: Bộ đề 1

16. Trong quá trình phân tích dữ liệu, yếu tố nào sau đây được xem là dữ liệu thô cần xử lý ban đầu?

17 / 25

Category: Trắc nghiệm Khoa học máy tính 12 Cánh diều bài 4: Thực hành phân tích dữ liệu

Tags: Bộ đề 1

17. Khi thực hiện phân tích dữ liệu, nếu một biến có quá nhiều giá trị bị thiếu, hành động hợp lý nhất là gì?

18 / 25

Category: Trắc nghiệm Khoa học máy tính 12 Cánh diều bài 4: Thực hành phân tích dữ liệu

Tags: Bộ đề 1

18. Yếu tố nào sau đây KHÔNG phải là một loại trực quan hóa dữ liệu phổ biến?

19 / 25

Category: Trắc nghiệm Khoa học máy tính 12 Cánh diều bài 4: Thực hành phân tích dữ liệu

Tags: Bộ đề 1

19. Phân tích dữ liệu hỗ trợ quyết định kinh doanh bằng cách nào?

20 / 25

Category: Trắc nghiệm Khoa học máy tính 12 Cánh diều bài 4: Thực hành phân tích dữ liệu

Tags: Bộ đề 1

20. Phương pháp Nội suy (Interpolation) thường được sử dụng trong bước nào của phân tích dữ liệu?

21 / 25

Category: Trắc nghiệm Khoa học máy tính 12 Cánh diều bài 4: Thực hành phân tích dữ liệu

Tags: Bộ đề 1

21. Khái niệm độ chính xác (accuracy) trong đánh giá mô hình phân loại là gì?

22 / 25

Category: Trắc nghiệm Khoa học máy tính 12 Cánh diều bài 4: Thực hành phân tích dữ liệu

Tags: Bộ đề 1

22. Trong lĩnh vực phân tích dữ liệu, tiền xử lý dữ liệu (data preprocessing) bao gồm các bước nào là chủ yếu?

23 / 25

Category: Trắc nghiệm Khoa học máy tính 12 Cánh diều bài 4: Thực hành phân tích dữ liệu

Tags: Bộ đề 1

23. Khái niệm tính biến động (variance) trong thống kê mô tả có ý nghĩa gì trong phân tích dữ liệu?

24 / 25

Category: Trắc nghiệm Khoa học máy tính 12 Cánh diều bài 4: Thực hành phân tích dữ liệu

Tags: Bộ đề 1

24. Khi làm việc với dữ liệu văn bản, bước Tokenization có ý nghĩa là gì?

25 / 25

Category: Trắc nghiệm Khoa học máy tính 12 Cánh diều bài 4: Thực hành phân tích dữ liệu

Tags: Bộ đề 1

25. Việc lựa chọn tập dữ liệu huấn luyện (training dataset) và tập dữ liệu kiểm tra (testing dataset) là quan trọng để: