Đề thi, bài tập trắc nghiệm online Xử lý ngôn ngữ tự nhiên – Đề 12

0

Bạn đã sẵn sàng chưa? 45 phút làm bài bắt đầu!!!

Bạn đã hết giờ làm bài! Xem kết quả các câu hỏi đã làm nhé!!!


Đề thi, bài tập trắc nghiệm online Xử lý ngôn ngữ tự nhiên

Đề 12 - Bài tập, đề thi trắc nghiệm online Xử lý ngôn ngữ tự nhiên

1. TF-IDF (Term Frequency-Inverse Document Frequency) được sử dụng để làm gì trong NLP?

A. Dịch máy
B. Đo lường tầm quan trọng của một từ trong một văn bản so với một tập hợp các văn bản
C. Phân tích cảm xúc
D. Tạo sinh văn bản

2. Beam search (tìm kiếm chùm tia) là một thuật toán được sử dụng trong NLP để:

A. Tăng tốc độ huấn luyện mô hình
B. Tìm kiếm chuỗi đầu ra có xác suất cao nhất trong các tác vụ sinh tạo ngôn ngữ như dịch máy hoặc tóm tắt văn bản
C. Giảm kích thước từ vựng
D. Phân tích cú pháp câu

3. Conll-U format (định dạng Conll-U) thường được sử dụng để biểu diễn dữ liệu gì trong NLP?

A. Word embeddings
B. Dữ liệu chú giải cú pháp phụ thuộc (dependency parsing)
C. Dữ liệu văn bản thô
D. Dữ liệu âm thanh

4. Ví dụ nào sau đây thể hiện sự mơ hồ ngữ nghĩa (semantic ambiguity) trong ngôn ngữ tự nhiên?

A. `Con mèo đang ngủ trên ghế`
B. `Tôi thấy con dơi bay trong đêm`
C. `Thời tiết hôm nay đẹp`
D. `Máy tính rất hữu ích`

5. Ví dụ nào sau đây KHÔNG phải là một thách thức lớn trong NLP?

A. Xử lý ngôn ngữ mơ hồ (Ambiguity)
B. Hiểu ngữ cảnh (Context understanding)
C. Dịch từ tiếng Anh sang tiếng Anh
D. Xử lý ngôn ngữ có tính sáng tạo và ẩn dụ (Creativity and metaphor)

6. Coreference resolution (giải quyết đồng tham chiếu) trong NLP là gì?

A. Dịch các đại từ nhân xưng
B. Xác định tất cả các biểu thức ngôn ngữ (ví dụ: đại từ, cụm danh từ) tham chiếu đến cùng một thực thể trong văn bản
C. Sửa lỗi chính tả và ngữ pháp
D. Tóm tắt các đoạn văn dài

7. Transformer network (mạng Transformer) khắc phục vấn đề `gradient vanishing` của RNN bằng cách nào?

A. Sử dụng cơ chế attention (cơ chế chú ý) để cho phép mô hình tập trung vào các phần quan trọng của chuỗi đầu vào
B. Tăng số lượng lớp ẩn trong mạng
C. Sử dụng hàm kích hoạt ReLU thay vì sigmoid
D. Áp dụng kỹ thuật dropout

8. N-gram language model (mô hình ngôn ngữ N-gram) dựa trên giả định nào?

A. Từ tiếp theo trong chuỗi chỉ phụ thuộc vào N-1 từ đứng trước nó
B. Tất cả các từ trong chuỗi đều độc lập với nhau
C. Ngôn ngữ là tuyến tính và không có cấu trúc
D. Mô hình ngôn ngữ cần phải được huấn luyện trên dữ liệu đa ngôn ngữ

9. Few-shot learning khác với zero-shot learning ở điểm nào?

A. Few-shot learning đòi hỏi nhiều dữ liệu huấn luyện hơn zero-shot learning
B. Few-shot learning cho phép mô hình học từ một số lượng nhỏ ví dụ huấn luyện cho nhiệm vụ mới, trong khi zero-shot learning không sử dụng bất kỳ ví dụ nào
C. Few-shot learning chỉ áp dụng cho mô hình Transformer, zero-shot learning thì không
D. Không có sự khác biệt, đây là hai thuật ngữ thay thế cho nhau

10. Sự khác biệt chính giữa stemming và lemmatization là gì?

A. Stemming chậm hơn lemmatization
B. Lemmatization tạo ra dạng gốc đúng ngữ pháp (lemma), trong khi stemming có thể tạo ra gốc từ không có nghĩa
C. Stemming sử dụng từ điển, lemmatization thì không
D. Lemmatization chỉ áp dụng cho tiếng Anh, stemming áp dụng cho mọi ngôn ngữ

11. Vấn đề `gradient vanishing` (mất đạo hàm) thường gặp phải ở loại mạng nơ-ron nào?

A. Convolutional Neural Network (CNN)
B. Recurrent Neural Network (RNN) truyền thống
C. Feedforward Neural Network (FFNN)
D. Generative Adversarial Network (GAN)

12. Zero-shot learning trong NLP có nghĩa là:

A. Mô hình học mà không cần bất kỳ dữ liệu huấn luyện nào
B. Mô hình có khả năng thực hiện các nhiệm vụ mà nó chưa từng được huấn luyện trực tiếp, chỉ dựa trên mô tả bằng ngôn ngữ tự nhiên của nhiệm vụ
C. Mô hình được huấn luyện trên dữ liệu tổng hợp (synthetic data)
D. Mô hình có độ chính xác bằng 0 trên tập kiểm tra

13. Công đoạn nào sau đây KHÔNG thuộc quy trình xử lý ngôn ngữ tự nhiên điển hình?

A. Phân tích cú pháp (Parsing)
B. Phân tích ngữ nghĩa (Semantic Analysis)
C. Phân tích tài chính (Financial Analysis)
D. Sinh tạo ngôn ngữ (Language Generation)

14. Ứng dụng nào sau đây của NLP có tiềm năng lớn nhất trong lĩnh vực y tế?

A. Chơi game
B. Phân tích bệnh án điện tử để hỗ trợ chẩn đoán và điều trị
C. Tạo nhạc
D. Dịch sách văn học

15. Named Entity Recognition (NER - Nhận dạng thực thể có tên) là nhiệm vụ:

A. Dịch tên riêng từ ngôn ngữ này sang ngôn ngữ khác
B. Xác định và phân loại các thực thể có tên trong văn bản, ví dụ: tên người, tổ chức, địa điểm, ngày tháng, v.v.
C. Tạo ra tên mới cho sản phẩm hoặc công ty
D. Kiểm tra chính tả tên riêng

16. Tokenization trong NLP là quá trình:

A. Chuyển đổi văn bản thành giọng nói
B. Chia văn bản thành các đơn vị nhỏ hơn, chẳng hạn như từ hoặc cụm từ
C. Loại bỏ các từ dừng (stop words) khỏi văn bản
D. Gán nhãn từ loại (Part-of-Speech tagging) cho mỗi từ

17. Mục đích chính của stemming (cắt gốc từ) trong NLP là gì?

A. Tăng cường ngữ nghĩa của văn bản
B. Giảm số lượng từ khác nhau bằng cách đưa các từ về dạng gốc chung
C. Chuyển đổi văn bản thành chữ hoa
D. Phát hiện ngôn ngữ của văn bản

18. Recurrent Neural Network (RNN) đặc biệt phù hợp với các tác vụ NLP nào?

A. Phân loại ảnh
B. Xử lý dữ liệu chuỗi tuần tự như văn bản hoặc giọng nói
C. Phát hiện đối tượng trong ảnh
D. Tạo ảnh từ văn bản

19. Trong NLP, `stop words` (từ dừng) thường được loại bỏ vì:

A. Chúng mang nhiều thông tin quan trọng
B. Chúng xuất hiện rất ít trong văn bản
C. Chúng xuất hiện thường xuyên nhưng ít mang ý nghĩa ngữ nghĩa trong nhiều tác vụ NLP
D. Chúng gây ra lỗi chính tả

20. Phương pháp nào sau đây thường được sử dụng để giảm chiều dữ liệu trong word embedding?

A. Mã hóa One-Hot
B. PCA (Principal Component Analysis)
C. Stemming (cắt gốc từ)
D. Lemmatization (nguyên dạng hóa từ)

21. Mô hình ngôn ngữ (Language Model) được sử dụng để làm gì?

A. Dịch văn bản từ ngôn ngữ này sang ngôn ngữ khác
B. Ước tính xác suất xuất hiện của một chuỗi từ hoặc dự đoán từ tiếp theo trong câu
C. Phân loại văn bản theo chủ đề
D. Tóm tắt văn bản dài thành văn bản ngắn hơn

22. Fine-tuning (tinh chỉnh) trong NLP là quá trình:

A. Huấn luyện lại toàn bộ mô hình từ đầu với dữ liệu mới
B. Tiếp tục huấn luyện một mô hình đã được tiền huấn luyện (pre-trained model) trên một tập dữ liệu cụ thể cho một nhiệm vụ cụ thể
C. Thay đổi kiến trúc mạng nơ-ron
D. Giảm kích thước mô hình để triển khai trên thiết bị di động

23. Trong lĩnh vực đạo đức NLP, vấn đề bias (thiên kiến) trong dữ liệu huấn luyện có thể dẫn đến hậu quả gì?

A. Mô hình hoạt động nhanh hơn
B. Mô hình đưa ra các dự đoán không công bằng hoặc phân biệt đối xử đối với một số nhóm người nhất định
C. Mô hình dễ dàng khái quát hóa sang các ngôn ngữ khác
D. Mô hình trở nên dễ giải thích hơn

24. Word embedding (biểu diễn từ) nhằm mục đích:

A. Mã hóa văn bản thành hình ảnh
B. Biểu diễn từ dưới dạng vector số trong không gian nhiều chiều, thể hiện quan hệ ngữ nghĩa giữa các từ
C. Tăng tốc độ xử lý văn bản
D. Giảm dung lượng lưu trữ văn bản

25. ROUGE score (Điểm ROUGE) thường được sử dụng để đánh giá chất lượng của hệ thống nào?

A. Hệ thống dịch máy
B. Hệ thống phân tích cảm xúc
C. Hệ thống tóm tắt văn bản
D. Hệ thống trả lời câu hỏi

26. Attention mechanism (cơ chế chú ý) trong Transformer hoạt động như thế nào?

A. Tăng tốc độ tính toán của mạng
B. Cho phép mô hình học cách gán trọng số khác nhau cho các phần khác nhau của đầu vào khi tạo ra đầu ra
C. Giảm kích thước bộ nhớ cần thiết để huấn luyện mô hình
D. Cải thiện khả năng phân loại văn bản

27. Phương pháp đánh giá BLEU score (Điểm BLEU) thường được sử dụng để đánh giá chất lượng của hệ thống nào?

A. Hệ thống phân loại văn bản
B. Hệ thống dịch máy
C. Hệ thống nhận dạng giọng nói
D. Hệ thống tóm tắt văn bản

28. Mô hình BERT (Bidirectional Encoder Representations from Transformers) nổi tiếng với khả năng gì?

A. Tạo sinh văn bản tự động
B. Hiểu ngữ cảnh hai chiều của từ trong câu, xem xét cả từ trước và sau từ đó
C. Dịch ngôn ngữ theo thời gian thực
D. Phân tích cảm xúc với độ chính xác tuyệt đối

29. NLP, viết tắt của Xử lý ngôn ngữ tự nhiên, là một lĩnh vực thuộc ngành nào?

A. Toán học thuần túy
B. Vật lý lý thuyết
C. Khoa học máy tính và trí tuệ nhân tạo
D. Ngôn ngữ học ứng dụng

30. Nhiệm vụ nào sau đây KHÔNG phải là ứng dụng phổ biến của NLP?

A. Dịch máy (Machine Translation)
B. Phân tích cảm xúc (Sentiment Analysis)
C. Dự báo thời tiết (Weather Forecasting)
D. Trợ lý ảo (Virtual Assistants)

1 / 30

Category: Đề thi, bài tập trắc nghiệm online Xử lý ngôn ngữ tự nhiên

Tags: Bộ đề 12

1. TF-IDF (Term Frequency-Inverse Document Frequency) được sử dụng để làm gì trong NLP?

2 / 30

Category: Đề thi, bài tập trắc nghiệm online Xử lý ngôn ngữ tự nhiên

Tags: Bộ đề 12

2. Beam search (tìm kiếm chùm tia) là một thuật toán được sử dụng trong NLP để:

3 / 30

Category: Đề thi, bài tập trắc nghiệm online Xử lý ngôn ngữ tự nhiên

Tags: Bộ đề 12

3. Conll-U format (định dạng Conll-U) thường được sử dụng để biểu diễn dữ liệu gì trong NLP?

4 / 30

Category: Đề thi, bài tập trắc nghiệm online Xử lý ngôn ngữ tự nhiên

Tags: Bộ đề 12

4. Ví dụ nào sau đây thể hiện sự mơ hồ ngữ nghĩa (semantic ambiguity) trong ngôn ngữ tự nhiên?

5 / 30

Category: Đề thi, bài tập trắc nghiệm online Xử lý ngôn ngữ tự nhiên

Tags: Bộ đề 12

5. Ví dụ nào sau đây KHÔNG phải là một thách thức lớn trong NLP?

6 / 30

Category: Đề thi, bài tập trắc nghiệm online Xử lý ngôn ngữ tự nhiên

Tags: Bộ đề 12

6. Coreference resolution (giải quyết đồng tham chiếu) trong NLP là gì?

7 / 30

Category: Đề thi, bài tập trắc nghiệm online Xử lý ngôn ngữ tự nhiên

Tags: Bộ đề 12

7. Transformer network (mạng Transformer) khắc phục vấn đề 'gradient vanishing' của RNN bằng cách nào?

8 / 30

Category: Đề thi, bài tập trắc nghiệm online Xử lý ngôn ngữ tự nhiên

Tags: Bộ đề 12

8. N-gram language model (mô hình ngôn ngữ N-gram) dựa trên giả định nào?

9 / 30

Category: Đề thi, bài tập trắc nghiệm online Xử lý ngôn ngữ tự nhiên

Tags: Bộ đề 12

9. Few-shot learning khác với zero-shot learning ở điểm nào?

10 / 30

Category: Đề thi, bài tập trắc nghiệm online Xử lý ngôn ngữ tự nhiên

Tags: Bộ đề 12

10. Sự khác biệt chính giữa stemming và lemmatization là gì?

11 / 30

Category: Đề thi, bài tập trắc nghiệm online Xử lý ngôn ngữ tự nhiên

Tags: Bộ đề 12

11. Vấn đề 'gradient vanishing' (mất đạo hàm) thường gặp phải ở loại mạng nơ-ron nào?

12 / 30

Category: Đề thi, bài tập trắc nghiệm online Xử lý ngôn ngữ tự nhiên

Tags: Bộ đề 12

12. Zero-shot learning trong NLP có nghĩa là:

13 / 30

Category: Đề thi, bài tập trắc nghiệm online Xử lý ngôn ngữ tự nhiên

Tags: Bộ đề 12

13. Công đoạn nào sau đây KHÔNG thuộc quy trình xử lý ngôn ngữ tự nhiên điển hình?

14 / 30

Category: Đề thi, bài tập trắc nghiệm online Xử lý ngôn ngữ tự nhiên

Tags: Bộ đề 12

14. Ứng dụng nào sau đây của NLP có tiềm năng lớn nhất trong lĩnh vực y tế?

15 / 30

Category: Đề thi, bài tập trắc nghiệm online Xử lý ngôn ngữ tự nhiên

Tags: Bộ đề 12

15. Named Entity Recognition (NER - Nhận dạng thực thể có tên) là nhiệm vụ:

16 / 30

Category: Đề thi, bài tập trắc nghiệm online Xử lý ngôn ngữ tự nhiên

Tags: Bộ đề 12

16. Tokenization trong NLP là quá trình:

17 / 30

Category: Đề thi, bài tập trắc nghiệm online Xử lý ngôn ngữ tự nhiên

Tags: Bộ đề 12

17. Mục đích chính của stemming (cắt gốc từ) trong NLP là gì?

18 / 30

Category: Đề thi, bài tập trắc nghiệm online Xử lý ngôn ngữ tự nhiên

Tags: Bộ đề 12

18. Recurrent Neural Network (RNN) đặc biệt phù hợp với các tác vụ NLP nào?

19 / 30

Category: Đề thi, bài tập trắc nghiệm online Xử lý ngôn ngữ tự nhiên

Tags: Bộ đề 12

19. Trong NLP, 'stop words' (từ dừng) thường được loại bỏ vì:

20 / 30

Category: Đề thi, bài tập trắc nghiệm online Xử lý ngôn ngữ tự nhiên

Tags: Bộ đề 12

20. Phương pháp nào sau đây thường được sử dụng để giảm chiều dữ liệu trong word embedding?

21 / 30

Category: Đề thi, bài tập trắc nghiệm online Xử lý ngôn ngữ tự nhiên

Tags: Bộ đề 12

21. Mô hình ngôn ngữ (Language Model) được sử dụng để làm gì?

22 / 30

Category: Đề thi, bài tập trắc nghiệm online Xử lý ngôn ngữ tự nhiên

Tags: Bộ đề 12

22. Fine-tuning (tinh chỉnh) trong NLP là quá trình:

23 / 30

Category: Đề thi, bài tập trắc nghiệm online Xử lý ngôn ngữ tự nhiên

Tags: Bộ đề 12

23. Trong lĩnh vực đạo đức NLP, vấn đề bias (thiên kiến) trong dữ liệu huấn luyện có thể dẫn đến hậu quả gì?

24 / 30

Category: Đề thi, bài tập trắc nghiệm online Xử lý ngôn ngữ tự nhiên

Tags: Bộ đề 12

24. Word embedding (biểu diễn từ) nhằm mục đích:

25 / 30

Category: Đề thi, bài tập trắc nghiệm online Xử lý ngôn ngữ tự nhiên

Tags: Bộ đề 12

25. ROUGE score (Điểm ROUGE) thường được sử dụng để đánh giá chất lượng của hệ thống nào?

26 / 30

Category: Đề thi, bài tập trắc nghiệm online Xử lý ngôn ngữ tự nhiên

Tags: Bộ đề 12

26. Attention mechanism (cơ chế chú ý) trong Transformer hoạt động như thế nào?

27 / 30

Category: Đề thi, bài tập trắc nghiệm online Xử lý ngôn ngữ tự nhiên

Tags: Bộ đề 12

27. Phương pháp đánh giá BLEU score (Điểm BLEU) thường được sử dụng để đánh giá chất lượng của hệ thống nào?

28 / 30

Category: Đề thi, bài tập trắc nghiệm online Xử lý ngôn ngữ tự nhiên

Tags: Bộ đề 12

28. Mô hình BERT (Bidirectional Encoder Representations from Transformers) nổi tiếng với khả năng gì?

29 / 30

Category: Đề thi, bài tập trắc nghiệm online Xử lý ngôn ngữ tự nhiên

Tags: Bộ đề 12

29. NLP, viết tắt của Xử lý ngôn ngữ tự nhiên, là một lĩnh vực thuộc ngành nào?

30 / 30

Category: Đề thi, bài tập trắc nghiệm online Xử lý ngôn ngữ tự nhiên

Tags: Bộ đề 12

30. Nhiệm vụ nào sau đây KHÔNG phải là ứng dụng phổ biến của NLP?