Đề thi, bài tập trắc nghiệm online Xử lý ngôn ngữ tự nhiên – Đề 10

0

Bạn đã sẵn sàng chưa? 45 phút làm bài bắt đầu!!!

Bạn đã hết giờ làm bài! Xem kết quả các câu hỏi đã làm nhé!!!


Đề thi, bài tập trắc nghiệm online Xử lý ngôn ngữ tự nhiên

Đề 10 - Bài tập, đề thi trắc nghiệm online Xử lý ngôn ngữ tự nhiên

1. Lỗi `overfitting` (quá khớp) trong huấn luyện mô hình NLP xảy ra khi:

A. Mô hình hoạt động kém trên cả dữ liệu huấn luyện và dữ liệu kiểm tra
B. Mô hình hoạt động tốt trên dữ liệu huấn luyện nhưng kém trên dữ liệu kiểm tra
C. Mô hình hoạt động tốt trên cả dữ liệu huấn luyện và dữ liệu kiểm tra
D. Mô hình không hội tụ trong quá trình huấn luyện

2. Vấn đề `context window limitation` (giới hạn cửa sổ ngữ cảnh) thường gặp ở mô hình ngôn ngữ nào?

A. Mô hình Transformer
B. Mô hình RNN (Recurrent Neural Network) truyền thống
C. Mô hình n-gram
D. Mô hình dựa trên Bag-of-Words

3. Trong mô hình ngôn ngữ dựa trên mạng nơ-ron, `attention mechanism` (cơ chế chú ý) giúp giải quyết vấn đề gì?

A. Vấn đề từ vựng không có trong từ điển (out-of-vocabulary words)
B. Vấn đề phụ thuộc tầm xa (long-range dependencies) trong câu
C. Vấn đề tốc độ xử lý chậm của mạng nơ-ron
D. Vấn đề thiếu dữ liệu huấn luyện

4. Nhiệm vụ nào sau đây **KHÔNG PHẢI** là một ứng dụng chính của Xử lý ngôn ngữ tự nhiên (NLP)?

A. Phân tích cảm xúc văn bản
B. Dịch máy tự động
C. Nhận dạng khuôn mặt
D. Tóm tắt văn bản tự động

5. Vấn đề `sparsity` (thưa thớt) thường gặp phải ở phương pháp biểu diễn văn bản nào?

A. Word embeddings (ví dụ: Word2Vec, GloVe)
B. Biểu diễn túi từ (Bag-of-Words)
C. Mô hình ngôn ngữ dựa trên mạng nơ-ron
D. Cây cú pháp phụ thuộc (Dependency parse tree)

6. Phương pháp nào sau đây thường được sử dụng để đánh giá chất lượng của mô hình dịch máy?

A. Độ chính xác (Accuracy)
B. BLEU score (Bilingual Evaluation Understudy)
C. F1-score
D. Recall

7. Kỹ thuật `stemming` trong NLP nhằm mục đích:

A. Tìm dạng nguyên gốc của từ (lemma)
B. Rút gọn từ về dạng gốc bằng cách loại bỏ các hậu tố và tiền tố
C. Phân tích cấu trúc ngữ pháp của câu
D. Phân loại văn bản dựa trên chủ đề

8. Phương pháp `Bag-of-Words` biểu diễn văn bản dựa trên:

A. Thứ tự xuất hiện của các từ trong văn bản
B. Tần suất xuất hiện của mỗi từ trong văn bản, bỏ qua thứ tự
C. Ngữ cảnh xuất hiện của các từ trong văn bản
D. Mối quan hệ ngữ pháp giữa các từ trong văn bản

9. Kỹ thuật `dropout` được sử dụng trong mạng nơ-ron để:

A. Tăng tốc độ huấn luyện
B. Giảm thiểu overfitting bằng cách ngẫu nhiên bỏ qua một số nơ-ron trong quá trình huấn luyện
C. Tăng kích thước mô hình
D. Cải thiện khả năng diễn giải của mô hình

10. Trong NLP, `information retrieval` (IR - truy xuất thông tin) là lĩnh vực nghiên cứu về:

A. Dịch văn bản từ ngôn ngữ này sang ngôn ngữ khác
B. Tìm kiếm và truy xuất các tài liệu liên quan đến một truy vấn cụ thể từ một tập dữ liệu lớn
C. Phân tích cảm xúc của văn bản trên mạng xã hội
D. Tạo ra văn bản tóm tắt từ một tài liệu dài

11. Trong ngữ cảnh của chatbots, `intent recognition` (nhận dạng ý định) là quá trình:

A. Tạo ra phản hồi văn bản tự động
B. Xác định mục đích hoặc mong muốn của người dùng thông qua đầu vào văn bản của họ
C. Lưu trữ lịch sử hội thoại với người dùng
D. Chuyển đổi văn bản thành giọng nói để chatbot `nói chuyện`

12. Sự khác biệt chính giữa `stemming` và `lemmatization` là gì?

A. Stemming chậm hơn lemmatization
B. Lemmatization tạo ra gốc từ có nghĩa, trong khi stemming có thể tạo ra gốc từ không có nghĩa
C. Stemming sử dụng từ điển, lemmatization thì không
D. Lemmatization chỉ áp dụng cho tiếng Anh, stemming áp dụng cho nhiều ngôn ngữ hơn

13. Trong ngữ cảnh của word embeddings, `cosine similarity` (độ tương đồng cosine) được sử dụng để:

A. Đo khoảng cách giữa hai từ trong không gian vector
B. Đo mức độ tương tự về ngữ nghĩa giữa hai từ
C. Giảm chiều dữ liệu của word embeddings
D. Huấn luyện word embeddings từ dữ liệu văn bản

14. Trong xử lý ngôn ngữ tự nhiên, `coreference resolution` (giải quyết đồng tham chiếu) là quá trình:

A. Dịch văn bản sang ngôn ngữ khác
B. Xác định tất cả các biểu thức tham chiếu đến cùng một thực thể trong văn bản
C. Phân tích cấu trúc ngữ pháp của câu
D. Tóm tắt nội dung chính của văn bản

15. Mô hình ngôn ngữ `n-gram` hoạt động dựa trên giả định nào?

A. Mỗi từ trong câu độc lập với các từ khác
B. Xác suất xuất hiện của một từ chỉ phụ thuộc vào n-1 từ đứng trước nó
C. Ngữ nghĩa của từ là yếu tố quan trọng nhất
D. Cấu trúc ngữ pháp của câu quyết định ý nghĩa

16. Trong mô hình Transformer, thành phần `self-attention` (tự chú ý) cho phép mô hình:

A. Xử lý dữ liệu tuần tự theo thứ tự
B. Tập trung vào các phần khác nhau của **cùng một** chuỗi đầu vào khi xử lý mỗi vị trí
C. Tập trung vào chuỗi đầu vào khác khi tạo ra chuỗi đầu ra
D. Giảm chiều dữ liệu đầu vào

17. Ứng dụng nào sau đây **KHÔNG** phải là một ví dụ trực tiếp của Xử lý ngôn ngữ tự nhiên?

A. Bộ lọc thư rác (Spam email filter)
B. Hệ thống đề xuất sản phẩm (Product recommendation system)
C. Trợ lý ảo (Virtual assistant)
D. Công cụ kiểm tra chính tả (Spell checker)

18. Thuật ngữ `tokenization` trong NLP đề cập đến quá trình:

A. Chuyển đổi văn bản thành giọng nói
B. Chia văn bản thành các đơn vị nhỏ hơn, ví dụ như từ hoặc cụm từ
C. Gán nhãn từ loại cho mỗi từ trong câu
D. Loại bỏ các từ dừng (stop words) khỏi văn bản

19. Trong phân tích cảm xúc (sentiment analysis), `aspect-based sentiment analysis` (phân tích cảm xúc dựa trên khía cạnh) đi sâu hơn bằng cách:

A. Xác định cảm xúc chung của toàn bộ văn bản
B. Xác định cảm xúc đối với từng khía cạnh cụ thể được đề cập trong văn bản
C. Dịch văn bản sang ngôn ngữ khác trước khi phân tích cảm xúc
D. Sử dụng từ điển cảm xúc để phân tích cảm xúc

20. Trong lĩnh vực tạo sinh văn bản (text generation), `sampling` (lấy mẫu) là kỹ thuật:

A. Đánh giá chất lượng văn bản được tạo ra
B. Lựa chọn từ tiếp theo để tạo ra văn bản, dựa trên phân phối xác suất dự đoán của mô hình
C. Tiền xử lý dữ liệu huấn luyện
D. Tăng tốc độ tạo văn bản

21. Mục tiêu chính của `Named Entity Recognition` (NER) là gì?

A. Phân tích cảm xúc của văn bản
B. Xác định và phân loại các thực thể có tên trong văn bản
C. Dịch văn bản từ ngôn ngữ này sang ngôn ngữ khác
D. Tóm tắt nội dung chính của văn bản

22. Trong ngữ cảnh của mô hình ngôn ngữ, `perplexity` (độ khó hiểu) là một metric đánh giá:

A. Tốc độ xử lý của mô hình
B. Khả năng dự đoán từ tiếp theo của mô hình
C. Độ phức tạp của mô hình
D. Kích thước của mô hình

23. Mục tiêu của `dependency parsing` (phân tích cú pháp phụ thuộc) là gì?

A. Phân chia câu thành các cụm từ
B. Xác định mối quan hệ phụ thuộc giữa các từ trong câu, biểu diễn dưới dạng cây
C. Gán nhãn từ loại cho mỗi từ
D. Phân tích cảm xúc của câu

24. Phương pháp nào sau đây thường được sử dụng để giảm chiều dữ liệu trong biểu diễn vector từ (word embeddings)?

A. Mã hóa one-hot
B. Phân tích thành phần chính (PCA)
C. Biểu diễn túi từ (Bag-of-Words)
D. Biểu diễn TF-IDF

25. Phương pháp nào sau đây **KHÔNG** thuộc nhóm phương pháp học máy không giám sát (unsupervised learning) trong NLP?

A. Phân cụm văn bản (Document clustering)
B. Mô hình hóa chủ đề (Topic modeling)
C. Phân loại cảm xúc (Sentiment classification) với dữ liệu gán nhãn
D. Giảm chiều dữ liệu (Dimensionality reduction)

26. Phương pháp `transfer learning` (học chuyển giao) trong NLP giúp ích như thế nào?

A. Giảm kích thước mô hình
B. Tái sử dụng kiến thức đã học từ một nhiệm vụ (hoặc tập dữ liệu) để cải thiện hiệu suất trên một nhiệm vụ khác, thường là với ít dữ liệu hơn
C. Tăng tốc độ huấn luyện mô hình
D. Cải thiện khả năng diễn giải của mô hình

27. Trong xử lý ngôn ngữ tự nhiên, `stop words` (từ dừng) thường được loại bỏ vì:

A. Chúng chứa thông tin ngữ nghĩa quan trọng
B. Chúng xuất hiện quá thường xuyên và ít đóng góp vào ý nghĩa của văn bản
C. Chúng gây khó khăn cho việc tokenization
D. Chúng chỉ xuất hiện trong các ngôn ngữ nhất định

28. Trong NLP, `word sense disambiguation` (WSD - phân biệt nghĩa từ) là bài toán:

A. Dịch một từ sang ngôn ngữ khác
B. Xác định nghĩa chính xác của một từ trong ngữ cảnh cụ thể, khi từ đó có nhiều nghĩa
C. Tìm từ đồng nghĩa và trái nghĩa của một từ
D. Phân tích cấu trúc ngữ pháp của câu chứa từ đó

29. Phương pháp `TF-IDF` được sử dụng để làm gì trong NLP?

A. Giảm chiều dữ liệu văn bản
B. Đánh trọng số cho các từ trong văn bản dựa trên tần suất xuất hiện của chúng trong tài liệu và toàn bộ tập tài liệu
C. Phân cụm các văn bản tương tự
D. Tìm dạng nguyên gốc của từ (lemma)

30. Kỹ thuật `backpropagation` (lan truyền ngược) được sử dụng để làm gì trong mạng nơ-ron?

A. Dự đoán đầu ra từ đầu vào
B. Tính toán gradient của hàm mất mát và cập nhật trọng số của mạng
C. Khởi tạo trọng số ban đầu cho mạng
D. Giảm chiều dữ liệu đầu vào

1 / 30

Category: Đề thi, bài tập trắc nghiệm online Xử lý ngôn ngữ tự nhiên

Tags: Bộ đề 10

1. Lỗi 'overfitting' (quá khớp) trong huấn luyện mô hình NLP xảy ra khi:

2 / 30

Category: Đề thi, bài tập trắc nghiệm online Xử lý ngôn ngữ tự nhiên

Tags: Bộ đề 10

2. Vấn đề 'context window limitation' (giới hạn cửa sổ ngữ cảnh) thường gặp ở mô hình ngôn ngữ nào?

3 / 30

Category: Đề thi, bài tập trắc nghiệm online Xử lý ngôn ngữ tự nhiên

Tags: Bộ đề 10

3. Trong mô hình ngôn ngữ dựa trên mạng nơ-ron, 'attention mechanism' (cơ chế chú ý) giúp giải quyết vấn đề gì?

4 / 30

Category: Đề thi, bài tập trắc nghiệm online Xử lý ngôn ngữ tự nhiên

Tags: Bộ đề 10

4. Nhiệm vụ nào sau đây **KHÔNG PHẢI** là một ứng dụng chính của Xử lý ngôn ngữ tự nhiên (NLP)?

5 / 30

Category: Đề thi, bài tập trắc nghiệm online Xử lý ngôn ngữ tự nhiên

Tags: Bộ đề 10

5. Vấn đề 'sparsity' (thưa thớt) thường gặp phải ở phương pháp biểu diễn văn bản nào?

6 / 30

Category: Đề thi, bài tập trắc nghiệm online Xử lý ngôn ngữ tự nhiên

Tags: Bộ đề 10

6. Phương pháp nào sau đây thường được sử dụng để đánh giá chất lượng của mô hình dịch máy?

7 / 30

Category: Đề thi, bài tập trắc nghiệm online Xử lý ngôn ngữ tự nhiên

Tags: Bộ đề 10

7. Kỹ thuật 'stemming' trong NLP nhằm mục đích:

8 / 30

Category: Đề thi, bài tập trắc nghiệm online Xử lý ngôn ngữ tự nhiên

Tags: Bộ đề 10

8. Phương pháp 'Bag-of-Words' biểu diễn văn bản dựa trên:

9 / 30

Category: Đề thi, bài tập trắc nghiệm online Xử lý ngôn ngữ tự nhiên

Tags: Bộ đề 10

9. Kỹ thuật 'dropout' được sử dụng trong mạng nơ-ron để:

10 / 30

Category: Đề thi, bài tập trắc nghiệm online Xử lý ngôn ngữ tự nhiên

Tags: Bộ đề 10

10. Trong NLP, 'information retrieval' (IR - truy xuất thông tin) là lĩnh vực nghiên cứu về:

11 / 30

Category: Đề thi, bài tập trắc nghiệm online Xử lý ngôn ngữ tự nhiên

Tags: Bộ đề 10

11. Trong ngữ cảnh của chatbots, 'intent recognition' (nhận dạng ý định) là quá trình:

12 / 30

Category: Đề thi, bài tập trắc nghiệm online Xử lý ngôn ngữ tự nhiên

Tags: Bộ đề 10

12. Sự khác biệt chính giữa 'stemming' và 'lemmatization' là gì?

13 / 30

Category: Đề thi, bài tập trắc nghiệm online Xử lý ngôn ngữ tự nhiên

Tags: Bộ đề 10

13. Trong ngữ cảnh của word embeddings, 'cosine similarity' (độ tương đồng cosine) được sử dụng để:

14 / 30

Category: Đề thi, bài tập trắc nghiệm online Xử lý ngôn ngữ tự nhiên

Tags: Bộ đề 10

14. Trong xử lý ngôn ngữ tự nhiên, 'coreference resolution' (giải quyết đồng tham chiếu) là quá trình:

15 / 30

Category: Đề thi, bài tập trắc nghiệm online Xử lý ngôn ngữ tự nhiên

Tags: Bộ đề 10

15. Mô hình ngôn ngữ 'n-gram' hoạt động dựa trên giả định nào?

16 / 30

Category: Đề thi, bài tập trắc nghiệm online Xử lý ngôn ngữ tự nhiên

Tags: Bộ đề 10

16. Trong mô hình Transformer, thành phần 'self-attention' (tự chú ý) cho phép mô hình:

17 / 30

Category: Đề thi, bài tập trắc nghiệm online Xử lý ngôn ngữ tự nhiên

Tags: Bộ đề 10

17. Ứng dụng nào sau đây **KHÔNG** phải là một ví dụ trực tiếp của Xử lý ngôn ngữ tự nhiên?

18 / 30

Category: Đề thi, bài tập trắc nghiệm online Xử lý ngôn ngữ tự nhiên

Tags: Bộ đề 10

18. Thuật ngữ 'tokenization' trong NLP đề cập đến quá trình:

19 / 30

Category: Đề thi, bài tập trắc nghiệm online Xử lý ngôn ngữ tự nhiên

Tags: Bộ đề 10

19. Trong phân tích cảm xúc (sentiment analysis), 'aspect-based sentiment analysis' (phân tích cảm xúc dựa trên khía cạnh) đi sâu hơn bằng cách:

20 / 30

Category: Đề thi, bài tập trắc nghiệm online Xử lý ngôn ngữ tự nhiên

Tags: Bộ đề 10

20. Trong lĩnh vực tạo sinh văn bản (text generation), 'sampling' (lấy mẫu) là kỹ thuật:

21 / 30

Category: Đề thi, bài tập trắc nghiệm online Xử lý ngôn ngữ tự nhiên

Tags: Bộ đề 10

21. Mục tiêu chính của 'Named Entity Recognition' (NER) là gì?

22 / 30

Category: Đề thi, bài tập trắc nghiệm online Xử lý ngôn ngữ tự nhiên

Tags: Bộ đề 10

22. Trong ngữ cảnh của mô hình ngôn ngữ, 'perplexity' (độ khó hiểu) là một metric đánh giá:

23 / 30

Category: Đề thi, bài tập trắc nghiệm online Xử lý ngôn ngữ tự nhiên

Tags: Bộ đề 10

23. Mục tiêu của 'dependency parsing' (phân tích cú pháp phụ thuộc) là gì?

24 / 30

Category: Đề thi, bài tập trắc nghiệm online Xử lý ngôn ngữ tự nhiên

Tags: Bộ đề 10

24. Phương pháp nào sau đây thường được sử dụng để giảm chiều dữ liệu trong biểu diễn vector từ (word embeddings)?

25 / 30

Category: Đề thi, bài tập trắc nghiệm online Xử lý ngôn ngữ tự nhiên

Tags: Bộ đề 10

25. Phương pháp nào sau đây **KHÔNG** thuộc nhóm phương pháp học máy không giám sát (unsupervised learning) trong NLP?

26 / 30

Category: Đề thi, bài tập trắc nghiệm online Xử lý ngôn ngữ tự nhiên

Tags: Bộ đề 10

26. Phương pháp 'transfer learning' (học chuyển giao) trong NLP giúp ích như thế nào?

27 / 30

Category: Đề thi, bài tập trắc nghiệm online Xử lý ngôn ngữ tự nhiên

Tags: Bộ đề 10

27. Trong xử lý ngôn ngữ tự nhiên, 'stop words' (từ dừng) thường được loại bỏ vì:

28 / 30

Category: Đề thi, bài tập trắc nghiệm online Xử lý ngôn ngữ tự nhiên

Tags: Bộ đề 10

28. Trong NLP, 'word sense disambiguation' (WSD - phân biệt nghĩa từ) là bài toán:

29 / 30

Category: Đề thi, bài tập trắc nghiệm online Xử lý ngôn ngữ tự nhiên

Tags: Bộ đề 10

29. Phương pháp 'TF-IDF' được sử dụng để làm gì trong NLP?

30 / 30

Category: Đề thi, bài tập trắc nghiệm online Xử lý ngôn ngữ tự nhiên

Tags: Bộ đề 10

30. Kỹ thuật 'backpropagation' (lan truyền ngược) được sử dụng để làm gì trong mạng nơ-ron?