1. Lỗi `overfitting` (quá khớp) trong huấn luyện mô hình NLP xảy ra khi:
A. Mô hình hoạt động kém trên cả dữ liệu huấn luyện và dữ liệu kiểm tra
B. Mô hình hoạt động tốt trên dữ liệu huấn luyện nhưng kém trên dữ liệu kiểm tra
C. Mô hình hoạt động tốt trên cả dữ liệu huấn luyện và dữ liệu kiểm tra
D. Mô hình không hội tụ trong quá trình huấn luyện
2. Vấn đề `context window limitation` (giới hạn cửa sổ ngữ cảnh) thường gặp ở mô hình ngôn ngữ nào?
A. Mô hình Transformer
B. Mô hình RNN (Recurrent Neural Network) truyền thống
C. Mô hình n-gram
D. Mô hình dựa trên Bag-of-Words
3. Trong mô hình ngôn ngữ dựa trên mạng nơ-ron, `attention mechanism` (cơ chế chú ý) giúp giải quyết vấn đề gì?
A. Vấn đề từ vựng không có trong từ điển (out-of-vocabulary words)
B. Vấn đề phụ thuộc tầm xa (long-range dependencies) trong câu
C. Vấn đề tốc độ xử lý chậm của mạng nơ-ron
D. Vấn đề thiếu dữ liệu huấn luyện
4. Nhiệm vụ nào sau đây **KHÔNG PHẢI** là một ứng dụng chính của Xử lý ngôn ngữ tự nhiên (NLP)?
A. Phân tích cảm xúc văn bản
B. Dịch máy tự động
C. Nhận dạng khuôn mặt
D. Tóm tắt văn bản tự động
5. Vấn đề `sparsity` (thưa thớt) thường gặp phải ở phương pháp biểu diễn văn bản nào?
A. Word embeddings (ví dụ: Word2Vec, GloVe)
B. Biểu diễn túi từ (Bag-of-Words)
C. Mô hình ngôn ngữ dựa trên mạng nơ-ron
D. Cây cú pháp phụ thuộc (Dependency parse tree)
6. Phương pháp nào sau đây thường được sử dụng để đánh giá chất lượng của mô hình dịch máy?
A. Độ chính xác (Accuracy)
B. BLEU score (Bilingual Evaluation Understudy)
C. F1-score
D. Recall
7. Kỹ thuật `stemming` trong NLP nhằm mục đích:
A. Tìm dạng nguyên gốc của từ (lemma)
B. Rút gọn từ về dạng gốc bằng cách loại bỏ các hậu tố và tiền tố
C. Phân tích cấu trúc ngữ pháp của câu
D. Phân loại văn bản dựa trên chủ đề
8. Phương pháp `Bag-of-Words` biểu diễn văn bản dựa trên:
A. Thứ tự xuất hiện của các từ trong văn bản
B. Tần suất xuất hiện của mỗi từ trong văn bản, bỏ qua thứ tự
C. Ngữ cảnh xuất hiện của các từ trong văn bản
D. Mối quan hệ ngữ pháp giữa các từ trong văn bản
9. Kỹ thuật `dropout` được sử dụng trong mạng nơ-ron để:
A. Tăng tốc độ huấn luyện
B. Giảm thiểu overfitting bằng cách ngẫu nhiên bỏ qua một số nơ-ron trong quá trình huấn luyện
C. Tăng kích thước mô hình
D. Cải thiện khả năng diễn giải của mô hình
10. Trong NLP, `information retrieval` (IR - truy xuất thông tin) là lĩnh vực nghiên cứu về:
A. Dịch văn bản từ ngôn ngữ này sang ngôn ngữ khác
B. Tìm kiếm và truy xuất các tài liệu liên quan đến một truy vấn cụ thể từ một tập dữ liệu lớn
C. Phân tích cảm xúc của văn bản trên mạng xã hội
D. Tạo ra văn bản tóm tắt từ một tài liệu dài
11. Trong ngữ cảnh của chatbots, `intent recognition` (nhận dạng ý định) là quá trình:
A. Tạo ra phản hồi văn bản tự động
B. Xác định mục đích hoặc mong muốn của người dùng thông qua đầu vào văn bản của họ
C. Lưu trữ lịch sử hội thoại với người dùng
D. Chuyển đổi văn bản thành giọng nói để chatbot `nói chuyện`
12. Sự khác biệt chính giữa `stemming` và `lemmatization` là gì?
A. Stemming chậm hơn lemmatization
B. Lemmatization tạo ra gốc từ có nghĩa, trong khi stemming có thể tạo ra gốc từ không có nghĩa
C. Stemming sử dụng từ điển, lemmatization thì không
D. Lemmatization chỉ áp dụng cho tiếng Anh, stemming áp dụng cho nhiều ngôn ngữ hơn
13. Trong ngữ cảnh của word embeddings, `cosine similarity` (độ tương đồng cosine) được sử dụng để:
A. Đo khoảng cách giữa hai từ trong không gian vector
B. Đo mức độ tương tự về ngữ nghĩa giữa hai từ
C. Giảm chiều dữ liệu của word embeddings
D. Huấn luyện word embeddings từ dữ liệu văn bản
14. Trong xử lý ngôn ngữ tự nhiên, `coreference resolution` (giải quyết đồng tham chiếu) là quá trình:
A. Dịch văn bản sang ngôn ngữ khác
B. Xác định tất cả các biểu thức tham chiếu đến cùng một thực thể trong văn bản
C. Phân tích cấu trúc ngữ pháp của câu
D. Tóm tắt nội dung chính của văn bản
15. Mô hình ngôn ngữ `n-gram` hoạt động dựa trên giả định nào?
A. Mỗi từ trong câu độc lập với các từ khác
B. Xác suất xuất hiện của một từ chỉ phụ thuộc vào n-1 từ đứng trước nó
C. Ngữ nghĩa của từ là yếu tố quan trọng nhất
D. Cấu trúc ngữ pháp của câu quyết định ý nghĩa
16. Trong mô hình Transformer, thành phần `self-attention` (tự chú ý) cho phép mô hình:
A. Xử lý dữ liệu tuần tự theo thứ tự
B. Tập trung vào các phần khác nhau của **cùng một** chuỗi đầu vào khi xử lý mỗi vị trí
C. Tập trung vào chuỗi đầu vào khác khi tạo ra chuỗi đầu ra
D. Giảm chiều dữ liệu đầu vào
17. Ứng dụng nào sau đây **KHÔNG** phải là một ví dụ trực tiếp của Xử lý ngôn ngữ tự nhiên?
A. Bộ lọc thư rác (Spam email filter)
B. Hệ thống đề xuất sản phẩm (Product recommendation system)
C. Trợ lý ảo (Virtual assistant)
D. Công cụ kiểm tra chính tả (Spell checker)
18. Thuật ngữ `tokenization` trong NLP đề cập đến quá trình:
A. Chuyển đổi văn bản thành giọng nói
B. Chia văn bản thành các đơn vị nhỏ hơn, ví dụ như từ hoặc cụm từ
C. Gán nhãn từ loại cho mỗi từ trong câu
D. Loại bỏ các từ dừng (stop words) khỏi văn bản
19. Trong phân tích cảm xúc (sentiment analysis), `aspect-based sentiment analysis` (phân tích cảm xúc dựa trên khía cạnh) đi sâu hơn bằng cách:
A. Xác định cảm xúc chung của toàn bộ văn bản
B. Xác định cảm xúc đối với từng khía cạnh cụ thể được đề cập trong văn bản
C. Dịch văn bản sang ngôn ngữ khác trước khi phân tích cảm xúc
D. Sử dụng từ điển cảm xúc để phân tích cảm xúc
20. Trong lĩnh vực tạo sinh văn bản (text generation), `sampling` (lấy mẫu) là kỹ thuật:
A. Đánh giá chất lượng văn bản được tạo ra
B. Lựa chọn từ tiếp theo để tạo ra văn bản, dựa trên phân phối xác suất dự đoán của mô hình
C. Tiền xử lý dữ liệu huấn luyện
D. Tăng tốc độ tạo văn bản
21. Mục tiêu chính của `Named Entity Recognition` (NER) là gì?
A. Phân tích cảm xúc của văn bản
B. Xác định và phân loại các thực thể có tên trong văn bản
C. Dịch văn bản từ ngôn ngữ này sang ngôn ngữ khác
D. Tóm tắt nội dung chính của văn bản
22. Trong ngữ cảnh của mô hình ngôn ngữ, `perplexity` (độ khó hiểu) là một metric đánh giá:
A. Tốc độ xử lý của mô hình
B. Khả năng dự đoán từ tiếp theo của mô hình
C. Độ phức tạp của mô hình
D. Kích thước của mô hình
23. Mục tiêu của `dependency parsing` (phân tích cú pháp phụ thuộc) là gì?
A. Phân chia câu thành các cụm từ
B. Xác định mối quan hệ phụ thuộc giữa các từ trong câu, biểu diễn dưới dạng cây
C. Gán nhãn từ loại cho mỗi từ
D. Phân tích cảm xúc của câu
24. Phương pháp nào sau đây thường được sử dụng để giảm chiều dữ liệu trong biểu diễn vector từ (word embeddings)?
A. Mã hóa one-hot
B. Phân tích thành phần chính (PCA)
C. Biểu diễn túi từ (Bag-of-Words)
D. Biểu diễn TF-IDF
25. Phương pháp nào sau đây **KHÔNG** thuộc nhóm phương pháp học máy không giám sát (unsupervised learning) trong NLP?
A. Phân cụm văn bản (Document clustering)
B. Mô hình hóa chủ đề (Topic modeling)
C. Phân loại cảm xúc (Sentiment classification) với dữ liệu gán nhãn
D. Giảm chiều dữ liệu (Dimensionality reduction)
26. Phương pháp `transfer learning` (học chuyển giao) trong NLP giúp ích như thế nào?
A. Giảm kích thước mô hình
B. Tái sử dụng kiến thức đã học từ một nhiệm vụ (hoặc tập dữ liệu) để cải thiện hiệu suất trên một nhiệm vụ khác, thường là với ít dữ liệu hơn
C. Tăng tốc độ huấn luyện mô hình
D. Cải thiện khả năng diễn giải của mô hình
27. Trong xử lý ngôn ngữ tự nhiên, `stop words` (từ dừng) thường được loại bỏ vì:
A. Chúng chứa thông tin ngữ nghĩa quan trọng
B. Chúng xuất hiện quá thường xuyên và ít đóng góp vào ý nghĩa của văn bản
C. Chúng gây khó khăn cho việc tokenization
D. Chúng chỉ xuất hiện trong các ngôn ngữ nhất định
28. Trong NLP, `word sense disambiguation` (WSD - phân biệt nghĩa từ) là bài toán:
A. Dịch một từ sang ngôn ngữ khác
B. Xác định nghĩa chính xác của một từ trong ngữ cảnh cụ thể, khi từ đó có nhiều nghĩa
C. Tìm từ đồng nghĩa và trái nghĩa của một từ
D. Phân tích cấu trúc ngữ pháp của câu chứa từ đó
29. Phương pháp `TF-IDF` được sử dụng để làm gì trong NLP?
A. Giảm chiều dữ liệu văn bản
B. Đánh trọng số cho các từ trong văn bản dựa trên tần suất xuất hiện của chúng trong tài liệu và toàn bộ tập tài liệu
C. Phân cụm các văn bản tương tự
D. Tìm dạng nguyên gốc của từ (lemma)
30. Kỹ thuật `backpropagation` (lan truyền ngược) được sử dụng để làm gì trong mạng nơ-ron?
A. Dự đoán đầu ra từ đầu vào
B. Tính toán gradient của hàm mất mát và cập nhật trọng số của mạng
C. Khởi tạo trọng số ban đầu cho mạng
D. Giảm chiều dữ liệu đầu vào