1. Transformer networks, kiến trúc nền tảng của BERT và GPT, nổi bật nhờ cơ chế:
A. Convolutional Neural Network (CNN).
B. Recurrent Neural Network (RNN).
C. Attention mechanism (cơ chế chú ý).
D. Support Vector Machine (SVM).
2. Vấn đề `ambiguity` (đa nghĩa) trong NLP đề cập đến:
A. Khả năng của ngôn ngữ tự nhiên có nhiều cách diễn đạt cùng một ý.
B. Việc máy tính không thể hiểu được ngôn ngữ của con người.
C. Việc một từ hoặc cụm từ có thể có nhiều hơn một nghĩa.
D. Sự khác biệt giữa ngôn ngữ nói và ngôn ngữ viết.
3. Phương pháp `backpropagation` (lan truyền ngược) được sử dụng trong huấn luyện mạng nơ-ron cho NLP để:
A. Tiền xử lý dữ liệu văn bản.
B. Tính toán và cập nhật trọng số của mạng để giảm thiểu lỗi dự đoán.
C. Tối ưu hóa tốc độ xử lý của mạng.
D. Trực quan hóa kết quả của mô hình.
4. Trong NLP, `n-gram` là gì?
A. Một loại mô hình mạng nơ-ron.
B. Một chuỗi gồm n từ liên tiếp trong văn bản.
C. Một phương pháp đánh giá chất lượng bản dịch.
D. Một thuật toán phân tích cảm xúc.
5. Để xử lý văn bản tiếng Việt hiệu quả, một bước tiền xử lý quan trọng thường được thực hiện là:
A. Loại bỏ dấu thanh.
B. Tách từ tiếng Việt (word segmentation).
C. Chuyển đổi chữ hoa thành chữ thường.
D. Loại bỏ số và ký tự đặc biệt.
6. Kỹ thuật `Part-of-Speech tagging` (POS tagging) gán nhãn cho mỗi từ trong câu dựa trên:
A. Ý nghĩa của từ trong ngữ cảnh.
B. Chức năng ngữ pháp của từ (ví dụ: danh từ, động từ, tính từ).
C. Tần suất xuất hiện của từ trong văn bản.
D. Cảm xúc mà từ đó thể hiện.
7. Khái niệm `zero-shot learning` trong NLP đề cập đến khả năng của mô hình:
A. Học từ dữ liệu không có nhãn.
B. Thực hiện nhiệm vụ mà không cần được huấn luyện trực tiếp trên nhiệm vụ đó.
C. Học nhanh chóng từ một lượng nhỏ dữ liệu.
D. Hoạt động hiệu quả trên các thiết bị có tài nguyên hạn chế.
8. Thách thức lớn nhất khi áp dụng NLP cho ngôn ngữ tiếng Việt là:
A. Tiếng Việt không có bảng chữ cái.
B. Tiếng Việt là ngôn ngữ đơn âm tiết và giàu biến tố.
C. Tiếng Việt là ngôn ngữ phân tích tính, có nhiều từ ghép và biến thể ngữ pháp phức tạp.
D. Thiếu dữ liệu huấn luyện và tài nguyên ngôn ngữ tiếng Việt quy mô lớn.
9. Trong lĩnh vực chatbot, `dialogue management` (quản lý hội thoại) đảm nhiệm vai trò:
A. Nhận dạng giọng nói của người dùng.
B. Xác định ý định của người dùng.
C. Theo dõi trạng thái hội thoại và quyết định phản hồi phù hợp tiếp theo.
D. Tạo ra văn bản phản hồi tự nhiên.
10. Công nghệ `speech recognition` (nhận dạng giọng nói) là một phần quan trọng của NLP, tập trung vào:
A. Chuyển đổi văn bản thành giọng nói.
B. Phân tích ý nghĩa của văn bản.
C. Chuyển đổi giọng nói của con người thành văn bản.
D. Dịch giọng nói từ ngôn ngữ này sang ngôn ngữ khác.
11. Xử lý ngôn ngữ tự nhiên (NLP) là lĩnh vực khoa học máy tính tập trung vào:
A. Xây dựng các hệ thống cơ khí tự động hóa quy trình sản xuất.
B. Phát triển các thuật toán khai thác dữ liệu từ cơ sở dữ liệu quan hệ.
C. Giúp máy tính hiểu, diễn giải và tạo ra ngôn ngữ của con người.
D. Thiết kế giao diện người dùng trực quan cho các ứng dụng web.
12. Ứng dụng nào sau đây KHÔNG phải là ứng dụng chính của NLP?
A. Chatbot hỗ trợ khách hàng.
B. Hệ thống nhận diện khuôn mặt.
C. Công cụ dịch máy.
D. Phần mềm kiểm tra chính tả và ngữ pháp.
13. Nhiệm vụ `Named Entity Recognition` (NER) trong NLP là:
A. Phân tích cảm xúc của văn bản.
B. Nhận diện và phân loại các thực thể có tên trong văn bản (ví dụ: tên người, tổ chức, địa điểm).
C. Tóm tắt nội dung chính của văn bản.
D. Dịch văn bản sang ngôn ngữ khác.
14. Đánh giá `Perplexity` thường được sử dụng để đo lường hiệu suất của:
A. Mô hình phân loại văn bản.
B. Mô hình ngôn ngữ.
C. Mô hình nhận dạng thực thể có tên.
D. Mô hình dịch máy.
15. Phương pháp nào sau đây thường được sử dụng để xử lý `out-of-vocabulary` (OOV) words (từ không có trong từ vựng) trong NLP?
A. Stemming.
B. Lemmatization.
C. Subword tokenization (ví dụ: Byte-Pair Encoding).
D. Stop word removal.
16. Trong ngữ cảnh của chatbot, `intent recognition` (nhận diện ý định) là quá trình:
A. Tạo ra phản hồi tự nhiên và phù hợp.
B. Xác định mục đích hoặc ý định của người dùng thông qua câu hỏi hoặc lệnh của họ.
C. Chuyển đổi văn bản thành giọng nói.
D. Phân tích cảm xúc của người dùng.
17. Trong đánh giá hệ thống sinh văn bản (text generation), `ROUGE score` tập trung vào đo lường:
A. Tính mạch lạc của văn bản sinh ra.
B. Độ đa dạng của từ vựng sử dụng.
C. Mức độ trùng lặp của n-gram giữa văn bản sinh ra và văn bản tham khảo.
D. Tính chính xác ngữ pháp của văn bản sinh ra.
18. Trong lĩnh vực đạo đức NLP, vấn đề `bias` (thiên kiến) trong dữ liệu huấn luyện có thể dẫn đến:
A. Mô hình hoạt động kém hiệu quả hơn.
B. Mô hình đưa ra các dự đoán không công bằng hoặc phân biệt đối xử với một số nhóm người.
C. Mô hình khó diễn giải kết quả hơn.
D. Mô hình yêu cầu nhiều tài nguyên tính toán hơn.
19. Mô hình ngôn ngữ (language model) trong NLP được sử dụng để:
A. Phân tích cấu trúc ngữ pháp của câu.
B. Dự đoán xác suất xuất hiện của một chuỗi từ trong ngôn ngữ.
C. Biên dịch mã chương trình.
D. Tạo ra hình ảnh từ mô tả văn bản.
20. Phương pháp `back-translation` (dịch ngược) thường được sử dụng để:
A. Cải thiện tốc độ dịch máy.
B. Tăng cường dữ liệu huấn luyện cho dịch máy, đặc biệt là khi dữ liệu song ngữ hạn chế.
C. Đánh giá chất lượng bản dịch máy.
D. Tạo ra giao diện người dùng đa ngôn ngữ.
21. Kỹ thuật `lemmatization` khác với `stemming` ở điểm nào?
A. Lemmatization nhanh hơn stemming.
B. Lemmatization cho ra gốc từ có nghĩa (lemma), trong khi stemming có thể tạo ra gốc từ không có nghĩa.
C. Stemming sử dụng từ điển, còn lemmatization sử dụng quy tắc.
D. Stemming chính xác hơn lemmatization.
22. Kỹ thuật `stemming` trong NLP nhằm mục đích:
A. Tìm ra gốc từ của một từ bằng cách loại bỏ các hậu tố và tiền tố.
B. Thay thế từ bằng từ đồng nghĩa.
C. Phân loại văn bản theo chủ đề.
D. Dịch văn bản từ ngôn ngữ này sang ngôn ngữ khác.
23. Trong NLP, `tokenization` là quá trình:
A. Biến đổi văn bản thành giọng nói.
B. Phân chia văn bản thành các đơn vị nhỏ hơn, ví dụ như từ hoặc cụm từ.
C. Gán nhãn ngữ pháp cho từng từ trong câu.
D. Loại bỏ các từ dừng (stop words) khỏi văn bản.
24. Trong dịch máy, `BLEU score` là một độ đo đánh giá:
A. Tốc độ dịch.
B. Độ trôi chảy của bản dịch.
C. Độ tương đồng giữa bản dịch máy và bản dịch tham khảo của con người.
D. Khả năng hiểu ngữ cảnh của mô hình dịch.
25. Trong ngữ cảnh của hệ thống hỏi đáp (Question Answering - QA), `context window` (cửa sổ ngữ cảnh) đề cập đến:
A. Thời gian phản hồi của hệ thống.
B. Số lượng câu hỏi được xử lý đồng thời.
C. Phần văn bản xung quanh vị trí câu trả lời tiềm năng mà mô hình xem xét.
D. Giao diện người dùng của hệ thống QA.
26. Trong phân tích cảm xúc (sentiment analysis), mục tiêu chính là:
A. Xác định chủ đề chính của văn bản.
B. Đánh giá mức độ tích cực, tiêu cực hoặc trung lập của văn bản đối với một chủ đề cụ thể.
C. Phân loại văn bản theo thể loại (ví dụ: tin tức, bài đánh giá, blog).
D. Tìm kiếm thông tin liên quan trong văn bản.
27. Phương pháp `word embeddings` (ví dụ Word2Vec, GloVe) biểu diễn từ ngữ dưới dạng:
A. Các quy tắc ngữ pháp.
B. Các vector số trong không gian nhiều chiều.
C. Các cây cú pháp.
D. Các biểu đồ quan hệ giữa các từ.
28. Mục tiêu của `topic modeling` (mô hình hóa chủ đề) trong NLP là:
A. Phân loại văn bản theo cảm xúc.
B. Khám phá các chủ đề ẩn chứa trong một tập hợp văn bản.
C. Tóm tắt nội dung chính của văn bản.
D. Dịch văn bản sang ngôn ngữ khác.
29. Ưu điểm chính của việc sử dụng `stop word removal` (loại bỏ từ dừng) trong tiền xử lý văn bản là:
A. Tăng độ chính xác của phân tích cú pháp.
B. Giảm kích thước dữ liệu và tăng tốc độ xử lý.
C. Cải thiện khả năng dịch máy.
D. Làm cho văn bản dễ đọc hơn đối với con người.
30. Thuật toán `TF-IDF` (Term Frequency-Inverse Document Frequency) được sử dụng để:
A. Phân tích cú pháp của câu.
B. Tính toán tầm quan trọng của một từ trong một tài liệu so với một tập hợp tài liệu.
C. Tạo ra word embeddings.
D. Phân loại văn bản theo chủ đề.