1. Zero-shot learning trong NLP đề cập đến khả năng của mô hình:
A. Học từ dữ liệu không có nhãn.
B. Thực hiện tác vụ mà không cần được huấn luyện trực tiếp cho tác vụ đó.
C. Huấn luyện mô hình trên dữ liệu tổng hợp (synthetic data).
D. Đưa ra dự đoán với độ chính xác bằng 0.
2. Vấn đề `ambiguity` (đa nghĩa) trong NLP đề cập đến:
A. Khả năng ngôn ngữ thay đổi theo thời gian.
B. Việc một từ hoặc cụm từ có thể có nhiều nghĩa khác nhau.
C. Sự khác biệt giữa ngôn ngữ nói và ngôn ngữ viết.
D. Khó khăn trong việc thu thập dữ liệu văn bản đủ lớn.
3. Ứng dụng nào sau đây KHÔNG phải là ứng dụng của NLP?
A. Dịch máy.
B. Nhận dạng khuôn mặt.
C. Phân tích cảm xúc văn bản.
D. Chatbot.
4. Adversarial attacks trong NLP là:
A. Các phương pháp cải thiện độ chính xác của mô hình NLP.
B. Các kỹ thuật tấn công mô hình NLP bằng cách tạo ra các đầu vào được thiết kế đặc biệt để đánh lừa mô hình.
C. Các phương pháp phát hiện lỗi sai trong dữ liệu văn bản.
D. Các kỹ thuật tăng cường dữ liệu huấn luyện.
5. Tokenization trong NLP là quá trình:
A. Chuyển đổi văn bản thành giọng nói.
B. Chia văn bản thành các đơn vị nhỏ hơn, ví dụ như từ hoặc cụm từ.
C. Loại bỏ các từ dừng (stop words) khỏi văn bản.
D. Gán nhãn từ loại (part-of-speech tagging) cho các từ.
6. Machine Translation (Dịch máy) là một lĩnh vực NLP nhằm mục đích:
A. Tạo ra văn bản gốc từ dữ liệu có cấu trúc.
B. Tự động chuyển đổi văn bản từ ngôn ngữ này sang ngôn ngữ khác.
C. Phân tích cảm xúc trong văn bản đa ngôn ngữ.
D. Tóm tắt văn bản bằng nhiều ngôn ngữ.
7. Transformer networks, so với RNNs, có ưu điểm chính nào trong NLP?
A. Khả năng xử lý dữ liệu tuần tự tốt hơn.
B. Khả năng xử lý song song tốt hơn và giải quyết vấn đề phụ thuộc xa (long-range dependencies) hiệu quả hơn.
C. Yêu cầu ít dữ liệu huấn luyện hơn.
D. Dễ dàng giải thích hơn.
8. Trong NLP, `context window` (cửa sổ ngữ cảnh) dùng để chỉ:
A. Kích thước của văn bản đầu vào.
B. Số lượng từ xung quanh từ mục tiêu được xem xét để hiểu ngữ cảnh.
C. Thời gian cần thiết để xử lý một câu.
D. Giao diện người dùng của một ứng dụng NLP.
9. Mô hình ngôn ngữ (Language Model) trong NLP có vai trò chính là:
A. Phân tích cấu trúc ngữ pháp của câu.
B. Dự đoán xác suất xuất hiện của một chuỗi từ.
C. Dịch văn bản từ ngôn ngữ này sang ngôn ngữ khác.
D. Nhận dạng thực thể có tên (Named Entity Recognition).
10. Parse tree (cây cú pháp) được sử dụng trong NLP cho mục đích gì?
A. Biểu diễn mối quan hệ ngữ nghĩa giữa các từ.
B. Biểu diễn cấu trúc cú pháp của một câu.
C. Biểu diễn các thực thể có tên trong văn bản.
D. Biểu diễn tần suất xuất hiện của các từ.
11. Active learning trong NLP là một kỹ thuật:
A. Tự động tạo sinh dữ liệu huấn luyện.
B. Chọn lọc các mẫu dữ liệu `thông tin` nhất để con người gán nhãn, nhằm tối ưu hóa hiệu quả huấn luyện.
C. Huấn luyện mô hình trên dữ liệu từ nhiều nguồn khác nhau.
D. Sử dụng phản hồi của người dùng để cải thiện mô hình.
12. Xử lý ngôn ngữ tự nhiên (NLP) là lĩnh vực liên quan đến:
A. Thiết kế phần cứng máy tính.
B. Tương tác giữa máy tính và ngôn ngữ con người.
C. Phát triển các thuật toán toán học thuần túy.
D. Nghiên cứu về tâm lý học hành vi.
13. Recurrent Neural Networks (RNNs) đặc biệt phù hợp cho các tác vụ NLP nào?
A. Phân loại ảnh.
B. Xử lý dữ liệu tuần tự như chuỗi văn bản.
C. Phát hiện đối tượng trong ảnh.
D. Giảm chiều dữ liệu.
14. Few-shot learning trong NLP là phương pháp:
A. Huấn luyện mô hình với rất ít dữ liệu có nhãn.
B. Huấn luyện mô hình trên dữ liệu đa ngôn ngữ.
C. Giảm số lượng tham số của mô hình.
D. Tăng tốc độ huấn luyện mô hình.
15. Attention mechanism trong Transformer networks hoạt động như thế nào?
A. Loại bỏ các từ dừng (stop words).
B. Tập trung vào các phần quan trọng nhất của dữ liệu đầu vào khi xử lý.
C. Chia nhỏ văn bản thành các token.
D. Mã hóa văn bản thành vector số.
16. Named Entity Recognition (NER) là tác vụ NLP nhằm mục đích:
A. Dịch tên riêng sang ngôn ngữ khác.
B. Xác định và phân loại các thực thể có tên trong văn bản (ví dụ: người, tổ chức, địa điểm).
C. Sửa lỗi chính tả trong tên riêng.
D. Tạo ra tên mới cho sản phẩm hoặc công ty.
17. TF-IDF (Term Frequency-Inverse Document Frequency) được sử dụng trong NLP để:
A. Đo độ tương đồng giữa hai văn bản.
B. Tính trọng số của từ trong một văn bản và trong tập hợp văn bản.
C. Phân loại văn bản dựa trên chủ đề.
D. Tóm tắt văn bản.
18. Federated learning trong NLP cho phép:
A. Huấn luyện mô hình NLP trên dữ liệu phân tán ở nhiều thiết bị mà không cần tập trung dữ liệu.
B. Huấn luyện mô hình NLP trên dữ liệu tổng hợp từ nhiều nguồn.
C. Huấn luyện mô hình NLP trên dữ liệu công khai.
D. Tăng tốc độ huấn luyện mô hình NLP trên một máy tính duy nhất.
19. Word2Vec và GloVe là các kỹ thuật:
A. Phân tích cú pháp.
B. Word embeddings (biểu diễn từ thành vector số).
C. Tách từ (tokenization).
D. Loại bỏ từ dừng (stop word removal).
20. Chatbot là một ứng dụng NLP cho phép:
A. Tự động dịch văn bản.
B. Tương tác với người dùng thông qua ngôn ngữ tự nhiên.
C. Phân tích dữ liệu tài chính.
D. Điều khiển robot vật lý.
21. Ontology (khái niệm luận) trong NLP được sử dụng để:
A. Đánh giá chất lượng dịch máy.
B. Biểu diễn tri thức về thế giới và mối quan hệ giữa các khái niệm.
C. Phân tích cảm xúc trong ngôn ngữ hình tượng.
D. Tạo sinh văn bản theo phong cách cụ thể.
22. Trong đánh giá mô hình NLP, `BLEU score` thường được sử dụng để đánh giá chất lượng của:
A. Mô hình phân loại văn bản.
B. Mô hình dịch máy.
C. Mô hình phân tích cảm xúc.
D. Mô hình tóm tắt văn bản.
23. Phương pháp nào sau đây thường được sử dụng để biểu diễn từ thành vector số trong NLP?
A. Mã hóa ASCII.
B. One-hot encoding và Word embeddings.
C. Mã hóa nhị phân.
D. Mã hóa thập lục phân.
24. Mục tiêu chính của stemming và lemmatization trong NLP là gì?
A. Tăng độ dài của văn bản.
B. Giảm số lượng từ duy nhất trong văn bản và chuẩn hóa từ về dạng gốc.
C. Phân tích cấu trúc ngữ pháp của câu.
D. Dịch văn bản sang ngôn ngữ khác.
25. Sentiment analysis (phân tích cảm xúc) trong NLP nhằm mục đích:
A. Dịch văn bản sang ngôn ngữ khác.
B. Xác định cảm xúc hoặc thái độ được thể hiện trong văn bản (ví dụ: tích cực, tiêu cực, trung lập).
C. Tóm tắt nội dung chính của văn bản.
D. Phân tích cấu trúc ngữ pháp của văn bản.
26. Knowledge graph (biểu đồ tri thức) có thể hỗ trợ NLP bằng cách:
A. Thay thế hoàn toàn dữ liệu văn bản.
B. Cung cấp thông tin cấu trúc về thực thể và mối quan hệ giữa chúng, giúp mô hình NLP hiểu ngữ cảnh và suy luận tốt hơn.
C. Tăng tốc độ xử lý dữ liệu văn bản.
D. Giảm kích thước mô hình NLP.
27. Coreference resolution (giải quyết đồng tham chiếu) là tác vụ NLP nhằm mục đích:
A. Dịch các đại từ nhân xưng.
B. Xác định các cụm từ hoặc đại từ nào trong văn bản đề cập đến cùng một thực thể.
C. Phân tích quan điểm trái chiều trong văn bản.
D. Tóm tắt văn bản bằng cách loại bỏ các tham chiếu.
28. Explainable AI (XAI) trong NLP nhấn mạnh vào:
A. Tăng độ chính xác của mô hình NLP.
B. Làm cho quyết định của mô hình NLP dễ hiểu và dễ giải thích hơn cho con người.
C. Giảm thời gian huấn luyện mô hình NLP.
D. Triển khai mô hình NLP trên các thiết bị di động.
29. Công đoạn nào sau đây KHÔNG thuộc quy trình xử lý ngôn ngữ tự nhiên (NLP) điển hình?
A. Phân tích cú pháp.
B. Phân tích ngữ nghĩa.
C. Biên dịch mã nguồn.
D. Tạo sinh ngôn ngữ.
30. BERT (Bidirectional Encoder Representations from Transformers) là một ví dụ về:
A. Mô hình ngôn ngữ dựa trên RNN.
B. Mô hình ngôn ngữ dựa trên Transformer được huấn luyện trước trên lượng lớn dữ liệu văn bản.
C. Thuật toán stemming.
D. Phương pháp biểu diễn văn bản bằng TF-IDF.