1. Ethical considerations (cân nhắc về đạo đức) trong NLP trở nên quan trọng do:
A. Chi phí phát triển mô hình NLP quá cao.
B. Khả năng NLP tạo ra các hệ thống thiên vị, phân biệt đối xử hoặc lan truyền thông tin sai lệch.
C. Sự phức tạp của thuật toán NLP.
D. Yêu cầu phần cứng mạnh mẽ để chạy mô hình NLP.
2. Coreference resolution (giải quyết đồng tham chiếu) là quá trình:
A. Dịch các từ đồng nghĩa sang ngôn ngữ khác.
B. Xác định các cụm từ hoặc đại từ nào trong văn bản đề cập đến cùng một thực thể.
C. Phân loại các câu theo chủ đề.
D. Tóm tắt các đoạn văn bản dài.
3. Thuật ngữ `stop words` trong NLP đề cập đến:
A. Các từ có tần suất xuất hiện thấp trong văn bản.
B. Các từ mang thông tin ngữ nghĩa quan trọng nhất.
C. Các từ phổ biến nhưng ít mang lại giá trị thông tin ngữ nghĩa (ví dụ: `là`, `và`, `của`).
D. Các từ khóa chính xác định chủ đề của văn bản.
4. Ưu điểm chính của phương pháp `Bag-of-Words` trong biểu diễn văn bản là gì?
A. Giữ lại thứ tự từ trong câu.
B. Đơn giản và dễ thực hiện.
C. Hiểu được ngữ cảnh của từ trong câu.
D. Xử lý tốt các từ đồng nghĩa và trái nghĩa.
5. Trong lĩnh vực dịch vụ khách hàng, NLP được ứng dụng để:
A. Tự động hóa quy trình sản xuất.
B. Phân tích phản hồi của khách hàng và cung cấp hỗ trợ tự động qua chatbot.
C. Quản lý kho hàng.
D. Thiết kế sản phẩm mới.
6. Nhược điểm lớn nhất của phương pháp `Bag-of-Words` là gì?
A. Khó xử lý với dữ liệu văn bản lớn.
B. Không giữ được thông tin về thứ tự từ và ngữ cảnh.
C. Yêu cầu nhiều tài nguyên tính toán.
D. Chỉ hoạt động tốt với tiếng Anh.
7. GPT (Generative Pre-trained Transformer) nổi tiếng với khả năng gì?
A. Phân tích cú pháp.
B. Sinh văn bản tự nhiên và mạch lạc.
C. Nhận dạng thực thể có tên.
D. Phân tích tình cảm.
8. Phương pháp nào sau đây KHÔNG phải là một kỹ thuật phổ biến trong NLP để xử lý văn bản?
A. Phân tích cú pháp (Parsing).
B. Phân tích tình cảm (Sentiment Analysis).
C. Nén dữ liệu (Data Compression).
D. Nhận dạng thực thể có tên (Named Entity Recognition).
9. RNN (Recurrent Neural Network - Mạng nơ-ron hồi quy) đặc biệt phù hợp với các tác vụ NLP nào?
A. Phân loại hình ảnh.
B. Xử lý dữ liệu tuần tự như văn bản hoặc chuỗi thời gian.
C. Phát hiện đối tượng trong ảnh.
D. Dự đoán giá cổ phiếu.
10. Xử lý ngôn ngữ tự nhiên có thể hỗ trợ trong lĩnh vực y tế như thế nào?
A. Chẩn đoán hình ảnh y tế.
B. Phân tích hồ sơ bệnh án điện tử để cải thiện chăm sóc bệnh nhân.
C. Phẫu thuật robot.
D. Sản xuất thuốc.
11. Trong NLP, `tokenization` là quá trình:
A. Chuyển đổi văn bản thành giọng nói.
B. Phân tích ý nghĩa ngữ nghĩa của câu.
C. Chia văn bản thành các đơn vị nhỏ hơn như từ hoặc cụm từ.
D. Loại bỏ các từ dừng (stop words) khỏi văn bản.
12. Mục tiêu chính của `phân tích cú pháp` (parsing) trong NLP là gì?
A. Xác định cảm xúc chủ đạo trong văn bản.
B. Chuyển đổi văn bản sang định dạng khác.
C. Phân tích cấu trúc ngữ pháp của câu.
D. Dịch văn bản từ ngôn ngữ này sang ngôn ngữ khác.
13. BERT (Bidirectional Encoder Representations from Transformers) có đặc điểm nổi bật nào?
A. Chỉ có thể sinh văn bản, không thể hiểu văn bản.
B. Được huấn luyện theo hướng đơn (unidirectional).
C. Được huấn luyện theo hướng song song (bidirectional), xem xét ngữ cảnh cả trước và sau của từ.
D. Chỉ hoạt động tốt với tiếng Anh.
14. Mô hình ngôn ngữ (Language Model) trong NLP được sử dụng để:
A. Phân tích cấu trúc ngữ pháp của câu.
B. Dự đoán xác suất xuất hiện của một chuỗi từ.
C. Phân loại văn bản theo chủ đề.
D. Nhận dạng các thực thể có tên trong văn bản.
15. Transformer networks (ví dụ: BERT, GPT) vượt trội hơn RNN trong nhiều tác vụ NLP nhờ cơ chế nào?
A. Cơ chế hồi quy (Recurrence).
B. Cơ chế chú ý (Attention).
C. Cơ chế tích chập (Convolution).
D. Cơ chế pooling (Pooling).
16. Một thách thức lớn trong NLP liên quan đến sự đa nghĩa của ngôn ngữ là gì?
A. Số lượng từ vựng hạn chế.
B. Sự khác biệt về ngữ pháp giữa các ngôn ngữ.
C. Một từ hoặc cụm từ có thể có nhiều nghĩa khác nhau tùy thuộc vào ngữ cảnh.
D. Khả năng xử lý số liệu kém của máy tính.
17. Kỹ thuật `stemming` trong NLP nhằm mục đích:
A. Phân loại văn bản theo chủ đề.
B. Tìm kiếm các từ đồng nghĩa trong văn bản.
C. Rút gọn các từ về dạng gốc (stem) của chúng.
D. Đánh dấu các thực thể có tên trong văn bản.
18. `Contextual understanding` (hiểu ngữ cảnh) là một khía cạnh quan trọng trong NLP, nó đề cập đến:
A. Khả năng dịch văn bản sang nhiều ngôn ngữ.
B. Khả năng hiểu ý nghĩa của từ và câu dựa trên môi trường xung quanh (văn bản trước và sau).
C. Khả năng tóm tắt văn bản dài thành ngắn gọn.
D. Khả năng nhận dạng giọng nói thành văn bản.
19. Named Entity Recognition (NER - Nhận dạng thực thể có tên) có mục tiêu là gì?
A. Phân tích cấu trúc ngữ pháp của câu.
B. Xác định và phân loại các thực thể có tên trong văn bản (ví dụ: tên người, tổ chức, địa điểm).
C. Dịch các tên riêng sang ngôn ngữ khác.
D. Tìm kiếm các từ đồng nghĩa của tên riêng.
20. Word embeddings (ví dụ: Word2Vec, GloVe) giúp cải thiện hiệu suất NLP như thế nào so với Bag-of-Words?
A. Giảm kích thước dữ liệu văn bản.
B. Biểu diễn từ dưới dạng vector số thực, nắm bắt được ngữ nghĩa và quan hệ giữa các từ.
C. Tăng tốc độ xử lý văn bản.
D. Đơn giản hóa quá trình tiền xử lý văn bản.
21. Trong ngữ cảnh của chatbot, NLU (Natural Language Understanding - Hiểu ngôn ngữ tự nhiên) đóng vai trò gì?
A. Tạo ra phản hồi bằng ngôn ngữ tự nhiên.
B. Xác định ý định của người dùng từ đầu vào ngôn ngữ tự nhiên.
C. Quản lý lịch sử hội thoại.
D. Kết nối với cơ sở dữ liệu để truy xuất thông tin.
22. TF-IDF là viết tắt của thuật ngữ nào và nó được sử dụng để làm gì trong NLP?
A. Term Frequency - Inverse Document Frequency; đo lường tầm quan trọng của từ trong văn bản.
B. Text Filtering - Information Dissemination Framework; lọc thông tin văn bản.
C. Topic Finding - Intent Detection Function; xác định chủ đề và ý định.
D. Transformation Function - Input Data Formatting; định dạng dữ liệu đầu vào.
23. Spam filtering (lọc thư rác) là một ví dụ của tác vụ NLP nào?
A. Sinh văn bản.
B. Phân loại văn bản.
C. Tóm tắt văn bản.
D. Dịch máy.
24. Ứng dụng nào sau đây KHÔNG phải là một ứng dụng phổ biến của NLP?
A. Dịch máy tự động.
B. Nhận dạng khuôn mặt.
C. Chatbot và trợ lý ảo.
D. Phân tích tình cảm trên mạng xã hội.
25. Phân tích tình cảm (Sentiment Analysis) chủ yếu tập trung vào việc:
A. Xác định chủ đề chính của văn bản.
B. Đánh giá cảm xúc hoặc thái độ được thể hiện trong văn bản.
C. Dịch văn bản sang ngôn ngữ khác.
D. Tóm tắt nội dung chính của văn bản.
26. Fine-tuning (tinh chỉnh) một mô hình ngôn ngữ pre-trained (được huấn luyện trước) có nghĩa là gì?
A. Huấn luyện lại mô hình từ đầu với dữ liệu mới.
B. Tiếp tục huấn luyện mô hình đã được huấn luyện trước trên một tập dữ liệu cụ thể cho một tác vụ cụ thể.
C. Thay đổi kiến trúc mạng nơ-ron của mô hình.
D. Nén mô hình để giảm kích thước.
27. Zero-shot learning trong NLP đề cập đến khả năng của mô hình:
A. Học mà không cần bất kỳ dữ liệu huấn luyện nào.
B. Thực hiện một tác vụ mà nó chưa từng được huấn luyện trực tiếp cho tác vụ đó.
C. Huấn luyện mô hình với dữ liệu tổng hợp.
D. Tăng tốc độ huấn luyện mô hình.
28. Trong đánh giá mô hình dịch máy, BLEU score được sử dụng để đo lường điều gì?
A. Tốc độ dịch.
B. Độ chính xác ngữ pháp của bản dịch.
C. Mức độ tương đồng giữa bản dịch của máy và bản dịch tham khảo của con người.
D. Khả năng hiểu ngữ cảnh của mô hình.
29. WordNet là một ví dụ về:
A. Thuật toán máy học để phân tích văn bản.
B. Cơ sở dữ liệu từ vựng ngữ nghĩa.
C. Công cụ dịch máy tự động.
D. Phương pháp đánh giá mô hình NLP.
30. Xử lý ngôn ngữ tự nhiên (NLP) là lĩnh vực khoa học máy tính tập trung vào:
A. Phát triển phần cứng máy tính mạnh mẽ hơn.
B. Tương tác giữa máy tính và ngôn ngữ của con người.
C. Xây dựng các thuật toán tối ưu hóa cơ sở dữ liệu.
D. Thiết kế giao diện người dùng trực quan.