1. Chatbots và trợ lý ảo sử dụng NLP để thực hiện chức năng chính nào?
A. Phân tích dữ liệu tài chính.
B. Tương tác và giao tiếp với người dùng bằng ngôn ngữ tự nhiên.
C. Điều khiển thiết bị phần cứng.
D. Tạo ra hình ảnh và video.
2. BERT (Bidirectional Encoder Representations from Transformers) là một mô hình ngôn ngữ dựa trên Transformer, điểm nổi bật của BERT là gì?
A. Chỉ có thể xử lý văn bản tiếng Anh.
B. Huấn luyện theo cả hai hướng (trái sang phải và phải sang trái) để hiểu ngữ cảnh tốt hơn.
C. Sử dụng RNN thay vì Transformer.
D. Chỉ tập trung vào phân tích cảm xúc.
3. Xử lý ngôn ngữ tự nhiên (NLP) là lĩnh vực khoa học máy tính tập trung vào:
A. Phát triển phần cứng máy tính mạnh mẽ hơn.
B. Tương tác giữa máy tính và ngôn ngữ loài người.
C. Nghiên cứu về cấu trúc và lịch sử ngôn ngữ loài người.
D. Xây dựng cơ sở dữ liệu ngôn ngữ học quy mô lớn.
4. Bài toán `Machine Translation` (Dịch máy) trong NLP liên quan đến việc:
A. Tạo ra văn bản mới từ một chủ đề cho trước.
B. Chuyển đổi văn bản từ ngôn ngữ nguồn sang ngôn ngữ đích.
C. Phân loại văn bản theo chủ đề.
D. Tìm kiếm thông tin trong văn bản.
5. Kỹ thuật `Part-of-Speech tagging` (POS tagging) trong NLP nhằm mục đích:
A. Phân tích cảm xúc của văn bản.
B. Gán nhãn từ loại (ví dụ: danh từ, động từ, tính từ) cho mỗi từ trong câu.
C. Dịch văn bản sang ngôn ngữ khác.
D. Tóm tắt văn bản.
6. Phân tích cảm xúc (Sentiment Analysis) trong NLP được sử dụng để làm gì?
A. Dịch văn bản từ ngôn ngữ này sang ngôn ngữ khác.
B. Xác định ý kiến, thái độ hoặc cảm xúc được thể hiện trong văn bản.
C. Tóm tắt nội dung chính của một văn bản dài.
D. Nhận dạng các thực thể có tên trong văn bản.
7. Trong NLP, `stop words` thường được loại bỏ vì lý do nào sau đây?
A. Chúng chứa thông tin quan trọng về ngữ nghĩa của văn bản.
B. Chúng xuất hiện rất thường xuyên và ít đóng góp vào ý nghĩa tổng thể.
C. Chúng gây khó khăn cho việc phân tích cú pháp.
D. Chúng thường là các từ mang tính chất xúc phạm.
8. Word Embeddings (ví dụ: Word2Vec, GloVe) giúp cải thiện hiệu suất NLP như thế nào so với Bag of Words?
A. Giảm kích thước dữ liệu văn bản.
B. Nắm bắt được ngữ nghĩa và mối quan hệ giữa các từ.
C. Tăng tốc độ xử lý văn bản.
D. Đơn giản hóa quá trình tiền xử lý văn bản.
9. Kỹ thuật `stemming` và `lemmatization` trong NLP có điểm chung là gì?
A. Cả hai đều gán nhãn từ loại cho từ.
B. Cả hai đều chuyển đổi từ về dạng gốc của chúng.
C. Cả hai đều loại bỏ stop words.
D. Cả hai đều phân tích cú pháp của câu.
10. Kỹ thuật `Text Summarization` (Tóm tắt văn bản) trong NLP nhằm mục đích:
A. Phát hiện lỗi chính tả trong văn bản.
B. Tạo ra một phiên bản ngắn gọn hơn của văn bản gốc, giữ lại thông tin quan trọng nhất.
C. Dịch văn bản sang ngôn ngữ khác.
D. Phân tích cảm xúc của văn bản.
11. Mạng nơ-ron hồi quy (Recurrent Neural Network - RNN) đặc biệt phù hợp với các bài toán NLP nào?
A. Phân loại hình ảnh.
B. Xử lý dữ liệu chuỗi tuần tự như văn bản và giọng nói.
C. Phát hiện gian lận tài chính.
D. Dự báo thời tiết.
12. Trong NLP, `n-gram` là gì?
A. Một thuật toán phân loại văn bản.
B. Một chuỗi gồm n từ liên tiếp trong văn bản.
C. Một phương pháp giảm chiều dữ liệu.
D. Một loại mô hình ngôn ngữ dựa trên mạng nơ-ron.
13. Trong NLP, `Contextual understanding` (Hiểu ngữ cảnh) là gì và tại sao nó quan trọng?
A. Việc loại bỏ các từ không quan trọng để tăng tốc độ xử lý.
B. Khả năng hiểu ý nghĩa của từ và câu dựa trên các từ và câu xung quanh.
C. Việc chuyển đổi văn bản thành dạng số để máy tính xử lý.
D. Khả năng phân tích cấu trúc ngữ pháp của câu.
14. Transformer Networks, kiến trúc mạng nơ-ron tiên tiến, đã khắc phục nhược điểm chính nào của RNN trong NLP?
A. Khả năng xử lý hình ảnh kém.
B. Khó khăn trong việc song song hóa tính toán và xử lý chuỗi dài.
C. Độ chính xác thấp trong phân loại văn bản.
D. Yêu cầu lượng dữ liệu huấn luyện quá lớn.
15. Phân tích cú pháp (Parsing) trong NLP giúp làm gì?
A. Xác định chủ đề chính của văn bản.
B. Phân tích cấu trúc ngữ pháp và mối quan hệ giữa các từ trong câu.
C. Loại bỏ các từ dừng.
D. Chuyển đổi văn bản thành giọng nói.
16. Kỹ thuật `TF-IDF` (Term Frequency-Inverse Document Frequency) được sử dụng để làm gì trong NLP?
A. Phân tích cảm xúc.
B. Tính trọng số của từ trong một văn bản so với tập hợp các văn bản.
C. Tóm tắt văn bản.
D. Dịch máy.
17. Nhận dạng thực thể có tên (Named Entity Recognition - NER) là quá trình:
A. Phân loại văn bản theo chủ đề.
B. Tìm kiếm và phân loại các thực thể có tên trong văn bản (ví dụ: người, tổ chức, địa điểm).
C. Chỉnh sửa lỗi chính tả và ngữ pháp trong văn bản.
D. Tạo ra bản tóm tắt ngắn gọn của văn bản.
18. Một trong những thách thức của NLP trong việc xử lý ngôn ngữ đa ngôn ngữ (multilingual NLP) là:
A. Sự thiếu hụt các thuật toán NLP hiệu quả.
B. Sự khác biệt lớn về cấu trúc ngữ pháp và từ vựng giữa các ngôn ngữ.
C. Khó khăn trong việc thu thập dữ liệu văn bản số.
D. Tốc độ xử lý máy tính chậm cho ngôn ngữ đa dạng.
19. Mô hình ngôn ngữ (Language Model) trong NLP được sử dụng để làm gì?
A. Phát hiện đạo văn trong văn bản.
B. Dự đoán từ hoặc chuỗi từ tiếp theo trong một câu.
C. Phân tích cấu trúc ngữ pháp của câu.
D. Chuyển đổi giọng nói thành văn bản.
20. Ethical concerns (Mối lo ngại về đạo đức) nào sau đây KHÔNG liên quan đến NLP?
A. Thiên vị (bias) trong dữ liệu huấn luyện dẫn đến kết quả không công bằng.
B. Sử dụng NLP cho mục đích giám sát và xâm phạm quyền riêng tư.
C. Tăng cường sử dụng năng lượng do các mô hình NLP lớn.
D. Ô nhiễm tiếng ồn từ các thiết bị NLP.
21. Mục tiêu chính của kỹ thuật `tokenization` trong NLP là gì?
A. Loại bỏ các từ dừng (stop words) khỏi văn bản.
B. Chia văn bản thành các đơn vị nhỏ hơn, ví dụ như từ hoặc cụm từ.
C. Tìm ra gốc từ của các từ trong văn bản.
D. Gán nhãn từ loại (part-of-speech) cho mỗi từ.
22. Cơ chế `Attention` trong Transformer Networks hoạt động như thế nào trong NLP?
A. Loại bỏ các từ không quan trọng trong câu.
B. Tập trung vào các phần quan trọng nhất của câu khi xử lý.
C. Chia câu thành các phần nhỏ hơn để xử lý song song.
D. Tăng cường độ chính xác của việc dự đoán từ tiếp theo.
23. Thách thức lớn nhất của NLP khi xử lý ngôn ngữ tự nhiên của con người là gì?
A. Sự thiếu hụt dữ liệu văn bản số.
B. Tính mơ hồ và đa nghĩa của ngôn ngữ.
C. Tốc độ xử lý của máy tính còn chậm.
D. Sự khác biệt về phông chữ và kiểu chữ trong văn bản.
24. Ứng dụng nào sau đây thể hiện việc sử dụng NLP trong lĩnh vực y tế?
A. Phần mềm thiết kế đồ họa.
B. Hệ thống phân tích bệnh án điện tử để hỗ trợ chẩn đoán.
C. Trò chơi điện tử thực tế ảo.
D. Mạng xã hội trực tuyến.
25. Kỹ thuật `Bag of Words` trong NLP có nhược điểm chính là gì?
A. Không thể xử lý văn bản dài.
B. Mất đi thông tin về thứ tự của từ trong câu.
C. Chỉ hoạt động tốt với tiếng Anh.
D. Yêu cầu lượng lớn dữ liệu huấn luyện.
26. Công đoạn nào sau đây KHÔNG thuộc quy trình xử lý ngôn ngữ tự nhiên điển hình?
A. Phân tích cú pháp (Parsing).
B. Phân tích cảm xúc (Sentiment Analysis).
C. Biên dịch mã nguồn (Code Compilation).
D. Nhận dạng thực thể có tên (Named Entity Recognition).
27. Kỹ thuật `Information Retrieval` (Truy xuất thông tin) trong NLP được sử dụng phổ biến nhất trong ứng dụng nào?
A. Chatbot.
B. Công cụ tìm kiếm (Search engines).
C. Dịch máy.
D. Tóm tắt văn bản.
28. GPT (Generative Pre-trained Transformer) là một mô hình ngôn ngữ lớn nổi tiếng, ứng dụng chính của GPT là gì?
A. Phân tích cú pháp.
B. Tạo sinh văn bản tự nhiên và mạch lạc.
C. Nhận dạng giọng nói.
D. Phân loại hình ảnh.
29. Đánh giá hiệu suất của mô hình NLP trong một bài toán cụ thể thường dựa trên các độ đo nào?
A. Kích thước mô hình (số lượng tham số).
B. Độ chính xác (Accuracy), Độ bao phủ (Recall), F1-score.
C. Tốc độ huấn luyện mô hình.
D. Lượng bộ nhớ sử dụng khi chạy mô hình.
30. Ứng dụng nào sau đây KHÔNG phải là ứng dụng phổ biến của NLP?
A. Chatbot và trợ lý ảo.
B. Phần mềm chỉnh sửa ảnh.
C. Công cụ dịch máy.
D. Hệ thống phân loại tin tức tự động.