1. Ứng dụng nào sau đây KHÔNG phải là ứng dụng phổ biến của NLP?
A. Phân tích cảm xúc (Sentiment Analysis) của khách hàng về sản phẩm.
B. Dự báo thời tiết dựa trên dữ liệu lịch sử.
C. Dịch máy (Machine Translation) giữa các ngôn ngữ khác nhau.
D. Trợ lý ảo (Chatbot) trả lời câu hỏi của người dùng.
2. Trong NLP, `Context-free Grammar` (Ngữ pháp phi ngữ cảnh) được sử dụng để:
A. Phân tích ý nghĩa của từ trong ngữ cảnh.
B. Mô tả cú pháp của ngôn ngữ bằng các quy tắc độc lập với ngữ cảnh.
C. Xử lý các ngôn ngữ không có cấu trúc ngữ pháp rõ ràng.
D. Tạo ra văn bản tự động.
3. Trong NLP, `Regular Expressions` (Biểu thức chính quy) thường được sử dụng cho:
A. Phân tích cấu trúc ngữ pháp phức tạp.
B. Tìm kiếm và xử lý mẫu văn bản, ví dụ: tìm email, số điện thoại, hoặc chuẩn hóa định dạng ngày tháng.
C. Xây dựng mô hình ngôn ngữ.
D. Phân loại văn bản.
4. So sánh `Stemming` và `Lemmatization`, điểm khác biệt quan trọng nhất là:
A. Stemming nhanh hơn Lemmatization về tốc độ xử lý.
B. Lemmatization tạo ra từ gốc có nghĩa (lemma) và dựa trên từ điển, trong khi Stemming có thể tạo ra từ gốc không có nghĩa.
C. Stemming phù hợp với tiếng Anh hơn Lemmatization.
D. Lemmatization dễ cài đặt và sử dụng hơn Stemming.
5. Điều gì KHÔNG phải là một bước tiền xử lý văn bản thường gặp trong NLP?
A. Loại bỏ Stop words.
B. Phân tích cảm xúc.
C. Chuyển đổi về chữ thường (Lowercasing).
D. Tokenization.
6. Ứng dụng của NLP trong lĩnh vực Giáo dục có thể là:
A. Xây dựng robot giáo viên vật lý.
B. Hệ thống chấm điểm tự động bài luận và bài kiểm tra viết.
C. Thiết kế chương trình học ngoại ngữ.
D. Nghiên cứu về tâm lý học sinh viên.
7. Trong NLP, `Stop words` (Từ dừng) là những từ:
A. Có tần suất xuất hiện rất thấp trong văn bản.
B. Thường xuyên xuất hiện trong văn bản nhưng ít mang ý nghĩa về mặt nội dung (ví dụ: `là`, `và`, `của`).
C. Chứa lỗi chính tả.
D. Được sử dụng để đánh dấu sự kết thúc của một câu.
8. Điều gì là quan trọng nhất khi lựa chọn mô hình NLP cho một bài toán cụ thể?
A. Độ phức tạp của mô hình.
B. Kích thước dữ liệu huấn luyện có sẵn và yêu cầu về hiệu suất (độ chính xác, tốc độ) của bài toán.
C. Ngôn ngữ lập trình được sử dụng để xây dựng mô hình.
D. Số lượng tham số của mô hình.
9. Kỹ thuật `Tokenization` trong NLP có nghĩa là:
A. Chuyển đổi văn bản thành chữ thường.
B. Chia văn bản thành các đơn vị nhỏ hơn, thường là từ hoặc câu.
C. Loại bỏ các dấu câu và ký tự đặc biệt.
D. Sửa lỗi chính tả trong văn bản.
10. Kỹ thuật `Stemming` trong NLP có mục đích chính là:
A. Tìm ra từ gốc của một từ bằng cách loại bỏ các hậu tố và tiền tố.
B. Phân loại văn bản vào các chủ đề khác nhau.
C. Chuyển đổi văn bản thành giọng nói.
D. Đánh dấu các thành phần ngữ pháp của từ (ví dụ: danh từ, động từ).
11. Phương pháp `N-gram` trong NLP được sử dụng để:
A. Phân tích cấu trúc ngữ pháp của câu.
B. Phân chia văn bản thành các đoạn có nghĩa.
C. Tạo ra các chuỗi gồm N từ liên tiếp trong văn bản, hữu ích cho việc xây dựng mô hình ngôn ngữ và các tác vụ khác.
D. Tìm kiếm các từ đồng nghĩa.
12. Trong `Phân tích cảm xúc` (Sentiment Analysis), mục tiêu chính là:
A. Xác định chủ đề chính của một đoạn văn bản.
B. Phân loại ý kiến hoặc thái độ thể hiện trong văn bản là tích cực, tiêu cực hay trung tính.
C. Tóm tắt nội dung chính của một bài báo.
D. Dịch văn bản sang ngôn ngữ khác.
13. Phương pháp `Bag-of-Words` trong NLP có nhược điểm chính là:
A. Yêu cầu lượng dữ liệu huấn luyện rất lớn để đạt hiệu quả.
B. Không giữ được thông tin về thứ tự của từ trong câu, làm mất đi ngữ cảnh và mối quan hệ giữa các từ.
C. Chỉ phù hợp với ngôn ngữ tiếng Anh, không hoạt động tốt với các ngôn ngữ khác.
D. Khó khăn trong việc xử lý các từ đồng nghĩa và đa nghĩa.
14. Một trong những thách thức lớn nhất của NLP khi xử lý ngôn ngữ tự nhiên là:
A. Sự phát triển quá nhanh của công nghệ phần cứng.
B. Tính mơ hồ và đa nghĩa của ngôn ngữ con người (ví dụ: từ đồng âm, chơi chữ, ẩn dụ).
C. Sự thiếu hụt dữ liệu văn bản để huấn luyện mô hình.
D. Chi phí cao để phát triển các thuật toán NLP.
15. Kỹ thuật `Named Entity Recognition` (NER) có vai trò gì trong NLP?
A. Tìm kiếm các từ khóa quan trọng trong văn bản.
B. Xác định và phân loại các thực thể có tên (ví dụ: tên người, địa điểm, tổ chức) trong văn bản.
C. Phân tích cảm xúc của người viết.
D. Tóm tắt văn bản.
16. Trong NLP, `Corpus` (Ngữ liệu) dùng để chỉ:
A. Một thuật toán cụ thể để xử lý ngôn ngữ.
B. Một tập hợp lớn các văn bản được sử dụng để huấn luyện mô hình ngôn ngữ hoặc đánh giá hiệu suất của hệ thống NLP.
C. Một thư viện phần mềm chứa các công cụ NLP.
D. Một phương pháp để biểu diễn từ thành vector số.
17. Phương pháp `TF-IDF` (Term Frequency-Inverse Document Frequency) được sử dụng để:
A. Phân tích cảm xúc của văn bản.
B. Đo lường tầm quan trọng của một từ trong một văn bản so với một tập hợp các văn bản (corpus).
C. Phân loại văn bản theo chủ đề.
D. Tóm tắt văn bản.
18. Trong NLP, `Word Embedding` (Ví dụ: Word2Vec, GloVe) giúp giải quyết vấn đề gì của phương pháp `Bag-of-Words`?
A. Giảm kích thước bộ từ vựng cần xử lý.
B. Biểu diễn từ thành các vector số, thể hiện mối quan hệ ngữ nghĩa giữa các từ và giữ lại một phần thông tin ngữ cảnh.
C. Tăng tốc độ xử lý văn bản.
D. Cải thiện khả năng phát hiện lỗi chính tả trong văn bản.
19. Ứng dụng của NLP trong lĩnh vực Y tế có thể bao gồm:
A. Tự động hóa quy trình phẫu thuật.
B. Phân tích bệnh án điện tử để hỗ trợ chẩn đoán và điều trị.
C. Kiểm soát chất lượng thuốc.
D. Nghiên cứu về cấu trúc DNA.
20. Thuật toán nào sau đây thường được sử dụng cho bài toán `Phân loại văn bản` (Text Classification) trong NLP?
A. K-means Clustering.
B. Support Vector Machine (SVM).
C. Principal Component Analysis (PCA).
D. Linear Regression.
21. Xử lý ngôn ngữ tự nhiên (NLP) là lĩnh vực khoa học máy tính tập trung vào:
A. Phát triển phần cứng máy tính có khả năng suy nghĩ như con người.
B. Xây dựng các hệ thống máy tính có thể hiểu, diễn giải và tạo ra ngôn ngữ của con người.
C. Nghiên cứu về cấu trúc và lịch sử của các ngôn ngữ tự nhiên khác nhau trên thế giới.
D. Phân tích dữ liệu lớn để tìm ra các mẫu ngôn ngữ phổ biến trong văn bản.
22. Độ đo `BLEU score` (Bilingual Evaluation Understudy) thường được sử dụng để đánh giá chất lượng của:
A. Hệ thống phân tích cảm xúc.
B. Hệ thống dịch máy.
C. Hệ thống tóm tắt văn bản.
D. Hệ thống chatbot.
23. Một ví dụ về ứng dụng NLP trong lĩnh vực pháp lý là:
A. Tự động hóa quy trình xét xử tại tòa án.
B. Phân tích văn bản pháp luật và hợp đồng để tìm kiếm thông tin quan trọng hoặc phát hiện rủi ro.
C. Dự đoán tội phạm.
D. Kiểm soát an ninh tại các phiên tòa.
24. Giai đoạn `Phân tích cú pháp` trong quy trình NLP chủ yếu liên quan đến:
A. Xác định ý nghĩa của từ trong ngữ cảnh cụ thể.
B. Chia văn bản thành các đơn vị nhỏ hơn như từ hoặc câu.
C. Phân tích cấu trúc ngữ pháp của câu để hiểu mối quan hệ giữa các từ.
D. Chuyển đổi văn bản từ dạng nói sang dạng viết.
25. Một ứng dụng của NLP trong lĩnh vực Thương mại điện tử là:
A. Tự động hóa quá trình sản xuất hàng hóa.
B. Phân tích đánh giá sản phẩm của khách hàng để cải thiện chất lượng dịch vụ.
C. Quản lý kho hàng.
D. Vận chuyển hàng hóa.
26. Trong lĩnh vực dịch máy (Machine Translation), `Attention Mechanism` (Cơ chế chú ý) giúp:
A. Tăng tốc độ dịch văn bản.
B. Cho phép mô hình dịch tập trung vào các phần quan trọng của câu nguồn khi dịch sang ngôn ngữ đích, cải thiện chất lượng dịch.
C. Giảm dung lượng bộ nhớ cần thiết để dịch.
D. Tự động phát hiện và sửa lỗi chính tả trong văn bản nguồn.
27. Một trong những thách thức khi xây dựng chatbot là:
A. Tốc độ xử lý ngôn ngữ quá chậm.
B. Khả năng hiểu và phản hồi một cách tự nhiên và phù hợp với ngữ cảnh, đặc biệt là với các câu hỏi phức tạp hoặc không rõ ràng.
C. Chi phí lưu trữ dữ liệu hội thoại quá lớn.
D. Sự thiếu hụt các công cụ phát triển chatbot.
28. Kỹ thuật `Part-of-Speech Tagging` (POS Tagging) nhằm mục đích:
A. Phân loại văn bản theo chủ đề.
B. Gán nhãn ngữ pháp (ví dụ: danh từ, động từ, tính từ) cho mỗi từ trong câu.
C. Dịch văn bản sang ngôn ngữ khác.
D. Tóm tắt nội dung văn bản.
29. Kỹ thuật `Text Summarization` (Tóm tắt văn bản) trong NLP có hai phương pháp chính là:
A. Stemming và Lemmatization.
B. Bag-of-Words và TF-IDF.
C. Extractive summarization (Tóm tắt trích xuất) và Abstractive summarization (Tóm tắt trừu tượng).
D. POS Tagging và NER.
30. Mô hình ngôn ngữ (Language Model) trong NLP được sử dụng để:
A. Phân tích cấu trúc ngữ pháp của câu.
B. Dự đoán xác suất xuất hiện của một chuỗi từ hoặc từ tiếp theo trong một câu.
C. Tìm kiếm thông tin trong văn bản.
D. Tạo ra hình ảnh từ mô tả văn bản.