Mã thông báo đoạn Python
Mã thông báo là bước đầu tiên bạn nên thực hiện sau khi thu thập tập dữ liệu văn bản trong mọi vấn đề dựa trên Xử lý ngôn ngữ tự nhiên. Mã hóa câu và từ là hai chiến lược mã hóa khác nhau mà bạn nên biết. Trong bài viết này, tôi sẽ giới thiệu cho bạn về mã thông báo Câu và Từ và cách triển khai chúng bằng Python Show
Token hóa là gì?Tokenization là quá trình chia nhỏ một đoạn văn bản thành các câu hoặc từ. Khi chúng tôi chia nhỏ dữ liệu văn bản thành các câu hoặc từ, đầu ra chúng tôi nhận được được gọi là mã thông báo. Có hai chiến lược để mã hóa tập dữ liệu văn bản
Tôi hy vọng bây giờ bạn đã hiểu mã thông báo câu và từ. Bây giờ trong phần bên dưới, tôi sẽ hướng dẫn bạn cách triển khai mã thông báo từ và câu bằng Python Mã hóa câu và từ bằng PythonMã thông báo câu có nghĩa là chia dữ liệu văn bản thành các câu. Đây là cách triển khai mã thông báo câu bằng Python import nltk nltk.download('punkt') from nltk.tokenize import sent_tokenize sentence = "Hi, My name is Aman, I hope you like my work. You can follow me on Instagram for more resources. My username is 'the.clever.programmer'." print(sent_tokenize(sentence)) ['Hi, My name is Aman, I hope you like my work.', 'You can follow me on Instagram for more resources.', "My username is 'the.clever.programmer'."] Mã thông báo từ có nghĩa là chia dữ liệu văn bản thành các từ. Đây là cách triển khai mã thông báo từ bằng Python from nltk.tokenize import TreebankWordTokenizer word_token = TreebankWordTokenizer() print(word_token.tokenize(sentence)) ['Hi', ',', 'My', 'name', 'is', 'Aman', ',', 'I', 'hope', 'you', 'like', 'my', 'work.', 'You', 'can', 'follow', 'me', 'on', 'Instagram', 'for', 'more', 'resources.', 'My', 'username', 'is', "'the.clever.programmer", "'", '.'] Tóm lượcMã hóa câu và từ là hai chiến lược khác nhau mà bạn nên biết. Mã hóa câu có nghĩa là chia dữ liệu văn bản thành câu và mã hóa từ có nghĩa là chia dữ liệu văn bản thành từ. Tôi hy vọng bạn thích bài viết này về mã hóa câu và từ bằng Python. Xin vui lòng đặt câu hỏi có giá trị trong phần ý kiến dưới đây Trong ví dụ dưới đây, chúng tôi chia một văn bản đã cho thành các dòng khác nhau bằng cách sử dụng hàm send_tokenize import nltk sentence_data = "The First sentence is about Python. The Second: about Django. You can learn Python,Django and Data Ananlysis here. " nltk_tokens = nltk.sent_tokenize(sentence_data) print (nltk_tokens) Khi chúng tôi chạy chương trình trên, chúng tôi nhận được đầu ra sau - ['The First sentence is about Python.', 'The Second: about Django.', 'You can learn Python,Django and Data Ananlysis here.'] Mã thông báo không phải tiếng AnhTrong ví dụ dưới đây, chúng tôi mã hóa văn bản tiếng Đức import nltk german_tokenizer = nltk.data.load('tokenizers/punkt/german.pickle') german_tokens=german_tokenizer.tokenize('Wie geht es Ihnen? Gut, danke.') print(german_tokens) Khi chúng tôi chạy chương trình trên, chúng tôi nhận được đầu ra sau - ['Wie geht es Ihnen?', 'Gut, danke.'] Từ TokenzitaionChúng tôi mã hóa các từ bằng chức năng word_tokenize có sẵn như một phần của nltk ________số 8_______Khi chúng tôi chạy chương trình trên, chúng tôi nhận được đầu ra sau - ['It', 'originated', 'from', 'the', 'idea', 'that', 'there', 'are', 'readers', 'who', 'prefer', 'learning', 'new', 'skills', 'from', 'the', 'comforts', 'of', 'their', 'drawing', 'rooms'] Đây là một phiên bản ngắn hơn. Điều này sẽ cung cấp cho bạn cấu trúc dữ liệu với từng câu riêng lẻ và từng mã thông báo trong câu. Tôi thích TweetTokenizer hơn cho ngôn ngữ lộn xộn trong thế giới thực. Trình mã hóa câu được coi là khá, nhưng hãy cẩn thận không viết thường từ của bạn cho đến sau bước này, vì nó có thể ảnh hưởng đến độ chính xác của việc phát hiện ranh giới của văn bản lộn xộn
Đây là kết quả đầu ra trông như thế nào, mà tôi đã dọn dẹp để cấu trúc nổi bật
Quá trình chuyển đổi một câu hoặc đoạn văn thành mã thông báo trong NLP là gì?Mã hóa từ. Chúng tôi sử dụng phương thức word_tokenize() để chia một câu thành các mã thông báo hoặc từ. mã hóa câu. Chúng tôi sử dụng phương thức send_tokenize() để chia tài liệu hoặc đoạn văn thành các câu.
Mã thông báo câu hoạt động như thế nào?Trình mã hóa câu sẽ không tách một từ riêng lẻ, vì vậy văn bản vi phạm, ở dạng thay thế, được giữ nguyên vẹn trong quá trình mã hóa . Sau khi tạo các câu riêng lẻ, các thay thế ngược lại được thực hiện, giúp khôi phục văn bản gốc trong một tập hợp các câu được cải thiện.
Mã thông báo từ với Python NLTK là gì?Khoa học dữ liệu thực tế sử dụng Python
. Đây là một yêu cầu trong các tác vụ xử lý ngôn ngữ tự nhiên trong đó mỗi từ cần được ghi lại và chịu sự phân tích sâu hơn như phân loại và đếm chúng cho một cảm xúc cụ thể, v.v. the process of splitting a large sample of text into words. This is a requirement in natural language processing tasks where each word needs to be captured and subjected to further analysis like classifying and counting them for a particular sentiment etc.
Mã thông báo nào được sử dụng để phân tách dấu câu?Trình mã thông báo dựa trên dấu chấm câu
. |