আমি কেবল এনএলটিকে ব্যবহার শুরু করছি এবং পাঠ্য থেকে কীভাবে শব্দের একটি তালিকা পাবেন তা আমি যথেষ্ট বুঝতে পারি না। আমি যদি ব্যবহার করি তবে আমি nltk.word_tokenize()
শব্দ এবং বিরামচিহ্নগুলির একটি তালিকা পেয়েছি get পরিবর্তে আমার কেবল শব্দগুলি দরকার। আমি কীভাবে যতিচিহ্ন থেকে মুক্তি পেতে পারি? এছাড়াও word_tokenize
একাধিক বাক্য সাথে কাজ করে না: বিন্দু শেষ কথা যোগ করা হয়।
word_tokenize()
একাধিক বাক্য দিয়ে কাজ করে না। বিরামচিহ্ন থেকে মুক্তি পেতে, আপনি একটি নিয়মিত প্রকাশ বা পাইথনের isalnum()
ফাংশন ব্যবহার করতে পারেন ।
>>> 'with dot.'.translate(None, string.punctuation) 'with dot'
(নোট কোন ফলাফল শেষে DOT) এটা সমস্যার সৃষ্টি করতে পারে যদি আপনি ভালো জিনিস আছে 'end of sentence.No space'
, যে ক্ষেত্রে এই পরিবর্তে করুন: the_text.translate(string.maketrans(string.punctuation, ' '*len(string.punctuation)))
যা সাদা স্পেস দিয়ে সমস্ত যতিচিহ্ন প্রতিস্থাপন করে।
nltk.word_tokenize(the_text.translate(None, string.punctuation))
পাইথন 3 এ কাজ করার সময় পাইথন 2 এ কাজ করা উচিতnltk.work_tokenize(the_text.translate(dict.fromkeys(string.punctuation)))
।