এটি আরও একটি সাধারণ এনএলপি প্রশ্নের মতো। ওয়ার্ড 2 ভেক এমবেডিং শব্দের প্রশিক্ষণের জন্য উপযুক্ত ইনপুট কী? কোনও নিবন্ধের সাথে সম্পর্কিত সমস্ত বাক্যগুলি কর্পাসের আলাদা দলিল হওয়া উচিত? বা প্রতিটি নিবন্ধটি কর্পাসের ডকুমেন্ট হওয়া উচিত? এটি পাইথন এবং জিনসিম ব্যবহারের উদাহরণ মাত্র।
কার্পাস বাক্য দ্বারা বিভক্ত:
SentenceCorpus = [["first", "sentence", "of", "the", "first", "article."],
["second", "sentence", "of", "the", "first", "article."],
["first", "sentence", "of", "the", "second", "article."],
["second", "sentence", "of", "the", "second", "article."]]
নিবন্ধ দ্বারা কর্পাস বিভক্ত:
ArticleCorpus = [["first", "sentence", "of", "the", "first", "article.",
"second", "sentence", "of", "the", "first", "article."],
["first", "sentence", "of", "the", "second", "article.",
"second", "sentence", "of", "the", "second", "article."]]
পাইথনে ওয়ার্ড 2Vec প্রশিক্ষণ:
from gensim.models import Word2Vec
wikiWord2Vec = Word2Vec(ArticleCorpus)