ওয়ার্ড 2ভেকের জন্য আরও ভাল ইনপুট কী?

22

এটি আরও একটি সাধারণ এনএলপি প্রশ্নের মতো। ওয়ার্ড 2 ভেক এমবেডিং শব্দের প্রশিক্ষণের জন্য উপযুক্ত ইনপুট কী? কোনও নিবন্ধের সাথে সম্পর্কিত সমস্ত বাক্যগুলি কর্পাসের আলাদা দলিল হওয়া উচিত? বা প্রতিটি নিবন্ধটি কর্পাসের ডকুমেন্ট হওয়া উচিত? এটি পাইথন এবং জিনসিম ব্যবহারের উদাহরণ মাত্র।

কার্পাস বাক্য দ্বারা বিভক্ত:

SentenceCorpus = [["first", "sentence", "of", "the", "first", "article."],
                  ["second", "sentence", "of", "the", "first", "article."],
                  ["first", "sentence", "of", "the", "second", "article."],
                  ["second", "sentence", "of", "the", "second", "article."]]

নিবন্ধ দ্বারা কর্পাস বিভক্ত:

ArticleCorpus = [["first", "sentence", "of", "the", "first", "article.",
                  "second", "sentence", "of", "the", "first", "article."],
                 ["first", "sentence", "of", "the", "second", "article.",
                  "second", "sentence", "of", "the", "second", "article."]]

পাইথনে ওয়ার্ড 2Vec প্রশিক্ষণ:

from gensim.models import Word2Vec

wikiWord2Vec = Word2Vec(ArticleCorpus)

nlp word-embeddings

— wacax
সূত্র

14

এই প্রশ্নের উত্তর এটি নির্ভর করে । প্রাথমিক পদ্ধতিটি টোকেনাইজড বাক্যগুলিতে পাস করা (সুতরাং SentenceCorpusআপনার উদাহরণে) তবে আপনার লক্ষ্যটি কী এবং কর্পাস আপনি কী দেখছেন তার উপর নির্ভর করে আপনি এম্বেডিংগুলি শিখতে পরিবর্তে পুরো নিবন্ধটি ব্যবহার করতে চাইতে পারেন। এটি এমন কিছু যা আপনি সময়ের আগে জানেন না - সুতরাং আপনাকে এমবেডিংয়ের গুণাগুণটি কীভাবে মূল্যায়ন করতে চান সে সম্পর্কে আপনাকে ভাবতে হবে এবং আপনার কাজের জন্য কোন 'ধরণের' এম্বেডিং বেশি কার্যকর (তা দেখতে) কিছু পরীক্ষা-নিরীক্ষা করতে হবে ( গুলি)।

— NBartley
সূত্র

ডান স্পট। আমি একটি মডেলটিতে এম্বেডিংগুলি ব্যবহার করেছি এবং যেমনটি আপনি উল্লেখ করেছেন, পুরো নিবন্ধটি ব্যবহার করার সময় মডেলের ভবিষ্যদ্বাণীপূর্ণ পারফরম্যান্সে একটি বড় উন্নতি হয়েছিল। সুতরাং কোন ক্ষেত্রে বাক্য দ্বারা বাক্য প্রশিক্ষণ উচ্চতর হতে পারে।

— ওয়্যাকাক্স

1

আপনার দেখতে হবে এবং দেখতে পাওয়া উচিত যে শব্দগুলিতে একই রকম ভেক্টর রয়েছে কীভাবে একে অপরের সাথে সম্পর্কিত। কনটেক্সট উইন্ডোর আকার এবং প্রসঙ্গে প্রাসঙ্গিক আকারে কিছু কাজ করা হয়েছে যা সূচিত করে যে ছোট উইন্ডোজ (এবং সম্ভবত ছোট ডকুমেন্টের আকারগুলি, যেমন বাক্যগুলি) শব্দগুলি তৈরি করতে পারে যা কার্যত অনুরূপ না হয়ে কার্যত অনুরূপ (মার্কিন রাজ্যগুলির মতো) হতে পারে ( মার্কিন যুক্তরাষ্ট্র এবং সরকার-সম্পর্কিত শব্দগুলির মতো) আরও অনুরূপ ভেক্টর রয়েছে। আমি বেশিরভাগই ওমর লেভি এবং ইওভা গোল্ডবার্গের নির্ভরতা-ভিত্তিক ওয়ার্ড এম্বেডিংগুলি ২০১৪ সাল থেকে উদ্ধৃত করছি I যদিও আমার ভুল হতে পারে এবং যদি তা হয় তবে তা সংশোধন করতে ভাল লাগবে।

— এনবার্টলি

1

@ এনবার্টলির উত্তরের পরিপূরক হিসাবে। এই প্রশ্ন জুড়ে যে কেউ আসে। আমি স্পার্ক ২.২ তে ওয়ার্ড টুভেকের ইনপুট হিসাবে নিবন্ধ / বাক্যটি ব্যবহার করার চেষ্টা করেছি, ফলস্বরূপ ফলাফল।

ইনপুট হিসাবে বাক্যটি ব্যবহার করুন:

নিবন্ধটি ইনপুট হিসাবে ব্যবহার করুন:

— Zachary
সূত্র

0

প্রাক্তনদের জন্য, জিনসিমের ওয়ার্ড 2 ভেস ক্লাস রয়েছে। পরেরটির জন্য ডক 2 ভেক।

http://rare-technologies.com/doc2vec-tutorial/

3

ডক 2vec বাক্যগুলির চেয়ে নিবন্ধের কর্পাসে word2vec সম্পাদনের চেয়ে যথেষ্ট আলাদা। doc2vec নিবন্ধগুলির প্রতিনিধিত্বগুলি কেবল শব্দগুলির চেয়ে শিখবে।

— jamesmf