আমি word2vec এ সম্পূর্ণ নতুন তাই আমার সাথে এটি সহ্য করুন। আমার কাছে প্রতিটি টেক্সট ফাইলের একটি সেট রয়েছে যা 1000-3000 এর মধ্যে একটি টুইটের সেট রয়েছে। আমি একটি সাধারণ কীওয়ার্ড ("kw1") বেছে নিয়েছি এবং ওয়ার্ড 2vec ব্যবহার করে "kw1" এর জন্য শব্দার্থগতভাবে প্রাসঙ্গিক পদগুলি খুঁজতে চাই। উদাহরণস্বরূপ কীওয়ার্ডটি যদি "অ্যাপল" হয় তবে আমি ইনপুট ফাইলের উপর ভিত্তি করে "আইপ্যাড" "ওএস" "ম্যাক" ... এর মতো সম্পর্কিত পদগুলি দেখতে আশা করব। সুতরাং "kw1" এর সাথে সম্পর্কিত পদগুলির এই সেট প্রতিটি ইনপুট ফাইলের জন্য আলাদা হবে কারণ ওয়ার্ড 2vec পৃথক ফাইলগুলিতে প্রশিক্ষিত হবে (উদাহরণস্বরূপ, 5 ইনপুট ফাইল, ওয়ার্ড 2vec প্রতিটি ফাইলের উপর 5 বার চালানো)।
আমার লক্ষ্যটি হ'ল সাধারণ কীওয়ার্ড ("কেডাব্লু 1") প্রদান করে প্রতিটি ইনপুট ফাইলের জন্য সম্পর্কিত পদগুলির সেটগুলি সন্ধান করা যা অন্য কিছু উদ্দেশ্যে ব্যবহৃত হবে।
আমার প্রশ্ন / সন্দেহগুলি হ'ল:
- এই জাতীয় কাজের জন্য word2vec ব্যবহার করা কি বোধগম্য? কোনও ইনপুট ফাইলের ছোট আকার বিবেচনা করে কি প্রযুক্তিগতভাবে ব্যবহার করা সঠিক?
আমি কোড.google.com.com থেকে কোডটি ডাউনলোড করেছি: https://code.google.com/p/word2vec/ এবং নীচে এটি একটি শুকনো রান দিয়েছি :
time ./word2vec -train $file -output vectors.bin -cbow 1 -size 200 -window 10 -negative 25 -hs 1 -sample 1e-3 -threads 12 -binary 1 -iter 50
./distance vectors.bin
আমার ফলাফলগুলি থেকে আমি দেখেছি যখন আমি "কেডাব্লু 1" এর সাথে সম্পর্কিত পদগুলি পেতে 'দূরত্ব' সরঞ্জামটি ব্যবহার করছি তখন আমি অনেক শোরগোল শব্দ (স্টপওয়ার্ড) পাচ্ছি। সুতরাং আমি স্টপওয়ার্ড এবং অন্যান্য গোলমাল পদগুলি যেমন ব্যবহারকারীর উল্লেখ মুছে ফেলেছি remove তবে আমি কোথাও দেখিনি যে ওয়ার্ড টুভেকের জন্য সাফ ইনপুট ডেটা প্রয়োজন ...?
আপনি সঠিক পরামিতিগুলি কীভাবে চয়ন করবেন? আমি দেখতে পাচ্ছি ফলাফলগুলি (দূরত্বের সরঞ্জামটি চালানো থেকে) খুব বেশি পরিবর্তিত হয় যখন আমি 'উইন্ডো', '-iter' এর মতো পরামিতিগুলি পরিবর্তন করি। পরামিতিগুলির জন্য সঠিক মানগুলি খুঁজে পেতে আমার কোন কৌশলটি ব্যবহার করা উচিত। (ম্যানুয়াল ট্রায়াল এবং ত্রুটি আমার পক্ষে সম্ভব নয় কারণ আমি ডেটাসেটটি বাড়িয়ে তুলব)।