Word2vec এ শব্দের ভেক্টরের বৈশিষ্ট্য

আমি অনুভূতি বিশ্লেষণ করার চেষ্টা করছি। শব্দগুলিকে শব্দ ভেক্টরগুলিতে রূপান্তর করার জন্য আমি word2vec মডেলটি ব্যবহার করছি। ধরা যাক 'বাক্য' নামের একটি তালিকায় আমার সমস্ত বাক্য রয়েছে এবং আমি এই বাক্যগুলিকে নীচে ওয়ার্ড টুভেচ করে দিচ্ছি:

model = word2vec.Word2Vec(sentences, workers=4 , min_count=40, size=300,   window=5, sample=1e-3)

আমি যেহেতু ভেক্টর শব্দের কাছে নবু তাই আমার দুটি সন্দেহ আছে।
1- বৈশিষ্ট্যগুলির সংখ্যা 300 এ সেট করা একটি শব্দ ভেক্টরের বৈশিষ্ট্যগুলি সংজ্ঞায়িত করে। তবে এই বৈশিষ্ট্যগুলি কী বোঝায়? যদি এই মডেলটির প্রতিটি শব্দ একটি 1x300 নাম্পার অ্যারে দ্বারা প্রতিনিধিত্ব করা হয়, তবে এই 300 টি বৈশিষ্ট্য সেই শব্দের জন্য কী বোঝায়?

2- উপরোক্ত মডেলটিতে 'নমুনা' পরামিতি দ্বারা প্রতিনিধিত্ব করে ডাউন স্যাম্পলিং প্রকৃতপক্ষে কী করে?

আগাম ধন্যবাদ.

— enterML
সূত্র

উত্তর:

1- বৈশিষ্ট্যগুলির সংখ্যা: নিউরাল নেটওয়ার্ক মডেলের ক্ষেত্রে এটি প্রক্ষেপণ (লুকানো) স্তরের নিউরনের সংখ্যা উপস্থাপন করে। প্রজেকশন স্তরটি বিতরণের অনুমানের উপর নির্মিত হওয়ায়, প্রতিটি শব্দের সংখ্যাসূচক ভ্যাক্টর এর প্রাসঙ্গিক শব্দের সাথে এর সম্পর্ককে বোঝায়।

এই বৈশিষ্ট্যগুলি নিউরাল নেটওয়ার্ক দ্বারা শিখেছে কারণ এটি অকার্যকর পদ্ধতি। প্রতিটি ভেক্টর বিভিন্ন শব্দার্থক বৈশিষ্ট্য আছে। উদাহরণস্বরূপ, আসুন ধ্রুপদী উদাহরণ V(King) -V(man) + V(Women) ~ V(Queen)এবং প্রতিটি শব্দ 300-ডি ভেক্টর দ্বারা প্রতিনিধিত্ব করা যাক। V(King)রয়্যালটি, কিংডম, পুংলিঙ্গ, ভেক্টারে একটি নির্দিষ্ট ক্রমে মানবের অর্থগত বৈশিষ্ট্য থাকবে। V(man)পুরুষত্বে থাকবে, মানব, একটি নির্দিষ্ট ক্রমে কাজ করবে। সুতরাং যখন V(King)-V(Man)সম্পন্ন হবে, পুরুষত্ব, মানব বৈশিষ্ট্যগুলি বাতিল হয়ে যাবে এবং যখন V(Women)স্ত্রীত্বের সাথে যুক্ত হবে, তখন মানব বৈশিষ্ট্যগুলি যুক্ত করা হবে যার ফলে ভেক্টরের সাথে অনেক মিল রয়েছেV(Queen)। মজার বিষয় হ'ল, এই বৈশিষ্ট্যগুলিকে একটি নির্দিষ্ট ক্রমে ভেক্টরটিতে এনকোড করা হয়েছে যাতে সংখ্যাসূচক গণনা যেমন সংযোজন, বিয়োগফল পুরোপুরি কার্যকর হয়। এটি নিউরাল নেটওয়ার্কে আনসারভিজড লার্নিং পদ্ধতির প্রকৃতির কারণে।

2- প্রায় দুটি অ্যালগরিদম রয়েছে। Hierarchical softmaxএবং negative sampling। যখন নমুনা প্যারামিটার দেওয়া হয়, এটি নেতিবাচক নমুনা নেয়। শ্রেণিবদ্ধ সফ্টম্যাক্সের ক্ষেত্রে, প্রতিটি শব্দের ভেক্টরের জন্য এর প্রসঙ্গ শব্দগুলিকে ইতিবাচক আউটপুট দেওয়া হয় এবং শব্দভাণ্ডারের অন্যান্য সমস্ত শব্দকে নেতিবাচক আউটপুট দেওয়া হয়। সময়ের জটিলতার বিষয়টি নেতিবাচক নমুনা দ্বারা সমাধান করা হয়। নেতিবাচক নমুনা হিসাবে, পুরো শব্দভাণ্ডারের চেয়ে, কেবল ভোকাবুলারির একটি নমুনা অংশকে নেতিবাচক আউটপুট দেওয়া হয় এবং ভেক্টরগুলি প্রশিক্ষিত হয় যা পূর্বের পদ্ধতির তুলনায় অনেক দ্রুত faster

— yazhi
সূত্র

Word2vec বৈশিষ্ট্যগুলির এই ব্যাখ্যাটি বিভ্রান্তিকর। স্থানটির কোনও পুরুষতন্ত্র মাত্রা বা ভেক্টরে কোনও রয়্যালটি উপাদান নেই। যদি এমনটি হয় তবে একটি 300-মাত্রার ভেক্টর স্পেস কেবল 300 টি স্বতন্ত্র সিনমেটিক ডিকোটোমিজকে উপস্থাপন করতে পারে।

— ড্যান হিক্স

@ ড্যানহিক্স: আমি প্রতিটি বৈশিষ্ট্যকে জায়গার মাত্রা হিসাবে উল্লেখ করি নি। আমি কেবল বলেছি যে এই জাতীয় শব্দাবলীর বৈশিষ্ট্যগুলি ভেক্টরে নির্দিষ্ট ক্রমে এনকোড করা থাকে, যেমন গাণিতিক ক্রিয়াকলাপ সম্ভব।

— ইয়াজি

"বৈশিষ্ট্যগুলি" সাধারণত কেসগুলিকে উপস্থাপন করতে ব্যবহৃত ভেরিয়েবলগুলিকে বোঝায় - এই ক্ষেত্রে, ভেক্টর শব্দের উপাদান / ভেক্টর স্পেসের মাত্রা। @ নাইন এর প্রশ্ন এইভাবে "বৈশিষ্ট্য" ব্যবহার করে। আপনি যে "শব্দার্থক বৈশিষ্ট্যগুলি" সম্পর্কে কথা বলছেন তা হ'ল ওয়ার্ড টুভেক কীভাবে সাদৃশ্যগুলি পরিচালনা করে সে সম্পর্কে কথা বলার একটি অস্পষ্ট উপায়। তারা ভেক্টর শব্দের বৈশিষ্ট্যগুলি মোটেই নয়।

— ড্যান হিক্স

আপনি ঠিক বলেছেন .. আমি "শব্দার্থক বৈশিষ্ট্যগুলি" "শব্দার্থ বৈশিষ্ট্যগুলি" তে সম্পাদনা করেছি, এবং উত্তরের "বৈশিষ্ট্যগুলি" কেবল ভেক্টরের মাত্রা উপস্থাপন করে

— ইয়াজি

বিতরণমূলক অনুমান অনুসারে, শব্দের ভেক্টরের পৃথক মাত্রা বাস্তব বিশ্বে শব্দটি সম্পর্কে খুব বেশি বোঝায় না। আপনাকে স্বতন্ত্র মাত্রাগুলি সম্পর্কে চিন্তা করতে হবে। যদি আপনার প্রশ্নটি হয় তবে আমি কীভাবে ডাইমেনসের সংখ্যাটি নির্বাচন করব, এটি নিখুঁতভাবে আপনার ডেটার জন্য পরীক্ষার উপর ভিত্তি করে এটি 100 থেকে 1000 পর্যন্ত যেতে পারে many ফলাফল.
নমুনা পরম উচ্চ ফ্রিকোয়েন্সিযুক্ত শব্দের ছাঁটাই করতে ব্যবহৃত প্যারামিটার। উদাহরণস্বরূপ "" "" "" "ছিল", অভ্যন্তরীণ শব্দের পূর্বাভাস দেওয়ার সময় উইন্ডোতে এই স্টপওয়ার্ডগুলি বিবেচনা করা হয় না এবং ডিফল্ট মানটি এই স্টপ শব্দগুলিকে সনাক্ত করতে ভাল কাজ করে যাগুলির ফ্রিকোয়েন্সি বেশি।

— ত্রিদীপ রথ
সূত্র