Word2vec এ শব্দের ভেক্টরের বৈশিষ্ট্য


9

আমি অনুভূতি বিশ্লেষণ করার চেষ্টা করছি। শব্দগুলিকে শব্দ ভেক্টরগুলিতে রূপান্তর করার জন্য আমি word2vec মডেলটি ব্যবহার করছি। ধরা যাক 'বাক্য' নামের একটি তালিকায় আমার সমস্ত বাক্য রয়েছে এবং আমি এই বাক্যগুলিকে নীচে ওয়ার্ড টুভেচ করে দিচ্ছি:

model = word2vec.Word2Vec(sentences, workers=4 , min_count=40, size=300,   window=5, sample=1e-3)

আমি যেহেতু ভেক্টর শব্দের কাছে নবু তাই আমার দুটি সন্দেহ আছে।
1- বৈশিষ্ট্যগুলির সংখ্যা 300 এ সেট করা একটি শব্দ ভেক্টরের বৈশিষ্ট্যগুলি সংজ্ঞায়িত করে। তবে এই বৈশিষ্ট্যগুলি কী বোঝায়? যদি এই মডেলটির প্রতিটি শব্দ একটি 1x300 নাম্পার অ্যারে দ্বারা প্রতিনিধিত্ব করা হয়, তবে এই 300 টি বৈশিষ্ট্য সেই শব্দের জন্য কী বোঝায়?

2- উপরোক্ত মডেলটিতে 'নমুনা' পরামিতি দ্বারা প্রতিনিধিত্ব করে ডাউন স্যাম্পলিং প্রকৃতপক্ষে কী করে?

আগাম ধন্যবাদ.

উত্তর:


10

1- বৈশিষ্ট্যগুলির সংখ্যা: নিউরাল নেটওয়ার্ক মডেলের ক্ষেত্রে এটি প্রক্ষেপণ (লুকানো) স্তরের নিউরনের সংখ্যা উপস্থাপন করে। প্রজেকশন স্তরটি বিতরণের অনুমানের উপর নির্মিত হওয়ায়, প্রতিটি শব্দের সংখ্যাসূচক ভ্যাক্টর এর প্রাসঙ্গিক শব্দের সাথে এর সম্পর্ককে বোঝায়।

এই বৈশিষ্ট্যগুলি নিউরাল নেটওয়ার্ক দ্বারা শিখেছে কারণ এটি অকার্যকর পদ্ধতি। প্রতিটি ভেক্টর বিভিন্ন শব্দার্থক বৈশিষ্ট্য আছে। উদাহরণস্বরূপ, আসুন ধ্রুপদী উদাহরণ V(King) -V(man) + V(Women) ~ V(Queen)এবং প্রতিটি শব্দ 300-ডি ভেক্টর দ্বারা প্রতিনিধিত্ব করা যাক। V(King)রয়্যালটি, কিংডম, পুংলিঙ্গ, ভেক্টারে একটি নির্দিষ্ট ক্রমে মানবের অর্থগত বৈশিষ্ট্য থাকবে। V(man)পুরুষত্বে থাকবে, মানব, একটি নির্দিষ্ট ক্রমে কাজ করবে। সুতরাং যখন V(King)-V(Man)সম্পন্ন হবে, পুরুষত্ব, মানব বৈশিষ্ট্যগুলি বাতিল হয়ে যাবে এবং যখন V(Women)স্ত্রীত্বের সাথে যুক্ত হবে, তখন মানব বৈশিষ্ট্যগুলি যুক্ত করা হবে যার ফলে ভেক্টরের সাথে অনেক মিল রয়েছেV(Queen)। মজার বিষয় হ'ল, এই বৈশিষ্ট্যগুলিকে একটি নির্দিষ্ট ক্রমে ভেক্টরটিতে এনকোড করা হয়েছে যাতে সংখ্যাসূচক গণনা যেমন সংযোজন, বিয়োগফল পুরোপুরি কার্যকর হয়। এটি নিউরাল নেটওয়ার্কে আনসারভিজড লার্নিং পদ্ধতির প্রকৃতির কারণে।

2- প্রায় দুটি অ্যালগরিদম রয়েছে। Hierarchical softmaxএবং negative sampling। যখন নমুনা প্যারামিটার দেওয়া হয়, এটি নেতিবাচক নমুনা নেয়। শ্রেণিবদ্ধ সফ্টম্যাক্সের ক্ষেত্রে, প্রতিটি শব্দের ভেক্টরের জন্য এর প্রসঙ্গ শব্দগুলিকে ইতিবাচক আউটপুট দেওয়া হয় এবং শব্দভাণ্ডারের অন্যান্য সমস্ত শব্দকে নেতিবাচক আউটপুট দেওয়া হয়। সময়ের জটিলতার বিষয়টি নেতিবাচক নমুনা দ্বারা সমাধান করা হয়। নেতিবাচক নমুনা হিসাবে, পুরো শব্দভাণ্ডারের চেয়ে, কেবল ভোকাবুলারির একটি নমুনা অংশকে নেতিবাচক আউটপুট দেওয়া হয় এবং ভেক্টরগুলি প্রশিক্ষিত হয় যা পূর্বের পদ্ধতির তুলনায় অনেক দ্রুত faster


Word2vec বৈশিষ্ট্যগুলির এই ব্যাখ্যাটি বিভ্রান্তিকর। স্থানটির কোনও পুরুষতন্ত্র মাত্রা বা ভেক্টরে কোনও রয়্যালটি উপাদান নেই। যদি এমনটি হয় তবে একটি 300-মাত্রার ভেক্টর স্পেস কেবল 300 টি স্বতন্ত্র সিনমেটিক ডিকোটোমিজকে উপস্থাপন করতে পারে।
ড্যান হিক্স

@ ড্যানহিক্স: আমি প্রতিটি বৈশিষ্ট্যকে জায়গার মাত্রা হিসাবে উল্লেখ করি নি। আমি কেবল বলেছি যে এই জাতীয় শব্দাবলীর বৈশিষ্ট্যগুলি ভেক্টরে নির্দিষ্ট ক্রমে এনকোড করা থাকে, যেমন গাণিতিক ক্রিয়াকলাপ সম্ভব।
ইয়াজি

"বৈশিষ্ট্যগুলি" সাধারণত কেসগুলিকে উপস্থাপন করতে ব্যবহৃত ভেরিয়েবলগুলিকে বোঝায় - এই ক্ষেত্রে, ভেক্টর শব্দের উপাদান / ভেক্টর স্পেসের মাত্রা। @ নাইন এর প্রশ্ন এইভাবে "বৈশিষ্ট্য" ব্যবহার করে। আপনি যে "শব্দার্থক বৈশিষ্ট্যগুলি" সম্পর্কে কথা বলছেন তা হ'ল ওয়ার্ড টুভেক কীভাবে সাদৃশ্যগুলি পরিচালনা করে সে সম্পর্কে কথা বলার একটি অস্পষ্ট উপায়। তারা ভেক্টর শব্দের বৈশিষ্ট্যগুলি মোটেই নয়।
ড্যান হিক্স

1
আপনি ঠিক বলেছেন .. আমি "শব্দার্থক বৈশিষ্ট্যগুলি" "শব্দার্থ বৈশিষ্ট্যগুলি" তে সম্পাদনা করেছি, এবং উত্তরের "বৈশিষ্ট্যগুলি" কেবল ভেক্টরের মাত্রা উপস্থাপন করে
ইয়াজি

0
  1. বিতরণমূলক অনুমান অনুসারে, শব্দের ভেক্টরের পৃথক মাত্রা বাস্তব বিশ্বে শব্দটি সম্পর্কে খুব বেশি বোঝায় না। আপনাকে স্বতন্ত্র মাত্রাগুলি সম্পর্কে চিন্তা করতে হবে। যদি আপনার প্রশ্নটি হয় তবে আমি কীভাবে ডাইমেনসের সংখ্যাটি নির্বাচন করব, এটি নিখুঁতভাবে আপনার ডেটার জন্য পরীক্ষার উপর ভিত্তি করে এটি 100 থেকে 1000 পর্যন্ত যেতে পারে many ফলাফল.
  2. নমুনা পরম উচ্চ ফ্রিকোয়েন্সিযুক্ত শব্দের ছাঁটাই করতে ব্যবহৃত প্যারামিটার। উদাহরণস্বরূপ "" "" "" "ছিল", অভ্যন্তরীণ শব্দের পূর্বাভাস দেওয়ার সময় উইন্ডোতে এই স্টপওয়ার্ডগুলি বিবেচনা করা হয় না এবং ডিফল্ট মানটি এই স্টপ শব্দগুলিকে সনাক্ত করতে ভাল কাজ করে যাগুলির ফ্রিকোয়েন্সি বেশি।
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.