ওয়ার্ড 2ভেক এবং ডক 2 ভেক কি বিতরণের উপস্থাপনা বা বিতরণ উপস্থাপনা উভয়ই?


10

আমি পড়েছি যে বিতরণের উপস্থাপনা বন্টনমূলক অনুমানের উপর ভিত্তি করে যে অনুরূপ প্রসঙ্গে বর্ণিত শব্দগুলির একই অর্থ হয়।

ওয়ার্ড টুভেক এবং ডক 2ভেক উভয়ই এই অনুমান অনুসারে মডেল করা হয়েছে। কিন্তু, মূল কাগজে, এমনকি তারা খেতাবধারী হয় Distributed representation of words and phrasesএবং Distributed representation of sentences and documents। সুতরাং, বিতরণমূলক প্রতিনিধিত্ব বা বিতরণ উপস্থাপনার উপর ভিত্তি করে এই অ্যালগরিদমগুলি কি?

অন্যান্য মডেল যেমন এলডিএ এবং এলএসএ সম্পর্কে কীভাবে।

উত্তর:


5

কার্যকরভাবে, ওয়ার্ড 2Vec / ডক 2ভেক ভিত্তিক distributional hypothesisযেখানে প্রতিটি শব্দের প্রসঙ্গটি তার কাছের শব্দ is একইভাবে, এলএসএ পুরো নথিটিকে প্রসঙ্গ হিসাবে গ্রহণ করে। উভয় কৌশলই সমস্যার সমাধান করে word embedding- শব্দার্থের সাথে সম্পর্কিত শব্দগুলিকে একসাথে রাখার সাথে সাথে শব্দগুলিকে একটি অবিচ্ছিন্ন ভেক্টর স্থানে এম্বেড করে।

অন্যদিকে, এলডিএ একই সমস্যা সমাধানের জন্য তৈরি করা হয়নি। তারা ডাকা একটি ভিন্ন সমস্যা নিয়ে ডিল করে topic modeling, যা নথির একটি সেটে সুপ্ত বিষয়গুলি সন্ধান করে।


গুগল গ্রুপের কাছ থেকে আমি উত্তর পেয়েছি যে এটি উভয়ই বিভিন্ন দৃষ্টিকোণে বিতরণ এবং বিতরণ করেছে। ভেক্টর স্পেসে বিতরণ বৈশিষ্ট্যগুলির ক্ষেত্রে ব্যবহৃত অনুমান এবং বিতরণ অনুমানের ক্ষেত্রে বিতরণযোগ্য।
ইয়াজি

হ্যাঁ, উপস্থাপনাটি এই অর্থে বিতরণ করা হয় যে কোনও শব্দ ভেক্টর একাধিক ধারণা ধারণ করছে, প্রতিটি ধারণা নিজেই ভেক্টর। উদাহরণ স্বরূপ:vkingmaleroyalvqueenfemaleroyalvkingvqueenvmanvwoman

2

তুরিয়ান, জোসেফ, লেভ রাতিনভ এবং যোশুয়া বেনজিও। " শব্দ উপস্থাপনা: আধা তত্ত্বাবধানে শেখার জন্য একটি সহজ এবং সাধারণ পদ্ধতি "। গণ্য ভাষাতাত্ত্বিক জন্য সমিতির 48 তম বার্ষিক সভার প্রক্রিয়া। অ্যাসোসিয়েশন ফর কম্পিউটেশনাল ভাষাতত্ত্ব, ২০১০. বন্টনমূলক উপস্থাপনা এবং বন্টিত উপস্থাপনাগুলি নিম্নলিখিত হিসাবে সংজ্ঞায়িত করুন:

  • FW×CWFwwFcFFwWFwFd<<CFwwdgF

  • একটি বিতরণ প্রতিনিধিত্ব ঘন, নিম্ন-মাত্রিক এবং বাস্তব-মূল্যবান। বিতরিত শব্দের উপস্থাপনাগুলিকে শব্দ এম্বেডিংস বলা হয়। এম্বেডিংয়ের প্রতিটি মাত্রা শব্দের একটি সুপ্ত বৈশিষ্ট্য উপস্থাপন করে, আশা করি দরকারী সিনট্যাকটিক এবং শব্দার্থক বৈশিষ্ট্যগুলি ক্যাপচার করবে। বিতরণ করা প্রতিনিধিত্ব সংক্ষিপ্ত, এই অর্থে যে এটি মাত্রার সংখ্যায় ক্লাস্টারের ঘনিষ্ঠ সংখ্যাটি উপস্থাপন করতে পারে।

এফওয়াইআই: শব্দ ভেক্টর, শব্দের উপস্থাপনা এবং ভেক্টর এম্বেডিংয়ের মধ্যে পার্থক্য কী?


2
উত্তরেও একই বিভ্রান্তি রয়ে গেছে। এটি উভয় উপস্থাপনা থেকে বৈশিষ্ট্য আছে। এটিতে কী মিল রয়েছে তা দেখতে দিন। Distributional: এটির ডাব্লুএক্সসির ম্যাট্রিক্স রয়েছে এবং তারপরে এটি ডাব্লুএক্সডিতে হ্রাস পেয়েছে, যেখানে ডিটি এম্বেডিং ভেক্টরের আকার। প্রসঙ্গটি নির্ধারণ করতে এটি উইন্ডো মাপ ব্যবহার করে। Distributed: ঘন, নিম্ন-মাত্রিক ভেক্টর। এটি সেই মাত্রাগুলিতে সুপ্ত বৈশিষ্ট্যগুলি (শব্দার্থ বৈশিষ্ট্য) সংরক্ষণ করে।
ইয়াজি

2

গুগল গ্রুপগুলির মাধ্যমে আন্দ্রে কুতুজভের উত্তর সন্তুষ্টিজনক বোধ করেছে

আমি বলব যে ওয়ার্ড 2 ওয়েভ অ্যালগোরিদম উভয়ের উপর ভিত্তি করে।

লোকেরা যখন বলে distributional representation, তারা সাধারণত ভাষাগত দিকটিকে বোঝায়: অর্থ প্রসঙ্গ, শব্দটি এর সংস্থার এবং অন্যান্য বিখ্যাত উক্তিগুলি দ্বারা জানুন।

কিন্তু লোকেরা যখন বলে distributed representation, এটির বেশিরভাগ ভাষাতত্ত্বের সাথে কোনও সম্পর্ক নেই। এটি কম্পিউটার বিজ্ঞানের দিক সম্পর্কে আরও বেশি। যদি আমি মিকোলভ এবং অন্যান্যগুলি সঠিকভাবে বুঝতে পারি তবে distributedতাদের কাগজপত্রের শব্দের অর্থ ভেক্টর উপস্থাপনের প্রতিটি একক উপাদানটির নিজস্ব অর্থ নেই। ব্যাখ্যামূলক বৈশিষ্ট্য (উদাহরণস্বরূপ, ওয়ার্ড 2vec এর ক্ষেত্রে শব্দের প্রসঙ্গগুলি) লুকানো রয়েছে এবং distributedব্যাখ্যামূলক ভেক্টর উপাদানগুলির মধ্যে রয়েছে: প্রতিটি উপাদান বিভিন্ন ব্যাখ্যাযোগ্য বৈশিষ্ট্যের জন্য দায়ী এবং প্রতিটি ব্যাখ্যাযোগ্য বৈশিষ্ট্য বেশ কয়েকটি উপাদানকে আবদ্ধ করে।

সুতরাং, word2vec (এবং doc2vec) প্রযুক্তিগতভাবে বিতরণ উপস্থাপনাগুলি ব্যবহার করে, লাক্ষিক শব্দার্থকে উপস্থাপনের উপায় হিসাবে। এবং একই সাথে এটি ধারণাগতভাবে বিতরণের অনুমানের উপর ভিত্তি করে: এটি কেবলমাত্র বিতরণ অনুমানটি সত্য বলেই কাজ করে (শব্দের অর্থগুলি তাদের সাধারণ প্রসঙ্গের সাথে সম্পর্কিত)।

তবে অবশ্যই প্রায়শই শর্তাদি distributedএবং distributionalআন্তঃবিস্মরণীয়ভাবে ব্যবহৃত হয়, ভুল বোঝাবুঝি বাড়িয়ে তোলে :)

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.