ওয়ার্ড 2ভেক বনাম সেনটেন্স 2 ভেক বনাম ডক 2ভেক


18

আমি সম্প্রতি পদ জুড়ে এসেছিল Word2Vec , Sentence2Vec এবং Doc2Vec এবং বিভ্রান্ত হিসাবে আমি ভেক্টর শব্দার্থবিদ্যা নতুন am ধরনের। কেউ কি এই পদ্ধতির পার্থক্যগুলি সহজ কথায় ব্যাখ্যা করতে পারেন? প্রতিটি পদ্ধতির জন্য সবচেয়ে উপযুক্ত কাজগুলি কি কি?

উত্তর:


22

নামগুলি বেশ সোজা-এগিয়ে রয়েছে এবং আপনাকে ভেক্টর উপস্থাপনের একটি পরিষ্কার ধারণা দেওয়া উচিত।

ওয়ার্ড টুভেক অ্যালগরিদম শব্দের বিতরণার্থক সিন্থেটিক উপস্থাপনা তৈরি করে। প্রশিক্ষণের জন্য দুটি প্রধান পন্থা রয়েছে, বিতরণের ব্যাগ অফ ওয়ার্ডস এবং স্কিপ গ্রাম মডেল। একটিতে কেন্দ্রীয় শব্দ ব্যবহার করে প্রসঙ্গের শব্দের পূর্বাভাস দেওয়া জড়িত, অন্যটিতে প্রসঙ্গ শব্দগুলি ব্যবহার করে শব্দটির পূর্বাভাস দেওয়া ting মিকোলভের কাগজে আপনি এটি সম্পর্কে আরও বিস্তারিতভাবে পড়তে পারেন ।

একই ধারণাটি বাক্য এবং সম্পূর্ণ নথিতে প্রসারিত হতে পারে যেখানে শব্দের জন্য বৈশিষ্ট্য উপস্থাপনা শেখার পরিবর্তে আপনি বাক্য বা নথির জন্য শিখেন। তবে, সেনটেশনটোভের একটি সাধারণ ধারণা পেতে বাক্যটির সমস্ত শব্দের ভেক্টর উপস্থাপনা শব্দের গাণিতিক গড় হিসাবে ভাবেন। আপনি কেবল গড় এবং কোনও SentenceToVec প্রশিক্ষণ না দিয়ে খুব ভাল অনুমান পেতে পারেন তবে অবশ্যই এর সীমাবদ্ধতা রয়েছে।

ডক 2ভেকটি সেনটেশনটোভ বা বরং ওয়ার্ড 2Vec এর ধারণা বাড়ায় কারণ বাক্যগুলিকে নথি হিসাবেও বিবেচনা করা যেতে পারে। প্রশিক্ষণের ধারণাটি একই রকম রয়েছে। আপনি আরও তথ্যের জন্য মিকোলভের ডক 2 ভেক কাগজটি পড়তে পারেন ।

অ্যাপ্লিকেশনগুলিতে আসা, এটি কার্যের উপর নির্ভর করবে। ওয়ার্ড টুভেক শব্দগুলির মধ্যে শব্দার্থক সম্পর্কগুলি কার্যকরভাবে ক্যাপচার করে তাই শব্দের মিলের জন্য গণ্য করতে বা বিভিন্ন এনএলপি কার্যাদি যেমন অনুভূতি বিশ্লেষণ ইত্যাদির বৈশিষ্ট্য হিসাবে খাওয়ানো যেতে পারে তবে শব্দগুলি কেবল এতটা ক্যাপচার করতে পারে, এমন সময় আছে যখন আপনার বাক্য এবং নথির মধ্যে সম্পর্ক দরকার হয় এবং শুধু শব্দ নয়। উদাহরণস্বরূপ, যদি আপনি এটি বের করার চেষ্টা করছেন, দুটি স্ট্যাক ওভারফ্লো প্রশ্ন একে অপরের সদৃশ কিনা।

একটি সাধারণ গুগল অনুসন্ধান আপনাকে এই অ্যালগরিদমের বেশ কয়েকটি অ্যাপ্লিকেশন নিয়ে যাবে।


শব্দের ভেক্টরগুলির গড় গড় এবং ডক 2 ওয়েভ ব্যবহারের মধ্যে তফাত কী? ভেক্টর তৈরি করার সময় বাক্যটিতে কী ডক 2vec শব্দের চারপাশের জন্য অ্যাকাউন্ট করে (যখন শব্দ 2vec না করে)?
জন স্ট্রুড

1
ডক 2 ভেক শব্দের সাথে ডকুমেন্টের জন্য একটি এলোমেলোভাবে ভিক্টর শিখেছে, (দস্তাবেজ একটি বাক্য হতে পারে)। ম্যানুয়ালি ওয়ার্ড ভেক্টরগুলির গড় ক্ষমতা একই ক্ষমতাতে সম্পাদন করে না কারণ এটি পুরো ডকুমেন্ট থেকে শিখতে ব্যর্থ। সম্প্রতি প্যারাগ্রাম ভেক্টরগুলি নথির অনুরূপ ইত্যাদির সাথে কাজ করার সময় অত্যন্ত ব্যবহার হয়েছে
হিমাংশু রায়
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.