ব্যবহারিক দৃষ্টিকোণ থেকে ...
এলডিএ ব্যাগ-অফ-ওয়ার্ড ইনপুট দিয়ে শুরু হয় যা ডকুমেন্টগুলিতে কী শব্দগুলি সহ-ঘটে তা বিবেচনা করে তবে শব্দের তাত্ক্ষণিক প্রসঙ্গে মনোযোগ দেয় না। এর অর্থ শব্দটি নথিতে এবং যে কোনও ক্রমে যে কোনও জায়গায় উপস্থিত হতে পারে, যা একটি নির্দিষ্ট স্তরের তথ্যের বাইরে চলে যায়। বিপরীতে শব্দ 2vec সমস্ত প্রসঙ্গে যেখানে একটি শব্দ ব্যবহৃত হয় - যদিও সম্ভবত সঠিক ক্রম নয়।
এলডিএর "বিষয়গুলি" একটি গাণিতিক গঠন এবং আপনার এগুলি প্রকৃত মানবিক বিষয়গুলিতে বিভ্রান্ত করা উচিত নয়। আপনি এমন বিষয়ের সাথে শেষ করতে পারেন যার কোনও মানবিক ব্যাখ্যা নেই - এগুলি প্রকৃত বিষয়ের চেয়ে প্রক্রিয়াটির নিদর্শনগুলির মতো - এবং মূলত একই মানবিক বিষয়কে অন্তর্ভুক্ত করে এমন বিষয়গুলি সহ আপনি বিমূর্তির বিভিন্ন স্তরের বিষয়গুলি নিয়ে শেষ করতে পারেন। এ যেন চা পাতা পড়ার মতো কিছুটা।
আমি ডেটা অন্বেষণে এলডিএকে দরকারী বলে মনে করেছি, তবে সমাধান সরবরাহের জন্য তেমন দরকারী নয়, তবে আপনার মাইলেজটি আলাদা হতে পারে।
ওয়ার্ড 2vec সরাসরি কোনও বিষয় তৈরি করে না। এটি শব্দগুলিকে অনুরূপ ব্যবহারের ভিত্তিতে একটি উচ্চ-মাত্রিক স্থানে প্রজেক্ট করে, তাই শব্দের ক্ষেত্রে এটির নিজস্ব আশ্চর্য হতে পারে যা আপনি আলাদা হিসাবে বিবেচনা করেন - বা এমনকি বিপরীতে - মহাকাশে একে অপরের কাছাকাছি থাকতে পারে।
শব্দগুলি "অনুরূপ" কিনা আপনি তা নির্ধারণ করতে ব্যবহার করতে পারেন। এলডিএর সাথে: শব্দগুলির একই বিষয়গুলিতে ওজন হ'ল। Word2vec সহ: এম্বেডিং স্পেসে এগুলি কি কিছুটা (কিছু পরিমাপের দ্বারা) নিকটে রয়েছে?
আপনি নথির অনুরূপ কিনা তা নির্ধারণ করতে ব্যবহার করতে পারেন। এলডিএর সাথে আপনি একই রকম বিষয়ের মিশ্রণের সন্ধান করবেন এবং ওয়ার্ড টু ওয়েভ দিয়ে আপনি নথির শব্দের ভেক্টর যুক্ত করার মতো কিছু করবেন। ("ডকুমেন্ট" একটি বাক্য, অনুচ্ছেদ, পৃষ্ঠা বা একটি সম্পূর্ণ নথি হতে পারে)) ডকোভেকটি ওয়ার্ড টুভেকের একটি পরিবর্তিত সংস্করণ যা নথির সরাসরি তুলনা করতে দেয় allows
এলডিএ শব্দের ব্যাগের সাথে কিছু প্রাসঙ্গিক তথ্য ছুঁড়ে ফেলেছে তবে এর সাথে টপিক (বা "বিষয়") রয়েছে, যা ওয়ার্ড টু ওয়েভের নেই। সুতরাং ডক্টুভেক ব্যবহার করা সোজা কথা, "আমাকে এইগুলির অনুরূপ নথিগুলি দেখান", যখন এলডিএর সাথে এটি বলা সহজ হয় যে, "টপিকটি এ যে বিষয়টির উল্লেখযোগ্য সেখানে আমাকে ডকুমেন্টগুলি দেখান"। (আবার, আপনার ডকুমেন্টগুলিতে একটি গাণিতিক প্রক্রিয়া থেকে "টপিক এ" উত্থিত হয়েছে এবং এটির পরে আপনি কীভাবে মানবিক বিষয় (গুলি) এর সাথে সম্পর্কিত figure