সম্প্রতি, লিখিত পাঠ্য থেকে কীভাবে তথ্য উত্তোলন করতে হবে তা নিয়ে আলোচনা করা সাহিত্যের একটি বিশাল সংস্থা বৃদ্ধি পেয়েছে। সুতরাং আমি কেবলমাত্র চারটি মাইলফলক / জনপ্রিয় মডেল এবং তাদের সুবিধাগুলি / অসুবিধাগুলি বর্ণনা করব এবং এভাবে প্রধান পার্থক্যগুলি (বা কমপক্ষে যা আমি প্রধান / সবচেয়ে গুরুত্বপূর্ণ পার্থক্য বলে মনে করি) তা হাইলাইট করব।
আপনি "সবচেয়ে সহজ" পদ্ধতির উল্লেখ করেছেন, যা শর্তগুলির পূর্বনির্ধারিত প্রশ্নের সাথে (পিএমআই হিসাবে) ডকুমেন্টগুলিকে মিলিয়ে ক্লাস্টার করা হবে। পলিসেমি (একাধিক অর্থ) এবং সিনোনিমি (একাধিক শব্দের সমান অর্থ) এমন একক পদগুলির কারণে এই লিক্সিক্যাল ম্যাচিং পদ্ধতিগুলি ভুল হতে পারে।
প্রতিকার হিসাবে, সুপ্ত সিমেটিক ইনডেক্সিং ( এলএসআই ) একটি একক মান পচনের মাধ্যমে একটি সুপ্ত শব্দার্থক স্থানটিতে শর্তাদি এবং নথিগুলি ম্যাপিংয়ের মাধ্যমে এটিকে কাটিয়ে উঠার চেষ্টা করে। এলএসআই ফলাফলগুলি পৃথক শর্তগুলির চেয়ে অর্থের আরও শক্তিশালী সূচক। তবে, এলএসআইয়ের একটি অপূর্ণতা হ'ল এটির দৃ prob় সম্ভাব্য ভিত্তির দিক থেকে অভাব রয়েছে।
এটি আংশিকভাবে সম্ভাব্য এলএসআই ( পিএলএসআই ) আবিষ্কার দ্বারা সমাধান করা হয়েছিল । পিএলএসআই মডেলগুলিতে নথির প্রতিটি শব্দের বহুবিধ র্যান্ডম ভেরিয়েবলের মাধ্যমে নির্দিষ্ট মিশ্রণ মডেল থেকে অঙ্কিত হয় (এটি @sviatoslav হং উল্লিখিত হিসাবে উচ্চতর অর্ডার সহ-উপস্থিতিগুলিরও অনুমতি দেয়)। সম্ভাব্য পাঠ্য মডেলিংয়ের ক্ষেত্রে এটি একটি গুরুত্বপূর্ণ পদক্ষেপ ছিল, তবে এই দৃষ্টিতে এটি অসম্পূর্ণ ছিল যে এটি নথির স্তরে কোনও সম্ভাব্য কাঠামো সরবরাহ করে না।
লেটেন্ট ডিরিচলেট অ্যালোকেশন ( এলডিএ ) এটিকে হ্রাস করে এবং এটি পাঠ্য ক্লাস্টারিংয়ের জন্য প্রথম সম্পূর্ণ সম্ভাব্য মডেল। ব্লি এট আল। (2003) দেখান যে পিএলএসআই হ'ল পূর্বে ইউনিফর্ম ডিরিচ্লেটের অধীনে সর্বাধিক একটি পোস্টেরিয়েরি অনুমিত এলডিএ মডেল।
নোট করুন যে উপরে উল্লিখিত মডেলগুলির (এলএসআই, পিএলএসআই, এলডিএ) প্রচলিত রয়েছে যে তারা "ব্যাগ-অফ-শব্দের" অনুমানের উপর ভিত্তি করে রয়েছে - অর্থাত্ কোনও নথির মধ্যে শব্দগুলি বিনিময়যোগ্য হয়, অর্থাত্ কোনও নথিতে শব্দের ক্রম করতে পারে অবহেলা করা। বিনিময়যোগ্যতার এই অনুধাবন অন্যান্য পদ্ধতির জন্য এলডিএর আরও ন্যায়সঙ্গততার প্রস্তাব দেয়: ধরে নেওয়া যে ডকুমেন্টের মধ্যে কেবল শব্দগুলিই বিনিময়যোগ্য নয়, ডকুমেন্টগুলিও, যেমন, কোনও কর্পাসের মধ্যে নথির ক্রম উপেক্ষিত হতে পারে, ডি ফিনেটির উপপাদ্যউল্লেখ করে যে বিনিময়যোগ্য র্যান্ডম ভেরিয়েবলগুলির যে কোনও সেটের একটি মিশ্রণ বিতরণ হিসাবে একটি উপস্থাপনা থাকে। সুতরাং যদি নথিগুলির মধ্যে নথি এবং শব্দের জন্য বিনিময়যোগ্যতা ধরে নেওয়া হয় তবে উভয়ের জন্য একটি মিশ্রণের মডেল প্রয়োজন। সাধারণভাবে এলডিএ সাধারণত এটি অর্জন করে তবে পিএমআই বা এলএসআই না করে (এবং পিএলএসআইও এলডিএর মতো সুন্দর নয়)।