আমি এটি উল্লেখ করতে চেয়েছিলাম, যেহেতু এই বিষয়গুলির জন্য এটি গুগলের অন্যতম শীর্ষ হিট, যে লেটেন্ট ডিরিচলেট বরাদ্দ (এলডিএ), হায়ারারিকাল ডিরিচলেট প্রসেসেস (এইচডিপি), এবং শ্রেণিবিন্যাসিক লেটেন্ট ডিরিচলেট বরাদ্দ (এইচএলডিএ) সমস্ত স্বতন্ত্র মডেল।
এলডিএ মডেলগুলি নির্দিষ্ট সংখ্যক বিষয়গুলির ডਿਰিচলেট মিশ্রণ হিসাবে নথিগুলি করে - ব্যবহারকারী দ্বারা মডেলটির প্যারামিটার হিসাবে নির্বাচিত- যা শব্দের ঘূর্ণন মিশ্রণগুলি হয়। এটি বিষয়গুলিতে শর্তাদির একটি ফ্ল্যাট, নরম সম্ভাব্য ক্লাস্টারিং এবং ডকুমেন্টগুলিকে বিষয়গুলিতে উত্পন্ন করে।
এইচডিপি মডেলগুলি শব্দের মিশ্রণ হিসাবে অনেকগুলি এলডিএর মতো, তবে একটি নির্দিষ্ট সংখ্যক বিষয়ের মিশ্রণ হিসাবে ডকুমেন্টগুলি না করে, বিষয়গুলির সংখ্যা একটি ডাইরিচলেট প্রক্রিয়া দ্বারা উত্পন্ন হয়, ফলস্বরূপ বিষয়গুলির সংখ্যাও এলোমেলো পরিবর্তনশীল হতে পারে। নামের "শ্রেণিবিন্যাসিক" অংশটি জেনারেটর মডেলটিতে যুক্ত হওয়া অন্য স্তরকে বোঝায় (বিষয়গুলির সংখ্যা নির্ধারণকারী ডাইরিচলেট প্রক্রিয়া), বিষয়গুলি নিজেরাই নয় - বিষয়গুলি এখনও সমতল ক্লাস্টারিংস are
অন্যদিকে, এইচএলডিএ হ'ল এলডিএর একটি রূপান্তর যা ডাইরিচলেট বিতরণ থেকে টানা একটি নতুন, স্বতন্ত্র স্তরের বিষয়ের মিশ্রণ হিসাবে বিষয়গুলিকে মডেল করে তোলেএবং প্রক্রিয়া না। এটি এখনও বিষয়গুলির সংখ্যাকে হাইপারপ্যারামিটার হিসাবে বিবেচনা করে, অর্থাত্ ডেটা থেকে আলাদা। পার্থক্যটি হ'ল এই ক্লাস্টারিংটি এখন হায়ারার্কিকাল- এটি প্রথম টপিকগুলির একটি গুচ্ছ শিখেছে, বিষয়গুলির মধ্যে আরও সাধারণ, বিমূর্ত সম্পর্ক দেয় (এবং তাই শব্দ এবং নথি)। এটিকে গণিত, বিজ্ঞান, প্রোগ্রামিং, ইতিহাস ইত্যাদিতে স্ট্যাক এক্সচেঞ্জগুলির ক্লাস্টারিংয়ের মতো মনে করুন যেমন ডেটা সায়েন্সের ক্লাস্টারিং এবং ক্রম বৈধকরণকে একটি বিমূর্ত পরিসংখ্যান এবং প্রোগ্রামিং বিষয় যা কিছু ধারণা ধারণ করে, সফ্টওয়্যার ইঞ্জিনিয়ারিং, তবে সফ্টওয়্যার ইঞ্জিনিয়ারিংয়ের সাথে ভাগ করে দেয় কম্পিউটার সায়েন্স এক্সচেঞ্জের সাথে এক্সচেঞ্জ আরও বেশি কংক্রিট স্তরে ক্লাস্টার করা হয় এবং উল্লিখিত সমস্ত এক্সচেঞ্জের মধ্যে সাদৃশ্য ক্লাস্টারের উপরের স্তর পর্যন্ত ততটা দেখা যায় না।