লেটেন্ট ডিরিচলেট বরাদ্দ বনাম হায়ারারিকাল ডিরিচলেট প্রক্রিয়া


49

লেটেন্ট ডিরিচলেট অলোকেশন (এলডিএ) এবং হায়ারার্কিকাল ডিরিচলেট প্রক্রিয়া (এইচডিপি) উভয়ই বিষয় মডেলিং প্রক্রিয়া। প্রধান পার্থক্যটি হল এলডিএর বিষয়গুলির সংখ্যার স্পেসিফিকেশন প্রয়োজন, এবং এইচডিপি হ'ল না। কেন যে এত? এবং উভয় বিষয় মডেলিং পদ্ধতিতে পার্থক্য, উপকার এবং কনস কী?


এইচডিপি কি এটি নির্বাচন করবে এমন সংখ্যার ক্ষেত্রে ডেটাচালিত হওয়ার কথা? ব্যবহারিক দিক থেকে, আমি ব্লির এইচডিপি বাস্তবায়ন চালানোর চেষ্টা করেছি এবং আমি প্রক্রিয়াটি না মেরে এটি সমস্ত স্মৃতি খেয়ে ফেলেছে। আমার কাছে 16 গিগাবাইট র‌্যাম রয়েছে এবং বিশ্লেষণের জন্য 100K এরও বেশি সংক্ষিপ্ত দলিল রয়েছে।
ভ্লাদিস্লাভস ডভগ্লেলেকস

উত্তর:


35

এইচডিপি হ'ল এলডিএর একটি এক্সটেনশান, যেখানে মিশ্রণ উপাদানগুলির সংখ্যা (নথি-মডেলিংয়ের ক্ষেত্রে "বিষয়গুলির সংখ্যা) কোনও পূর্ববর্তী হিসাবে পরিচিত না হয় সেই ক্ষেত্রে সমাধানের জন্য ডিজাইন করা। সুতরাং যে কারণ একটি পার্থক্য আছে।

ডকুমেন্ট মডেলিংয়ের জন্য এলডিএ ব্যবহার করে, প্রতিটি "বিষয়" কিছু জ্ঞাত শব্দভান্ডার শব্দের বিতরণ হিসাবে বিবেচনা করে। প্রতিটি নথির জন্য একটি ডিরিচলেট বিতরণ থেকে বিষয়গুলির একটি মিশ্রণ অঙ্কিত হয় এবং তারপরে নথির প্রতিটি শব্দই সেই মিশ্রণ থেকে একটি স্বাধীন অঙ্কন হয় (যা কোনও বিষয় নির্বাচন করে এবং তারপরে একটি শব্দ উত্পন্ন করতে ব্যবহার করে)।

এইচডিপি (ডকুমেন্ট মডেলিংয়ে প্রয়োগ করা হয়) এর জন্য, বিষয়গুলির সংখ্যার অনিশ্চয়তা কমাতে একটি ডাইরিচলেট প্রক্রিয়াও ব্যবহার করে। সুতরাং একটি সাধারণ বেস বিতরণ নির্বাচন করা হয়েছে যা কর্পাসের পক্ষে সম্ভাব্য বিষয়গুলির অগণিত-অসীম সেট উপস্থাপন করে এবং তারপরে প্রতিটি নথির জন্য বিষয়ের সসীম বিতরণ এই বেস বিতরণ থেকে নমুনা দেওয়া হয়।

যতটা সুবিধা ও বিপরীতে, এইচডিপি'র সুবিধা রয়েছে যে সর্বাধিক সংখ্যক বিষয় আগে থেকে নির্দিষ্ট না করে ডেটা থেকে সীমাহীন এবং শেখানো যায়। আমি মনে করি যদিও এটি প্রয়োগ করা আরও জটিল এবং সীমাবদ্ধ সংখ্যক বিষয় গ্রহণযোগ্য সে ক্ষেত্রে অপ্রয়োজনীয়।


22

উপাখ্যানিকভাবে, আমি হায়ারারিকাল এলডিএ থেকে আউটপুট নিয়ে কখনই মুগ্ধ হইনি। বিষয়গুলির সংখ্যা বাছাইয়ের জন্য গ্রানুলারিটির একটি সর্বোত্তম স্তর খুঁজে পাওয়া যায় না বলে মনে হয়। আমি নিয়মিত এলডিএর কয়েকটি পুনরাবৃত্তি চালিয়ে অনেক ভাল ফলাফল পেয়েছি, নিজে তৈরি হওয়া বিষয়গুলি ম্যানুয়ালি পর্যবেক্ষণ করে, বিষয়গুলির সংখ্যা বাড়াতে বা হ্রাস করব কিনা তা স্থির করে এবং আমি যে গ্রানুলারিটি খুঁজছি তা না পাওয়া পর্যন্ত পুনরাবৃত্তি চালিয়ে যাচ্ছি।

মনে রাখবেন: শ্রেণিবদ্ধ এলডিএ আপনার মন পড়তে পারে না ... বিষয়টির মডেলিংয়ের জন্য আপনি আসলে কী চান তা এটি জানে না। ঠিক যেমন-কে-ক্লাস্টারিংয়ের মতো, আপনার কে ব্যবহার করা উচিত যা আপনার ব্যবহারের ক্ষেত্রে সবচেয়ে সার্থক করে তোলে।


16

আমি এটি উল্লেখ করতে চেয়েছিলাম, যেহেতু এই বিষয়গুলির জন্য এটি গুগলের অন্যতম শীর্ষ হিট, যে লেটেন্ট ডিরিচলেট বরাদ্দ (এলডিএ), হায়ারারিকাল ডিরিচলেট প্রসেসেস (এইচডিপি), এবং শ্রেণিবিন্যাসিক লেটেন্ট ডিরিচলেট বরাদ্দ (এইচএলডিএ) সমস্ত স্বতন্ত্র মডেল।

এলডিএ মডেলগুলি নির্দিষ্ট সংখ্যক বিষয়গুলির ডਿਰিচলেট মিশ্রণ হিসাবে নথিগুলি করে - ব্যবহারকারী দ্বারা মডেলটির প্যারামিটার হিসাবে নির্বাচিত- যা শব্দের ঘূর্ণন মিশ্রণগুলি হয়। এটি বিষয়গুলিতে শর্তাদির একটি ফ্ল্যাট, নরম সম্ভাব্য ক্লাস্টারিং এবং ডকুমেন্টগুলিকে বিষয়গুলিতে উত্পন্ন করে।

এইচডিপি মডেলগুলি শব্দের মিশ্রণ হিসাবে অনেকগুলি এলডিএর মতো, তবে একটি নির্দিষ্ট সংখ্যক বিষয়ের মিশ্রণ হিসাবে ডকুমেন্টগুলি না করে, বিষয়গুলির সংখ্যা একটি ডাইরিচলেট প্রক্রিয়া দ্বারা উত্পন্ন হয়, ফলস্বরূপ বিষয়গুলির সংখ্যাও এলোমেলো পরিবর্তনশীল হতে পারে। নামের "শ্রেণিবিন্যাসিক" অংশটি জেনারেটর মডেলটিতে যুক্ত হওয়া অন্য স্তরকে বোঝায় (বিষয়গুলির সংখ্যা নির্ধারণকারী ডাইরিচলেট প্রক্রিয়া), বিষয়গুলি নিজেরাই নয় - বিষয়গুলি এখনও সমতল ক্লাস্টারিংস are

অন্যদিকে, এইচএলডিএ হ'ল এলডিএর একটি রূপান্তর যা ডাইরিচলেট বিতরণ থেকে টানা একটি নতুন, স্বতন্ত্র স্তরের বিষয়ের মিশ্রণ হিসাবে বিষয়গুলিকে মডেল করে তোলেএবং প্রক্রিয়া না। এটি এখনও বিষয়গুলির সংখ্যাকে হাইপারপ্যারামিটার হিসাবে বিবেচনা করে, অর্থাত্ ডেটা থেকে আলাদা। পার্থক্যটি হ'ল এই ক্লাস্টারিংটি এখন হায়ারার্কিকাল- এটি প্রথম টপিকগুলির একটি গুচ্ছ শিখেছে, বিষয়গুলির মধ্যে আরও সাধারণ, বিমূর্ত সম্পর্ক দেয় (এবং তাই শব্দ এবং নথি)। এটিকে গণিত, বিজ্ঞান, প্রোগ্রামিং, ইতিহাস ইত্যাদিতে স্ট্যাক এক্সচেঞ্জগুলির ক্লাস্টারিংয়ের মতো মনে করুন যেমন ডেটা সায়েন্সের ক্লাস্টারিং এবং ক্রম বৈধকরণকে একটি বিমূর্ত পরিসংখ্যান এবং প্রোগ্রামিং বিষয় যা কিছু ধারণা ধারণ করে, সফ্টওয়্যার ইঞ্জিনিয়ারিং, তবে সফ্টওয়্যার ইঞ্জিনিয়ারিংয়ের সাথে ভাগ করে দেয় কম্পিউটার সায়েন্স এক্সচেঞ্জের সাথে এক্সচেঞ্জ আরও বেশি কংক্রিট স্তরে ক্লাস্টার করা হয় এবং উল্লিখিত সমস্ত এক্সচেঞ্জের মধ্যে সাদৃশ্য ক্লাস্টারের উপরের স্তর পর্যন্ত ততটা দেখা যায় না।


0

আমার এমন একটি পরিস্থিতি রয়েছে যেখানে এলডিএর তুলনায় এইচডিপি ভালভাবে কাজ করে। আমার কাছে প্রায় 16000 নথি রয়েছে যা বিভিন্ন শ্রেণীর অন্তর্গত। আমি প্রতিটি শ্রেণীর জন্য কতগুলি পৃথক বিষয় সংগ্রহ করতে পারি সে সম্পর্কে আমি অসচেতন, এইচডিপি সত্যিই এই ক্ষেত্রে সহায়ক।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.