ল্যান্টেন্ট ডিরিচলেট অ্যালোকেশন (এলডিএ) করার সময় কীভাবে হোল্ডআউট নমুনার বিভ্রান্তি গণনা করা যায় সে সম্পর্কে আমি বিভ্রান্ত। বিষয়বস্তু সংক্রান্ত কাগজপত্রগুলি এটির উপর দিয়ে বাতাস বইছে, আমার মনে হচ্ছে যে আমি কোনও স্পষ্ট কিছু মিস করছি ...
উদ্বেগকে এলডিএর জন্য পারফরম্যান্সের একটি ভাল পরিমাপ হিসাবে দেখা হয়। ধারণাটি হ'ল আপনি একটি হোল্ডআউট নমুনা রাখেন, আপনার ডেটা বাকি অংশে আপনার এলডিএকে প্রশিক্ষণ দিন, তারপরে হোল্ডআউটটির বিভ্রান্তি গণনা করুন।
উদ্বেগ সূত্র দ্বারা দেওয়া যেতে পারে:
( বড় আকারের চিত্র ডেটাবেসগুলিতে চিত্র পুনরুদ্ধার থেকে নেওয়া , হর্স্টার এট আল ।)
এখানে নথি নম্বর (পরীক্ষা নমুনা সম্ভবতঃ) হয়, নথিতে শব্দ প্রতিনিধিত্ব করে , নথিতে শব্দের সংখ্যা ।
কীভাবে বোধগম্যভাবে ক্যালক্লুয়েট করবেন তা আমার কাছে স্পষ্ট নয় , যেহেতু আমাদের হাতে রাখা নথিগুলির জন্য বিষয়ের মিশ্রণ নেই। আদর্শভাবে, আমরা সম্ভাব্য সমস্ত বিষয়ের মিশ্রণের জন্য আগে ডিরিচ্লেটের উপর একীকরণ করব এবং আমরা শিখেছি বিষয়টি বহু-জাতীয়তা ব্যবহার করব। যদিও এই অবিচ্ছেদ্য গণনা করা সহজ কাজ বলে মনে হয় না।
বিকল্পভাবে, আমরা প্রতিটি অনুষ্ঠিত নথির জন্য একটি সর্বোত্তম বিষয় মিশ্রণটি শিখতে চেষ্টা করতে পারি (আমাদের শিখে নেওয়া বিষয়গুলি দেওয়া হয়) এবং এটিকে উদ্বেগের গণনা করতে ব্যবহার করতে পারি। এটি করণীয় হবে, তবে এটি হর্টর এট আল এবং ব্লেই এট আল এর মতো কাগজপত্রের মতো তুচ্ছ নয়, এবং এটি আমার কাছে তাত্ক্ষণিকভাবে পরিষ্কার নয় যে ফলাফলটি উপরের আদর্শ মামলার সমান হবে।