লেটেন্ট ডিরিচলেট বরাদ্দ দিয়ে কীভাবে একটি হোল্ডআউটের বিভ্রান্তি গণনা করবেন?


18

ল্যান্টেন্ট ডিরিচলেট অ্যালোকেশন (এলডিএ) করার সময় কীভাবে হোল্ডআউট নমুনার বিভ্রান্তি গণনা করা যায় সে সম্পর্কে আমি বিভ্রান্ত। বিষয়বস্তু সংক্রান্ত কাগজপত্রগুলি এটির উপর দিয়ে বাতাস বইছে, আমার মনে হচ্ছে যে আমি কোনও স্পষ্ট কিছু মিস করছি ...

উদ্বেগকে এলডিএর জন্য পারফরম্যান্সের একটি ভাল পরিমাপ হিসাবে দেখা হয়। ধারণাটি হ'ল আপনি একটি হোল্ডআউট নমুনা রাখেন, আপনার ডেটা বাকি অংশে আপনার এলডিএকে প্রশিক্ষণ দিন, তারপরে হোল্ডআউটটির বিভ্রান্তি গণনা করুন।

উদ্বেগ সূত্র দ্বারা দেওয়া যেতে পারে:

per(Dtest)=exp{d=1Mlogp(wd)d=1MNd}

( বড় আকারের চিত্র ডেটাবেসগুলিতে চিত্র পুনরুদ্ধার থেকে নেওয়া , হর্স্টার এট আল ।)

এখানে নথি নম্বর (পরীক্ষা নমুনা সম্ভবতঃ) হয়, নথিতে শব্দ প্রতিনিধিত্ব করে , নথিতে শব্দের সংখ্যা ।MwddNdd

কীভাবে বোধগম্যভাবে ক্যালক্লুয়েট করবেন তা আমার কাছে স্পষ্ট নয় , যেহেতু আমাদের হাতে রাখা নথিগুলির জন্য বিষয়ের মিশ্রণ নেই। আদর্শভাবে, আমরা সম্ভাব্য সমস্ত বিষয়ের মিশ্রণের জন্য আগে ডিরিচ্লেটের উপর একীকরণ করব এবং আমরা শিখেছি বিষয়টি বহু-জাতীয়তা ব্যবহার করব। যদিও এই অবিচ্ছেদ্য গণনা করা সহজ কাজ বলে মনে হয় না।p(wd)

বিকল্পভাবে, আমরা প্রতিটি অনুষ্ঠিত নথির জন্য একটি সর্বোত্তম বিষয় মিশ্রণটি শিখতে চেষ্টা করতে পারি (আমাদের শিখে নেওয়া বিষয়গুলি দেওয়া হয়) এবং এটিকে উদ্বেগের গণনা করতে ব্যবহার করতে পারি। এটি করণীয় হবে, তবে এটি হর্টর এট আল এবং ব্লেই এট আল এর মতো কাগজপত্রের মতো তুচ্ছ নয়, এবং এটি আমার কাছে তাত্ক্ষণিকভাবে পরিষ্কার নয় যে ফলাফলটি উপরের আদর্শ মামলার সমান হবে।

উত্তর:


17

এটি প্রকৃতপক্ষে প্রায়শই বর্ধিত কিছু।

কিছু লোক কিছুটা কৌতুকপূর্ণ কিছু করছে: প্রতিটি নথিতে শব্দের একটি অনুপাত ধরে রাখা এবং ডকুমেন্ট-বিষয় মিশ্রণের পাশাপাশি বিষয়-শব্দের মিশ্রণগুলি প্রদান করে এই ধারণাগত শব্দের ভবিষ্যদ্বাণীমূলক সম্ভাবনা ব্যবহার করে। এটি স্পষ্টতই আদর্শ নয় কারণ এটি কোনও হোল্ড-আউট ডকুমেন্টের পারফরম্যান্সের মূল্যায়ন করে না।

প্রস্তাবিত হিসাবে হোল্ড-আউট ডকুমেন্টগুলির সাথে এটি সঠিকভাবে করতে, আপনাকে "সমস্ত সম্ভাব্য বিষয়ের মিশ্রণের আগে ডিরিচ্লেটের উপর একীকরণ করতে হবে"। http://people.cs.umass.edu/~wallach/talks/evaluation.pdf এই সামান্য অপ্রীতিকর ইন্টিগ্রাল মোকাবেলায় কয়েকটি পদ্ধতির পর্যালোচনা করে। আমি নিজেকে বাস্তবে এটিকে বাস্তবায়ন করার চেষ্টা করছি এবং শুভকামনা!


3
এই প্রশ্নটি ড্রেজিংয়ের জন্য ধন্যবাদ! ওয়ালাচ এট আল-র টপিক মডেল মূল্যায়নের উপর একটি কাগজও রয়েছে: টপিক মডেলগুলির মূল্যায়ন পদ্ধতি
ড্রেভিকো

1
কোন চিন্তা করো না. MALLET টপিক মডেলিং টুলবক্সে ওয়াল্যাচের বাম থেকে ডান পদ্ধতির জন্য আমি কিছু কোড পেয়েছি, যদি আপনি তাদের এলডিএ বাস্তবায়ন ব্যবহার করে খুশি হন তবে এটি একটি সহজ জয় যদিও এটি কোনও সেটে চালানো খুব সহজ বলে মনে হয় না doesn't এলডিএর ভিন্ন ধরণের থেকে অন্য কোথাও শিখেছি বিষয়গুলি, যা আমি যা করতে দেখছি। আমি তাদের কাগজ থেকে চিব-স্টাইলের অনুমানকারীকে কার্যকর হিসাবে ম্যাটলব কোডটি তারা গাইড হিসাবে সরবরাহ করে তা প্রয়োগ করে শেষ করেছি যদিও এটি করার ক্ষেত্রে বেশ কয়েকটি সমস্যা সমাধান করতে হয়েছিল, আপনি কোড চান কিনা তা আমাকে জানান।
ম্যাট

হাই @ ম্যাট এলডিএ-তে বিভ্রান্তির মূল্যায়নের জন্য মাতলাব কোডটি আমাকে দেওয়া সম্ভব? ধন্যবাদ
পার্সিয়া রাজকন্যা

@ প্রিন্সফেস্পিয়ারিয়া আমি মনে করি লেখক মাতলাব কোডটি দিয়ে আমার যে সমস্যাটি চিহ্নিত করেছেন তা ঠিক করেছেন, এখানে দেখুন: হোম
ম্যাট

0

আমরা জানি যে এলডিএর প্যারামিটারগুলি ভেরিয়াল ইনফারেন্সের মাধ্যমে অনুমান করা হয়। সুতরাং

logp(w|α,β)=E[logp(θ,z,w|α,β)]E[logq(θ,z)]+D(q(θ,z)||p(θ,z))

D(q(θ,z)||p(θ,z))=0logp(w|α,β)=E[logp(θ,z,w|α,β)]E[logq(θ,z)]

logp(w|α,β)


1
আমি মনে করি পরীক্ষার সেটটিতে কীভাবে বিভ্রান্তির গণনা করা যায় সে সম্পর্কে আরও সুনির্দিষ্ট হওয়ার জন্য উত্তরটির উন্নতি করা সম্ভব।
মোমো
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.