এলডিএ হাইপারপ্যারামিটারগুলির জন্য প্রাকৃতিক ব্যাখ্যা


21

কেউ কি এলডিএ হাইপারপ্যারামিটারগুলির প্রাকৃতিক ব্যাখ্যাটি ব্যাখ্যা করতে পারেন? ALPHAএবং BETAযথাক্রমে (প্রতি দস্তাবেজ) বিষয় এবং (প্রতি বিষয় প্রতি) শব্দ বিতরণের জন্য ডিরিচলেট বিতরণের পরামিতি। তবে কেউ এই হাইপারপ্রেমিটার বনাম ছোট মানগুলির তুলনায় বৃহত্তর মানগুলি চয়ন করার অর্থ কী তা ব্যাখ্যা করতে পারে? এর অর্থ কি ডকুমেন্টগুলিতে টপ স্পারসিটি এবং শব্দের ক্ষেত্রে বিষয়গুলির পারস্পরিক একচ্ছত্রতার ক্ষেত্রে কোনও পূর্ব বিশ্বাস স্থাপন করা?

এই প্রশ্নটি সুপ্ত ডিরিচলেট বরাদ্দের বিষয়ে, তবে অবিলম্বে নীচে বিজিআরিনের মন্তব্য লিনিয়ার বৈষম্যমূলক বিশ্লেষণকে বোঝায়, যা বিভ্রান্তিকরভাবে সংক্ষেপে এলডিএর সংক্ষেপেও রয়েছে।


আমি মনে করি আপনি কোন এলডিএ সূত্র ব্যবহার করছেন তার উপর আপনাকে আরও কিছু বিশদ দেওয়ার দরকার। সাধারণত এটি কেবল আরডিএ মডেলগুলিরই সেই প্যারামিটারগুলি থাকে, এলডিএ সাধারণত সম্পূর্ণরূপে গড় ভেক্টর, কোভারিয়েন্স ম্যাট্রিক্স এবং পূর্বের সম্ভাব্যতা দ্বারা সংজ্ঞায়িত হয়।
বিগ্রিন

উত্তর:


11

ডেভিড ব্লেই একটি গ্রীষ্মের ক্লাসের শিক্ষার্থীদের কাছে এলডিএর সাথে পরিচয় করিয়ে দেওয়ার জন্য একটি দুর্দান্ত আলোচনা করেছেন: http://videolectures.net/MLss09uk_blei_tm/

প্রথম ভিডিওতে তিনি টপিক মডেলিং এবং কীভাবে ডারিচলেট বিতরণ কার্যকর হয় তার মূল ধারণাটি ব্যাপকভাবে বর্ণনা করেছেন। প্লেট স্বরলিপিটি ব্যাখ্যা করা হয়েছে যেন সমস্ত লুকানো ভেরিয়েবলগুলি নির্ভরতা দেখাতে দেখা যায়। মূলত বিষয়গুলি শব্দের উপর বিতরণ এবং বিষয়গুলির উপর নথির বিতরণ।

দ্বিতীয় ভিডিওতে তিনি কিছু নমুনা গ্রাফ সহ আলফার প্রভাব দেখান। ছোট আলফা যত বেশি বিতরণ করে। এছাড়াও, তিনি কিছু অনুমানের পদ্ধতির পরিচয় করিয়ে দেন।


7
এই গ্রহণযোগ্য উত্তর হওয়া উচিত নয়
সমস্মর

আমার অনুমান তুমি ঠিক. আমি পুরোপুরি ভুলে গেছি যে আমি এটি লিখেছিলাম।
কার্স্টেন

উহু! লেখকের কাছ থেকে একটি মন্তব্য দেখার আশা করেনি!
হেই

48

উত্তরটি নির্ভর করে আপনি প্রতিসাম্য বা অ্যাসিমেট্রিক ডাইরিচলেট বিতরণ (বা আরও প্রযুক্তিগতভাবে, বেস পরিমাপটি একরকম কিনা ) ধরে নিচ্ছেন কিনা তার উপর depends অন্য কোনও কিছু নির্দিষ্ট না করা না হলে, এলডিএর বেশিরভাগ বাস্তবায়নগুলি বিতরণকে প্রতিসম বলে ধরে।

প্রতিসামগ্রী বিতরণের জন্য, একটি উচ্চ আলফা-মানটির অর্থ হ'ল প্রতিটি নথিতে বেশিরভাগ বিষয়ের মিশ্রণ থাকতে পারে এবং বিশেষভাবে কোনও একক বিষয় নয়। একটি স্বল্প আলফা মান ডকুমেন্টগুলিতে এই জাতীয় বাধা কম রাখে এবং এর অর্থ হ'ল ডকুমেন্টটিতে কেবলমাত্র কয়েকটি, বা এমনকি একটি মাত্র বিষয়গুলির মিশ্রণ থাকতে পারে। তেমনি, একটি উচ্চ বিটা-মান বলতে বোঝায় যে প্রতিটি বিষয়টিতে বেশিরভাগ শব্দের মিশ্রণ রয়েছে এবং বিশেষত কোনও শব্দের নয়, যখন একটি স্বল্পমূল্যের অর্থ কোনও বিষয়ের মধ্যে কেবল কয়েকটি শব্দের মিশ্রণ থাকতে পারে।

অন্যদিকে, যদি বিতরণটি অসমমিত হয় তবে একটি উচ্চ আলফা-মান বলতে বোঝায় যে প্রতিটি নথির জন্য একটি নির্দিষ্ট বিষয়ের বিতরণ (বেস মাপের উপর নির্ভর করে) বেশি সম্ভাবনা রয়েছে। একইভাবে, উচ্চ বিটা-মানগুলির অর্থ প্রতিটি টপিকটিতে বেস পরিমাপের দ্বারা সংজ্ঞায়িত একটি নির্দিষ্ট শব্দ মিশ্রণের সম্ভাবনা বেশি থাকে।

অনুশীলনে, একটি উচ্চতর আলফা-মান ডকুমেন্টগুলিতে কী বিষয়গুলি ধারণ করে সেগুলির তুলনায় আরও অনুরূপ হতে পারে। একটি উচ্চ বিটা-মান একইভাবে বিষয়গুলিতে কী শব্দ ধারণ করে সেগুলির ক্ষেত্রে আরও বেশি মিলিত হতে পারে।

সুতরাং, হ্যাঁ, আলফা-প্যারামিটারগুলি নথিতে বিষয়ের স্পারসিটি / অভিন্নতা সম্পর্কে পূর্বের বিশ্বাসগুলি নির্দিষ্ট করে। যদিও "শব্দের ক্ষেত্রে বিষয়গুলির মধ্যে পারস্পরিক একচেটিয়াতা" বলতে আপনি কী বোঝাতে চাইছেন তা আমি পুরোপুরি নিশ্চিত নই।


আরও সাধারণভাবে, এগুলি হ'ল এলডিএ মডেলের ব্যবহৃত ডারিচলেট বিতরণের জন্য ঘনত্বের পরামিতি । এটি কীভাবে কাজ করে সে সম্পর্কে কিছুটা স্বজ্ঞাত ধারণা পাওয়ার জন্য, এই উপস্থাপনায় কিছু দুর্দান্ত চিত্র রয়েছে, পাশাপাশি সাধারণভাবে এলডিএর একটি ভাল ব্যাখ্যা রয়েছে।


(α1,α2,,αকে)তোমার দর্শন লগ করা=(তোমার দর্শন লগ করা1,তোমার দর্শন লগ করা2,,তোমার দর্শন লগ করাকে)αα*তোমার দর্শন লগ করা=(α1,α2,,αকে)α(α1,α2,,αকে)(α1,α2,,αকে)


2
+1 তথ্যমূলক উত্তর! আমি জিজ্ঞাসা করতে চাই যে সাধারণভাবে আলফা এবং বিটার জন্য কীভাবে উচ্চ / নিম্নের একটি উচ্চ / নিম্নমান?
সংসার

বিটা প্রতিটি বিষয়ের (একটি ম্যাট্রিক্স) শব্দের উপরে বিতরণ হওয়ার কথা, তাই না? তাহলে কীভাবে একটি একক মান একটি ম্যাট্রিক্সে অনুবাদ করে?
নোয়ামিকো

আমি কি ঠিক এই সিদ্ধান্তে ডেকে আছি যে উচ্চ আলফা মানে ডকুমেন্টগুলি অনুরূপ, এবং উচ্চ বিটা মানে বিষয়গুলি সমান?
লুইস্ট্রিক 12
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.