দস্তাবেজের সংক্ষিপ্তকরণে লগ-সম্ভাবনা অনুপাত

আমি প্রথমে স্ট্যাক ওভারফ্লোতে এটি জিজ্ঞাসা করেছি এবং এই সাইটে উল্লেখ করা হয়েছিল, তাই এখানে যায়:

আমি বিষয়বস্তু-নির্বাচন / নিষ্কাশন ভিত্তিক নথি সংক্ষিপ্তকরণের কিছু অপ্রচলিত পদ্ধতি বাস্তবায়ন করছি এবং আমার পাঠ্যপুস্তকটি "লগ-সম্ভাবনা অনুপাত" বলে যা নিয়ে আমি বিভ্রান্ত। জুরাফস্কি এবং মার্টিনের স্পিচ অ্যান্ড ল্যাঙ্গুয়েজ প্রসেসিং বইটি সংক্ষেপে এটিকে বর্ণনা করেছে:

একটি শব্দের জন্য এলএলআর, সাধারণত ল্যাম্বডা (ডাব্লু) বলা হয় ইনপুট এবং পটভূমি কর্পস উভয় কর্পোরায় সমান সম্ভাবনা গ্রহণ করে এবং ডাব্লু পর্যবেক্ষণের সম্ভাবনা উভয়ের জন্য বিভিন্ন সম্ভাব্যতা ধরে রাখার সম্ভাবনার মধ্যে অনুপাত ডাব্লু ইনপুট এবং পটভূমি কর্পাস।

এটিকে ভেঙে আমাদের সংখ্যক রয়েছে: "উভয় কর্পোরায় ইনপুট এবং ব্যাকগ্রাউন্ড কর্পস সমান সম্ভাবনা গ্রহণ করে উভয় পর্যবেক্ষণের সম্ভাবনা" - আমি কীভাবে এখানে ব্যবহার করার সম্ভাবনা গণনা করব?

এবং ডিনোমিনেটর: "ডাব্লু ইনপুট এবং ব্যাকগ্রাউন্ড কর্পাসে ডাব্লু এর বিভিন্ন সম্ভাবনা ধরে নিয়ে উভয় পর্যবেক্ষণের সম্ভাবনা"। - এই শব্দটি শব্দের সম্ভাবনা যতটা সহজ ইনপুট বারের মধ্যে শব্দের সংঘটিত হওয়ার সম্ভাবনা? উদা:

(গণনা (শব্দ, ইনপুট) / ইনপুটে মোট শব্দ) * (গণনা (শব্দ, করপাস) / কর্পাসের মোট শব্দ)

আমি আমার বইয়ের রেফারেন্সগুলি, অবাক করা ও কাক্সিক্ষত পরিসংখ্যানের সঠিক পদ্ধতি (ডানিং 1993) সন্ধান করছি, তবে নিষ্কাশন ভিত্তিক সংক্ষিপ্তকরণে স্বতন্ত্র শব্দের জন্য এলএলআর মানগুলি গণনা করার সমস্যার সাথে সম্পর্কিত হওয়া আমার পক্ষে কঠিন হয়ে পড়েছে। এখানে যে কোনও ব্যাখ্যা সত্যই প্রশংসিত হবে।

natural-language text-summarization

— রিচার্ড
সূত্র

পাঠ্যপুস্তক কি তা বলতে পারেন?

— onestop

জুরাফস্কি এবং মার্টিনের বক্তৃতা এবং ভাষা প্রক্রিয়াজাতকরণ

— রিচার্ড

আমার সীমিত জ্ঞান দিয়ে, আমি মনে করি:

"ইনপুট ডাব্লু পর্যবেক্ষণের সম্ভাবনা" মান গণনা করার জন্য একটি বিতরণ প্রয়োজন
"উভয় কর্পোরায় ইনপুট এবং পটভূমি কর্পস সমান সম্ভাব্যতা ধরে নিয়ে ডাব্লু পর্যবেক্ষণের সম্ভাবনা" এর অর্থ "ডাব্লু পর্যবেক্ষণের সম্ভাবনা ... প্রদত্ত যে উভয় কর্পোরার ক্ষেত্রে ডাব্লু জন্য সম্ভাবনা সমান"।

এটির জন্য আমার সূত্রটি এখানে:

সমস্যাটি একটু সূত্রিত করা:

হাইপোথিসিস 1: পি (ডাব্লু ইনপুট) = পি (পটভূমিতে ডাব্লু) = পি
হাইপোথিসিস 2: পি (ডাব্লু ইনপুট) = পি 1 এবং পি (পটভূমিতে ডাব্লু) = পি 2 এবং পি 1 $\ne$ P2

গুরুতর অংশটি হ'ল আপনার এখানে বিতরণ অনুমান করতে হবে। সহজলভ্যভাবে, আমরা একটি পাঠ্যে ডাব্লু উত্পাদন করার জন্য দ্বিপদী বিতরণ অনুমান করি। স্যাম্প্লেডাটা দেওয়া, আমরা p, p1, এবং p2 এর মান গণনা করতে সর্বাধিক সম্ভাবনা অনুমান ব্যবহার করতে পারি এবং সেগুলি এখানে:

পি = (ডাব্লু-ইন-ইনপুট + গণনা-অফ-ডাব্লু-ইন-ব্যাকগ্রাউন্ড) / (ইনপুট-আকার + পটভূমি-আকার) = (সি 1 + সি 2) / (এন 1 + এন 2)
পি 1 = সি 1 / এন 1
পি 2 = সি 2 / এন 2

আমরা কোন অনুমানের সম্ভাবনা বেশি তা জানতে চাই। অতএব, আমরা প্রতিটি অনুমানের সম্ভাবনা গণনা করি এবং একে অপরের সাথে তুলনা করি (যা মূলত সম্ভাবনা অনুপাতটি কী করে)।

যেহেতু আমরা দ্বিপদী বিতরণ অনুমান করি , আমরা সি 1 এবং সি 2 হওয়ার সম্ভাবনা গণনা করতে পারি।

হাইপোথিসিস 1 এর জন্য:

L (c1) = ডাব্লু ইনপুটতে পর্যবেক্ষণের সম্ভাবনা = যখন সম্ভাব্যতা ধরে ধরে এন 1 শব্দ থাকে তখন সি 1 অর্জনের সম্ভাবনা p (বা, অন্য কথায়, এন 1 বারের মধ্যে সি 1 বারের জন্য ডব্লু নির্বাচন করা) খ (এন 1, সি 1) হয় , পি) - দয়া করে এখানে দ্বিপদী সম্ভাবনার সূত্রটি দেখুন

এল (সি 2) = ব্যাকগ্রাউন্ডে ডাব্লু পর্যবেক্ষণের সম্ভাবনা = সি 2 প্রাপ্তি হওয়ার সম্ভাবনা যখন এন 2 শব্দ রয়েছে তখন ধরে নেওয়া হয় সম্ভাবনা পি (এন 2, সি 2, পি)

হাইপোথিসিস 2 এর জন্য, আমরা পরিবর্তে p1 এবং p2 ব্যবহার করতে পারি।

এখন আমরা জানতে চাই কোন অনুমানের সম্ভাবনা বেশি; আমাদের কিছু অনুমান থেকে একটি আউটপুট মান তুলনা করতে হবে।

তবে প্রতিটি অনুমানের 2 টি মান, এল (সি 1) এবং এল (সি 2) থাকে। কোন অনুমানের সম্ভাবনা বেশি তা আমরা কীভাবে তুলনা করতে পারি? --- আমরা একটি একক-মূল্যবান আউটপুট অর্জন করতে তাদের একসাথে গুণ করতে পছন্দ করি। (কারণ এটি জ্যামিতির সাথে সাদৃশ্যপূর্ণ, আমার ধারণা)

— Tanin
সূত্র

আপনার আইটেমগুলিতে, পি, পি 1, এবং পি 2, পি, পি 1, এবং পি 2 এর অনুমান ঠিক আছে?

— শি'য়ান

হ্যাঁ, এটা সঠিক। পরিসংখ্যানগতভাবে বলতে গেলে, তারা নমুনা ডেটা এবং দ্বিপদী বিতরণ প্রদত্ত সর্বাধিক সম্ভাবনা অনুমান।

— তানিন

এটি নির্দেশ করার জন্য ধন্যবাদ, বিটিডব্লিউ। আমি উত্তরটি উন্নত করেছি।

— তানিন