আমি প্রথমে স্ট্যাক ওভারফ্লোতে এটি জিজ্ঞাসা করেছি এবং এই সাইটে উল্লেখ করা হয়েছিল, তাই এখানে যায়:
আমি বিষয়বস্তু-নির্বাচন / নিষ্কাশন ভিত্তিক নথি সংক্ষিপ্তকরণের কিছু অপ্রচলিত পদ্ধতি বাস্তবায়ন করছি এবং আমার পাঠ্যপুস্তকটি "লগ-সম্ভাবনা অনুপাত" বলে যা নিয়ে আমি বিভ্রান্ত। জুরাফস্কি এবং মার্টিনের স্পিচ অ্যান্ড ল্যাঙ্গুয়েজ প্রসেসিং বইটি সংক্ষেপে এটিকে বর্ণনা করেছে:
একটি শব্দের জন্য এলএলআর, সাধারণত ল্যাম্বডা (ডাব্লু) বলা হয় ইনপুট এবং পটভূমি কর্পস উভয় কর্পোরায় সমান সম্ভাবনা গ্রহণ করে এবং ডাব্লু পর্যবেক্ষণের সম্ভাবনা উভয়ের জন্য বিভিন্ন সম্ভাব্যতা ধরে রাখার সম্ভাবনার মধ্যে অনুপাত ডাব্লু ইনপুট এবং পটভূমি কর্পাস।
এটিকে ভেঙে আমাদের সংখ্যক রয়েছে: "উভয় কর্পোরায় ইনপুট এবং ব্যাকগ্রাউন্ড কর্পস সমান সম্ভাবনা গ্রহণ করে উভয় পর্যবেক্ষণের সম্ভাবনা" - আমি কীভাবে এখানে ব্যবহার করার সম্ভাবনা গণনা করব?
এবং ডিনোমিনেটর: "ডাব্লু ইনপুট এবং ব্যাকগ্রাউন্ড কর্পাসে ডাব্লু এর বিভিন্ন সম্ভাবনা ধরে নিয়ে উভয় পর্যবেক্ষণের সম্ভাবনা"। - এই শব্দটি শব্দের সম্ভাবনা যতটা সহজ ইনপুট বারের মধ্যে শব্দের সংঘটিত হওয়ার সম্ভাবনা? উদা:
(গণনা (শব্দ, ইনপুট) / ইনপুটে মোট শব্দ) * (গণনা (শব্দ, করপাস) / কর্পাসের মোট শব্দ)
আমি আমার বইয়ের রেফারেন্সগুলি, অবাক করা ও কাক্সিক্ষত পরিসংখ্যানের সঠিক পদ্ধতি (ডানিং 1993) সন্ধান করছি, তবে নিষ্কাশন ভিত্তিক সংক্ষিপ্তকরণে স্বতন্ত্র শব্দের জন্য এলএলআর মানগুলি গণনা করার সমস্যার সাথে সম্পর্কিত হওয়া আমার পক্ষে কঠিন হয়ে পড়েছে। এখানে যে কোনও ব্যাখ্যা সত্যই প্রশংসিত হবে।