বিভিন্ন পদ্ধতির সংক্ষিপ্তসার সহ সমস্যা সম্পর্কে একটি সম্পূর্ণ কাগজ এখানে। একে বলা হয় সাহিত্যে স্বতন্ত্র মূল্য নির্ধারণ ।
অভিনব কাগজপত্র না পড়ে যদি আমি নিজেই এটি করতে হত তবে আমি এটি করতাম। ভাষার মডেলগুলি তৈরির ক্ষেত্রে, প্রায়শই একটি অজানা শব্দের পর্যবেক্ষণের সম্ভাব্যতাটি প্রায়শই অনুমান করতে হয়, একগুচ্ছ পাঠ্য দেওয়ার পরে। বিশেষত ভাষা মডেলগুলির জন্য এই সমস্যাটি সমাধান করার ক্ষেত্রে খুব ভাল দৃষ্টিভঙ্গি হ'ল টোকেনের মোট সংখ্যায় বিভক্ত হয়ে একবারে ঘটে যাওয়া শব্দের সংখ্যাটি ব্যবহার করা। একে গুড টুরিং প্রাক্কলন বলা হয় ।
U1 টি আই আইনের নমুনায় হুবহু একবার সংঘটিত মানগুলির সংখ্যা হতে দিন।
P[new item next] ~= u1 / m.
আপনার আকারের মিঃ নমুনায় আপনাকে অনন্য আইটেমের সংখ্যা হতে দিন।
আপনি যদি ভুল করে ধরে নেন যে আরও তথ্য পাওয়ার সাথে সাথে 'নতুন আইটেম নেক্সট' হার হ্রাস পাচ্ছে না, তবে গুড টিউরিং ব্যবহার করে আপনার কাছে
total uniq set of size s ~= u + u1 / m * (s - m)
ইউ 1 সত্যিই ছোট হয়ে যাওয়ার সাথে এর কিছু বাজে আচরণ রয়েছে তবে বাস্তবে এটি আপনার পক্ষে সমস্যা নাও হতে পারে।