আমার কাছে একটি ডাবল শিখরের সাথে ডেটা রয়েছে যা আমি মডেল করার চেষ্টা করছি এবং শৃঙ্গগুলির মধ্যে যথেষ্ট পরিমাণে ওভারল্যাপ রয়েছে যা আমি তাদের সাথে স্বাধীনভাবে চিকিত্সা করতে পারি না। ডেটাগুলির একটি হিস্টোগ্রাম এর মতো দেখতে পারে:
আমি এর জন্য দুটি মডেল তৈরি করেছি: একটিতে দুটি পোইসন বিতরণ ব্যবহার করা হয়, এবং অন্যটি দুটি নেতিবাচক দ্বিপদী বিতরণ ব্যবহার করে (অতিরিক্ত অর্থের জন্য অ্যাকাউন্টে)। কোন মডেল আরও সঠিকভাবে ডেটা ফিট করে তা বলার উপযুক্ত উপায় কী?
আমার প্রাথমিক ধারণাটি হ'ল আমি প্রতিটি মডেলকে উপাত্তের সাথে তুলনা করার জন্য কোলমোগোরভ-স্মারনভ পরীক্ষাটি ব্যবহার করতে পারি, তারপরে সম্ভাব্যতা অনুপাতের পরীক্ষাটি করে দেখুন এটির চেয়ে আরও ভাল ফিট কিনা। এটা কোনো কিছু হলো? যদি তা হয় তবে আমি কীভাবে সম্ভাবনা রেশিও পরীক্ষা করব তা নিশ্চিত নই। চি-স্কোয়ারটি কি উপযুক্ত, এবং আমার কত ডিগ্রি স্বাধীনতা রয়েছে?
যদি এটি সহায়তা করে তবে মডেলগুলির জন্য কিছু (খুব সরল) আর কোডটি এর মতো দেখতে পারে:
## inital data points
a <- read.table("data")
#create model data
model.pois = c(rpois(1000000,200),rpois(500000,250))
model.nb = c(rnbinom(1000000,200,0.5),rnbinom(500000,275,0.5)
#Kolmogorov-Smirnov test
#use ks.boot, since it's count data that may contain duplicate values
kpois = ks.boot(model.pois,a)
knb = ks.boot(model.nb,a)
#here's where I'd do some sort of likelihood ratio test
# . . .
সম্পাদনা করুন: এখানে এমন একটি চিত্র যা ডেটা এবং বিতরণগুলি আরও ভালভাবে ফিট করছি। ভিজ্যুয়ালাইজেশন থেকে এটি সম্পূর্ণ পরিষ্কার যে দ্বিতীয় মডেল (ওভারডিস্পের জন্য অ্যাকাউন্টে নেতিবাচক দ্বিপদী ব্যবহার করে) আরও ভাল ফিট। যদিও আমি পরিমাণগতভাবে এটি প্রদর্শন করতে চাই।
(লাল - ডেটা, সবুজ - মডেল)