দু'টি বিতরণকে একত্রিত করে এমন কোনও মডেলটিতে গৌরব-মাপসই পরিমাপ


9

আমার কাছে একটি ডাবল শিখরের সাথে ডেটা রয়েছে যা আমি মডেল করার চেষ্টা করছি এবং শৃঙ্গগুলির মধ্যে যথেষ্ট পরিমাণে ওভারল্যাপ রয়েছে যা আমি তাদের সাথে স্বাধীনভাবে চিকিত্সা করতে পারি না। ডেটাগুলির একটি হিস্টোগ্রাম এর মতো দেখতে পারে:

বিকল্প পাঠ

আমি এর জন্য দুটি মডেল তৈরি করেছি: একটিতে দুটি পোইসন বিতরণ ব্যবহার করা হয়, এবং অন্যটি দুটি নেতিবাচক দ্বিপদী বিতরণ ব্যবহার করে (অতিরিক্ত অর্থের জন্য অ্যাকাউন্টে)। কোন মডেল আরও সঠিকভাবে ডেটা ফিট করে তা বলার উপযুক্ত উপায় কী?

আমার প্রাথমিক ধারণাটি হ'ল আমি প্রতিটি মডেলকে উপাত্তের সাথে তুলনা করার জন্য কোলমোগোরভ-স্মারনভ পরীক্ষাটি ব্যবহার করতে পারি, তারপরে সম্ভাব্যতা অনুপাতের পরীক্ষাটি করে দেখুন এটির চেয়ে আরও ভাল ফিট কিনা। এটা কোনো কিছু হলো? যদি তা হয় তবে আমি কীভাবে সম্ভাবনা রেশিও পরীক্ষা করব তা নিশ্চিত নই। চি-স্কোয়ারটি কি উপযুক্ত, এবং আমার কত ডিগ্রি স্বাধীনতা রয়েছে?

যদি এটি সহায়তা করে তবে মডেলগুলির জন্য কিছু (খুব সরল) আর কোডটি এর মতো দেখতে পারে:

## inital data points
a <- read.table("data")

#create model data
model.pois = c(rpois(1000000,200),rpois(500000,250))
model.nb = c(rnbinom(1000000,200,0.5),rnbinom(500000,275,0.5)

#Kolmogorov-Smirnov test
#use ks.boot, since it's count data that may contain duplicate values
kpois = ks.boot(model.pois,a)
knb = ks.boot(model.nb,a)

#here's where I'd do some sort of likelihood ratio test
# . . .

সম্পাদনা করুন: এখানে এমন একটি চিত্র যা ডেটা এবং বিতরণগুলি আরও ভালভাবে ফিট করছি। ভিজ্যুয়ালাইজেশন থেকে এটি সম্পূর্ণ পরিষ্কার যে দ্বিতীয় মডেল (ওভারডিস্পের জন্য অ্যাকাউন্টে নেতিবাচক দ্বিপদী ব্যবহার করে) আরও ভাল ফিট। যদিও আমি পরিমাণগতভাবে এটি প্রদর্শন করতে চাই। বিকল্প পাঠ

(লাল - ডেটা, সবুজ - মডেল)


আপনি কি প্রতিটি বিনের মানগুলির সম্ভাব্য বন্টন জানেন ? Y অক্ষের লেবেল আমাকে ভাবায় যে এটি পয়েসোনিয়ান বা মাল্টিনোমিয়াল হতে পারে? (ধরে নিচ্ছেন কোনও মডেল আপনাকে প্রতিটি
বিনের

ডেটাটি মূলত দুটি পয়সন প্রক্রিয়া থেকে আঁকা, তবে এমন গোপন ভেরিয়েবল রয়েছে যা আমি সংশোধন করতে পারি না, ফলে ওভারডিস্পেরেশন হয়। সুতরাং, একটি নেতিবাচক দ্বিপদী অবশ্যই একটি ভাল মডেল। (উপরে উল্লিখিত নতুন চিত্র / পাঠ্যটি দেখুন)। আমার এনবি মডেলটি পরিমাণগতভাবে আরও ভাল ফিট করে।
ক্রিসমিলার

1
প্রকৃত বনাম পূর্বাভাসিত মানগুলির মধ্যে মীন স্কোয়ার ত্রুটির মতো একটি মেট্রিক সম্পর্কে কীভাবে?

hrmm - আমি এই ধারণাটি পছন্দ করি, শ্রীকান্ত। আমি যা ভাবছিলাম তার থেকে এটি অনেক সহজ, তবে এখনও তা উপলব্ধি করে। নীচে একটি উত্তরে নিক্ষেপ করুন যাতে আমি এটি ক্রেডিট করতে পারি এবং আপনার পথে কিছু প্রতিনিধি পাঠাতে পারি। আমি এখনও অন্যান্য পদ্ধতি শোনার আগ্রহী, তবে এটি আপাতত কার্যকর হতে পারে।
ক্রিসমিলার

উত্তর:


4

আপনি দুটি মডেলের তুলনা করতে প্রকৃত বনাম পূর্বাভাসিত মানগুলির মধ্যে মীন স্কোয়ারড ত্রুটির মতো একটি মেট্রিক ব্যবহার করতে পারেন ।


1
এটি আমার নির্দিষ্ট পরিস্থিতির জন্য সঠিক উত্তর ছিল, যদিও গ্লেন_ব এর প্রতিক্রিয়া আমাকে আরও শিখতে সহায়তা করেছিল। তাই তাঁর পক্ষে আরও কিছু উস্কানি, শ্রীকান্তের পক্ষে উত্তর গৃহীত। প্রত্যেকে জিতেছে - সবাইকে ধন্যবাদ।
ক্রিসমিলার

8

Themণাত্মক দ্বিপদীটির আরও পরামিতি রয়েছে বলে আপনি এগুলি সরাসরি তুলনা করতে পারবেন না। প্রকৃতপক্ষে পোইসন নেতিবাচক দ্বিপদী হিসাবে "নেস্টেড" এই অর্থে যে এটি একটি সীমাবদ্ধ কেস, তাই নেগবিন সর্বদা পইসনের চেয়ে ভাল ফিট করে। যাইহোক, এটি সম্ভাবনা অনুপাত পরীক্ষার মতো কিছু বিবেচনা করা সম্ভব করে তবে পয়েসন theণাত্মক দ্বিপদী জন্য প্যারামিটার স্পেসের সীমানায় রয়েছে তা পরীক্ষার পরিসংখ্যানের বিতরণকে প্রভাবিত করতে পারে।

যে কোনও ক্ষেত্রে, এমনকি প্যারামিটারের সংখ্যার পার্থক্য কোনও সমস্যা না হলেও আপনি সরাসরি কেএস পরীক্ষা করতে পারবেন না কারণ আপনার অনুমিত পরামিতিগুলি অনুমান করা হয়েছে এবং কেএস বিশেষত সেই ক্ষেত্রে যেখানে সমস্ত পরামিতি নির্দিষ্ট করা হয়েছে। বুটস্ট্র্যাপ ব্যবহার করার আপনার ধারণাটি এই ইস্যুটির সাথে সম্পর্কিত, তবে প্রথমটি নয় (পরামিতিগুলির সংখ্যায় পার্থক্য)

আমি ফিটের ধার্মিকতার মসৃণ পরীক্ষাগুলিও বিবেচনা করছিলাম (উদাহরণস্বরূপ রায়নার এবং সেরা বইটি দেখুন), উদাহরণস্বরূপ, ফিটের চি-বর্গক্ষেত্রের সুদকে আগ্রহের উপাদানগুলিতে ভাগ করতে পারে (পোইসন মডেল থেকে বিচ্যুতি পরিমাপ এই ক্ষেত্রে) - চতুর্থ ক্রম বা ষষ্ঠ আদেশ বলতে গৃহীত, এটি নেগবিন বিকল্পের জন্য ভাল শক্তি দিয়ে একটি পরীক্ষা হতে পারে।

(সম্পাদনা করুন: আপনি চি-স্কোয়ার্ড টেস্টের মাধ্যমে আপনার পিসন এবং নেগবিনের সাথে তুলনা করতে পারবেন তবে এতে কম শক্তি থাকবে ch চি-স্কোয়ার বিভাজন করা এবং কেবল প্রথম 4-6 টি উপাদান বলতে কেবল মসৃণ পরীক্ষাগুলি দিয়ে করা ভাল হতে পারে better ।)


ধন্যবাদ। এটি একগুচ্ছ বিষয়কে স্পষ্ট করে এবং পুরো নতুন নতুন প্রশ্ন খুলে দেয় যা সম্পর্কে আমাকে কিছু গবেষণা করতে হবে। আমার অনুমান আমার মূল প্রশ্নটি, আপনি যা বলছেন তার অর্থ কি আরও সহজ কিছু যেমন রুটকে বোঝানো মানে স্কোয়ার ত্রুটি, এই সমস্যার কাছে যাওয়ার কোনও কার্যকর উপায় নয়? আমি মঞ্জুরি দেব যে এটি সম্ভবত ততটা শক্তিশালী নয় এবং আমাকে পি-ভ্যালুও দেবে না, তবে আপনি উল্লেখ করা বইয়ের একটি অনুলিপি সন্ধান করার সময় আমি তাড়াতাড়ি করতে পারতাম। যেকোনো ধারণাই গৃহীত হবে.
ক্রিসমিলার

2
কল্পনা করুন যে আপনার পয়েন্টগুলির একটি সেট রয়েছে (x, y) এবং আপনি বিবেচনা করছেন যে আপনি কোনও সরল রেখা বা চতুর্ভুজ ফিট করতে পারেন কিনা। আপনি যদি আরএমএসই তুলনা করেন তবে চতুর্ভুজটি সর্বদা সরলরেখাকে পরাজিত করবে , কারণ লাইনটি একটি চতুর্ভুজ যা একটি প্যারামিটার শূন্যে সেট করা থাকে: যদি প্যারামিটারের ন্যূনতম স্কোয়ার্সের অনুমানটি ঠিক শূন্য হয় (যার ধারাবাহিক প্রতিক্রিয়ার শূন্য সম্ভাবনা থাকে), এটি একটি টাই, এবং অন্যান্য ক্ষেত্রে লাইন হারাতে। এটি পয়েসন বনাম নেতিবাচক দ্বিপদী হিসাবে একই - একটি নিরক্ষিত নেতিবাচক দ্বিপদী সর্বদা একটি নিখরচায় পোইসনের পাশাপাশি সর্বদা ফিট হতে পারে।
গ্লেন_বি -রিনস্টেট মনিকা

সুন্দর ব্যাখ্যা - আপনি এখন যা বলছেন তা আমি পেয়েছি। আমি মনে করি আমার কেসটি অন্যরকম, কারণ আমি ফিট হওয়ার জন্য রিগ্রেশন করছি না, বরং আমি বাইরের তথ্যের উপর অতিরিক্ত এনবি প্যারামিটারটি বেস করছি (আমি আশা করি যে var / গড় অনুপাতটি N হবে)। যেহেতু পইসন একটি বিশেষ ক্ষেত্রে যেখানে এন = 1, আমি যা তুলনা করছি তা এন এর পছন্দ I আমি সম্মত হন যে আমি যদি রিগ্রেশন করতাম তবে এনবি সর্বদা আরও ভাল ফিট খুঁজে পেতে সক্ষম হবে কারণ এটি কম সীমাবদ্ধ। আমার ক্ষেত্রে, যেখানে আমি এন এর সামনে একটি মান বেছে নিচ্ছি, অবশ্যই এন এর এমন কিছু পাগল মান চয়ন করা সম্ভব হবে যা ফিটটিকে আরও খারাপ করে।
ক্রিসমিলার

আমি অবশ্যই আপনাকে প্রস্তাবিত ফিটের ধার্মিকতার মসৃণ পরীক্ষাগুলি পড়তে যাচ্ছি। তথ্যপূর্ণ উত্তরের জন্য ধন্যবাদ।
ক্রিসমিলার

ওভারডিস্পেরিয়ান প্যারামিটারের পছন্দটি ডেটা আসেনি তা বুঝতে না পেরে দুঃখিত Sorry এটি আপনার উপায়ে করার জন্য কিছু যুক্তি থাকতে পারে, তবে বাহ্যিক অনুমান যদি আপনি বাস্তবে যা পর্যবেক্ষণ করেন তা প্রতিফলিত হতে পারে, পরিস্থিতিগুলির উপর নির্ভর করে এনবি এখনও কিছু সুবিধা পেতে পারে।
গ্লেন_বি -রিনস্টেট মনিকা
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.