কেন পিয়ারসনের অবশিষ্টাংশগুলি নেতিবাচক দ্বিপদী রিগ্রেশন থেকে পিসন রিগ্রেশনগুলির চেয়ে ছোট?


9

আমার এই ডেটা আছে:

set.seed(1)
predictor  <- rnorm(20)
set.seed(1)
counts <- c(sample(1:1000, 20))
df <- data.frame(counts, predictor)

আমি একটি পিসন রিগ্রেশন চালিয়েছি

poisson_counts <- glm(counts ~ predictor, data = df, family = "poisson")

এবং একটি নেতিবাচক দ্বিপদী রিগ্রেশন:

require(MASS)
nb_counts <- glm.nb(counts ~ predictor, data = df)

তারপরে আমি পয়েসন রিগ্রেশনটির জন্য ছড়িয়ে পড়া পরিসংখ্যানের জন্য গণনা করেছি:

sum(residuals(poisson_counts, type="pearson")^2)/df.residual(poisson_counts)

# [1] 145.4905

এবং নেতিবাচক দ্বিপদী রিগ্রেশন:

sum(residuals(nb_counts, type="pearson")^2)/df.residual(nb_counts)

# [1] 0.7650289

যদি কেউ ব্যাখ্যা করতে সক্ষম হয়, মূল্য ব্যবহার না করে কেন, নেতিবাচক দ্বিপদী প্রতিরোধের জন্য ছড়িয়ে পড়া পরিসংখ্যানটি পোয়েসন রিগ্রেশনের জন্য ছড়িয়ে পড়া পরিসংখ্যানের তুলনায় যথেষ্ট ছোট?

উত্তর:


9

এটি বরং সোজা, তবে "সমীকরণ ব্যবহার না করে" হ'ল যথেষ্ট প্রতিবন্ধকতা। আমি এটি কথায় ব্যাখ্যা করতে পারি, তবে এই শব্দগুলি অগত্যা সমীকরণগুলি আয়না করে দেবে। আমি আশা করি এটি আপনার কাছে গ্রহণযোগ্য / এখনও কিছু মূল্যবান হবে। (সম্পর্কিত সমীকরণগুলি কঠিন নয়))

বিভিন্ন ধরণের অবশিষ্টাংশ রয়েছে। কাঁচা অবশিষ্টাংশ হ'ল পর্যবেক্ষিত প্রতিক্রিয়া মানগুলির (আপনার ক্ষেত্রে ক্ষেত্রে counts) এবং মডেলের পূর্বাভাসিত প্রতিক্রিয়া মানগুলির মধ্যে পার্থক্য । পিয়ারসনের অবশিষ্টাংশগুলি স্ট্যান্ডার্ড বিচ্যুতি দ্বারা ভাগ করে নিন (আপনি যে জেনারালাইজড লিনিয়ার মডেলটি ব্যবহার করছেন তার বিশেষ সংস্করণের জন্য বৈকল্পিক ফাংশনের বর্গমূল)।

পোইসন বিতরণের সাথে সম্পর্কিত স্ট্যান্ডার্ড বিচ্যুতি নেতিবাচক দ্বিপদী থেকে ছোট । সুতরাং, আপনি যখন একটি বৃহত্তর ডিনোমিনেটর দ্বারা ভাগ করেন, ভাগফলটি ছোট হয়।

এছাড়াও, নেতিবাচক দ্বিপদী আপনার ক্ষেত্রে আরও উপযুক্ত, কারণ আপনার countsজনসংখ্যায় ইউনিফর্ম হিসাবে বিতরণ করা হবে। অর্থাৎ, তাদের বৈকল্পিকতা তাদের গড়ের সাথে সমান হবে না।


4
যদিও ওপি একটি অ-গাণিতিক ব্যাখ্যা চেয়েছে, তবুও এই উত্তরটির গাণিতিক (বা কিছু সমানভাবে কঠোর এবং স্পষ্ট) ন্যায়সঙ্গততা দেখে ভাল লাগবে। প্রশ্নটি পড়ার পরে আমার অন্তর্নিহিততাটি ছিল যে "যেহেতু পোইসন এনবি-র একটি (সীমিত) বিশেষ ক্ষেত্র এবং এনবিতে আরও পরামিতি রয়েছে, ফিটিংয়ের ক্ষেত্রে আরও নমনীয়তা রয়েছে, সুতরাং অবশ্যই প্রতিস্থাপনের সময় কোনওরকম যুক্তিসঙ্গত পদক্ষেপ বাড়াতে হবে না একটি এনবি জিএলএম দ্বারা একটি পইসন জিএলএম। " আমি ভাবছি যে এই জাতীয় অন্তর্দৃষ্টি সত্যই সঠিক ছিল কিনা।
হোবার

যদি XPoisson(λ), E[X]=V[X]=λ। যদিXNegBin(r,p), E[X]=pr/(1p) এবং V[X]=pr/(1p)2। সুতরাং একটি পাইসন বৈকল্পিক গড়ের সমান, একটি নেগবিনের বৈকল্পিক গড়ের চেয়ে বড় (p<1(1p)2<(1p))। এ কারণেই "পয়সন বিতরণের সাথে সম্পর্কিত মানক বিচ্যুতি নেতিবাচক দ্বিপদী থেকে ছোট is"
সার্জিও

3
@ সেরজিও বিষয়টির মূল বিষয়টি হ'ল পোইসন মডেলটিতে আমরা অনুমান নিয়ে কাজ করছি λ^ বরং λ নিজে এবং এনবি মডেলে আমরা একইভাবে দুটি অনুমান নিয়ে কাজ করছি r^ এবং p^। আপনার তুলনা তাই সরাসরি প্রযোজ্য না। উভয়ই মডেলটিতে এমএলই-এর সূত্রগুলি লিখে না ফেলে those অনুমানের সেটগুলির মধ্যে সম্পর্কগুলি কী হওয়া উচিত তা মোটেই সুস্পষ্ট নয়। তদ্ব্যতীত, পিয়ারসন অবশিষ্টগুলি একটি অনুপাত এবং বৈচিত্রগুলি সম্পর্কে যুক্তি কেবল ডিনোমিনেটরকে সম্বোধন করে, যা কেবল অর্ধেক গল্প।
শুশুক

এমএলই অনুমান সামঞ্জস্যপূর্ণ। সমস্যাটি হ'ল যখন গাং বলে, "জনগণের মধ্যে ইউনিফর্ম হিসাবে গণনাগুলি বিতরণ করা হবে That অর্থাৎ তাদের বৈচিত্রটি তাদের গড়ের সাথে সমান হবে না", আপনি কখনই কোনও অনুমানের চেয়ে বড় পোয়েসন বৈকল্পিক পেতে পারবেন না be পইসন বলতে বোঝায়, আপনার অনুমানটি পক্ষপাতহীন এবং সামঞ্জস্যপূর্ণ হলেও। এটি ভুল বানানের সমস্যা।
সার্জিও

5

পইসন মডেলটির জন্য, যদি এর জন্য এক্সপেশন iতম পর্যবেক্ষণ Yi হয় μi এর বৈকল্পিকতা μi, এবং তাই পিয়ারসন অবশিষ্ট

yiμ^iμ^i

কোথায় μ^গড় গড় অনুমান হয়। ম্যাসে ব্যবহৃত নেতিবাচক দ্বিপদী মডেলের প্যারামিট্রাইজেশন এখানে ব্যাখ্যা করা হয়েছে । এর জন্য যদি এক্সপেকশন হয়iতম পর্যবেক্ষণ Yi হয় μi এর বৈকল্পিকতা μআমি+ +μ2θ, এবং তাই পিয়ারসন অবশিষ্ট

Yআমি-μ~আমিμ~আমি+ +μ~'2θ

কোথায় μ~গড় গড় অনুমান হয়। এর মান যত কম হবেθ- অর্থাত্ অতিরিক্ত অতিরিক্ত-পয়সন বৈকল্পিক iss, এর পয়েসনের সমতুল্যের তুলনায় অবশিষ্ট ছোট smaller [তবে @ ভুবার যেমন উল্লেখ করেছেন, উপায়গুলির প্রাক্কলনগুলি একই নয়,μ^μ~, কারণ অনুমান পদ্ধতি তাদের অনুমান করা বৈকল্পিক অনুসারে পর্যবেক্ষণকে ওজন করে। আপনি যদি এর জন্য প্রতিলিপি পরিমাপ করা হয়আমিভবিষ্যদ্বাণীকারী প্যাটার্নটি, তারা আরও কাছাকাছি যেতে চাইবে এবং সাধারণভাবে একটি প্যারামিটার যুক্ত করা সমস্ত পর্যবেক্ষণে আরও ভাল ফিট করা উচিত, যদিও আমি কীভাবে এই কঠোরভাবে প্রদর্শন করতে জানি না। সর্বোপরি, পোইসন মডেলটি ধরে রাখলে আপনি যে জনসংখ্যার পরিমাণ অনুমান করছেন তা বৃহত্তর, সুতরাং এটি অবাক হওয়ার মতো কিছু নয়]]


1
কিছু সমীকরণ প্রবর্তনের জন্য ধন্যবাদ। কিন্তু হয়μআমিদুটি মডেল একই মান হতে চলেছে? (আমার মনে হয় না।) যদি না হয় তবে কীভাবে দুটি পিয়ারসন অবশিষ্টাংশের তুলনা করা সম্ভব?
whuber

@ শুভ এই ক্ষেত্রে, এটি দেখা যাচ্ছে যে উভয় মডেলের জন্য লাগানো মানগুলি প্রায় অভিন্ন। সর্বোপরি, "সত্য" মডেলটির সত্যই একটি ইন্টারসেপ রয়েছে এবং সিমুলেশনটিতে এক্স এবং ওয়াইয়ের মধ্যে কোনও সম্পর্ক নেই বলে মূলত গড়কে মডেলিং করে চলেছে।
jsk

1
@ জেএসকি হ্যাঁ, আমি ডেটাটি দেখেছি এবং কোডটি চালিয়েছি। (বিটিডাব্লু), ডেটা পরিবর্তন করা এবং মূলত একইরকম পাওয়া সম্ভব দুটি মডেলের জন্য ছড়িয়ে পড়া পরিসংখ্যান ।) হায়, আপনার বক্তব্য, যা বৈধ, এখনও নির্দিষ্ট প্রশ্ন মীমাংসা করে না এবং এটি সম্পর্কে (অন্তর্নিহিত) সাধারণ প্রশ্নের সমাধান করে না পোইসন রেসিডুয়ালিগুলিকে এনবি অবশিষ্টাংশের সাথে তুলনা করুন, কারণ আনুমানিক রূপগুলিও প্রায় অভিন্ন হতে পারে। বর্তমান উত্তর সম্পর্কে একটি সম্ভাব্য বিভ্রান্তিকর দিকটি হল প্রতীকটি ব্যবহার করা "μআমি" একই তথ্যের দুটি
মডেলটিতে

1
@ হুবুহু, আপনার ব্যবহার সম্পর্কে বৈধ পয়েন্ট রয়েছে μআমি। মজার বিষয় হচ্ছে, আমি ডেটা সিমুলেট করার কোনও উপায় খুঁজে পাব বলে মনে হচ্ছে না যা পয়সনের জন্য এনবি চেয়ে কম বিস্তারের পরিসংখ্যানের ফলস্বরূপ। সম্ভবত এটা সম্ভব না? আমি স্বীকার করি যে এটি স্বজ্ঞাতভাবে বোঝা যায়। আপনি যখন পরিচয় ব্যতীত অন্য কোনও লিঙ্ক ফাংশন সহ কোনও গ্ল্যাম রাখেন তখন ম্লেটির জন্য বন্ধ ফর্ম সমাধান উপস্থিত না থাকায় এটি প্রমাণ করা সহজ নয়। তবে হ্যাঁ, দুটি ছড়িয়ে দেওয়ার পরিসংখ্যানকে খুব মিল দেওয়া সহজ।
jsk

1
@ জেএসকি - কোনও এনবি মডেল পোয়েসনের তুলনায় সর্বদা ভাল ফিট হবে এমন সন্দেহ করার একটি তাত্ত্বিক যুক্তি হ'ল আপনি পিসন-গামা যৌগিক বিতরণ হিসাবে এনবি লিখতে পারেন। সুতরাং তোমার আছে(Yআমি|λ,বনামআমি,R)~পিআমিগুলিগুলিএন(λবনামআমি) এবং তারপর (বনামআমি|λ,R)~জিএকটিমিমিএকটি(R,R) একটি নেতিবাচক দ্বিপদী মডেল দেয় (Yআমি|λ,R)~এনবি(R,λR+ +λ)। এখন তাদের সংযোজনবনামআমি প্যারামিটারগুলি মডেলটিকে পর্যবেক্ষণকৃত মানটির (যখন কখন) পূর্বাভাসটিকে আরও বেশি গড়ার অনুমতি দেয় Yআমি>λ আপনি দেখতে পাবেন বনামআমি>1, অবশিষ্টাংশ হ্রাস।)
সম্ভাব্যতা
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.