আত্মবিশ্বাসের ব্যবধানটি সঠিক হওয়ার সাথে সাথে কেন এই বহুবর্ষীয় রিগ্রেশনটিতে বায়েসীয় বিশ্বাসযোগ্য ব্যবধানটি পক্ষপাতদুষ্ট?

নীচের প্লটটি বিবেচনা করুন যেখানে আমি ডেটা সিমুলেটেড করেছি। আমরা একটি বাইনারি ফলাফল তাকান $y_{obs}$ যার জন্য 1 হওয়ার প্রকৃত সম্ভাবনাটি কালো রেখা দ্বারা নির্দেশিত। একটি covariate মধ্যে কার্যকরী সম্পর্ক $x$ এবং $p(y_{obs}=1 | x)$ লজিস্টিক লিঙ্ক সহ তৃতীয় ক্রমের বহুপদী (তাই এটি একটি দ্বৈত পথে অ-রৈখিক)।

সবুজ লাইনটি জিএলএম লজিস্টিক রিগ্রেশন যেখানে ফিট fit $x$ 3 য় অর্ডার বহুপদী হিসাবে চালু করা হয়। ড্যাশযুক্ত সবুজ রেখাগুলি পূর্বাভাসের চারদিকে 95% আস্থা অন্তর $p(y_{obs}=1 | x, \hat{\beta})$ , কোথায় $\hat{\beta}$ লাগানো রিগ্রেশন সহগ। আমি ব্যবহার করেছি R glmএবং predict.glmএই জন্য।

একইভাবে, pruple রেখাটি 95% এর জন্য বিশ্বাসযোগ্য ব্যবধান সহ উত্তরকালের গড় $p(y_{obs}=1 | x, \beta)$ পূর্বে ইউনিফর্ম ব্যবহার করে একটি বয়েসীয় লজিস্টিক রিগ্রেশন মডেল। আমি এর জন্য MCMCpackফাংশন সহ প্যাকেজটি ব্যবহার করেছি MCMClogit(সেটিংস B0=0আগে ইউনিফর্মটিকে অজানা তথ্য দেয়)।

লাল বিন্দুগুলির জন্য ডেটা সেটটিতে পর্যবেক্ষণগুলি বোঝায় $y_{obs}=1$ , কালো বিন্দুগুলি পর্যবেক্ষণ করে $y_{obs}=0$ । নোট করুন যে শ্রেণিবদ্ধকরণ / বিচ্ছিন্ন বিশ্লেষণে সাধারণ $y$ কিন্তু না $p(y_{obs}=1 | x)$ পালন করা হয়.

বেশ কয়েকটি জিনিস দেখা যায়:

আমি উদ্দেশ্য যে অনুকরণ $x$ বাম হাতে বিরল। আমি চাই যে তথ্যের অভাব (পর্যবেক্ষণ) এর কারণে আত্মবিশ্বাস এবং বিশ্বাসযোগ্য ব্যবধানটি এখানে প্রশস্ত হয়।
উভয় ভবিষ্যদ্বাণী বাম দিকে wardর্ধ্বমুখী হয়। এই পক্ষপাতটি চারটি রেড পয়েন্ট ডেনোটিংয়ের কারণে ঘটে $y_{obs}=1$ পর্যবেক্ষণগুলি, যা ভুলভাবে পরামর্শ দেয় যে আসল কার্যকরী ফর্মটি এখানে উঠে আসবে। সত্যিকারের ফাংশনাল ফর্মটি নিম্নমুখী বাঁকানো উপসংহারে অ্যালগরিদমের অপর্যাপ্ত তথ্য রয়েছে।
আত্মবিশ্বাসের ব্যবধানটি প্রত্যাশার মতো আরও বিস্তৃত হয়, যেখানে বিশ্বাসযোগ্য ব্যবধান হয় না । প্রকৃতপক্ষে আত্মবিশ্বাসের ব্যবধানটি পুরো পরামিতি জায়গাকে ঘিরে রাখে, তথ্যের অভাবে এটি হওয়া উচিত।

মনে হচ্ছে বিশ্বাসযোগ্য ব্যবধানটি এখানে / এর একটি অংশের জন্য খুব আশাবাদী $x$ । যখন তথ্য বিচ্ছিন্ন হয়ে যায় বা পুরোপুরি অনুপস্থিত থাকে তখন বিশ্বাসযোগ্য ব্যবধানটি সংকীর্ণ হওয়া সত্যিই অযাচিত আচরণ। সাধারণত এটি কোনও বিশ্বাসযোগ্য ব্যবধানের প্রতিক্রিয়া হয় না। কেউ কি ব্যাখ্যা করতে পারেন:

এর কারণ কী?
আরও কার্যকর বিশ্বাসযোগ্য ব্যবধানে আসতে আমি কী পদক্ষেপ নিতে পারি? (এটি হ'ল এমন একটি যা অন্তত সত্যিকারের কার্যকরী ফর্মটি আবদ্ধ করে রাখে বা আত্মবিশ্বাসের ব্যবধানের মতো আরও প্রশস্ত হয়)

গ্রাফিক মধ্যে পূর্বাভাস অন্তর পেতে কোড এখানে মুদ্রিত হয়:

fit <- glm(y_obs ~ x + I(x^2) + I(x^3), data=data, family=binomial)
x_pred <- seq(0, 1, by=0.01)
pred <- predict(fit, newdata = data.frame(x=x_pred), se.fit = T)
plot(plogis(pred$fit), type='l')
matlines(plogis(pred$fit + pred$se.fit %o% c(-1.96,1.96)), type='l', col='black', lty=2)


library(MCMCpack)
mcmcfit <- MCMClogit(y_obs ~ x + I(x^2) + I(x^3), data=data, family=binomial)
gibbs_samps <- as.mcmc(mcmcfit)
x_pred_dm <- model.matrix(~ x + I(x^2) + I(x^3), data=data.frame('x'=x_pred))
gibbs_preds <- apply(gibbs_samps, 1, `%*%`, t(x_pred_dm))
gibbs_pis <- plogis(apply(gibbs_preds, 1, quantile, c(0.025, 0.975)))
matlines(t(gibbs_pis), col='red', lty=2)

ডেটা অ্যাক্সেস : https://pastebin.com/1H2iX দেখুন @ দেলতাভ এবং @ অ্যাডামো ধন্যবাদ thanks

— tomka
সূত্র

যদি কেউ আমাকে কীভাবে ডেটা দিয়ে কোনও টেবিল ভাগ করতে হয় তা ব্যাখ্যা করতে পারে, আমি এটি করতে পারি।

— tomka

আপনি dputডেটাযুক্ত ডেটাফ্রেমে ব্যবহার করতে পারেন এবং তারপরে dputআপনার পোস্টে কোড হিসাবে আউটপুট অন্তর্ভুক্ত করতে পারেন ।

— ডেল্টাভিউ

@ টমকা ওহ আমি দেখছি আমি কালারব্লাইন্ড নই তবে সবুজ / নীল রঙের পার্থক্য দেখতে আমার পক্ষে খুব কঠিন!

— অ্যাডমো

@ অ্যাডামো আশা করছেন এটি আরও ভাল

— tomka

@Flounderer যেমন চেক করুন stats.stackexchange.com/questions/26450/... বা stats.stackexchange.com/questions/6652/...

— টিম

ঘন ঘন মডেলটির জন্য, পূর্বাভাসের বৈচিত্রটি সেন্ট্রয়েড থেকে দূরত্বের বর্গক্ষেত্রের অনুপাতের আকারে বাড়িয়ে তোলে $X$ । কোনও বায়সিয়ান জিএলএম-এর জন্য পূর্বাভাস অন্তরগুলি গণনা করার পদ্ধতিটি লাগানো সম্ভাব্যতার বক্ররেখার উপর ভিত্তি করে অনুশীলিত কোয়ান্টাইলগুলি ব্যবহার করে, তবে এতে অ্যাকাউন্ট হয় না $X$ এর লিভারেজ

দ্বি দ্বিবার্ষিক ঘন ঘন ঘন ঘন GLM পরিচয় লিঙ্ক সহ একটি জিএলএম থেকে আলাদা নয়, বৈকল্পিক গড়ের সাথে আনুপাতিক।

নোট করুন যে কোনও লগইট সম্ভাবনার বহুত্বপূর্ণ উপস্থাপনা ঝুঁকি পূর্বাভাস নিয়ে যায় যা 0 হিসাবে রূপান্তরিত হয় $X\rightarrow -\infty$ এবং 1 হিসাবে $X\rightarrow \infty$ বা তদ্বিপরীত, সর্বাধিক বহুপদী অর্ডার শর্তের উপর নির্ভর করে ।

ঘন ঘন পূর্বাভাসের পূর্বাভাসের জন্য, ভবিষ্যদ্বাণীগুলির বৈকল্পিকতায় স্কোয়ার বিচ্যুতি (উত্তোলন) আনুপাতিক বৃদ্ধি এই প্রবণতাটির উপর কর্তৃত্ব করে। এই কারণেই পূর্বাভাস অন্তরগুলিতে [0, 1] এর সমান সমান রূপান্তরকরণের হার তৃতীয় অর্ডার বহির্মুখী লজিট কনভারজেন্সের তুলনায় 0 বা 1 এককভাবে হওয়ার সম্ভাবনাতে দ্রুত হয়।

এটি বয়েসিয়ান পোস্টেরিয়র লাগানো কোয়ান্টাইলগুলির পক্ষে নয়। স্কোয়ার বিচ্যুতির কোনও সুস্পষ্ট ব্যবহার নেই, সুতরাং আমরা দীর্ঘমেয়াদী পূর্বাভাস অন্তরগুলি তৈরি করতে 0 বা 1 প্রবণতাগুলির উপর নির্ভর করে কেবল নির্ভর করি।

এর চূড়ান্ততার বাইরে খুব দূরে এক্সট্রাপোলেটিং করে এটি প্রকাশিত হয় $X$ ।

আমি সরবরাহ করি উপরের কোডটি ব্যবহার করে আমরা পাই:

> x_pred_dom <- model.matrix(~ x + I(x^2) + I(x^3), data=data.frame('x'=c(1000)))
> gibbs_preds <- plogis(apply(gibbs_samps[1000:10000, ], 1, `%*%`, t(x_pred_dom))) # a bunch of 0/1s basically past machine precision
> prop.table(table(gibbs_preds))
gibbs_preds
         0          1 
0.97733585 0.02266415 
>

সুতরাং সময় 97.75%, তৃতীয় বহুবচন শব্দটি নেতিবাচক ছিল। এটি গিবস নমুনাগুলি থেকে যাচাইযোগ্য:

> prop.table(table(gibbs_samps[, 4]< 0))

 FALSE   TRUE 
0.0225 0.9775

সুতরাং পূর্বাভাসের সম্ভাবনা 0 হিসাবে রূপান্তরিত হয় $X$ অনন্ত যায়। যদি আমরা বায়েসীয় মডেলের এসইএস পরিদর্শন করি, আমরা তৃতীয় বহুবচন শব্দটির অনুমান পাই -১৮৫.২৫ এর সাথে সে 108.81 অর্থ এটি 0 থেকে 1.70 এসডি, সুতরাং সাধারণ সম্ভাব্যতা আইন ব্যবহার করে এটি সময়ের 95%% এর নিচে নেমে যেতে হবে ( 10,000 পুনরাবৃত্তির উপর ভিত্তি করে মারাত্মকভাবে পৃথক পূর্বাভাস নয়)। এই ঘটনাটি বোঝার আরও একটি উপায়।

অন্যদিকে, ঘন ঘন ফিটগুলি প্রত্যাশা অনুযায়ী 0,1 পর্যন্ত ফুঁক দেয়:

freq <- predict(fit, newdata = data.frame(x=1000), se.fit=T)
plogis(freq$fit + c(-1.96, 1.96) %o% freq$se.fit)

দেয়:

> plogis(freq$fit + c(-1.96, 1.96) %o% freq$se.fit)
     [,1]
[1,]    0
[2,]    1

— Adamo
সূত্র

তবুও: উপাত্তের ক্ষেত্রে বায়েশিয়ান মডেল অতিরিক্ত আত্মবিশ্বাসী নয়

x

$x$ এটি থেকে কোন উদাহরণ দেখা যায় নি? আমি জানি বায়েসিয়ার পোস্টারিয়র বা ভবিষ্যদ্বাণীমূলক বিতরণগুলির প্রায়শই খুব আলাদা আচরণ থাকে (যেমন আরও কনফিডের অন্তর মতো)। আমি পূর্বের কিছু প্রভাব আছে সন্দেহ। আপনি যদি কারচুপি B0করেন তবে MCMClogitআপনি একটি সাধারণ পূর্বের যথার্থতা নির্দিষ্ট করে দেন এবং বিশ্বাসযোগ্য ব্যবধানে বেশ প্রভাব ফেলতে পারেন।

— tomka

@ টমকা আমি উত্তরটি জানি না ঠিক কীভাবে উত্তর দিতে হয়, কারণ এটি হাতে থাকা প্রশ্নের কাছে স্পর্শকাতর বলে মনে হয়। সর্বাধিক গুরুত্বপূর্ণ বিষয়টি উল্লেখ করা হচ্ছে যে পিআই গণনা করার এই পদ্ধতিগুলি সত্যই তুলনামূলক নয়, বিশেষত তারা এক্সট্রা পোলেশনের সাথে সম্পর্কিত। অবশ্যই, বয়েসীয় অনুমানের সাথে আপনি যদি কোনও তথ্যবহুল পূর্ব ব্যবহার করেন তবে পূর্বটি সঠিক হলে আপনি দক্ষতা অর্জন করবেন এবং পূর্বেরটি ভুল হলে হারাবেন।

— অ্যাডামো

কেবল আপনাকে জানাতে যে আমি এখনও আপনার উত্তর সম্পর্কে ভাবছি। আমি এখনও অনুভব করি যে এটি আশ্চর্যজনক যে পোস্টারিয়র প্রশস্ত হয়ে প্রশস্ততার প্রতিক্রিয়া না করে। আমি বিশ্বাস করি যে অন্যান্য প্রবীণদের জন্য বিচ্ছিন্ন অঞ্চলে আরও ভাল আচরণ অর্জন করা যায়। এই মুহূর্তে আমি একে একে পিন করতে পারি না; আমি সম্ভবত উদাহরণটি দিয়ে প্রশ্নটি বাড়িয়ে দেব যেখানে বিশ্বাসযোগ্য ব্যবধান আমার প্রত্যাশা মতো কাজ করে, এমনকি বহির্মুখের ক্ষেত্রেও (আমি সাধারণ লিনিয়ার বায়েশিয়ান রিগ্রেশন সম্পর্কে চিন্তা করি, বিশেষত)। আমি যখন করব আমি আপনাকে জানাব।

— tomka