আত্মবিশ্বাসের ব্যবধানটি সঠিক হওয়ার সাথে সাথে কেন এই বহুবর্ষীয় রিগ্রেশনটিতে বায়েসীয় বিশ্বাসযোগ্য ব্যবধানটি পক্ষপাতদুষ্ট?


9

নীচের প্লটটি বিবেচনা করুন যেখানে আমি ডেটা সিমুলেটেড করেছি। আমরা একটি বাইনারি ফলাফল তাকানyobsযার জন্য 1 হওয়ার প্রকৃত সম্ভাবনাটি কালো রেখা দ্বারা নির্দেশিত। একটি covariate মধ্যে কার্যকরী সম্পর্কx এবং p(yobs=1|x) লজিস্টিক লিঙ্ক সহ তৃতীয় ক্রমের বহুপদী (তাই এটি একটি দ্বৈত পথে অ-রৈখিক)।

সবুজ লাইনটি জিএলএম লজিস্টিক রিগ্রেশন যেখানে ফিট fit x3 য় অর্ডার বহুপদী হিসাবে চালু করা হয়। ড্যাশযুক্ত সবুজ রেখাগুলি পূর্বাভাসের চারদিকে 95% আস্থা অন্তরp(yobs=1|x,β^), কোথায় β^লাগানো রিগ্রেশন সহগ। আমি ব্যবহার করেছি R glmএবং predict.glmএই জন্য।

একইভাবে, pruple রেখাটি 95% এর জন্য বিশ্বাসযোগ্য ব্যবধান সহ উত্তরকালের গড় p(yobs=1|x,β)পূর্বে ইউনিফর্ম ব্যবহার করে একটি বয়েসীয় লজিস্টিক রিগ্রেশন মডেল। আমি এর জন্য MCMCpackফাংশন সহ প্যাকেজটি ব্যবহার করেছি MCMClogit(সেটিংস B0=0আগে ইউনিফর্মটিকে অজানা তথ্য দেয়)।

লাল বিন্দুগুলির জন্য ডেটা সেটটিতে পর্যবেক্ষণগুলি বোঝায় yobs=1, কালো বিন্দুগুলি পর্যবেক্ষণ করে yobs=0। নোট করুন যে শ্রেণিবদ্ধকরণ / বিচ্ছিন্ন বিশ্লেষণে সাধারণy কিন্তু না p(yobs=1|x) পালন করা হয়.

এখানে চিত্র বর্ণনা লিখুন

বেশ কয়েকটি জিনিস দেখা যায়:

  1. আমি উদ্দেশ্য যে অনুকরণ xবাম হাতে বিরল। আমি চাই যে তথ্যের অভাব (পর্যবেক্ষণ) এর কারণে আত্মবিশ্বাস এবং বিশ্বাসযোগ্য ব্যবধানটি এখানে প্রশস্ত হয়।
  2. উভয় ভবিষ্যদ্বাণী বাম দিকে wardর্ধ্বমুখী হয়। এই পক্ষপাতটি চারটি রেড পয়েন্ট ডেনোটিংয়ের কারণে ঘটেyobs=1পর্যবেক্ষণগুলি, যা ভুলভাবে পরামর্শ দেয় যে আসল কার্যকরী ফর্মটি এখানে উঠে আসবে। সত্যিকারের ফাংশনাল ফর্মটি নিম্নমুখী বাঁকানো উপসংহারে অ্যালগরিদমের অপর্যাপ্ত তথ্য রয়েছে।
  3. আত্মবিশ্বাসের ব্যবধানটি প্রত্যাশার মতো আরও বিস্তৃত হয়, যেখানে বিশ্বাসযোগ্য ব্যবধান হয় না । প্রকৃতপক্ষে আত্মবিশ্বাসের ব্যবধানটি পুরো পরামিতি জায়গাকে ঘিরে রাখে, তথ্যের অভাবে এটি হওয়া উচিত।

মনে হচ্ছে বিশ্বাসযোগ্য ব্যবধানটি এখানে / এর একটি অংশের জন্য খুব আশাবাদী x। যখন তথ্য বিচ্ছিন্ন হয়ে যায় বা পুরোপুরি অনুপস্থিত থাকে তখন বিশ্বাসযোগ্য ব্যবধানটি সংকীর্ণ হওয়া সত্যিই অযাচিত আচরণ। সাধারণত এটি কোনও বিশ্বাসযোগ্য ব্যবধানের প্রতিক্রিয়া হয় না। কেউ কি ব্যাখ্যা করতে পারেন:

  1. এর কারণ কী?
  2. আরও কার্যকর বিশ্বাসযোগ্য ব্যবধানে আসতে আমি কী পদক্ষেপ নিতে পারি? (এটি হ'ল এমন একটি যা অন্তত সত্যিকারের কার্যকরী ফর্মটি আবদ্ধ করে রাখে বা আত্মবিশ্বাসের ব্যবধানের মতো আরও প্রশস্ত হয়)

গ্রাফিক মধ্যে পূর্বাভাস অন্তর পেতে কোড এখানে মুদ্রিত হয়:

fit <- glm(y_obs ~ x + I(x^2) + I(x^3), data=data, family=binomial)
x_pred <- seq(0, 1, by=0.01)
pred <- predict(fit, newdata = data.frame(x=x_pred), se.fit = T)
plot(plogis(pred$fit), type='l')
matlines(plogis(pred$fit + pred$se.fit %o% c(-1.96,1.96)), type='l', col='black', lty=2)


library(MCMCpack)
mcmcfit <- MCMClogit(y_obs ~ x + I(x^2) + I(x^3), data=data, family=binomial)
gibbs_samps <- as.mcmc(mcmcfit)
x_pred_dm <- model.matrix(~ x + I(x^2) + I(x^3), data=data.frame('x'=x_pred))
gibbs_preds <- apply(gibbs_samps, 1, `%*%`, t(x_pred_dm))
gibbs_pis <- plogis(apply(gibbs_preds, 1, quantile, c(0.025, 0.975)))
matlines(t(gibbs_pis), col='red', lty=2)

ডেটা অ্যাক্সেস : https://pastebin.com/1H2iX দেখুন @ দেলতাভ এবং @ অ্যাডামো ধন্যবাদ thanks


যদি কেউ আমাকে কীভাবে ডেটা দিয়ে কোনও টেবিল ভাগ করতে হয় তা ব্যাখ্যা করতে পারে, আমি এটি করতে পারি।
tomka

আপনি dputডেটাযুক্ত ডেটাফ্রেমে ব্যবহার করতে পারেন এবং তারপরে dputআপনার পোস্টে কোড হিসাবে আউটপুট অন্তর্ভুক্ত করতে পারেন ।
ডেল্টাভিউ

1
@ টমকা ওহ আমি দেখছি আমি কালারব্লাইন্ড নই তবে সবুজ / নীল রঙের পার্থক্য দেখতে আমার পক্ষে খুব কঠিন!
অ্যাডমো

1
@ অ্যাডামো আশা করছেন এটি আরও ভাল
tomka

উত্তর:


6

ঘন ঘন মডেলটির জন্য, পূর্বাভাসের বৈচিত্রটি সেন্ট্রয়েড থেকে দূরত্বের বর্গক্ষেত্রের অনুপাতের আকারে বাড়িয়ে তোলে X। কোনও বায়সিয়ান জিএলএম-এর জন্য পূর্বাভাস অন্তরগুলি গণনা করার পদ্ধতিটি লাগানো সম্ভাব্যতার বক্ররেখার উপর ভিত্তি করে অনুশীলিত কোয়ান্টাইলগুলি ব্যবহার করে, তবে এতে অ্যাকাউন্ট হয় নাXএর লিভারেজ

দ্বি দ্বিবার্ষিক ঘন ঘন ঘন ঘন GLM পরিচয় লিঙ্ক সহ একটি জিএলএম থেকে আলাদা নয়, বৈকল্পিক গড়ের সাথে আনুপাতিক।

নোট করুন যে কোনও লগইট সম্ভাবনার বহুত্বপূর্ণ উপস্থাপনা ঝুঁকি পূর্বাভাস নিয়ে যায় যা 0 হিসাবে রূপান্তরিত হয় X এবং 1 হিসাবে Xবা তদ্বিপরীত, সর্বাধিক বহুপদী অর্ডার শর্তের উপর নির্ভর করে

ঘন ঘন পূর্বাভাসের পূর্বাভাসের জন্য, ভবিষ্যদ্বাণীগুলির বৈকল্পিকতায় স্কোয়ার বিচ্যুতি (উত্তোলন) আনুপাতিক বৃদ্ধি এই প্রবণতাটির উপর কর্তৃত্ব করে। এই কারণেই পূর্বাভাস অন্তরগুলিতে [0, 1] এর সমান সমান রূপান্তরকরণের হার তৃতীয় অর্ডার বহির্মুখী লজিট কনভারজেন্সের তুলনায় 0 বা 1 এককভাবে হওয়ার সম্ভাবনাতে দ্রুত হয়।

এটি বয়েসিয়ান পোস্টেরিয়র লাগানো কোয়ান্টাইলগুলির পক্ষে নয়। স্কোয়ার বিচ্যুতির কোনও সুস্পষ্ট ব্যবহার নেই, সুতরাং আমরা দীর্ঘমেয়াদী পূর্বাভাস অন্তরগুলি তৈরি করতে 0 বা 1 প্রবণতাগুলির উপর নির্ভর করে কেবল নির্ভর করি।

এর চূড়ান্ততার বাইরে খুব দূরে এক্সট্রাপোলেটিং করে এটি প্রকাশিত হয় X

আমি সরবরাহ করি উপরের কোডটি ব্যবহার করে আমরা পাই:

> x_pred_dom <- model.matrix(~ x + I(x^2) + I(x^3), data=data.frame('x'=c(1000)))
> gibbs_preds <- plogis(apply(gibbs_samps[1000:10000, ], 1, `%*%`, t(x_pred_dom))) # a bunch of 0/1s basically past machine precision
> prop.table(table(gibbs_preds))
gibbs_preds
         0          1 
0.97733585 0.02266415 
> 

সুতরাং সময় 97.75%, তৃতীয় বহুবচন শব্দটি নেতিবাচক ছিল। এটি গিবস নমুনাগুলি থেকে যাচাইযোগ্য:

> prop.table(table(gibbs_samps[, 4]< 0))

 FALSE   TRUE 
0.0225 0.9775 

সুতরাং পূর্বাভাসের সম্ভাবনা 0 হিসাবে রূপান্তরিত হয় Xঅনন্ত যায়। যদি আমরা বায়েসীয় মডেলের এসইএস পরিদর্শন করি, আমরা তৃতীয় বহুবচন শব্দটির অনুমান পাই -১৮৫.২৫ এর সাথে সে 108.81 অর্থ এটি 0 থেকে 1.70 এসডি, সুতরাং সাধারণ সম্ভাব্যতা আইন ব্যবহার করে এটি সময়ের 95%% এর নিচে নেমে যেতে হবে ( 10,000 পুনরাবৃত্তির উপর ভিত্তি করে মারাত্মকভাবে পৃথক পূর্বাভাস নয়)। এই ঘটনাটি বোঝার আরও একটি উপায়।

অন্যদিকে, ঘন ঘন ফিটগুলি প্রত্যাশা অনুযায়ী 0,1 পর্যন্ত ফুঁক দেয়:

freq <- predict(fit, newdata = data.frame(x=1000), se.fit=T)
plogis(freq$fit + c(-1.96, 1.96) %o% freq$se.fit)

দেয়:

> plogis(freq$fit + c(-1.96, 1.96) %o% freq$se.fit)
     [,1]
[1,]    0
[2,]    1

তবুও: উপাত্তের ক্ষেত্রে বায়েশিয়ান মডেল অতিরিক্ত আত্মবিশ্বাসী নয় xএটি থেকে কোন উদাহরণ দেখা যায় নি? আমি জানি বায়েসিয়ার পোস্টারিয়র বা ভবিষ্যদ্বাণীমূলক বিতরণগুলির প্রায়শই খুব আলাদা আচরণ থাকে (যেমন আরও কনফিডের অন্তর মতো)। আমি পূর্বের কিছু প্রভাব আছে সন্দেহ। আপনি যদি কারচুপি B0করেন তবে MCMClogitআপনি একটি সাধারণ পূর্বের যথার্থতা নির্দিষ্ট করে দেন এবং বিশ্বাসযোগ্য ব্যবধানে বেশ প্রভাব ফেলতে পারেন।
tomka

@ টমকা আমি উত্তরটি জানি না ঠিক কীভাবে উত্তর দিতে হয়, কারণ এটি হাতে থাকা প্রশ্নের কাছে স্পর্শকাতর বলে মনে হয়। সর্বাধিক গুরুত্বপূর্ণ বিষয়টি উল্লেখ করা হচ্ছে যে পিআই গণনা করার এই পদ্ধতিগুলি সত্যই তুলনামূলক নয়, বিশেষত তারা এক্সট্রা পোলেশনের সাথে সম্পর্কিত। অবশ্যই, বয়েসীয় অনুমানের সাথে আপনি যদি কোনও তথ্যবহুল পূর্ব ব্যবহার করেন তবে পূর্বটি সঠিক হলে আপনি দক্ষতা অর্জন করবেন এবং পূর্বেরটি ভুল হলে হারাবেন।
অ্যাডামো

কেবল আপনাকে জানাতে যে আমি এখনও আপনার উত্তর সম্পর্কে ভাবছি। আমি এখনও অনুভব করি যে এটি আশ্চর্যজনক যে পোস্টারিয়র প্রশস্ত হয়ে প্রশস্ততার প্রতিক্রিয়া না করে। আমি বিশ্বাস করি যে অন্যান্য প্রবীণদের জন্য বিচ্ছিন্ন অঞ্চলে আরও ভাল আচরণ অর্জন করা যায়। এই মুহূর্তে আমি একে একে পিন করতে পারি না; আমি সম্ভবত উদাহরণটি দিয়ে প্রশ্নটি বাড়িয়ে দেব যেখানে বিশ্বাসযোগ্য ব্যবধান আমার প্রত্যাশা মতো কাজ করে, এমনকি বহির্মুখের ক্ষেত্রেও (আমি সাধারণ লিনিয়ার বায়েশিয়ান রিগ্রেশন সম্পর্কে চিন্তা করি, বিশেষত)। আমি যখন করব আমি আপনাকে জানাব।
tomka
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.