ভবিষ্যদ্বাণী অন্তর দিয়ে আমরা সম্ভাব্য বিবৃতি দিতে পারি?


12

আত্মবিশ্বাসের ব্যবধান এবং পূর্বাভাস অন্তরগুলির ব্যাখ্যা সম্পর্কিত সাইটে আমি অনেক দুর্দান্ত আলোচনার মাধ্যমে পড়েছি, তবে একটি ধারণা এখনও কিছুটা বিস্মিত is

ওএলএস ফ্রেমওয়ার্কটি বিবেচনা করুন এবং আমরা লাগানো মডেল পেয়েছি । আমাদের একটি এবং এর প্রতিক্রিয়া পূর্বাভাস দিতে বলেছে। আমরা গণনা করি এবং বোনাস হিসাবে আমরা আমাদের পূর্বাভাসের আশেপাশে একটি 95% পূর্বাভাস অন্তরাল সরবরাহ করি, একটি লিনিয়ার মডেলটিতে পূর্বাভাস সীমাবদ্ধতার জন্য একটি সূত্র প্রাপ্ত । আসুন এই পূর্বাভাস অন্তর পিআই কল করুন।y^=Xβ^xxTβ^

এখন, নীচের কোনটি (বা উভয়ই) পিআইয়ের সঠিক ব্যাখ্যা?

  1. জন্য বিশেষত, মিথ্যা 95% সম্ভাবনা সঙ্গে পি মধ্যে।xy(x)
  2. যদি আমাদের প্রচুর পরিমাণে দেওয়া হয় , পিআই গণনা করার এই পদ্ধতিটি 95% সময়ের সত্য প্রতিক্রিয়াগুলি কভার করবে coverx

লিনিয়ার রিগ্রেশন পূর্বাভাস ব্যবস্থায় @ গুংয়ের কথাটি থেকে মনে হয় পূর্বেরটি সত্য বলে মনে হয়েছে (যদিও আমি খুব ভাল ব্যাখ্যা করতে পারি।) ব্যাখ্যা 1 আমার কাছে বিপরীত বলে মনে হচ্ছে (আমরা যে ঘন ঘনবাদী বিশ্লেষণ থেকে বায়েশীয় সিদ্ধান্তগুলি আঁকছি) তবে, যদি এটি সঠিক হয় তবে এটি কি কারণ আমরা একটি প্যারামিটার অনুমান করে এলোমেলো পরিবর্তনশীল বনামের উপলব্ধির পূর্বাভাস দিচ্ছি ?

(সম্পাদনা) বোনাস প্রশ্ন: ধরুন যে আমরা সত্য কী, অর্থাত্ তথ্য তৈরির প্রক্রিয়াটি কী তা জানতাম , তবে আমরা কেবলমাত্র দিকে তাকিয়ে থাকায় কোনও বিশেষ ভবিষ্যদ্বাণী সম্পর্কিত সম্ভাবনার বিষয়ে কথা বলতে সক্ষম হব ?βϵ

এ সম্পর্কে আমার সর্বশেষ প্রচেষ্টা: আমরা "ধারণামূলকভাবে পচন" করতে পারি (খুব শিথিলভাবে শব্দটি ব্যবহার করে) একটি পূর্বাভাস অন্তরকে দুটি ভাগে ভাগ করে নিতে পারি: (ক) ভবিষ্যদ্বাণী করা গড় প্রতিক্রিয়ার কাছাকাছি একটি আত্মবিশ্বাসের বিরতি এবং (খ) বিরতিগুলির সংকলন যা কেবলমাত্র কোয়ান্টাইল ত্রুটি শব্দটির ব্যাপ্তি। (খ) আমরা প্রকৃত পূর্বাভাস গড়টি জানার বিষয়ে শর্তসাপেক্ষে সম্ভাব্য বিবৃতি দিতে পারি, তবে সামগ্রিকভাবে, আমরা কেবলমাত্র পূর্বাভাসের মানগুলিকে ঘন ঘন ঘনতান্ত্রিক সিআই হিসাবে পূর্বাভাস ব্যবধানগুলি বিবেচনা করতে পারি। এটা কি কিছুটা সঠিক?


Stats.stackexchange.com/a/26704 এ আমি যে উত্তরটি লিখেছি তা বোঝায় যে (2) এর মতো কিছু হ'ল (বড় সংখ্যার আইন অনুসারে) তবে অবশ্যই (1) নয়।
whuber

উত্তর:


5

প্রথমত, সম্ভাব্যতা শব্দের ব্যবহারের ক্ষেত্রে, ক্রমবিকাশকারীদের শব্দটি ব্যবহার করার ক্ষেত্রে কোনও সমস্যা নেই যখন এমন কিছু ভবিষ্যদ্বাণী করার সময় যেখানে এলোমেলো টুকরোটি এখনও ঘটেনি। আমরা আত্মবিশ্বাসের ব্যবধানের জন্য সম্ভাব্যতা শব্দটি পছন্দ করি না কারণ সত্য প্যারামিটারটি পরিবর্তন হচ্ছে না (আমরা ধরে নিচ্ছি এটি একটি স্থির, যদিও অজানা, মান) এবং ব্যবধানটি স্থির হয়েছে কারণ এটি ইতিমধ্যে সংগ্রহ করা ডেটার উপর ভিত্তি করে। উদাহরণস্বরূপ, যদি আমাদের ডেটাগুলি প্রাপ্তবয়স্ক পুরুষ মানুষের একটি এলোমেলোভাবে নমুনা থেকে আসে এবং এক্স তাদের উচ্চতা এবং y তাদের ওজন এবং আমরা সাধারণ রিগ্রেশন মডেল ফিট করি তবে আত্মবিশ্বাসের ব্যবস্থাগুলির বিষয়ে কথা বলার সময় আমরা সম্ভাবনাটি ব্যবহার করি না। তবে আমি যদি inter৫ ইঞ্চি লম্বা পুরুষের নির্দিষ্ট val৫ ইঞ্চি লম্বা পুরুষের নির্দিষ্ট সময়ে অন্তর ওজনযুক্ত সমস্ত from৫ ইঞ্চি লম্বা পুরুষের থেকে এলোমেলোভাবে বেছে নেওয়া হওয়ার সম্ভাবনা কী তা নিয়ে কথা বলতে চাই,

সুতরাং আমি বলব যে বোনাস প্রশ্নের উত্তর হ্যাঁ "হ্যাঁ"। যদি আমরা পর্যাপ্ত তথ্য জানতাম, তবে আমরা একটি বিরতিতে (বা পছন্দসই সম্ভাবনার সাথে একটি অন্তর খুঁজে) এর মধ্যে আই এর মান দেখার সম্ভাবনাটি গণনা করতে পারি।

"1." লেবেলযুক্ত আপনার বক্তব্যের জন্য আমি বলব যে আপনি যদি বিরতি বা সম্ভাবনার কথা বলার সময় "আনুমানিক" জাতীয় শব্দ ব্যবহার করেন তবে ঠিক আছে। বোনাস প্রশ্নে আপনি যেমন উল্লেখ করেছেন, আমরা অনিশ্চয়তাটিকে ভবিষ্যদ্বাণীটির কেন্দ্র সম্পর্কে একটি অংশ এবং সত্যিকারের গড়ের চারপাশে এলোমেলোতা সম্পর্কে এক টুকরো টুকরো করতে পারি। যখন আমরা আমাদের সমস্ত অনিশ্চয়তা coverাকতে এইগুলি একত্রিত করি (এবং ধরে নিই যে আমাদের কাছে মডেল / স্বাভাবিকতা সঠিক আছে) আমাদের একটি বিরতি রয়েছে যা খুব প্রশস্ত হবে (যদিও এটি খুব সংকীর্ণও হতে পারে), সুতরাং নতুন এলোমেলোভাবে নির্বাচিত পয়েন্টের সম্ভাবনা ভবিষ্যদ্বাণী ব্যবধানের মধ্যে পড়ে ঠিক 95% হবে না। আপনি সিমুলেশন দ্বারা এটি দেখতে পারেন। পরিচিত পরামিতিগুলির সাথে পরিচিত একটি রিগ্রেশন মডেল দিয়ে শুরু করুন। এই সম্পর্ক থেকে একটি নমুনা (বহু এক্স মান জুড়ে) চয়ন করুন, একটি রিগ্রেশন ফিট করুন, এবং পূর্বাভাস ব্যবধান গণনা করুন ute এখন আবার সত্য মডেল থেকে নতুন সংখ্যক নতুন ডেটা পয়েন্ট তৈরি করুন এবং তাদের পূর্বাভাস অন্তরগুলির সাথে তুলনা করুন। আমি নিম্নলিখিত আর কোড ব্যবহার করে এটি কয়েকবার করেছি:

x <- 1:25
y <- 5 + 3*x + rnorm(25, 0, 5)
plot(x,y)

fit <- lm(y~x)
tmp <- predict(fit, data.frame(x=1:25), interval='prediction')

sapply( 1:25, function(x){ 
    y <- rnorm(10000, 5+3*x, 5)
    mean( tmp[x,2] <= y & y <= tmp[x,3] )
})

আমি উপরের কোডটি কয়েকবার চালিয়েছি (প্রায় 10, তবে আমি সাবধানে গণনা রাখিনি) এবং বেশিরভাগ সময় অন্তরগুলিতে পড়তে থাকা নতুন মানগুলির অনুপাত 96% থেকে 98% পরিসীমা পর্যন্ত থাকে। আমার এমন একটি ঘটনা ঘটেছে যেখানে অনুমিত স্ট্যান্ডার্ড বিচ্যুতি খুব কম ছিল যে অনুপাতগুলি 93% থেকে 94% পরিসরে ছিল, তবে বাকী সমস্ত অংশ 95% এর উপরে ছিল। সুতরাং আমি "আপনার প্রায় 95%" পরিবর্তনের সাথে আপনার বক্তব্যটি 1 দিয়ে খুশি হব (সমস্ত অনুমানগুলি সত্য বলে ধরে নিচ্ছি বা প্রায় অর্ধেকে আচ্ছন্ন করার পক্ষে যথেষ্ট)।

একইভাবে, বিবৃতি 2 এর জন্য একটি "প্রায়" বা অনুরূপ প্রয়োজন, কারণ আমাদের অনিশ্চয়তাটি coverাকতে আমরা গড়ে 95% এরও বেশি ক্যাপচার করছি।


0

দ্বিতীয়টি আরও ভাল। প্রথমটি অন্যান্য তথ্য যা জানা যায় তার উপর নির্ভর করে।

একটি এলোমেলো উদাহরণ ব্যবহার করে, এটি সত্য যে "95% অন্তর (95% আত্মবিশ্বাসে) [[পরিবর্তনশীল সন্নিবেশ করানোর]" এর আসল অর্থ অন্তর্ভুক্ত করবে।

অন্যদিকে, যদি কোনও ফলাফল স্পষ্টতই পাল্টা স্বজ্ঞাত হয় তবে আমরা দৃ 1়তা রাখতে পারি না (1)।

উদাহরণস্বরূপ, "95% আত্মবিশ্বাসের আমার তাত্পর্য পরীক্ষা দেখায় যে উচ্চতা এবং ওজন নেতিবাচকভাবে সম্পর্কযুক্ত"। ভাল এটি স্পষ্টতই মিথ্যা, এবং আমরা বলতে পারি না যে "95% সম্ভাবনা এটি সত্য যে" " প্রকৃতপক্ষে, পূর্বের জ্ঞানকে বিবেচনায় নেওয়া, এটি খুব সামান্য একটি সম্ভাবনা। এটা তোলে অবশ্য বলতে চাই যে বৈধ "এই ধরনের পরীক্ষার 95% করা হয় যেত একটি সঠিক ফলাফলের হল না।"


1
এই উত্তরটি পূর্বাভাস অন্তরগুলির চেয়ে আত্মবিশ্বাসের ব্যবধানগুলি নিয়ে আলোচনা করবে বলে মনে হচ্ছে।
whuber

@ হুবার একই নীতি প্রযোজ্য। আমরা একটি নির্দিষ্ট পরিবর্তনশীল ("পূর্বাভাস" ভেরিয়েবল) জন্য আস্থা অন্তরগুলি মূলত ডিল করি।

2
একটি নির্দিষ্ট মান (প্যারামিটারের মতো) এবং একটি এলোমেলো ভেরিয়েবলের মানের মধ্যে একটি গুরুত্বপূর্ণ পার্থক্য রয়েছে। তদুপরি, বর্তমান প্রশ্নের হৃদয় এই স্বতন্ত্রতার কাছে যায়: এর ("ভবিষ্যত") এলোমেলো ফলাফলের সম্ভাবনা সম্পর্কে কী বলা যেতে পারে? সুতরাং এই প্রশ্নটিকে কেবল আত্মবিশ্বাসের অর্থ সম্পর্কে এক হিসাবে বিবেচনা করার জন্য এটি অপর্যাপ্ত - এবং সম্ভবত বিভ্রান্তিকর বলে মনে হচ্ছে।
হোয়বার

@ শুভ পোস্টে বিবৃতি (2) এখনও বিবৃতি (1) বোঝায় না। আমার উদাহরণ হিসাবে, একটি ভবিষ্যদ্বাণী যা সুস্পষ্ট অন্তর্দৃষ্টি / পটভূমি জ্ঞানের বিরুদ্ধে গিয়েছিল তা বোঝায় না যে ভবিষ্যতের ফলাফলগুলি পিআইয়ের পতনের 95% সম্ভাবনা রয়েছে। এটি সত্য যে প্রক্রিয়া, 95% সময়, পিআইয়ের ভবিষ্যতের ফলাফল ধারণ করে। তবে কখন বা কখন ঘটেছিল তা সনাক্ত করা সম্ভব।

আপনি ঠিক বলেছেন, তবে আমি যদি আপনার মন্তব্যটি সঠিকভাবে পড়ছি তবে আমার সন্দেহ হয় যে এটি বিন্দুটি বাদ দেয়। ইস্যুটি সত্য নয় যে (ডিজাইনের মাধ্যমে) একজন পিআইয়ের ভবিষ্যতের মানটি coveringাকা দেওয়ার মাত্র 95% সম্ভাবনা রয়েছে বা অতিরিক্ত তথ্য (বা অন্তর্দৃষ্টি) আরও তথ্য দিতে পারে। ভবিষ্যতের মানটির জন্য শর্তসাপেক্ষ সম্ভাবনার শর্তে পিআইকে ব্যাখ্যা করা যায় কিনা তা আমাদের সামনে বিষয়টি উদ্বেগ করে (রিগ্রেশন মানগুলির উপর ভিত্তি করে)। ওপি নোট হিসাবে এটি কোনও বেইস পিআই- এর ব্যাখ্যার প্রকৃতপক্ষে , তবে এটি ঘন ঘন পিআইআই এর পক্ষে অবৈধ।
whuber
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.