ধাপে ধাপে রিগ্রেশন কি জনসংখ্যার আর-বর্গের পক্ষপাতদুষ্ট অনুমান সরবরাহ করে?


14

মনোবিজ্ঞান এবং অন্যান্য ক্ষেত্রে ধাপে ধাপে ধাপে ধাপে ধাপে ধাপে ধাপে ধাপে ধাপে ধাপে ধাপে ধাপে ধাপে ধাপে ধাপে ধাপে ধাপে ধাপে ধাপে ধাপে ধাপে ধাপে ধাপে ধাপে ধাপে কমিয়ে আনার ক্ষেত্রে নিযুক্ত থাকে:

  1. বাকী ভবিষ্যদ্বাণীকারীদের দিকে তাকান (প্রথমে কোনও মডেলটিতে নেই) এবং ভবিষ্যদ্বাণীকে সনাক্ত করুন যা সবচেয়ে বড় আর-বর্গ পরিবর্তনের ফলাফল দেয়;
  2. আর-বর্গ পরিবর্তনের পি-মানটি যদি আলফা (সাধারণত .05) এর চেয়ে কম হয়, তবে সেই পূর্বাভাসককে অন্তর্ভুক্ত করুন এবং পদক্ষেপ 1 এ ফিরে যান, অন্যথায় থামুন।

উদাহরণস্বরূপ, এসপিএসএস এ এই পদ্ধতিটি দেখুন ।

প্রক্রিয়াটি নিয়মিতভাবে বিস্তৃত কারণে সমালোচিত হয় ( স্টাটা ওয়েবসাইটে রেফারেন্স সহ এই আলোচনাটি দেখুন )।

বিশেষত, স্টাটা ওয়েবসাইট ফ্র্যাঙ্ক হ্যারেলের বেশ কয়েকটি মন্তব্যের সংক্ষিপ্তসার করেছে। আমি দাবিতে আগ্রহী:

[ধাপে ধাপে সংক্ষিপ্তকরণ] আর-স্কোয়ার মানগুলি দেয় যা খারাপভাবে পক্ষপাতদুষ্ট উচ্চ।

বিশেষত, আমার কিছু বর্তমান গবেষণা জনসংখ্যার আর-বর্গ অনুমানের উপর দৃষ্টি নিবদ্ধ করে । জনসংখ্যার মাধ্যমে আমি বর্গক্ষেত্রের সাথে জনসংখ্যার ডেটা উত্পন্ন করে সমীকরণের সংখ্যার দ্বারা ব্যাখ্যা করা বৈচিত্র্যের শতাংশের উল্লেখ করি। আমি যে বিদ্যমান সাহিত্যের পর্যালোচনা করছি তার বেশিরভাগটি পদক্ষেপের নিরোধক পদ্ধতি ব্যবহার করেছে এবং আমি জানতে চাই যে প্রদত্ত অনুমানগুলি পক্ষপাতদুষ্ট এবং যদি তাই হয় তবে কতটা। বিশেষত, একটি সাধারণ গবেষণায় 30 পূর্বাভাসকারী, এন = 200, .05 এর প্রবেশের আলফা এবং .50 এর কাছাকাছি আর-বর্গ অনুমান থাকবে।

আমি কি জানি:

  • অ্যাসিপেমোটোটিকভাবে, কোনও শূন্য-সহগ সহ যে কোনও ভবিষ্যদ্বাণী হবেন এটি একটি পরিসংখ্যানগতভাবে গুরুত্বপূর্ণ ভবিষ্যদ্বাণীকারী এবং আর-স্কোয়ার সমন্বিত আর-বর্গের সমান হবে। সুতরাং, অ্যাসেম্পোটোটিকভাবে ধাপে ধাপে ধাপে রিগ্রেশনটির সত্যিকারের রিগ্রেশন সমীকরণ এবং সত্য জনসংখ্যার আর-বর্গের অনুমান করা উচিত।
  • নমুনা আকারের ছোট আকারের সাথে, কিছু ভবিষ্যদ্বাণীকারীদের সম্ভাব্য বাদ পড়ার ফলে সমস্ত ভবিষ্যদ্বাণীকারীদের মডেলটিতে অন্তর্ভুক্ত করার চেয়ে ছোট আর-বর্গক্ষেত্রের ফলাফল হবে। তবে আর-বর্গক্ষেত্রের নমুনা তথ্যের সাধারণ পক্ষপাতও আর-বর্গকে বাড়িয়ে তুলবে। সুতরাং, আমার নির্বোধ চিন্তাভাবনাটি হ'ল সম্ভাব্যভাবে, এই দুটি বিরোধী শক্তি কিছু নির্দিষ্ট পরিস্থিতিতে একটি নিরপেক্ষ আর-স্কোয়ারের ফলে আসতে পারে। এবং আরও সাধারণভাবে, পক্ষপাতের দিকনির্দেশটি ডেটা এবং আলফা অন্তর্ভুক্তির মানদণ্ডের বিভিন্ন বৈশিষ্ট্যগুলির উপর নির্ভরশীল।
  • আরও কঠোর আলফা অন্তর্ভুক্তির মানদণ্ড (উদাহরণস্বরূপ, .01, .001, ইত্যাদি) সেট করার ফলে প্রত্যাশিত আনুমানিক আর-স্কোয়ারটি কম হওয়া উচিত কারণ ডেটাগুলির কোনও প্রজন্মের কোনও ভবিষ্যদ্বাণীকে অন্তর্ভুক্ত করার সম্ভাবনা কম থাকবে।
  • সাধারণভাবে, আর-স্কোয়ারটি জনসংখ্যার আর-স্কোয়ারের একটি upর্ধ্বমুখী পক্ষপাতমূলক অনুমান এবং এই পক্ষপাতের ডিগ্রি আরও প্রেডিক্টর এবং আরও ছোট নমুনার আকারের সাথে বৃদ্ধি পায়।

প্রশ্ন

সুতরাং অবশেষে, আমার প্রশ্ন:

  • ধাপে ধাপে রিগ্রেশন থেকে আর-বর্গ কি পরিমাণে জনসংখ্যার আর-বর্গের পক্ষপাতদুষ্ট অনুমানের ফলাফল দেয়?
  • নমুনা আকার, ভবিষ্যদ্বাণীকারীদের সংখ্যা, আলফা অন্তর্ভুক্তির মানদণ্ড বা উপাত্তের বৈশিষ্ট্যগুলির সাথে এই পক্ষপাত কতটা সম্পর্কিত?
  • এই বিষয়ে কোন রেফারেন্স আছে?

3
স্টাটা FAQ- র মূল সংস্করণটি আপনি ফ্র্যাঙ্ক হ্যারেলের 2001 সালের বইয়ের রেগ্রেশন মডেলিং কৌশলগুলি পূর্বাভাস করেছিলেন । নিউ ইয়র্ক: স্প্রিংগার, যা আমি এখানে থেকেই শুরু করব reference
নিক কক্স

3
আমি @ ফ্র্যাঙ্কহারেলের বইটি উচ্চারণের সুপারিশ করছি যা নিক কক্স সেখানে উল্লেখ করেছেন; আমি নিয়মিত আমার পোস্টগ্রাড শিক্ষার্থীদের অর্পণ করি এবং এটি থেকে পড়া শিক্ষার্থীদের সম্মান করি (বিশেষত অধ্যায়)। যে পরিবর্তনশীল নির্বাচনের উপস্থিতিতে আর ^ 2 পক্ষপাতদুষ্ট তা দেখতে অনেকগুলি ডেটা সেট (উদাহরণস্বরূপ এন = 100, পি = 50) সিমিউলেট করে দেখতে বেশ সহজ, যার সাথে শূন্যের জনসংখ্যার পারস্পরিক সম্পর্ক রয়েছে এবং তারপরে আপনি যে পরিবর্তনশীল নির্বাচন পদ্ধতিটি দেখাতে চান তা করে এটা.
গ্লেন_বি -রিনস্টেট মনিকা

5
মতামত নোট হিসাবে, সিমুলেশনটি দেখাতে পারে যে, একটি পরিচিত পরিস্থিতিতে, ধাপে ধাপে রিগ্রেশন মূল্যায়ন করবে এবং তারা কতটা প্রদর্শন করতে পারে। তবে জনগণের মূল্যবোধ কী হওয়া উচিত তা আপনি জানেন না এমন পরিস্থিতিতে কতটা মুদ্রাস্ফীতি তা দেখাতে পারে না। এটি হ'ল কেবল ধাপে ধাপে পক্ষপাতদুষ্ট ফলাফল নয়, তারা অনুমান করা খুব শক্ত (যদি অসম্ভব না হয়) এমনভাবে পক্ষপাতদুষ্ট। R2
পিটার ফ্লুম - মনিকা পুনরায়

3
যদি আর ^ 2 জনসংখ্যা শূন্য হয় তবে আমি মনে করব যে আর -2 wise নমুনাটি আপনি পক্ষপাতদুষ্ট নির্বাচন ব্যবহার না করেও পক্ষপাতদুষ্ট। আমার সন্দেহ (তবে নিশ্চিত নই) যে আর -2 জনসংখ্যা শূন্য না হলে এটিও পক্ষপাতদুষ্ট হবে।
999

2
জনগণের একটি এবং আমরা মডেল নির্বাচনের কিছু ফর্ম করছি তা নমুনা পরিস্থিতি সম্পর্কে কিছু বিশেষ ধারণা অনুধাবন করা - এটি একটি 'সত্য' মডেল রয়েছে এবং এটির একটি নির্দিষ্ট আকার রয়েছে যা রয়েছে প্রকৃত মডেলের তুলনায় আরও পরিবর্তনশীল বিবেচনা করা হবে (কমপক্ষে সম্ভাব্য আরও বেশি), এবং আরও অনেক কিছু। আমি মনে করি এর মধ্যেও একটি নিদর্শন রয়েছে যা সমস্ত পরিবর্তনশীল সমানভাবে জবাবের সাথে সম্পর্কিত নয়। সে লক্ষ্যে, আমি মনে করি সম্পত্তিগুলি তদন্ত করতে আমরা যে কোনও সিমুলেশন করি তার জন্য এটি নির্ধারিত সমস্ত প্রকারের সম্মান করা দরকার। R2
গ্লেন_বি -রিনস্টেট মনিকা

উত্তর:



2

সংক্ষিপ্ত বিবরণ

R2ρ2

R2ρ2R2ρ2R2R2R2ρ2

R2

R2ρ2ρ2

ব্যাজ

নিম্নলিখিত সিমুলেশনে চারটি অসংলগ্ন ভবিষ্যদ্বাণী রয়েছে যেখানে জনসংখ্যা আর-বর্গ 40%। দুজন ভবিষ্যদ্বাণীকারী প্রতিটি 20% এবং অন্য দুটি ভবিষ্যদ্বাণী 0% ব্যাখ্যা করে। সিমুলেশনটি একটি 1000 ডেটাसेट উত্পন্ন করে এবং প্রতিটি ডেটাসেটের শতাংশ হিসাবে ধাপে ধাপে রিগ্রেশন আর-বর্গ অনুমান করে।

# source("http://bioconductor.org/biocLite.R")
# biocLite("maSigPro") # provides stepwise regression function two.ways.stepfor 
library(maSigPro)
get_data <- function(n=100) {
    x1 <- rnorm(n, 0, 1)
    x2 <- rnorm(n, 0, 1)
    x3 <- rnorm(n, 0, 1)
    x4 <- rnorm(n, 0, 1)
    e  <- rnorm(n, 0, 1)
    y <- 1 * x1 + 1 * x2 + sqrt(3) * e
    data <- data.frame(y, x1, x2, x3, x4)
    data
}

get_rsquare <- function(x, alpha=.05) {
    fit <- two.ways.stepfor(x$y, subset(x, select=-y),  alfa=alpha)
        class(fit) <-'lm'
        summary.lm(fit)$r.square * 100
}

নিম্নলিখিত কোডটি .01, .001, .0001, এবং .00001 এন্ট্রি করার জন্য একটি আলফা সহ আর-স্কোয়ার প্রদান করে।

set.seed(1234)
simulations <- 1000
datasets <- lapply(seq(simulations), function(X) get_data(n=100))
rsquares01 <- sapply(datasets, function(X) get_rsquare(X, alpha=.01))
rsquares001 <- sapply(datasets, function(X) get_rsquare(X, alpha=.001))
rsquares0001 <- sapply(datasets, function(X) get_rsquare(X, alpha=.0001))
rsquares00001 <- sapply(datasets, function(X) get_rsquare(X, alpha=.00001))

নিম্নলিখিত ফলাফলগুলি এন্ট্রিগুলির পাঁচটি আলফার প্রত্যেকটির পক্ষপাতিত্ব নির্দেশ করে। নোট করুন যে আমি পার্থক্যগুলি আরও সহজ করে তুলতে আর-বর্গকে 100 দ্বারা গুণ করেছি।

mean(rsquares01) - 40 
mean(rsquares001) - 40 
mean(rsquares0001) - 40 
mean(rsquares00001) - 40 
sd(rsquares01)/sqrt(simulations) # approximate standard error in estimate of bias 

ফলাফলগুলি সূচিত করে যে .01 এবং .001 এর এন্ট্রিগুলির আলফা এর ফলে ইতিবাচক পক্ষপাত এবং .0001 এবং .00001 এর এন্ট্রিগুলির আলফা ফলাফল নেতিবাচক বায়াসে আসে। সুতরাং সম্ভবত .0005 এর চারপাশে প্রবেশের একটি আলফা একটি নিরপেক্ষ পদক্ষেপের ধরণে পরিণত হবে।

> mean(rsquares01) - 40 
[1] 1.128996
> mean(rsquares001) - 40 
[1] 0.8238992
> mean(rsquares0001) - 40 
[1] -0.9681992
> mean(rsquares00001) - 40 
[1] -5.126225
> sd(rsquares01)/sqrt(simulations) # approximate standard error in estimate of bias
[1] 0.2329339

আমি এ থেকে মূল উপসংহারটি নিয়ে যাচ্ছি যে পদক্ষেপের প্রতিরোধটি কোনও নির্দিষ্ট দিকে সহজাতভাবে পক্ষপাতদুষ্ট নয়। এটি বলেছিল, ভবিষ্যদ্বাণীকারী প্রবেশের এক পি-মান বাদে এটি কমপক্ষে কিছুটা পক্ষপাতদুষ্ট হবে। আমি পিটার ফ্লুমের বিষয়টি গ্রহণ করি যে বাস্তব বিশ্বে আমরা ডেটা উত্পন্নকরণ প্রক্রিয়া জানি না। যাইহোক, আমি অনুমান করি যে এই পক্ষপাতটি কীভাবে পরিবর্তিত হয়, এন, প্রবেশের আলফা, ডেটা উত্পন্নকরণ প্রক্রিয়া এবং ধাপে ধাপে রিগ্রেশন পদ্ধতি (যেমন, পিছনের দিক সহ) এই ধরনের পক্ষপাত সম্পর্কে একটি ধারণা যথেষ্ট পরিমাণে জানাতে পারে তার আরও বিশদ অনুসন্ধানের কল্পনা করি।

তথ্যসূত্র

  • হ্যারেল, এফই (2001)। রিগ্রেশন মডেলিং কৌশল: রৈখিক মডেলগুলির জন্য অ্যাপ্লিকেশন সহ, লজিস্টিক রিগ্রেশন এবং বেঁচে থাকার বিশ্লেষণ। স্প্রিঙ্গের।

এটি এখনও পক্ষপাতদুষ্ট (আমি বলব), আপনি পক্ষপাত অনেকটা হ্রাস করেছেন।
জেরেমি মাইলস

@ জেরেমি মাইলস তবে এটি কোনও নির্দিষ্ট দিকে সহজাতভাবে পক্ষপাতদুষ্ট নয়।
জেরোমি অ্যাংলিম

আমি @ ফ্র্যাঙ্কহারেল এর সাথে এটি দেখতে আগ্রহী be
গ্লেন_বি -রিনস্টেট মনিকা

1
SW(p)R2ppSW(p)pSW(p)পি

1
@ যেহেতু আপনি চূড়ান্তভাবে উল্লেখ করেছেন এমন কয়েকটি পয়েন্টটি আশাবাদী করার জন্য আমি চূড়ান্ত অনুচ্ছেদটি টুইট করেছি।
জেরোমি অ্যাংলিম
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.