কোন বুটস্ট্র্যাপযুক্ত রিগ্রেশন মডেলটি নির্বাচন করা উচিত?


10

আমার একটি বাইনারি লজিস্টিক রিগ্রেশন মডেল রয়েছে যার একটি ডিভি (রোগ: হ্যাঁ / না) এবং 5 জন ভবিষ্যদ্বাণীকারী (জনসংখ্যাবিদ্যা [বয়স, লিঙ্গ, তামাক ধূমপান (হ্যাঁ / না)], একটি মেডিকেল ইনডেক্স (অর্ডিনাল) এবং একটি এলোমেলো চিকিত্সা [হ্যাঁ / না ])। আমি দ্বিমুখী ইন্টারঅ্যাকশন শর্তগুলিও মডেল করেছি। প্রধান পরিবর্তনশীলগুলি কেন্দ্রিক এবং বহুবিধ লাইনারিটির কোনও চিহ্ন নেই (সমস্ত ভিআইএফ <2.5)।

আমার কিছু প্রশ্ন আছে:

  1. বুটস্ট্র্যাপিং কি আমার একক মডেলের চেয়ে সুবিধাজনক? যদি তাই,

  2. কোন বুটস্ট্র্যাপযুক্ত মডেলটি নির্বাচন করা উচিত? আমি কেবল দেখতে চেয়েছিলাম যে বুটস্ট্র্যাপিং অ্যালগরিদমগুলি নতুন নমুনা তৈরির জন্য এলোমেলো পদ্ধতি অনুসরণ করে, বা তাদের যদি কঠোর অ্যালগরিদম থাকে। অতএব, আমি প্রতিটি চেষ্টায় 1000 বার পুনরায় মডেল করেছি (তাই আমার বেশ কয়েকটি বুটস্ট্র্যাপেড মডেল রয়েছে, যার প্রত্যেকটিতে 1000 ট্রায়াল রয়েছে)। তবে, প্রতিটি সময় বুটস্ট্র্যাপড মডেলের সহগগুলি পৃথক হয় (যদিও পরীক্ষার সংখ্যা ক্রমাগত 1000 হয়)। তাই আমি ভাবছি আমার প্রতিবেদনের জন্য কোনটি বেছে নেওয়া উচিত? কিছু পরিবর্তন ক্ষুদ্রতর হয় এবং আমার সহগের তাত্পর্যকে প্রভাবিত করে না তবে কিছু আমার সহগকে অ-তাৎপর্যপূর্ণ করে তোলে (কেবলমাত্র মূল মানে 0.05 এর কাছাকাছি পি মানগুলির সাথে উদাহরণস্বরূপ 0.06 তে পরিবর্তিত হয়)।

  3. আমার কি 10,000 এর মতো একটি উচ্চতর নম্বর চয়ন করা উচিত? আমি এই সীমাটি কীভাবে নির্ধারণ করতে পারি?

  4. আবার কি আমার প্রথম স্থানে বুটস্ট্র্যাপ করা উচিত? যদি এর ফলাফলগুলি প্রতিবার পরিবর্তিত হয়, আমি কি তার ফলাফলগুলির উপর নির্ভর করতে পারি?

  5. আপনার মনে কি অন্য কোনও ধারণা রয়েছে যা আমাকে আমার ক্ষেত্রে সহায়তা করতে পারে?

অনেক অনেক ধন্যবাদ.

উত্তর:


21

আপনার রিগ্রেশন সহগের নমুনা বন্টন অনুমান করার জন্য বুটস্ট্র্যাপিং একটি পুনরায় মডেলিং পদ্ধতি এবং অতএব আপনার রিগ্রেশন সহগের মানক ত্রুটিগুলি / আত্মবিশ্বাসের অন্তরগুলি গণনা করুন। এই পোস্টে একটি সুন্দর ব্যাখ্যা আছে। আপনার কতগুলি প্রতিলিপি প্রয়োজন তা আলোচনার জন্য, এই পোস্টটি দেখুন।

  1. ননপ্যারমেট্রিক বুটস্ট্র্যাপের পুনরাবৃত্তিগুলি বারবার এবং এলোমেলোভাবে আপনার পর্যবেক্ষণগুলি প্রতিস্থাপনের সাথে আঁকেন (যেমন কিছু পর্যবেক্ষণ কেবল একবার টানা হয়, অন্যরা একাধিক বার এবং কিছু কখনও না), তারপরে লজিস্টিক রিগ্রেশন গণনা করে এবং সহগগুলি সংরক্ষণ করে। এটি পুনরাবৃত্তি হয়এনবার। সুতরাং আপনি 10'000 বিভিন্ন রিগ্রেশন সহগের সাথে শেষ করবেন। এই 10'000 সহগগুলি তখন তাদের আত্মবিশ্বাসের ভ্রমণকেন্দ্র গণনা করতে ব্যবহার করা যেতে পারে। সিউডো-এলোমেলো সংখ্যার জেনারেটর ব্যবহার করা হচ্ছে, প্রতিবার আপনার ঠিক একই ফলাফল হয়েছে কিনা তা নিশ্চিত করার জন্য আপনি কেবল একটি স্বেচ্ছাসেবী সংখ্যায় বীজ সেট করতে পারেন (নীচের উদাহরণ দেখুন)। সত্যিকারের স্থিতিশীল অনুমানের জন্য, আমি 1000 এরও বেশি প্রতিলিপিগুলি প্রস্তাব দেব, সম্ভবত 10'000। আপনি বেশ কয়েকবার বুটস্ট্র্যাপ চালাতে পারেন এবং দেখতে পান যে অনুমানগুলি 1000 বা 10'000 প্রতিলিপিগুলি করে কিনা তা অনেকটাই পরিবর্তন হয়। সরল ইংরাজীতে: আপনি রূপান্তরিত হওয়া অবধি আপনার প্রতিলিপিগুলি নেওয়া উচিত। যদি আপনার বুটস্ট্র্যাপের অনুমানগুলি আপনার অনুমান এবং পর্যবেক্ষিত, একক মডেলের মধ্যে পৃথক হয় তবে এটি ইঙ্গিত করতে পারে যে পর্যবেক্ষিত মডেলটি আপনার নমুনার কাঠামোটি যথাযথভাবে প্রতিফলিত করে না।bootRউদাহরণস্বরূপ, "পক্ষপাত" রাখুন যা আপনার একক মডেলের রিগ্রেশন সহগ এবং বুটস্ট্র্যাপ নমুনাগুলির মধ্যবর্তী পার্থক্য।
  2. বুটস্ট্র্যাপটি সম্পাদন করার সময়, আপনি কোনও একক বুটস্ট্র্যাপ নমুনায় আগ্রহী নন, তবে 10'000 বুটস্ট্র্যাপ নমুনাগুলির উপরে পরিসংখ্যান বিতরণ (যেমন, রিগ্রেশন সহগ) in
  3. আমি বলব 10'000 1000 এর চেয়ে ভাল modern আধুনিক কম্পিউটারগুলির সাথে এটি কোনও সমস্যা হওয়ার দরকার নেই। নীচের উদাহরণে, 10'000 নমুনা আঁকতে আমার পিসিটি প্রায় 45 সেকেন্ড সময় নিয়েছিল। এটি অবশ্যই আপনার নমুনা আকারের সাথে পরিবর্তিত হয়। আপনার নমুনার আকারটি যত বড়, প্রতিটি পর্যবেক্ষণকে বিবেচনায় নেওয়া হয়েছে তা নিশ্চিত করার জন্য পুনরাবৃত্তির সংখ্যা আরও বেশি হওয়া উচিত।
  4. "প্রতিবারের ফলাফলগুলি পৃথক হয়" এর অর্থ কী? মনে রাখবেন যে প্রতিটি বুটস্ট্র্যাপ ধাপে পর্যবেক্ষণগুলি নতুন প্রতিস্থাপনের সাথে আঁকা হয়। অতএব, আপনি সম্ভবত কিছুটা আলাদা রিগ্রেশন সহগের সাথে শেষ হবেন কারণ আপনার পর্যবেক্ষণগুলি পৃথক। তবে আমি যেমন বলেছি: আপনি কোনও একক বুটস্ট্র্যাপের নমুনার ফলাফলের প্রতি আগ্রহী নন। যখন আপনার প্রতিরূপের সংখ্যা যথেষ্ট বেশি, বুটস্ট্র্যাপটি প্রতিবারের মতো একই আত্মবিশ্বাসের ব্যবধান এবং পয়েন্ট আনুমানিক উপস্থাপন করে।

এখানে একটি উদাহরণ দেওয়া হয়েছে R:

library(boot)

mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv")

head(mydata)

mydata$rank <- factor(mydata$rank)

my.mod <- glm(admit ~ gre + gpa + rank, data = mydata, family = "binomial")

summary(my.mod)

Coefficients:
             Estimate Std. Error z value Pr(>|z|)    
(Intercept) -3.989979   1.139951  -3.500 0.000465 ***
gre          0.002264   0.001094   2.070 0.038465 *  
gpa          0.804038   0.331819   2.423 0.015388 *  
rank2       -0.675443   0.316490  -2.134 0.032829 *  
rank3       -1.340204   0.345306  -3.881 0.000104 ***
rank4       -1.551464   0.417832  -3.713 0.000205 ***
---
Signif. codes:  0***0.001**0.01*0.05 ‘.’ 0.1 ‘ ’ 1

# Set up the non-parametric bootstrap

logit.bootstrap <- function(data, indices) {

  d <- data[indices, ]
  fit <- glm(admit ~ gre + gpa + rank, data = d, family = "binomial")

  return(coef(fit))
}

set.seed(12345) # seed for the RNG to ensure that you get exactly the same results as here

logit.boot <- boot(data=mydata, statistic=logit.bootstrap, R=10000) # 10'000 samples

logit.boot

Bootstrap Statistics :
        original        bias    std. error
t1* -3.989979073 -7.217244e-02 1.165573039
t2*  0.002264426  4.054579e-05 0.001146039
t3*  0.804037549  1.440693e-02 0.354361032
t4* -0.675442928 -8.845389e-03 0.329099277
t5* -1.340203916 -1.977054e-02 0.359502576
t6* -1.551463677 -4.720579e-02 0.444998099

# Calculate confidence intervals (Bias corrected ="bca") for each coefficient

boot.ci(logit.boot, type="bca", index=1) # intercept
95%   (-6.292, -1.738 )  
boot.ci(logit.boot, type="bca", index=2) # gre
95%   ( 0.0000,  0.0045 ) 
boot.ci(logit.boot, type="bca", index=3) # gpa
95%   ( 0.1017,  1.4932 )
boot.ci(logit.boot, type="bca", index=4) # rank2
95%   (-1.3170, -0.0369 )
boot.ci(logit.boot, type="bca", index=5) # rank3
95%   (-2.040, -0.629 )
boot.ci(logit.boot, type="bca", index=6) # rank4
95%   (-2.425, -0.698 )

বুটস্ট্র্যাপ-আউটপুটটি মূল রিগ্রেশন সহগ ("মূল") এবং তাদের পক্ষপাত প্রদর্শন করে, যা মূল সহগ এবং বুটস্ট্র্যাপযুক্ত পার্থক্য। এটি স্ট্যান্ডার্ড ত্রুটিগুলিও দেয়। মনে রাখবেন যে তারা মূল স্ট্যান্ডার্ড ত্রুটির চেয়ে কিছুটা বড়।

আত্মবিশ্বাসের অন্তর থেকে, পক্ষপাত সংশোধন ("বিসিএ") সাধারণত পছন্দ করা হয়। এটি মূল স্কেলে আত্মবিশ্বাসের ব্যবধান দেয়। প্রতিকূল অনুপাতের জন্য আস্থার ব্যবধানের জন্য, আত্মবিশ্বাসের সীমাটি কেবলমাত্র বাড়িয়ে দিন।


নিখুঁত উত্তরের জন্য আপনাকে ধন্যবাদ! :) আমাকে এইভাবে প্রতিক্রিয়া জানাতে দাও: ১. আমি এর ধারণার সাথে কিছুটা পরিচিত ছিলাম (যে এটি 1000 বিভিন্ন (পুনঃনির্মাণ) মডেলগুলিতে 1000 বিভিন্ন সহগের জন্য গড়টি গণনা করার চেষ্টা করে)। "পক্ষপাত" জিনিসটি পরিষ্কার করার জন্য ধন্যবাদ এবং এ জাতীয় বৈচিত্রগুলি ঘটে এবং আমাদের চেষ্টা করার সংখ্যা বাড়ানো উচিত। :) 2. "বুটস্ট্র্যাপযুক্ত মডেল" বলতে আমি একটি একক পুনরায় মডেল মডেল বোঝাতে চাইনি। তবে, আমি সেই 1000 টি পুনরাবৃত্তির গড় বোঝাতে চাইছি। আসলে আমি আমার মডেলটি 10 ​​বারের জন্য 1000 টি পুনরাবৃত্তির জন্য বুটস্ট্র্যাপ করেছি। সুতরাং আমার হাতে 10 টি বুটস্ট্র্যাপড মডেল রয়েছে।
ভিক

তাদের প্রত্যেকে একটি "আলাদা" ফলাফল দেখায়। তবে আমি 10,000 রিস্যাম্পলিং সহ তিনটি বা চারটি বুটস্ট্র্যাপযুক্ত মডেল চেষ্টা করব তা পুনরুক্তির সংখ্যা 10,000 তে রয়েছে কিনা তা দেখতে, বিভিন্ন বুটস্ট্র্যাপড মডেলগুলি (10000 সহ প্রতিটি) একই বা আমি আরও 100000 বাড়িয়ে তুলতে পারি?
ভিক

@ ভিক আপনার মন্তব্যের জন্য ধন্যবাদ। আমি 1000 টি পুনরাবৃত্তি সহ 10 টি বুটস্ট্র্যাপ করব না, তবে 10'000 বা আরও বেশি পুনরাবৃত্তি (50'000?) বলার সাথে একটি মাত্র one এটি আপনাকে স্থিতিশীল অনুমান এবং আত্মবিশ্বাসের বিরতি দেয়।
COOLSerdash

৩. নিশ্চিত যে এটি কোনও সমস্যা নয়। আমি কেবল জানতে চেয়েছিলাম যে কোনটির ভিত্তিতে সেই নম্বরটি বেছে নেওয়া উচিত? আমি মনে করি এর ভিত্তিটি হ'ল যে আমি যদি 1000 টির দুটি বুটস্ট্র্যাপিং চালাতে পারি এবং দেখি তারা পৃথক হয়, তার অর্থ এর পরিবর্তে আমার আরও পুনরায় মডেলিং ট্রায়ালগুলির প্রয়োজন (উদাহরণস্বরূপ 5000 বা 10000)।
ভিক

৪. "আপনার অর্থ" প্রতিবারের ফলাফলগুলি পৃথক হয় "এর অর্থ কী? আপনার প্রতিরূপের সংখ্যা যখন যথেষ্ট পরিমাণে বেশি থাকে তখন বুটস্ট্র্যাপের প্রতিবারের মতো একই রকম আস্থাভাজন এবং পয়েন্টের অনুমান পাওয়া উচিত" "
ভিক
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.