আর-এ ধাপে ধাপে ধাপে ধাপ - এটি কীভাবে কাজ করে?

15

আমি ধাপে ফাংশনটি ব্যবহার করে আর-এ পদক্ষেপ এবং পশ্চাদপদ রিগ্রেশনের মধ্যে মূল পার্থক্যটি বোঝার চেষ্টা করছি। ধাপে ধাপে রিগ্রেশন করার জন্য আমি নিম্নলিখিত কমান্ডটি ব্যবহার করেছি

  step(lm(mpg~wt+drat+disp+qsec,data=mtcars),direction="both")

আমি উপরের কোডের জন্য নীচের আউটপুট পেয়েছি।

পিছনে পরিবর্তনশীল নির্বাচনের জন্য আমি নিম্নলিখিত কমান্ডটি ব্যবহার করেছি

 step(lm(mpg~wt+drat+disp+qsec,data=mtcars),direction="backward")

এবং আমি পিছনে জন্য নীচের আউটপুট পেয়েছি

আমি যতটা বুঝতে পেরেছি, যখন কোনও প্যারামিটার নির্দিষ্ট না করা হয় তখন ধাপের দিকের নির্বাচনটি পশ্চাদপদ হিসাবে কাজ করে যতক্ষণ না প্যারামিটার "উপরের" এবং "নিম্ন" আর তে নির্দিষ্ট করা থাকে। তবুও ধাপের বাছাইয়ের ফলাফলের ক্ষেত্রে, সেখানে + ডিসপ্লে যুক্ত করা হয় দ্বিতীয় পদক্ষেপ। পদক্ষেপের বাছাইয়ে আবার + ডিস্প যুক্ত করে ফাংশনটি কী অর্জন করার চেষ্টা করছে? আর ২ য় ধাপে + ডিসপ্লে যুক্ত করা হচ্ছে কেননা ফলাফল পশ্চাদপদ নির্বাচনের মতো একই (এআইসি মান এবং মডেল নির্বাচনের মান)। কীভাবে আর ধাপে ধাপে বাছাইয়ে ঠিক কাজ করছে?

আমি সত্যিই বুঝতে চাই যে এই ফাংশনটি কীভাবে আর এ কাজ করছে the সহায়তার জন্য আগাম ধন্যবাদ!

r regression

17

সম্ভবত সমস্ত 15 টি এলএম মডেল দেখে ধাপে ধাপে রিগ্রেশন কীভাবে করা হচ্ছে তা বোঝা সহজ হবে।

সমস্ত 15 টি সংমিশ্রনের জন্য সূত্র উত্পন্ন করার জন্য এখানে একটি কুইকি রয়েছে।

library(leaps)
tmp<-regsubsets(mpg ~ wt + drat + disp + qsec, data=mtcars, nbest=1000, really.big=T, intercept=F)
all.mods <- summary(tmp)[[1]]
all.mods <- lapply(1:nrow(all.mods, function(x)as.formula(paste("mpg~", paste(names(which(all.mods[x,])), collapse="+"))))

head(all.mods)
[[1]]
mpg ~ drat
<environment: 0x0000000013a678d8>

[[2]]
mpg ~ qsec
<environment: 0x0000000013a6b3b0>

[[3]]
mpg ~ wt
<environment: 0x0000000013a6df28>

[[4]]
mpg ~ disp
<environment: 0x0000000013a70aa0>

[[5]]
mpg ~ wt + qsec
<environment: 0x0000000013a74540>

[[6]]
mpg ~ drat + disp
<environment: 0x0000000013a76f68>

প্রতিটি মডেলের জন্য এআইসির মানগুলি এর সাথে বের করা হয়:

all.lm<-lapply(all.mods, lm, mtcars)

sapply(all.lm, extractAIC)[2,]
 [1]  97.98786 111.77605  73.21736  77.39732  63.90843  77.92493  74.15591  79.02978  91.24052  71.35572
[11]  63.89108  65.90826  78.68074  72.97352  65.62733

আসুন আপনার স্টেপ-রিগ্রেশনটিতে ফিরে যান। Lm (mpg ~ wt + drat + disp + qsec) এর এক্সট্রাকএইচ মান 65.63 (উপরের তালিকার 15 মডেলের সমতুল্য)।

যদি মডেলটি ডিসপ্লে (-ডিস্প) অপসারণ করে তবে lm (mpg ~ wt + drat + qsec) 63.891 (বা তালিকার মডেল 11)।

যদি মডেলটি কোনও কিছুই অপসারণ না করে (কিছুই না) তবে এআইসি এখনও 65.63 is

যদি মডেলটি qsec (-qsec) অপসারণ করে তবে lm (mpg ~ wt + drat + disp) 65.908 (মডেল 12)।

প্রভৃতি

মূলত সংক্ষিপ্তসারটি আপনার সম্পূর্ণ মডেল থেকে এক-টার্মের সমস্ত ধাপে ধাপে অপসারণের বিষয়টি প্রকাশ করে এবং এক্সট্রাকএইসি মানটিকে আরোহণের ক্রমে তালিকাভুক্ত করে তুলনা করে। যেহেতু ছোট এআইসির মানটি সত্যের মডেলের অনুরূপ হওয়ার সম্ভাবনা বেশি, তাই ধাপে ধাপে (-ডিস্প) মডেলটি ধরে রাখুন।

প্রক্রিয়াটি আবার পুনরাবৃত্তি করা হয়, তবে প্রারম্ভিক পয়েন্ট হিসাবে ধরে রাখা (-ডিস্প) মডেল দিয়ে। শর্তাদি হয় হয় বিয়োগফল ("পিছনে") বা বিয়োগ / যোগ ("উভয়") মডেলের তুলনা করতে অনুমতি দেয়। যেহেতু তুলনায় সর্বনিম্ন এআইসির মান এখনও (-ডিস্প) মডেল, প্রক্রিয়া বন্ধ এবং ফলস্বরূপ মডেলগুলি দেওয়া হয়।

আপনার প্রশ্নের প্রসঙ্গে: "পদক্ষেপের বাছাইয়ে আবার + ডিসপ্লে যোগ করে ফাংশনটি কী অর্জন করার চেষ্টা করছে?", এই ক্ষেত্রে, এটি আসলে কিছুই করে না, সমস্ত 15 মডেলের মধ্যে সেরা মডেল 11 মডেল , অর্থাত্ lm (mpg ~ wt + drat + qsec)।

যাইহোক, জটিল মডেলগুলিতে বিপুল সংখ্যক ভবিষ্যদ্বাণীকারী যাদের সমাধানের জন্য অসংখ্য পদক্ষেপের প্রয়োজন রয়েছে তাদের মধ্যে শর্তগুলির তুলনার সর্বাধিক বিস্তৃত উপায় প্রদানের জন্য প্রাথমিকভাবে মুছে ফেলা একটি পদ যুক্ত করা সমালোচিত।

আশা করি কোনওভাবে এই সহায়তা করবে।

— অ্যাডাম কুইক
সূত্র

6

"যেহেতু ছোট এআইসির মান TRUTH মডেলের সাথে সাদৃশ্য হওয়ার সম্ভাবনা বেশি থাকে" সোজা-আপ মিথ্যা। ধাপ অনুসারে মডেল বিল্ডিং সত্যই ভবিষ্যদ্বাণীকারীদের প্রত্যাখ্যান করার মতো মিথ্যা ভবিষ্যদ্বাণীকে ধরে রাখার প্রায় সমান সম্ভাবনা রয়েছে ... অন্যান্য সমস্যাগুলির মধ্যে একটি: stats.stackexchange.com/questions/115843/…

— অ্যালেক্সিস

2

স্পষ্টতই এটি একটি মিথ্যা। এজন্য একক মানদণ্ডের উপর ভিত্তি করে মডেল নির্বাচন (ধাপে ধাপে প্রতিরোধের মতো) একটি শিশুর মুখোমুখি।

— অ্যাডাম কুইক

@ অ্যালেক্সিস লিঙ্কটিতে আপনার উত্তরে আপনার প্রস্তাবনাগুলি পছন্দ করে।

— অ্যাডাম কুইক

3

এখানে একটি সরলীকৃত প্রতিক্রিয়া। প্রথমত, উভয় পদ্ধতি কোনও প্রদত্ত মডেলের এআইসি হ্রাস করার চেষ্টা করে তবে তারা এটি বিভিন্ন উপায়ে করে। তারপরে, মূল পার্থক্যটি হ'ল পশ্চাদপদ নির্বাচন পদ্ধতিতে আপনি কেবল কোনও পদক্ষেপে মডেল থেকে ভেরিয়েবলগুলি বাতিল করতে পারেন, তবে ধাপে ধাপে নির্বাচিত ক্ষেত্রে আপনি মডেলটিতে ভেরিয়েবলগুলিও যুক্ত করতে পারেন।

পদক্ষেপের বাছাইয়ের আউটপুট সম্পর্কে, সাধারণভাবে আউটপুট আপনাকে দেখায় যে আপনার এআইসিকে হ্রাস করার বিকল্পগুলি অর্ডার করেছে, সুতরাং যে কোনও ধাপে প্রথম সারিতে আপনার সেরা বিকল্প। তারপরে, +dispতৃতীয় সারিতে একটি রয়েছে কারণ আপনার মডেলটিতে সেই পরিবর্তনশীল যুক্ত করা আপনার এআইসি হ্রাস করার জন্য তৃতীয় সেরা বিকল্প হবে। তবে স্পষ্টতই, আপনার সেরা বিকল্পটি হ'ল <none>, এর অর্থ কিছু না করা, প্রক্রিয়াটি থেমে যায় এবং আপনাকে পশ্চাদপদ নির্বাচনের মতো একই ফলাফল দেয়।

— আয়র পাকো
সূত্র