মডেল নির্বাচন পদ্ধতি সম্পর্কে সমস্যা গণনা, রেজিউসসেটস এবং সাধারণ প্রশ্নগুলির ব্যাখ্যা করা

আমি ব্যবহার করে মডেল নির্বাচন করতে চাই regsubsets()। আমার কাছে অলিম্পিয়াডটেন (ডেটা আপলোড করা হয়েছে: http://www.sendspace.com/file/8e27d0 ) নামে একটি ডেটাফ্রেম রয়েছে । আমি প্রথমে এই ডেটাফ্রেমটি সংযুক্ত করি এবং তারপরে বিশ্লেষণ শুরু করি, আমার কোডটি হ'ল:

attach(olympiadaten)

library(leaps)
a<-regsubsets(Gesamt ~ CommunistSocialist + CountrySize + GNI + Lifeexp + 
              Schoolyears + ExpMilitary + Mortality +
PopPoverty + PopTotal + ExpEdu + ExpHealth, data=olympiadaten, nbest=2)
summary(a)
plot(a,scale="adjr2")


summary(lm(Gesamt~ExpHealth))

প্লটের স্ক্রিনশট:

সমস্যাটি হ'ল, আমি আবার "ম্যানুয়ালি" সেরা মডেলটি ফিট করতে চাই এবং এটি একবার দেখতে চাই, তবে অ্যাডজাস্টেড আর স্কোয়ারের মানটি কি রেজিউসেটস আউটপুটের মতো নয়? এটি অন্যান্য মডেলের ক্ষেত্রেও হয়, উদাহরণস্বরূপ যখন আমি গ্রাফিকের মধ্যে সবচেয়ে সাধারণ মডেলটি করি:

summary(lm(Gesamt~ExpHealth))

গ্রাফিকটি বলছে, এটির প্রায় 0.14 এর সমন্বিত আর স্কোয়ার হওয়া উচিত, তবে যখন আমি আউটপুটটি দেখি তখন আমি একটি মান 0.06435 পাই।

এখানে ফলাফল summary(lm(Gesamt~ExpHealth)):

Call:
lm(formula = Gesamt ~ ExpHealth)

Residuals:
    Min      1Q  Median      3Q     Max 
-18.686  -9.856  -4.496   1.434  81.980 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)  
(Intercept)  -3.0681     6.1683  -0.497   0.6203  
ExpHealth     1.9903     0.7805   2.550   0.0127 *
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 18.71 on 79 degrees of freedom
  (4 observations deleted due to missingness)
Multiple R-squared: 0.07605,    Adjusted R-squared: 0.06435 
F-statistic: 6.502 on 1 and 79 DF,  p-value: 0.01271

আমি জানি না আমি কী ভুল করে থাকতে পারি, কোনও সাহায্যের প্রশংসা হবে।

এবং সর্বশেষে তবে কম নয়, আরও কিছু প্রশ্ন:

এআইসি এবং অ্যাডওয়্যারের মাধ্যমে মডেল নির্বাচন করার মধ্যে পার্থক্য কী। বর্গাকার?
উভয়ই ফিট ফিট করে এবং ভেরিয়েবলের সংখ্যা সনাক্ত করে, তাই এআইসি দ্বারা নির্বাচিত সেরা মডেলটি সর্বোচ্চ অ্যাডজাস্ট সহ মডেলও নয়। বর্গাকার?
আমার যখন 12 ভেরিয়েবল রয়েছে, এর অর্থ, মডেলগুলির সম্ভাবনা রয়েছে, তাই না? $2^12$
সুতরাং regsubsets()কমান্ডটি কি প্রতিটি মডেল গণনা করে এবং nbest=2প্রতিটি আকারের সেরা দুটি ( ) দেখায় ?
যদি তা হয় তবে আমি কী সত্যিই 'সেরা' মডেলটি পাই?
এবং আমি যখন পিছনের দিকের নির্বাচনটি এআইসি করি (সমস্ত ভেরিয়েবলগুলি রয়েছে এমন মডেল দিয়ে শুরু করে), তখন কি এটি একই মডেলের সাথে শেষ হয় যা regsubsets()বলে যে সবচেয়ে ভাল?

r multiple-regression model-selection

— user1690846
সূত্র

সমন্বিত পার্থক্য কারণ কিছু ভেরিয়েবলের মান অনুপস্থিত। আমি বিশ্বাস করি যে আপনি কেবলমাত্র "ম্যানুয়ালি" মডেলটি ডেটাটির উপসেট ব্যবহার করে ফিট করে যদি আপনি সমস্ত ভেরিয়েবল (রেজিউসেটসের সূত্রে) অনুপস্থিত থাকে তবে আপনি একই অ্যাডজাস্টেড believe দ্রষ্টব্য: Regsubsets ব্যবহার করে আপনার মডেল নির্বাচন করা একটি দুর্বল পদ্ধতি হিসাবে বিবেচিত।

R^{2}

$R^2$

R^{2}

$R^2$

— 999

@ চিহ্ন 999 আপনার মন্তব্যগুলি ভাল এবং দেখে মনে হচ্ছে এটি সঠিক উত্তর দেয়। আপনার এটি একটি উত্তরে রূপান্তর করা উচিত।

— মাইকেল আর চেরনিক

ধন্যবাদ @ মিশেল চের্নিক তবে আমি এটিকে একটি মন্তব্য হিসাবে রেখেই পছন্দ করি।

— 999

@ ব্যবহারকারী 1690846 আমি পিটার ফ্লমের স্ট্যাটাসের

— প্রশ্নগুলি /

@ চিহ্ন 999 প্রথমে একটি উত্তরের জন্য ধন্যবাদ, তবে কেন এটি একটি খারাপ পদ্ধতি? এবং এআইসির সাথে নির্বাচন করা আরও ভাল? সুতরাং আমি না.ওমিট (অলিম্পিয়াডটেন) ব্যবহার করে মডেলটি ফিট করব? কারও কাছে যদি অন্য প্রশ্নের উত্তর থাকে তবে পরবর্তী উত্তরগুলি খুব প্রশংসা করবে, ধন্যবাদ

— ব্যবহারকারী 1690846

উত্তর:

"সেরা" ফিটিং মডেল সন্ধানের জন্য সমস্ত সাবসেট বা সেরা সাবসেটের সরঞ্জামগুলি ব্যবহার করার বিষয়ে ধারণাটি আরও বাড়ানোর জন্য, ড্যারেল হাফের "হাউ টু লাইস উইথ স্ট্যাটিস্টিকস" বইটি সিগারেটের ধোঁয়ায় রাসায়নিকের তুলনা প্রকাশের বিষয়ে পাঠক ডাইজেস্ট সম্পর্কে একটি গল্প বলেছে। তাদের নিবন্ধের মূল বিষয়টি দেখানো হয়েছিল যে বিভিন্ন ব্র্যান্ডের মধ্যে সত্যিকারের পার্থক্য ছিল না, তবে কয়েকটি ব্র্যান্ডের মধ্যে একটি ব্র্যান্ড সবচেয়ে কম ছিল (তবে এতটা কম হলেও পার্থক্যটি অর্থহীন ছিল) এবং সেই ব্র্যান্ডটি একটি বড় বিজ্ঞাপন প্রচার শুরু করেছিল পাঠক ডাইজেস্ট অনুসারে "সর্বনিম্ন" বা "সেরা" হওয়া।

সমস্ত সাবসেট বা সেরা সাবসেটের রিগ্রেশন একই রকম, আপনার প্রদর্শিত গ্রাফের আসল বার্তাটি "এখানে সেরা সেরা" নয় তবে সত্য যে কোনও সেরা মডেল নেই। একটি পরিসংখ্যানগত দৃষ্টিকোণ থেকে (অ্যাডজাস্টেড আর-স্কোয়ার ব্যবহার করে) আপনার বেশিরভাগ মডেল বেশ একইরকম (নীচে কিছু লোক উপরেরগুলির চেয়ে নিকৃষ্ট, তবে বাকী সমস্তই একই রকম)। সেই টেবিলটি থেকে আপনার "সেরা" মডেলটি সন্ধান করা সিগারেট সংস্থার মতো বলেছিলেন যে তাদের পণ্যটি সবচেয়ে ভাল ছিল যখন উদ্দেশ্যটি দেখানো ছিল যে তারা সমস্ত একই রকম ছিল।

এখানে চেষ্টা করার মতো কিছু রয়েছে, এলোমেলোভাবে ডেটাसेट থেকে একটি পয়েন্ট মুছুন এবং বিশ্লেষণটি পুনরায় চালু করুন, আপনি কি একই "সেরা" মডেলটি পেয়েছেন? বা এটা পরিবর্তন হয়? "সেরা" মডেলটি কীভাবে পরিবর্তিত হয় তা দেখতে প্রতিটি সময় আলাদা পয়েন্ট মুছতে কয়েকবার পুনরাবৃত্তি করুন। আপনি কি কোনও মডেলকে "সেরা" দাবি করার ক্ষেত্রে সত্যই স্বাচ্ছন্দ্য বোধ করেন যখন সেই ছোট্ট ডেটা পরিবর্তনের ফলে অন্য একটি "সেরা" দেওয়া হয়? এছাড়াও বিভিন্ন মডেলের মধ্যে সহগগুলি কতটা আলাদা তা দেখুন, আপনি এই পরিবর্তনগুলি কীভাবে ব্যাখ্যা করবেন?

প্রশ্ন এবং ডেটার পিছনের বিজ্ঞানটি বোঝা আরও ভাল এবং সেই তথ্যটি একটি "সেরা" মডেলের সিদ্ধান্ত নিতে সহায়তা করে। 2 টি মডেল বিবেচনা করুন যা খুব অনুরূপ পার্থক্যটি হ'ল এক মডেলের মধ্যে এবং পরিবর্তে অন্তর্ভুক্ত রয়েছে । সহ মডেলটি কিছুটা ভাল ফিট করে (0.49 বনাম 0.48 এর অ্যাড আর-স্কোয়ার) তবে পরিমাপ করতে শল্য চিকিত্সা প্রয়োজন এবং ল্যাব ফলাফলের জন্য 2 সপ্তাহ অপেক্ষা করতে হবে যখন 2 পরিমাপ করার সময় $x_1$ $x_2$ $x_1$ $x_1$ $x_2$ 5 মিনিট এবং একটি স্পাইগমোমনোমিটার লাগে। অ্যাডজাস্টার আর-স্কোয়ারে অতিরিক্ত 0.01 পাওয়ার অতিরিক্ত সময়, ব্যয় এবং ঝুঁকিটি কি সত্যিই উপযুক্ত হবে, বা আরও ভাল মডেলটি আরও দ্রুত, সস্তা, নিরাপদ মডেল হতে পারে? বিজ্ঞানের দিক থেকে কী বোঝায়? আপনার উপরের উদাহরণে আপনি কি সত্যিই ভাবেন যে সামরিক বাহিনীর উপর ক্রমবর্ধমান ব্যয় অলিম্পিকের কার্যকারিতা উন্নত করবে? বা এটি অন্যান্য ব্যয় ভেরিয়েবলের জন্য আরও বেশি প্রভাব ফেলতে পারে এমন কোনও ভেরিয়েবল হিসাবে অভিনয় করার একটি ঘটনা?

অন্যান্য বিষয়গুলি বিবেচনার জন্য বেশ কয়েকটি ভাল মডেল নেওয়া এবং তাদের (মডেল অ্যাভারেজিং) একত্রিত করা বা প্রতিটি ভেরিয়েবলের পরিবর্তে সমস্তরকম বা সমস্তরকম কিছু জরিমানার (রিজ রিগ্রেশন, ল্যাসো, ইলাস্টিকনেট, ...) যুক্ত হওয়া অন্তর্ভুক্ত include

— গ্রেগ স্নো
সূত্র

ভাল উত্তর! " হাইলাইটস " প্রশ্ন এবং ডেটার পিছনের বিজ্ঞানটি বোঝা ভাল এবং "তথ্য সেরা" মডেল " এবং তারপরে অনুসরণ করা সমস্ত অনুচ্ছেদে সিদ্ধান্ত নিতে সহায়তা করতে সেই তথ্যটি ব্যবহার করা ভাল ।

— আন্দ্রে সিলভা

কিছু প্রশ্নের উত্তর দেওয়া হয়েছে তাই আমি কেবল মডেল নির্বাচনের বিষয়েই সম্বোধন করছি। এআইসি, বিআইসিসি, ম্যাল্লো সিপি এবং সমন্বিত আর $^2$ এমন মডেলগুলি তুলনা এবং নির্বাচন করার জন্য সমস্ত পদ্ধতি যা মানদণ্ডের একটি সমন্বিত পরিমাপ বা জরিমানা ফাংশন দ্বারা ওভারফিটেড মডেলগুলির অ্যাকাউন্টে সমস্যা সমাধান করে। তবে পেনাল্টি ফাংশনগুলির ক্ষেত্রে পৃথক ক্ষেত্রে দুটি একই ধরণের মানদণ্ডের জন্য চূড়ান্ত মডেলের জন্য পৃথক নির্বাচনের দিকে পরিচালিত করা খুব সম্ভব। বিভিন্ন মানদণ্ডের জন্য সর্বনিম্ন মান বিভিন্ন মডেলকে ঘটাতে পারে। এটিসি এবং বিআইসির দ্বারা নির্বাচিত মডেলগুলি দেখার সময় এটি বেশিরভাগ সময় লক্ষ্য করা গেছে।

আপনি সেরা মডেল বলতে কী বোঝাতে চেয়েছি তা সত্যিই আমি জানি না। প্রতিটি মানদণ্ড মূলত সেরাটির আলাদা আলাদা সংজ্ঞা দেয়। আপনি তথ্য, এনট্রপি, স্টোকাস্টিক জটিলতা, শতাংশের বৈকল্পিক ব্যাখ্যা (সমন্বিত) এবং আরও অনেক ক্ষেত্রে আপনি একটি মডেলকে সেরা কল করতে পারেন। যদি আপনি একটি নির্দিষ্ট ক্রটিওরিয়ান নিয়ে কাজ করে থাকেন এবং সমস্ত সম্ভাব্য মডেলগুলিতে এআইসি বলার জন্য যথাযথ ন্যূনতম ক্যাপচারের অর্থ হ'ল তবে কেবলমাত্র সমস্ত মডেল (যেমন ভেরিয়েবলগুলির জন্য সমস্ত সাবসেট নির্বাচন) দেখে এটির গ্যারান্টি দেওয়া যেতে পারে। স্টেপ-আপ, স্টেপ-ডাউন এবং স্টেপ-ওয়াইস পদ্ধতি সর্বদা একটি নির্দিষ্ট ক্রটিরিয়ানের অর্থে সেরা মডেলটি খুঁজে পায় না। পদক্ষেপ অনুসারে রিগ্রেশন সহ আপনি বিভিন্ন মডেল শুরু করে বিভিন্ন উত্তর পেতে পারেন। আমি নিশ্চিত ফ্র্যাঙ্ক হ্যারেলের এ সম্পর্কে অনেক কিছু বলার দরকার ছিল।

আরও জানতে, মডেল / সাবসেট নির্বাচনের জন্য বেশ কয়েকটি ভাল বই পাওয়া যায় এবং আমি এখানে অন্যান্য পোস্টগুলিতে কয়েকটি উল্লেখ করেছি। এছাড়াও স্প্রিঞ্জার ব্রিফ সিরিজে স্প্রিঞ্জারের সাথে লেইস গুন্টারের মনোগ্রাফ শিগগিরই প্রকাশিত হবে। আমি সেই বইটিতে তার সহকারী ছিলাম।

— মাইকেল আর চেরনিক
সূত্র