লজিস্টিক রিগ্রেশন সাবসেট নির্বাচন কীভাবে করবেন?


47

আমি আর-তে একটি দ্বিপদী পারিবারিক গ্ল্যাম ফিট করছি, এবং আমার কাছে সম্পূর্ণ ব্যাখ্যামূলক ভেরিয়েবল রয়েছে এবং আমার সেরাটি খুঁজে পাওয়া দরকার (একটি পরিমাপটি ভাল হিসাবে আর-স্কোয়ার)। ব্যাখ্যামূলক ভেরিয়েবলের এলোমেলো বিভিন্ন সংমিশ্রণের মধ্য দিয়ে লুপ করতে একটি স্ক্রিপ্ট লেখার সংক্ষিপ্তকরণ এবং তারপরে কোনটি সবচেয়ে ভাল সম্পাদন করে তা রেকর্ডিংয়ে, আমি সত্যিই জানি না কী করব। এবং leapsপ্যাকেজ লাফ থেকে ফাংশনটি লজিস্টিক রিগ্রেশন করে বলে মনে হয় না।

যে কোনো সাহায্য অথবা পরামর্শ অবশ্যই প্রশংসিত হবে।


স্বয়ংক্রিয় অনুসন্ধান সম্পাদন করে এমন ফাংশন রয়েছে। আপনি কটাক্ষপাত থাকা উচিত পদক্ষেপ ফাংশন। : অনুচ্ছেদ 5.4 যে বিন্দু প্রকাশ data.princeton.edu/R/glms.html
ocram

আমি দুঃখিত তবে আমার পোস্টটি এমনভাবে সম্পাদনা করা হয়েছে যাতে এটি আর আমার প্রশ্ন না করে। আমার লজিস্টিক রিগ্রেশন মডেলটিতে আমার 35 টি (26 টি উল্লেখযোগ্য) ব্যাখ্যামূলক ভেরিয়েবল রয়েছে। আমার সর্বোত্তম উপসেট নয়, 8 এর সর্বোত্তম সম্ভাব্য সংমিশ্রণটি প্রয়োজন এবং কোনও পর্যায়েই আমি পদক্ষেপ বা সমস্ত উপ-স্তরের স্টাইল পদ্ধতির প্রতি আগ্রহী ছিলাম না। এই ৮-তে কোনও উইগল রুম নেই। আমি কেবল ভেবেছিলাম যে কারও কাছে আমি জানতে পারি যে আমি কীভাবে 8 টি ব্যাখ্যামূলক ভেরিয়েবলের সমস্ত সংমিশ্রণটি ফিট করতে পারি এবং এটি আমাকে বলতে পারে যে সম্ভাবনাটি সর্বাধিক করে তোলে (আর-স্কোয়ারড ব্রেন ফার্ট সম্পর্কে দুঃখিত তবে এআইসি তখন থেকে প্রাসঙ্গিক নয়) আমার একটি নির্দিষ্ট সংখ্যক প্যারামিটার রয়েছে, 8)।
লেইন্ডার্ট

আপনি আপনার পোস্টের পূর্ববর্তী সংস্করণে ফিরে যেতে পারেন, বা উভয় সম্পাদনা একত্রিত করতে পারেন। আমি নিশ্চিত যে এমপিক্টাস এর চেহারাটি উন্নত করার চেষ্টা করার সময় ভাল উদ্দেশ্য ছিল এবং কেবলমাত্র পরামিতিগুলি খেয়াল করেনি।
সিএল

@ সবাই: আপনাকে অনেক ধন্যবাদ সবশেষে তারা একইরকম উত্তর দেবে এই আশায় আমি শেষ পর্যন্ত অনেকগুলি ভিন্ন জিনিস ব্যবহার করেছি। তারা করেছে। আমি বিএমএ, Bestglm এবং গ্ল্যামনেট প্যাকেজ পাশাপাশি স্টেপ ফাংশন ব্যবহার করেছি। তাদের সকলের সাথে লাগানো মডেলগুলি, এবং বিএমএতে ম্যাক্সকোল = 9 এবং পদক্ষেপকে সেরা মডেল হিসাবে বিবেচনা করার ক্ষেত্রে কোনও তাত্পর্য ছিল না। আমার চারপাশের ক্ষেত্রের বিশেষজ্ঞরা ভেরিয়েবলগুলির সাথে খুব সন্তুষ্ট বলে মনে করেছিলেন এবং অনুভব করেছিলেন যে এটি বেশ প্রগতিশীল। সুতরাং সমস্ত ইনপুট জন্য ধন্যবাদ। আমি সত্যিই সব ব্যবহার।
লেইন্ডার্ট

গ্লোমুলিটি সেরা উপসেট নির্বাচনের জন্য একটি ভাল প্যাকেজও এবং এটি আপনাকে আপনার মডেলটিতে সর্বাধিক এনআরআর ভেরিয়েবল নির্দিষ্ট করতে দেয় এবং একজনকে সমস্ত সম্ভাব্য 1 ম অর্ডার ইন্টারঅ্যাকশন প্রভাবগুলি বিবেচনা করার অনুমতি দেয়
টম ওয়েন্সলিয়ার্স

উত্তর:


28

স্টেপওয়াইজ এবং "সমস্ত সাবসেট" পদ্ধতিগুলি সাধারণত খারাপ। স্টেপওয়াইজ থামানো দেখুন: কেন পদক্ষেপের পদ্ধতিগুলি খারাপ এবং ডেভিড ক্যাসেল এবং আমার নিজের দ্বারা আপনার কী ব্যবহার করা উচিত (আমরা এসএএস ব্যবহার করেছি, তবে পাঠটি প্রযোজ্য) অথবা ফ্র্যাঙ্ক হ্যারেল রেজ্রেশন মডেলিং কৌশলগুলি। আপনার যদি একটি স্বয়ংক্রিয় পদ্ধতি প্রয়োজন হয় তবে আমি লাসো বা এলএআরএর প্রস্তাব দিই। লজিস্টিক রিগ্রেশন জন্য একটি লাসো প্যাকেজ এখানে উপলব্ধ , অন্য আকর্ষণীয় নিবন্ধটি লজিস্টিকের জন্য পুনরাবৃত্ত লাসোতে রয়েছে


6
(+1) আর প্যাকেজগুলির সম্পর্কে, সেখানে গ্ল্যামনেট (সমন্বিত বংশোদ্ভূত আলগো সাথে বাস্তবায়ন F , ফ্রেডম্যান এবং সংঘর্ষ।) এবং দণ্ডিত (কিছু কিছু বৈষম্য রক্ষা করার অনুমতি দেয়)। উল্লেখ্য, এফ। হ্যারেল জিএলএমগুলির জন্য দণ্ডিত এমএল অনুমান সরবরাহ করে ( lrmআরও তথ্যের জন্য দেখুন বা তার আরএমএস পাঠ্যপুস্তক)।
chl

(+1) চমৎকার নিবন্ধ, মনে হচ্ছে লেখক প্রশ্নটির চেয়ে অনেক বেশি এগিয়ে যেতে শুরু করেছেন (প্রথমবার নয় আমি)। @ chl (+1) নিখুঁত বিকল্প পরামর্শ।
দিমিত্রিজ সেলভ

@ chl: গ্ল্যামনেটের জন্য +1, এটি দুর্দান্ত প্যাকেজ।
জাচ

1
@ সিএল ধন্যবাদ! আর এর অন্যতম সমস্যা হ'ল প্যাকেজগুলি ট্র্যাক করা (অনেকগুলি রয়েছে!) এবং যা সর্বোত্তম। টাস্ক ভিউগুলি সাহায্য করে
পিটার ফ্লুম - মনিকা পুনরায়

2
যদি আপনার ভেরিয়েবলগুলি কোলাইনারি হয় তবে গ্ল্যামনেট ব্যবহার করে ইলাস্টিক নেট ব্যবহার করা ভাল, আলফা = 0.5 দিয়ে বলুন, কারণ লাসো এলোমেলোভাবে মডেলের বাইরে উচ্চতর কলিনারি ভেরিয়েবলগুলি লাথি মেরে ঝোঁক দেয়
টম ওয়েনসিলিয়ার্স

15

প্রথমে লজিস্টিক রিগ্রেশনের জন্য উপযুক্ত ধার্মিকতা-মাপসই পদক্ষেপ নয়, একটি তথ্য মানদণ্ড বা , উদাহরণস্বরূপ, একটি ভাল বিকল্প হিসাবে।আই সি বি আই সিR2AICBIC

লজিস্টিক রিগ্রেশন সর্বাধিক সম্ভাবনা পদ্ধতি দ্বারা অনুমান করা হয়, তাই leapsএখানে সরাসরি ব্যবহার করা হয় না। একটি এক্সটেনশন leapsকরার জন্য glm()ফাংশন হয় bestglm (যেমন সাধারণত সুপারিশ অনুসরণ করে, vignettes, সেখানে সঙ্গে পরামর্শ) প্যাকেজ।

আপনি ডেভিড ডাব্লু। হোসমার, বোরকো জোভানোভিচ এবং স্ট্যানলি লেমশো সেরা সাবসেট লজিস্টিক রিগ্রেশন // বায়োমেট্রিক্স খণ্ডের নিবন্ধেও আগ্রহী হতে পারেন । 45, নং 4 (ডিসেম্বর।, 1989), পৃষ্ঠা 1265-1270 (সাধারণত বিশ্ববিদ্যালয়ের নেটওয়ার্কগুলির মাধ্যমে অ্যাক্সেসযোগ্য)।


2
সম্পর্কে আপনার মন্তব্য চেয়ে খারাপ হওয়ার সাধারণভাবে কার্যকর, আপনি ভিন্ন আকারের মডেলগুলির তুলনা না করলে এটি আসলে কোনও পার্থক্য করে না। ওপি স্পষ্টভাবে জানিয়েছে যে তারা কেবল ভেরিয়েবল মডেলের পক্ষে আগ্রহী , তাই এবং সর্বাধিক সম্ভাবনার সাথে মডেলটি বেছে নেওয়ার ক্ষেত্রে ফিরে আসবে। এটি ফিটিংয়ের সমতুল্য । বি আই সি , আই সি 8 বি আই সি আই সি আর 2R2BIC,AIC8BICAICR2
সম্ভাব্যতাব্লোগ

মন্তব্যের জন্য ধন্যবাদ, তবে নীচে chl এর মন্তব্যগুলি ব্যাখ্যা করে যে স্থির সংখ্যক ব্যাখ্যাযোগ্য ভেরিয়েবলগুলি বিপজ্জনক। (আপ?) ভেরিয়েবল স্ট্রিকশন সম্পর্কিত মন্তব্য সম্পর্কে উত্তরটি আগেই হাজির হয়েছিল8
দিমিত্রিজ সেলভ

R2R2 is not an appropriate goodness-of-fit measure for logistic regression take an information criterion AICAIC or BICBIC
এসআইস্লাম

একটি নোট অন bestglm, এটি leapsগণনার জন্য ব্যাকএন্ডে ব্যবহার করে! সুতরাং এটি ডেটাসেটে এনএ থাকলে ব্যর্থ হবে এবং বার্তাটি নিয়ে আসবে Error in leaps.setup(x, y, wt = weights, nbest = nbest, nvmax = nvmax, : NA/NaN/Inf in foreign function call (arg 3) তবে কী মজার বিষয়, আমার ডাটাসেটের কোনও এনএ নেই বরং কিছু শূন্য তবুও এই ফাংশনটি অভিযোগ করে এবং ঠিক উপরের বার্তা দেয় !!
এসআইস্লাম

গ্ল্যামনেটও একটি ভাল এবং এটি এমন মডেলগুলিও করতে পারে যা সমস্ত সম্ভাব্য প্রথম আদেশের ইন্টারঅ্যাকশন প্রভাব বিবেচনা করে
টম ওয়েনসিলিয়ার্স

6

একটি ধারণা হ'ল এলোমেলো বন ব্যবহার করা এবং তারপরে আপনার সর্বোত্তম 8 ভেরিয়েবলগুলি চয়ন করতে ভেরিয়েবলের গুরুত্বের পরিমাপ করে। আরেকটি ধারণা হ'ল মডেলটির জন্য ধারাবাহিকভাবে গুরুত্বপূর্ণ 8 টি ভেরিয়েবলগুলি খুঁজে পাওয়ার জন্য কয়েকশ বার এই প্রক্রিয়াটির পুনরাবৃত্তি করতে "বরুতা" প্যাকেজটি ব্যবহার করা হবে।


@ জ্যাচ আপনি কি বৈশিষ্ট্য নির্বাচন সম্পাদন করতে আরএফগুলির উপর নির্ভর করার পরামর্শ দিচ্ছেন এবং তারপরে একটি জিএলএম প্রয়োগ করুন - এক্ষেত্রে অত্যধিক মানসিকতা বা অত্যধিক-আশাবাদী ঝুঁকি রয়েছে -, বা আরএফ ব্যবহার করার জন্য (বিভিন্ন মানের স্ট্যান্ডার্ড ব্যবস্থাসহ, বা স্বতন্ত্র প্রাসঙ্গিক নির্বাচন) একক সরঞ্জাম হিসাবে?
সিএল

@ সিএইচএল: আমি বৈশিষ্ট্য নির্বাচন সম্পাদন করতে আরএফগুলি ব্যবহার করার পরামর্শ দিচ্ছিলাম এবং তারপরে জিএলএম প্রয়োগ করব। আমি ওভার ফিট করার ঝুঁকি নিয়ে একমত, তবে ওপি জানিয়েছে যে তার ঠিক 8 ভেরিয়েবলের দরকার ছিল।
জাচ

1
@ জ্যাচ "ঠিক আটটি ভেরিয়েবল" ... তারপরে, আপনি পরিবর্তনশীল গুরুত্বের পরিমাপের ভিত্তিতে আগ্রহের সম্ভাব্য পরিবর্তনশীলগুলি কিছুটা নরম-প্রান্তিক করে তুলছেন (যা পারমিটেশন এবং ডাবল রিম্যাম্পলিংয়ের ভিত্তিতে পক্ষপাত মুক্ত বলে মনে করা হচ্ছে) এবং তারপরে এগুলিকে একটি জিএলএম-এ পুনরায় সরিয়ে দিন। আইএমএইচও, আপনি ব্যাগিংয়ের মাধ্যমে কার্যকর ওভারফিটিংয়ের নিয়ন্ত্রণটি ভেঙে ফেলেছেন। এটি ইস্টিলি - তেও হাইস্টি এট আল থেকে বর্ণিত হয়েছে : বৈশিষ্ট্য নির্বাচন, যদি কোনও হয় তবে ক্রস-বৈধকরণ পদ্ধতিতে অবশ্যই অন্তর্ভুক্ত থাকতে হবে (যেখানে ক্রস-বৈধকরণ মডেল কার্য সম্পাদনের মূল্যায়ন অন্তর্ভুক্ত করে)।
সিএল

@ সিএইচএল: এলোমেলোভাবে অরণ্য চালিয়ে বেশ কয়েকটি সময় চালিয়ে আর "প্যাকেজ" "বুরুটা" কি বৈধতা দেয় না? আপনি কি মূলত আমাদের বলছেন যে আমাদের "মেটা-ক্রস-বৈধকরণ" দরকার যেখানে আপনি পরিবর্তনশীল নির্বাচন করেন এবং আপনার মডেলটিকে উপাত্তের এলোমেলো উপগ্রহে ফিট করে?
জাচ

3
@ জ্যাচ আমার বক্তব্যটি ছিল যে ব্যাগিং বা বিশেষত আরএফগুলিতে আপনি অতিরিক্ত সরঞ্জামচেনা থেকে বিরত থাকুন (নির্দিষ্ট পরিমাণে) অতিরিক্ত চাপ দেওয়া থেকে বিরত থাকুন। আপনি যদি আরএফগুলি থেকে ফলাফলগুলি ব্যবহার করেন এবং তারপরে অন্য কোনও মডেল একই ডেটা দিয়ে কীভাবে সম্পাদন করবে তা দেখুন, তবে আপনি সিভি লুপটি ভেঙে ফেলবেন। তবে কেন শ্রেণিবদ্ধের জন্য সরাসরি আরএফ ব্যবহার করবেন না? আর একটি সমাধান হ'ল প্রশিক্ষণ নমুনায় আরএফ ব্যবহার করা এবং তারপরে একটি আউট-আউট নমুনায় জিএলএম প্রয়োগ করা (এটি সম্ভাব্যভাবে ক্রস-বৈধও হতে পারে)।
chl

0

stats::stepফাংশন বা আরও সাধারণ MASS::stepAICফাংশন সমর্থন lm, glm(যেমন লজিস্টিক রিগ্রেশন) এবং aovপরিবারের মডেল।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.