মডেল নির্বাচন: লজিস্টিক রিগ্রেশন


13

ধরুন আমরা আছে covariates এবং একটি বাইনারি ফলাফল পরিবর্তনশীল । এর মধ্যে কয়েকটি কোভারিয়েট একাধিক স্তরের সাথে শ্রেণিবদ্ধ। অন্যরা অবিচ্ছিন্ন। আপনি কীভাবে "সেরা" মডেলটি বেছে নেবেন? অন্য কথায়, আপনি কীভাবে বেছে নেবেন কোন মডেলটিতে কোন কোভেরেটস অন্তর্ভুক্ত করবেন?x 1 , , x n ynx1,,xny

আপনি কি সহজ লজিস্টিক রিগ্রেশন ব্যবহার করে স্বতন্ত্রভাবে প্রত্যেকটি কোভারিয়েটের সাথে মডেল করবেন এবং একটি গুরুত্বপূর্ণ সংযোগের সাথে এটি নির্বাচন করবেন?y


1
নীচে আমার উত্তর ছাড়াও (বা অন্যরা, যদি তারা আবির্ভূত হয়), নীচে মডেল নির্বাচনের বিষয়ে কিছু ভাল আলোচনা রয়েছে (তবে সেপ্টে
মনিকা পুনরায় স্থাপন করুন

2
আমি এই সাইটে সাম্প্রতিক মন্তব্য থেকে @ জেথেজেলকে উদ্ধৃত করব: "একটি ভাল প্রশ্ন, তবে একটি যা এখানে বেশিরভাগই সেমিস্টার দীর্ঘ বিশ্ববিদ্যালয় কোর্সে পড়াশোনা করেছে এবং কেউ কেউ ক্যারিয়ার অধ্যয়ন করতে ব্যয় করেছেন।" এটি এক ধরনের ব্যক্তির সাথে বসে থাকার মত এবং "এই বিকেলে আপনি আমাকে সোয়াহিলি শেখাতে পারেন?" এমন নয় যে গাং তার উত্তরে ভাল পয়েন্ট দেয় না। এটি কেবল একটি বিস্তৃত অঞ্চল।
রোল্যান্ডো 2

2
এটিও একটি থ্রেড যা খুব নির্দিষ্ট প্রশ্নের জন্য সাধারণত আমার কাছ থেকে কিছু পরামর্শ থাকে: stats.stackex بدل.com / questions / 17068/… আমি নীচে আমার চিন্তাভাবনাও দেব।
ফোমাইট

ঠিক আছে তাই আমি মনে করি আমি কেবল এআইসিকে একটি মানদণ্ড হিসাবে ব্যবহার করব। পূর্ণ মডেলের সর্বনিম্ন এআইসি রয়েছে। এছাড়াও এআইসির একে অপরের থেকে বেশ আলাদা।
থমাস

উত্তর:


10

এটি সম্ভবত কোনও ভাল জিনিস নয়। প্রথমে সমস্ত স্বতন্ত্র কোভারিয়েটগুলির দিকে তাকানো এবং তারপরে তাৎপর্যপূর্ণ এমন একটি মডেল তৈরি করা যুক্তিযুক্তভাবে একটি স্বয়ংক্রিয় অনুসন্ধান পদ্ধতির সমতুল্য। যদিও এই পদ্ধতিটি স্বজ্ঞাত, এই পদ্ধতিটি থেকে তৈরি সূচনাগুলি বৈধ নয় (যেমন, সত্যিকারের পি-মানগুলি সফ্টওয়্যার দ্বারা প্রতিবেদন করা থেকে আলাদা)। সমস্যাটি বড় আকারের আকারে বড় আকারের কোভেরিয়েটগুলির আকারের আকারের হয়। আপনি যদি যাইহোক এটি করেন (এবং, দুর্ভাগ্যক্রমে, অনেক লোকই করেন) তবে আপনি ফলাফলটি মডেলটিকে গুরুত্ব সহকারে নিতে পারবেন না। পরিবর্তে, আপনাকে অবশ্যই একটি সম্পূর্ণ নতুন গবেষণা চালাতে হবে, একটি স্বাধীন নমুনা সংগ্রহ করা এবং এটি পূর্ববর্তী মডেলটিকে ফিট করার জন্য এটি পরীক্ষা করতে হবে। যাইহোক, এর জন্য প্রচুর সংস্থান প্রয়োজন, এবং তদতিরিক্ত, যেহেতু প্রক্রিয়াটি ত্রুটিযুক্ত এবং পূর্ববর্তী মডেল সম্ভবত দুর্বল,প্রচুর সংস্থান নষ্ট করা

আরও ভাল উপায় হ'ল মডেলগুলি আপনার কাছে মূল্যবান আগ্রহের মূল্যায়ন করা। তারপরে এমন একটি তথ্যের মানদণ্ড ব্যবহার করুন যা মডেলগুলির মধ্যে বিচার করার জন্য মডেল নমনীয়তার (যেমন এআইসি) দণ্ডিত করে। লজিস্টিক রিগ্রেশন এর জন্য, এআইসি হ'ল:

AIC=2×ln(likelihood)+2k

যেখানে সেই মডেলটিতে অন্তর্ভুক্ত কোভেরিয়েটের সংখ্যা। আপনি এআইসির ক্ষুদ্রতম মান সহ মডেলটি চান, সমস্ত জিনিস সমান। তবে এটি সর্বদা এত সহজ নয়; বেশিরভাগ মডেলের এআইসির জন্য একই মান থাকলে সতর্কতা অবলম্বন করুন, যদিও কোনওটি সর্বনিম্ন হতে পারে। k

আমি এখানে এআইসির সম্পূর্ণ সূত্র অন্তর্ভুক্ত করি, কারণ বিভিন্ন সফ্টওয়্যার বিভিন্ন তথ্য আউটপুট করে। আপনাকে কেবল সম্ভাবনা থেকেই এটি গণনা করতে হতে পারে, বা আপনি চূড়ান্ত এআইসি, বা এর মধ্যে কিছু পেতে পারেন।


6
আমি এআইসি পছন্দ করি তবে সাবধান থাকুন যে 2 টিরও বেশি প্রাক-নির্দিষ্ট মডেলগুলিতে AIC কে কম্পিউটিং করার ফলে বহুগুণে সমস্যা দেখা দেয়।
ফ্র্যাঙ্ক হ্যারেল

1
@ ফ্র্যাঙ্কহারেল চমৎকার টিপস!
গুং - মনিকা পুনরায়

9

আছে অনেক উপায়ে কি ভেরিয়েবল একটি রিগ্রেশন মডেল, কিছু শালীন কিছু খারাপ, এবং কিছু ভয়ানক মধ্যে যেতে পছন্দ করে নিন। কেউ কেবল স্যান্ডার গ্রিনল্যান্ডের প্রকাশনাগুলি ব্রাউজ করতে পারে, যার মধ্যে অনেকগুলি পরিবর্তনশীল নির্বাচনের উদ্বেগ প্রকাশ করে।

তবে সাধারণভাবে বলতে গেলে আমার কয়েকটি সাধারণ "বিধি" রয়েছে:

  • সফ্টওয়্যার প্যাকেজগুলির মতো অটোমেটেড অ্যালগরিদমগুলি সম্ভবত একটি খারাপ ধারণা।
  • গাং পরামর্শের মতো মডেল ডায়াগনস্টিক কৌশলগুলি ব্যবহার করা আপনার পরিবর্তনশীল নির্বাচনের পছন্দগুলি মূল্যায়নের একটি ভাল মাধ্যম
  • আপনার পরিবর্তনশীল নির্বাচনের পছন্দগুলি অবহিত করার জন্য আপনাকে বিষয়-বিষয় বিশেষজ্ঞ, সাহিত্য অনুসন্ধানকারী, নির্দেশিত অ্যাসাইক্লিক গ্রাফ ইত্যাদির সংমিশ্রণও ব্যবহার করা উচিত।

3
ভাল করে বলুন, বিশেষত 1 এবং 3 পয়েন্টগুলি Model
ফ্র্যাঙ্ক হ্যারেল

3
ভাল রাখুন @ এপিগ্রেড। আমি যদিও একটি পয়েন্ট যোগ করতে হবে। আপনার সমস্যা বড় হয়ে উঠলে অটোমেটেড অ্যালগরিদমগুলি খুব আকর্ষণীয় হয়ে ওঠে। এগুলি কিছু ক্ষেত্রে মডেল নির্বাচন করার একমাত্র সম্ভাব্য উপায়। লোকেরা এখন সম্ভাব্য ভেরিয়েবল এবং লক্ষ লক্ষ পর্যবেক্ষণ সহ বিশাল ডেটা সেট বিশ্লেষণ করছে। 1000-মাত্রিক অন্তর্দৃষ্টিতে বিষয়টির দক্ষতা কেমন? এবং আপনি যা সন্ধান করবেন তা হ'ল আপনি নিজে নিজে এটি (যদিও কোনও বিশ্লেষক সহ) করেন তবে তারা সম্ভবত ভেরিয়েবলগুলি বেছে নেওয়ার জন্য কিছু শর্ট-কাট নিয়ম তৈরি করবে। শক্ত অংশটি সত্যই এই পছন্দগুলিকে কোডিং করছে।
সম্ভাব্যতা

1
পছন্দ করুন সত্যিই, আমি মনে করি প্রচলিত কৌশলগুলি খুব বড় ডেটা সেটগুলির জন্য খুব খারাপভাবে উপযোগী, তবে আরও সম্ভাব্য কৌশলগুলির কাছে ফিরে যাওয়ার প্রবণতা আমাকে শঙ্কিত করে। যদি একটি স্বয়ংক্রিয় অ্যালগরিদম 10 ভেরিয়েবল সহ একটি ডেটা সেটটিকে পক্ষপাত করতে পারে তবে 10,000 এর সাথে এটি কোনও পক্ষপাতিত্ব করতে পারে না। কিছু অংশে এর বিশ্লেষণের চেয়ে বড় ডেটা অধিগ্রহণের বর্তমান জোর আমাকে কিছুটা তুচ্ছ করে তোলে।
ফোমাইট

2
@ প্রোব্যাবিলিটিস্লোগিক একটি গভীরভাবে বিদ্রূপাত্মক মোড়কে, এখন আমি নিজেকে 10% এরও বেশি সম্ভাব্য ভেরিয়েবল> এর সাথে ডেটাসেটের সাথে কাজ করতে
দেখি

2

আপনি কীভাবে "সেরা" মডেলটি বেছে নেবেন?

এই প্রশ্নের উত্তর দেওয়ার জন্য পর্যাপ্ত তথ্য সরবরাহ করা হয়নি; আপনি যদি y এর কার্যকারিতা পেতে চান তবে আপনাকে এমন চাপ প্রয়োগ করতে হবে যা বিভ্রান্তির বিষয়ে জানে reflect আপনি যদি ভবিষ্যদ্বাণী করতে চান তবে এআইসি একটি যুক্তিসঙ্গত পন্থা হবে।

এই পদ্ধতিগুলি একই নয়; প্রসঙ্গটি নির্ধারণ করবে যে ভেরিয়েবলগুলি বেছে নেওয়ার কোন (অনেক) উপায়গুলির মধ্যে কম / কম উপযুক্ত হবে।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.