লজিস্টিক রিগ্রেশন জন্য নমুনা আকার?


26

আমি আমার জরিপের তথ্য থেকে একটি লজিস্টিক মডেল তৈরি করতে চাই। এটি চারটি আবাসিক উপনিবেশের একটি ছোট সমীক্ষা যেখানে 154 জন উত্তরদাতাকে সাক্ষাত্কার দেওয়া হয়েছিল। আমার নির্ভরশীল পরিবর্তনশীল হ'ল "কার্যক্রমে সন্তোষজনক রূপান্তর"। আমি খুঁজে পেয়েছি যে 154 জন উত্তরদাতাদের মধ্যে 73 জন বলেছিলেন যে তারা সন্তোষজনকভাবে কাজটিতে স্থানান্তরিত হয়েছে, বাকিরা তা করেনি। সুতরাং নির্ভরশীল পরিবর্তনশীলটি বাইনারি প্রকৃতির এবং আমি লজিস্টিক রিগ্রেশন ব্যবহার করার সিদ্ধান্ত নিয়েছি। আমার কাছে সাতটি স্বাধীন ভেরিয়েবল (তিনটি ধারাবাহিক এবং চারটি নামমাত্র) রয়েছে। একটি গাইডলাইনে প্রস্তাব দেওয়া হয়েছে যে প্রতিটি ভবিষ্যদ্বাণীকারী / স্বতন্ত্র ভেরিয়েবলের জন্য 10 টি মামলা হওয়া উচিত (অ্যাগ্রেস্তি, 2007)। এই গাইডলাইনটির ভিত্তিতে আমি অনুভব করি যে লজিস্টিক রিগ্রেশন চালানো ঠিক।

আমি কি সঠিক? না হলে দয়া করে আমাকে কীভাবে স্বাধীন ভেরিয়েবলের সংখ্যা নির্ধারণ করবেন তা জানান?


3
আমি থাম্বের নিয়মটি সত্যিই বুঝতে পারি নি যা "প্রতিটি ভবিষ্যদ্বাণীকের জন্য 10 টি কেস" বলে বলেছে (এবং দুর্ভাগ্যক্রমে আমার Agresti রচিত বইটিতে অ্যাক্সেস নেই)। আমার অর্থটি হ'ল: যদি আমার 100 টি বিষয় থাকে যার মধ্যে 10 টি ক্ষেত্রে ( 1গুলি) এবং 90 টি নন-কেস (এর 0গুলি) হয়, তবে বিধিটি বলে "কেবলমাত্র 1 ভবিষ্যদ্বাণী অন্তর্ভুক্ত করুন"। তবে আমি যদি 0এর পরিবর্তে এরগুলির মডেল করি 1এবং তারপরে আমি আনুমানিক প্রতিকূলতার অনুপাতটি গ্রহণ করি? 9 জন ভবিষ্যদ্বাণীকে অন্তর্ভুক্ত করার অনুমতি দেওয়া হবে? এটা আমার বোধগম্য হলো না।
বোস্কোভিচ

প্রিয় আন্দ্রেয়া, আপনি যা বলতে চাইছেন আমি একই কথাটি বলেছি। 154 জন উত্তরদাতাদের মধ্যে 73 টি মামলা রয়েছে (1 টি এবং বাকি 0 টি)। তুমি কি আমার প্রশ্নের উপর কিছুটা আলোকপাত করতে পার? ধন্যবাদ!
ব্রজ-স্ট্যাট

4
একটি ভাষ্য আমি পড়েছি যে ঘটনা এবং অ ইভেন্ট ইভেন্ট সংখ্যা ন্যূনতম তাকান আছে। সুতরাং 10/100 এর উদাহরণে আপনি কীভাবে কোড দিচ্ছেন তা নির্বিশেষে আপনি একজন ভবিষ্যদ্বাণী নিয়ে শেষ হন।
PSj

@psj যে যুক্তিসঙ্গত মনে হয়। যদি আপনার কোন রেফারেন্স আছে?
boscovich

উত্তর:


25

এখানে বেশ কয়েকটি সমস্যা রয়েছে।

সাধারণত, আমরা একটি ন্যূনতম নমুনার আকার নির্ধারণ করতে চাই যাতে পরিসংখ্যানগত শক্তির একটি সর্বনিম্ন গ্রহণযোগ্য স্তর অর্জন করতে পারে । প্রয়োজনীয় নমুনার আকার হ'ল বিভিন্ন কারণের একটি ক্রিয়া, মূলত আপনি যে পরিমাণে প্রভাব 0 (বা আপনি যে নালটি ব্যবহার করছেন তবে 0 সবচেয়ে সাধারণ) থেকে আলাদা করতে সক্ষম হতে চান তার প্রভাব এবং আপনি সেই প্রভাবটি ধরার ন্যূনতম সম্ভাবনা নিতে চাই. এই দৃষ্টিকোণ থেকে কাজ করে, নমুনা আকার একটি শক্তি বিশ্লেষণ দ্বারা নির্ধারিত হয়।

আরেকটি বিবেচনা হ'ল আপনার মডেলের স্থিতিশীলতা (@ কেবিলেট নোট হিসাবে)। মূলত, যেমন ডেটার সংখ্যা আনুমানিক পরামিতি অনুপাত 1 পাসে পায়, আপনার মডেল সম্পৃক্ত হয়ে যাবে, এবং অগত্যা হতে overfit (যদি না আছে, আসলে, সিস্টেমের মধ্যে কোন যদৃচ্ছতা)। থাম্বের 1 থেকে 10 অনুপাতের নিয়মটি এই দৃষ্টিকোণ থেকে আসে। নোট করুন যে পর্যাপ্ত শক্তি থাকা সাধারণত আপনার জন্য এই উদ্বেগটি কভার করবে তবে বিপরীতে নয়।

1 থেকে 10 বিধিটি লিনিয়ার রিগ্রেশন ওয়ার্ল্ড থেকে আসে তবে এটি লজিস্টিক রিগ্রেশনটিতে অতিরিক্ত জটিলতা রয়েছে তা স্বীকৃতি দেওয়া জরুরী। একটি বিষয় হ'ল লজিস্টিক রিগ্রেশন সেরা কাজ করে যখন 1 এবং 0 এর শতাংশগুলি প্রায় 50% / 50% হয় (যেমন @ অ্যান্ড্রিয়া এবং @ পিজেজে উপরের মন্তব্যে আলোচনা হয়েছে)। আরেকটি বিষয় সঙ্গে সংশ্লিষ্ট করা বিচ্ছেদ । এটি হ'ল, আপনি আপনার 1 এর সমস্তগুলি একটি পৃথক ভেরিয়েবলের (বা তাদের কোনও সংমিশ্রণ) এর একটি চূড়ায় এবং 0 এর সমস্তগুলি অন্যান্য চরম আকারে একত্রিত করতে চান না। যদিও এটি একটি ভাল পরিস্থিতির মতো বলে মনে হচ্ছে, কারণ এটি নিখুঁত পূর্বাভাসকে সহজ করে তুলবে, এটি আসলে প্যারামিটারের প্রাক্কলন প্রক্রিয়াটিকে ফুটিয়ে তোলে। (@ স্কোর্টচি এখানে কীভাবে লজিস্টিক রিগ্রেশনটিতে বিচ্ছিন্নতা মোকাবেলা করতে পারেন তার একটি চমৎকার আলোচনা আছে:লজিস্টিক রিগ্রেশন নিখুঁত পৃথকীকরণ মোকাবেলা কিভাবে? ) আরও চতুর্থ এর সাথে, এটি প্রভাবগুলির সত্য মাত্রার ধ্রুবকভাবে ধরে থাকলেও এবং বিশেষত আপনার প্রতিক্রিয়াগুলি ভারসাম্যহীন থাকলেও এটি সম্ভবত আরও বেশি হয়ে যায়। সুতরাং, আপনার প্রতি আইভিতে 10 টিরও বেশি ডেটা প্রয়োজন।

থাম্বের সেই নিয়মটির সাথে একটি শেষ ইস্যুটি হ'ল এটি আপনার চতুর্থ শ্রেণীর অরথোগোনাল । এটি নকশা করা পরীক্ষাগুলির জন্য যুক্তিসঙ্গত, তবে আপনার মতো পর্যবেক্ষণমূলক স্টাডির সাথে আপনার চতুর্থটি মোটামুটি orthogonal কখনও হবে না। এই পরিস্থিতি মোকাবেলার জন্য কৌশল রয়েছে (যেমন, চতুর্থ সংমিশ্রণ বা বাদ দেওয়া, প্রথমে মূল উপাদানগুলির বিশ্লেষণ পরিচালনা করা ইত্যাদি), তবে যদি এটি সমাধান করা না হয় (যা সাধারণ) তবে আপনার আরও ডেটা প্রয়োজন।

তারপরে একটি যুক্তিসঙ্গত প্রশ্ন, আপনার ন্যূনতম এনটি কী হওয়া উচিত, এবং / অথবা আপনার নমুনার আকারটি যথেষ্ট? এর সমাধানের জন্য, আমি আপনাকে পরামর্শ দিচ্ছি যে আপনি @cbeleites আলোচিত পদ্ধতিগুলি ব্যবহার করুন; 1 থেকে 10 রুলের উপর নির্ভর করা অপর্যাপ্ত হবে।


6
আপনি কি "উক্তির জন্য 1 ইস্যু এবং 0 এর শতাংশ প্রায় 50% / 50% হলে লজিস্টিক রিগ্রেশন সবচেয়ে ভাল কাজ করে?" এই বিবৃতিটির জন্য একটি রেফারেন্স সরবরাহ করতে পারেন? আমি নিজেই এই সম্পর্কে ভাবছিলাম, যেহেতু আমার কাছে একটি ডেটাসেট রয়েছে যা 50/50 থেকে খুব দূরে এবং আমি এর প্রভাবগুলি নিয়ে ভাবছি। (থ্রেডটি পুনরুত্থিত করার জন্য দুঃখিত)
ট্রেভর

3
@ ট্র্যাভার, উপযুক্ত হলে কোনও ডাব্লু / পুরানো থ্রেডকে পুনরুত্থিত করতে আমি কোনও সমস্যা দেখছি না। আমি মনে করি আপনি যা খুঁজছেন তা এই উত্তরের উত্তরের রেখা বরাবর কনজুগেটের মাধ্যমে কিছু: অন -ভারসাম্যহীন-নমুনা-বিষয়-যখন-করা-লজিস্টিক-রিগ্রেশন
গুং - মনিকা পুনরায়

2
ট্রেভরের প্রশ্নে +1। আমি বিশ্বাস করি যে লজিস্টিক রিগ্রেশন নতুন ডেটা থেকে উপকৃত হতে থাকবে, এমনকি যদি সেই ডেটা একই রকম হয় (রিটার্ন হ্রাস করেও)। এটাই আসলে এমন কিছু যা আমাকে এলোমেলো বনাঞ্চলের মতো মেশিন লার্নিং কৌশল সম্পর্কে বিরক্ত করেছিল - যে তারা আরও প্রাসঙ্গিক প্রশিক্ষণের ডেটা যুক্ত করে আরও খারাপ হতে পারে। ভারসাম্য খুব গুরুতর হয়ে উঠলে সম্ভবত এমন একটি বিষয় রয়েছে যেখানে সংখ্যার বিবেচনার কারণে লজিস্টিক রিগ্রেশন ভেঙে যায়। এই সম্পর্কে আরও জানতে আগ্রহী হবে।
বেন ওগোরেক

+1, সম্ভবত এটি আপনার উত্তর দ্বারা বোঝানো হয়েছে আমি নিশ্চিত নই, তবে আমি ভাবছি কীভাবে এটি বিভিন্ন স্তরের শ্রেণীবদ্ধ ভেরিয়েবলগুলির জন্য কাজ করে? এটি কি প্রতি স্তরে 10 টি পর্যবেক্ষণ করার পরামর্শ দেওয়া হবে?
বাক্সেক্স

1
এটি থাম্বের একটি নিয়ম, @ বাক্সেক্স, তবে হ্যাঁ, শতাংশের অনুমানের চেয়ে আরও বেশি কিছু করার জন্য আপনার কমপক্ষে ৪৫ টি প্রয়োজন
-

16

আমি সাধারণত একটি 15: 1 নিয়ম ব্যবহার করি ( মডেলের প্রার্থী পরামিতির সংখ্যার জন্য মিনিটের (ইভেন্টগুলি, অ ইভেন্টগুলির অনুপাত) ratio আরও সাম্প্রতিক কাজটিতে দেখা গেছে যে আরও কঠোর বৈধতার জন্য 20: 1 প্রয়োজন। Http://biostat.mc.vanderbilt.edu/rms থেকে লিঙ্ক করা আমার কোর্স হ্যান্ডআউটে আরও তথ্য পাওয়া যেতে পারে , বিশেষত ইন্টারসেপ্টটি অনুমান করার জন্য ন্যূনতম নমুনা আকারের 96 টি যুক্তি। তবে নমুনার আকারের প্রয়োজনীয়তা আরও সংবেদনশীল এবং আরও একটি সাম্প্রতিক কাগজ এটিকে আরও বিস্তৃতভাবে সম্বোধন করে।


14

সাধারণত, খুব কম ক্ষেত্রেই কব্জি হয়। মডেল জটিলতা (পরামিতির সংখ্যা) এর অর্থ মডেলগুলি অস্থির । সুতরাং আপনি যদি আকারের / মডেলের জটিলতার নমুনা ঠিক করেন কিনা তা জানতে চান, আপনি যুক্তিসঙ্গতভাবে স্থিতিশীল মডেল পেয়েছেন কিনা তা পরীক্ষা করে দেখুন।

(অন্তত) দুটি ভিন্ন ধরণের অস্থিরতা রয়েছে:

  1. মডেল পরামিতি প্রশিক্ষণ তথ্য শুধুমাত্র সামান্য ঘোরাতে অনেক পরিবর্তিত হয়।

  2. ভবিষ্যৎবাণী প্রশিক্ষণ ডাটা সামান্য ঘোরাতে প্রশিক্ষিত মডেলের (একই কেস জন্য) অনেক পরিবর্তিত হয়।

আপনি যদি 1 টি পরিমাপ করতে পারেন তবে যদি প্রশিক্ষণের ডেটাটি সামান্য বিভ্রান্ত হয় তবে আপনার মডেল সহগগুলি কতটা আলাদা হয়। মডেলগুলির একটি উপযুক্ত গুচ্ছ গণনা করা যেতে পারে যেমন বুটস্ট্র্যাপ বা (পুনরাবৃত্ত) ক্রস বৈধকরণ প্রক্রিয়া চলাকালীন।

কিছু ধরণের মডেল বা সমস্যার জন্য, বিভিন্ন প্যারামিটারগুলি বিভিন্ন ভবিষ্যদ্বাণীগুলি বোঝায় না। আপনি বুটস্ট্র্যাপের বাইরে বা পুনরাবৃত্ত ক্রস বৈধতার সময় গণনা করা একই ক্ষেত্রে (তারা সঠিক কিনা তা নির্বিশেষে) পূর্বাভাসের প্রকরণটি দেখে সরাসরি অস্থিরতা 2 পরীক্ষা করতে পারেন।


5

কোনও কঠোর নিয়ম নেই, তবে নামমাত্র ভেরিয়েবলগুলির অনেকগুলি বিভাগ না থাকায় আপনি এতক্ষণে সমস্ত স্বতন্ত্র ভেরিয়েবল অন্তর্ভুক্ত করতে পারেন। প্রতিটি নামমাত্র ভেরিয়েবলের জন্য ক্লাসের একটি ছাড়া আপনার সবার জন্য একটি "বিটা" দরকার। সুতরাং যদি নামমাত্র পরিবর্তনশীলটিকে "কাজের ক্ষেত্র" বলা হয় এবং আপনার 30 টি ক্ষেত্র রয়েছে, তবে আপনার 29 বিটা দরকার।

এই সমস্যাটি কাটিয়ে ওঠার এক উপায় এটি বিটাগুলিকে নিয়মিত করার জন্য - বা বড় সহগের জন্য দন্ডিত। এটি নিশ্চিত করতে সহায়তা করে যে আপনার মডেল ডেটাটিকে অত্যধিক মানায় না। এল 2 এবং এল 1 নিয়মিতকরণ জনপ্রিয় পছন্দ।

বিবেচনা করার জন্য অন্য একটি বিষয় হ'ল আপনার নমুনাটি কতটা প্রতিনিধি। আপনি কোন জনসংখ্যার অনুমান করতে চান? জনসংখ্যায় যে নমুনা রয়েছে তাতে আপনার কি বিভিন্ন ধরণের লোক রয়েছে? আপনার নমুনায় "ছিদ্র" থাকলে (উদাহরণস্বরূপ নমুনায় 35-50 বছর বয়সী কোন মহিলা বা উচ্চ আয়ের কর্মী নেই) সঠিক নির্ভুলতা নির্ধারণ করা কঠিন হবে)


4

এখানে মেডক্যালক ওয়েবসাইট ব্যবহারকারীর 14466 এর প্রকৃত উত্তরটি দেওয়া আছে

http://www.medcalc.org/manual/logistic_regression.php

নমুনা আকার বিবেচনা

লজিস্টিক রিগ্রেশন জন্য নমুনা আকার গণনা একটি জটিল সমস্যা, কিন্তু পেডুজি এট আল এর কাজের উপর ভিত্তি করে। (1996) আপনার গবেষণায় অন্তত ন্যূনতম কেস অন্তর্ভুক্ত করার জন্য নিম্নলিখিত গাইডলাইনটির পরামর্শ দেওয়া যেতে পারে। জনসংখ্যায় নেতিবাচক বা ধনাত্মক মামলার অনুপাতের মধ্যে পি সবচেয়ে কম হোক এবং কেভেরিয়েরেটের সংখ্যা (স্বতন্ত্র ভেরিয়েবলের সংখ্যা), তারপরে অন্তত অন্তত অন্তর্ভুক্ত মামলার সংখ্যাটি হ'ল: এন = 10 কে / পি উদাহরণস্বরূপ: আপনি মডেলটিতে অন্তর্ভুক্ত করার জন্য তিনটি কোভারিয়েট রয়েছে এবং জনসংখ্যায় ধনাত্মক মামলার অনুপাত 0.20 (20%) is প্রয়োজনীয় মামলার ন্যূনতম সংখ্যা হ'ল এন = 10 x 3 / 0.20 = 150 যদি ফলাফলের সংখ্যা 100 এর চেয়ে কম হয় তবে আপনাকে লং (1997) এর পরামর্শ অনুসারে এটিকে 100 এ বাড়ানো উচিত।

পেডুজি পি, কনকাতো জে, কেম্পার ই, হোল্ফোর্ড টিআর, ফিনস্টেইন এআর (১৯৯ 1996) লজিস্টিক রিগ্রেশন বিশ্লেষণে প্রতি পরিবর্তনশীল ইভেন্টের সংখ্যার সিমুলেশন অধ্যয়ন। ক্লিনিকাল এপিডেমিওলজির জার্নাল 49: 1373-1379।


সুতরাং এটি স্বাধীন ভেরিয়েবলের প্রতি একই 10 কেস (ফ্লোর সহ)
seanv507

1

কমপক্ষে পাঁচ থেকে নয়টি পর্যন্ত স্বতন্ত্র ভেরিয়েবল অনুসারে পর্যবেক্ষণের সংখ্যা সহ যে কোনও লজিস্টিক মডেল থেকে প্রাপ্ত ফলাফল নির্ভরযোগ্য, বিশেষত তাই যদি ফলাফল পরিসংখ্যানগতভাবে গুরুত্বপূর্ণ হয় (ভিটিংহফ এবং ম্যাককুলোক, ২০০ull)।

ভিটিংহফ, ই।, এবং ম্যাককুলাচ, সিই 2007. লজিস্টিক এবং কক্স রিগ্রেশনে ভেরিয়েবল প্রতি দশ ইভেন্টের নিয়ম শিথিল। আমেরিকান জার্নাল অফ এপিডেমিওলজি, 165 (6): 710–718।


দ্রষ্টব্য যে এটি কঠোরভাবে "স্বাধীন পরিবর্তনশীল প্রতি পর্যবেক্ষণের সংখ্যা" যা প্রশ্নবিদ্ধ নয়, এটি "ইভেন্টগুলির সংখ্যা"। লজিস্টিক রিগ্রেশন জন্য, "ইভেন্ট" এর সংখ্যা হ'ল দুটি ফলাফল শ্রেণীর সর্বনিম্ন ঘন ঘন ক্ষেত্রে ঘটনা সংখ্যা। এটি মোট পর্যবেক্ষণের সংখ্যার 1/2 এর বেশি হবে না এবং কিছু অ্যাপ্লিকেশনগুলিতে এর চেয়ে ভাল চুক্তি কম।
এডএম
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.