লজিস্টিক রিগ্রেশন মডেলগুলি মূল্যায়ন করছে


13

কোনও লজিস্টিক মডেল যথেষ্ট ভাল কিনা তা কীভাবে সিদ্ধান্ত নেবেন সে সম্পর্কে আমার আসল বিভ্রান্তি থেকে এই প্রশ্নটি উঠে আসে। আমার কাছে এমন মডেল রয়েছে যা নির্ভরশীল ভেরিয়েবল হিসাবে গঠিত হওয়ার দু'বছর পরে পৃথক-প্রকল্পের জোড়াগুলির রাজ্য ব্যবহার করে। ফলাফল সফল (1) না (0)। জোড় গঠনের সময় আমার কাছে স্বাধীন ভেরিয়েবল পরিমাপ করা হয়। আমার লক্ষ্যটি এমন একটি পরিবর্তনশীল, যা আমি অনুমান করেছি যে জোড়গুলির সাফল্যের প্রভাব ফেলবে কিনা সেই সাফল্যের উপর, অন্যান্য সম্ভাব্য প্রভাবগুলি নিয়ন্ত্রণ করে for মডেলগুলিতে, আগ্রহের পরিবর্তনশীল তাৎপর্যপূর্ণ।

মডেলগুলি glm()ফাংশনটি ব্যবহার করে অনুমান করা হয়েছিল R। মডেলগুলির গুণমান নির্ণয় করতে, আমি কয়েকটি জিনিস করেছি: glm()আপনাকে ডিফল্টরূপে residual deviance, দি AICএবং BICদিবে। এছাড়াও, আমি মডেলের ত্রুটি হার গণনা করেছি এবং বিনাশিত অবশিষ্টাংশ প্লট করেছি।

  • আমি অনুমান করেছি এমন অন্যান্য মডেলের তুলনায় সম্পূর্ণ মডেলটির একটি ছোট অবশেষে বিচ্যুতি, এআইসি এবং বিআইসি রয়েছে (যা সম্পূর্ণ মডেলটিতে বাসা বাঁধে), যা আমাকে এই মডেলটিকে অন্যদের তুলনায় "আরও ভাল" বলে ভাবতে পরিচালিত করে।
  • মডেলের ত্রুটি-হার মোটামুটি কম, আইএমএইচও ( গেলম্যান এবং হিল হিসাবে, 2007, পিপি 99 ):
    error.rate <- mean((predicted>0.5 & y==0) | (predicted<0.5 & y==1)প্রায় 20%।

এ পর্যন্ত সব ঠিকই. কিন্তু যখন আমি বিন্যৃত অবশিষ্টগুলি প্লট করি (আবার জেলম্যান এবং হিলের পরামর্শ অনুসরণ করে), তখন বিনের একটি বড় অংশ 95% সিআই এর বাইরে পড়ে: বিনড রেসিডুয়ালস প্লট

এই প্লটটি আমাকে ভাবতে পরিচালিত করে যে মডেল সম্পর্কে পুরোপুরি কিছু ভুল আছে। মডেলটি ফেলে দিতে কি আমাকে নেতৃত্ব দেওয়া উচিত? মডেলটি অসম্পূর্ণ তা কি স্বীকার করে নেব তবে তা রাখি এবং আগ্রহের পরিবর্তনশীলের প্রভাবটি ব্যাখ্যা করি? আমি পরিবর্তিত পরিবর্তনশীল বাদ দিয়ে প্রায় খেলনা করেছি, এবং কিছু বদলানো, বিনাশিত অবশিষ্টাংশের প্লটকে সত্যিকারের উন্নতি না করেই।

সম্পাদনা:

  • এই মুহুর্তে, মডেলের একটি ডজন পূর্বাভাসকারী এবং 5 টি ইন্টারঅ্যাকশন প্রভাব রয়েছে।
  • জোড়গুলি একে অপরের তুলনায় "অপেক্ষাকৃত" স্বতন্ত্র যে এগুলি সমস্ত অল্প সময়ের মধ্যে গঠিত হয় (তবে কঠোরভাবে বলা হয় না, সমস্ত একই সাথে) এবং সেখানে প্রচুর প্রকল্প (13 কে) এবং প্রচুর ব্যক্তি (19 কে) রয়েছে ), সুতরাং প্রকল্পগুলির ন্যায্য অনুপাত কেবলমাত্র একজনের সাথে যোগ দেয় (প্রায় 20000 জোড়া রয়েছে)।

2
Y

1
আপনি যা বলছেন তার উপর ভিত্তি করে, নমুনার আকারটি কোনও সমস্যা বলে মনে হচ্ছে না, কারণ আমার প্রায় 20000 হাজার জোড়া রয়েছে (যার মধ্যে প্রায় 20% সফল)।
এন্টোইন ভার্নেট

উত্তর:


11

শ্রেণিবদ্ধকরণ নির্ভুলতা (ত্রুটি হার) হ'ল একটি অযৌক্তিক স্কোরিং নিয়ম (একটি বগাস মডেল দ্বারা অনুকূলিতকরণ), স্বেচ্ছাসেবী, বিচ্ছিন্ন এবং কারচুপি করা সহজ। এই প্রসঙ্গে এটি প্রয়োজন হয় না।

আপনি কতটা ভবিষ্যদ্বাণী করেছিলেন তা জানাননি। মডেল ফিট মূল্যায়নের পরিবর্তে আমি কেবলমাত্র মডেলটিকে ফিট করতে প্ররোচিত হব। একটি আপস পদ্ধতি হ'ল ধারণা করা যে মিথস্ক্রিয়াগুলি গুরুত্বপূর্ণ নয় এবং ক্রমাগত ভবিষ্যদ্বাণীকারীদের রিগ্রেশন স্প্লাইস ব্যবহার করে অরেখার হতে দেয়। আনুমানিক সম্পর্কগুলি প্লট করুন। আর এর rmsপ্যাকেজটি এগুলি তুলনামূলকভাবে সহজ করে তোলে। আরও তথ্যের জন্য http://biostat.mc.vanderbilt.edu/rms দেখুন ।

আপনি "জোড়া" এবং আপনার পর্যবেক্ষণগুলি স্বাধীন কিনা তা বিশদভাবে বর্ণনা করতে পারেন।


যদি আমি সঠিকভাবে বুঝতে পারি তবে আপনার পরামর্শটি হ'ল অবশিষ্টাংশের চক্রান্তের দিকে মনোনিবেশ করা এবং অন্য কিছু করার আগে এইটি সরাসরি পাওয়া, অবশেষে রিগ্রেশন স্প্লাইস ব্যবহার করে, আমি কি সঠিক? আমি কতগুলি ভবিষ্যদ্বাণী রয়েছে এবং জোড়গুলি "তুলনামূলকভাবে" স্বতন্ত্র তা নির্ধারণ করার জন্য আমি প্রশ্নটি সম্পাদনা করেছি।
এন্টোইন ভার্নেট

হাই @ ফ্র্যাঙ্ক আপনি কেন বলছেন শ্রেণিবদ্ধকরণের নির্ভুলতা একটি খারাপ পদ্ধতি? এটি কি কারণ এখানে, একই ডেটা যেখানে মডেল উত্পন্ন হয় মূল্যায়ন?
পিটার ফ্লুম - মনিকা পুনরায়

2
χ2c

2
না, আমি বোঝাতে চাইছি ধারাবাহিক ভবিষ্যদ্বাণীকারীরা সীমিত কিউবিক স্প্লাইনস (প্রাকৃতিক স্প্লাইনস) ব্যবহার করে একাধিক পদে প্রসারিত করে লগ বিজোড়ন স্কেলগুলিতে অ লাইন অনারলাইন পরিচালনা করতে অনুমতি দেবেন। তারপরে প্রতিটি ভবিষ্যদ্বাণীকের আংশিক প্রভাব সম্পর্কে জানতে আনুমানিক রূপান্তরগুলির পরিকল্পনা করুন।
ফ্রাঙ্ক হ্যারেল

1
ইনপুট জন্য ধন্যবাদ, এটি সত্যিই সহায়ক ছিল। ডেটাটির সাথে আরও গভীরতার দিকে গিয়ে আমি বুঝতে পেরেছিলাম যে আমার সাথে কোলাইনারিটি ইস্যু রয়েছে (যদিও আমার সাথে জোড়ায় কোনও উচ্চতর সম্পর্ক নেই)।
এন্টোইন ভার্নেট

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.