লজিস্টিক রিগ্রেশন জন্য ডায়াগনস্টিকস?


74

লিনিয়ার রিগ্রেশন এর জন্য, আমরা লিনিয়ার রিগ্রেশন অনুমান লঙ্ঘন করা হয়েছে কিনা তা পরীক্ষা করতে ডায়াগনস্টিক প্লটগুলি (রেসিডুয়াল প্লটস, নরমাল কিউকিউ প্লট ইত্যাদি) পরীক্ষা করতে পারি।

লজিস্টিক রিগ্রেশন এর জন্য, আমার এমন সংস্থানগুলি খুঁজে পেতে সমস্যা হচ্ছে যেগুলি লজিস্টিক রিগ্রেশন মডেলকে কীভাবে ফিট করতে পারে তা নির্ধারণ করে। জিএলএমের জন্য কিছু কোর্স নোট খনন করে, এটি কেবলমাত্র বলে যে অবশিষ্টাংশগুলি পরীক্ষা করা কোনও লজিস্টিক রিগ্রেশন ফিটের জন্য নির্ণয় করার জন্য সহায়ক নয়।

ইন্টারনেটের আশেপাশে, বিভিন্ন "ডায়াগনোসিস" পদ্ধতি রয়েছে যেমন মডেল বিচ্যুতি পরীক্ষা করা এবং চি-স্কোয়ার্ড পরীক্ষা করা, তবে অন্যান্য উত্স বলে যে এটি অনুপযুক্ত এবং আপনার হোস্টার-লেমশো উপকারের উপযুক্ততা করা উচিত পরীক্ষা। তারপরে আমি অন্যান্য উত্সগুলি পেয়েছি যা জানিয়েছে যে এই পরীক্ষাটি প্রকৃত গ্রুপিং এবং কাট-অফ মানগুলির উপর নির্ভরশীল হতে পারে (বিশ্বাসযোগ্য নয়)।

সুতরাং কিভাবে একটি লজিস্টিক রিগ্রেশন মাপসই করা উচিত?


1
Stats.stackexchange.com/questions/29271/… বা stats.stackexchange.com/questions/44643/… এর সম্ভাব্য সদৃশ (বা বিশেষ কেস) , যদিও তাদের দুজনেরই উত্তর নেই যা সত্যই এটি আপনার জন্য সমাধান করবে।
পিটার এলিস

1
আমি আপনাকে স্কট মেনার্ডের মনোগ্রাফটি পড়ার পরামর্শ দিচ্ছি, যা খুব বেশি দিন আগে ওয়েবে সম্পূর্ণরূপে পাওয়া যায়।
Rolando2

2
লজিস্টিক রিগ্রেশন জন্য উপযুক্ত পদক্ষেপের সদ্ব্যবহারের বিষয়ে এই প্রশ্নটি সহায়ক হতে পারে (যদিও ফিটের সার্থকতা অবশ্যই মডেল ডায়াগনস্টিক্সের কেবলমাত্র একটি ছোট অংশ): stats.stackexchange.com/questions/3559/logistic-regression- which-pseudo-r- স্কোয়ার-পরিমাপ-এর-থেকে-রিপোর্ট-কক্স / 3570
স্টিফান কোলাসা

উত্তর:


39

রাষ্ট্রবিজ্ঞানের জার্নালগুলি থেকে লজিস্টিক রিগ্রেশন মডেলগুলির ফিটের মূল্যায়ন করার জন্য আমি কয়েকটি নতুন কৌশলগুলি পেয়েছি:

  • গ্রিনহিল, ব্রায়ান, মাইকেল ডি ওয়ার্ড এবং অড্রে স্যাকস। 2011. বিচ্ছেদ প্লট: বাইনারি মডেলগুলির ফিটের মূল্যায়নের জন্য একটি নতুন ভিজ্যুয়াল পদ্ধতি। আমেরিকান জার্নাল অফ পলিটিকাল সায়েন্স 55 (4): 991-1002
  • এসেরে, জাস্টিন এবং অ্যান্ড্রু পিয়ার্স। 2012. বাইনারি-নির্ভরশীল ভেরিয়েবল মডেলগুলিতে ভুলবোধের জন্য ফিট মান এবং টেস্টিংয়ের মূল্যায়ন। রাজনৈতিক বিশ্লেষণ 20 (4): 480-500 । প্রিপ্রিন্ট পিডিএফ এখানে

এই উভয় কৌশলই গডনেস-অফ-ফিট পরীক্ষাগুলি (হোসমার এবং লেমশোর মতো) প্রতিস্থাপন এবং সম্ভাব্য ভুল-স্পেসিফিকেশন (বিশেষত সমীকরণের অন্তর্ভুক্ত ভেরিয়েবলগুলিতে অ-লিনিয়ারিটি) সনাক্ত করতে পারে pur এগুলি বিশেষত দরকারী কারণ ফিটের টিপিক্যাল আর-স্কোয়ার ব্যবস্থাগুলি প্রায়শই সমালোচিত হয়

উপরের উপরের দুটি কাগজই পূর্বাভাসের সম্ভাব্যতা বনাম প্লটগুলিতে পর্যবেক্ষণের ফলাফলগুলি ব্যবহার করে - এই জাতীয় মডেলগুলিতে কীসের অবশিষ্টাংশের অস্পষ্ট বিষয়টি কিছুটা এড়ানো যায় । অবশিষ্টাংশগুলির উদাহরণগুলি লগ-সম্ভাবনা বা পিয়ারসনের অবশিষ্টাংশগুলিতে অবদান থাকতে পারে (আমি বিশ্বাস করি যদিও আরও অনেকগুলি রয়েছে)। আর একটি পরিমাপ যা প্রায়শই আগ্রহী (যদিও অবশিষ্টাংশ নয়) হ'ল ডিএফবেটার (মডেলটি থেকে কোনও পর্যবেক্ষণ বাদ দেওয়া হলে একটি গুণফলের প্রাক্কলন পরিমাণের পরিমাণ)। অন্যান্য সম্ভাব্য ডায়াগনস্টিক পদ্ধতির পাশাপাশি লজিস্টিক রিগ্রেশন ডায়াগনস্টিক্সে এই ইউসিএলএ পৃষ্ঠার জন্য স্টাটার উদাহরণ দেখুন ।

আমার কাছে এটি সহজ নয়, তবে আমি বিশ্বাস করি শ্রেণিবদ্ধ এবং সীমাবদ্ধ নির্ভরশীল ভেরিয়েবলগুলির জন্য জে স্কট লংয়ের রিগ্রেশন মডেলগুলি একটি সহজ পদ্ধতিতে এই সমস্ত ডায়াগনস্টিক পদক্ষেপের পর্যাপ্ত বিবরণে যায়।


2
লজিস্টিক রিগ্রেশন জন্য অন্যান্য বইয়ের বালতি লোড রয়েছে (কমপক্ষে সম্পূর্ণ না হলেও কিছু অংশে)। এগ্র্রেস্টির বিভিন্ন শ্রেণিবদ্ধ ডেটা বিশ্লেষণের পাঠ্য বই, স্কট মেনার্ড, হোসমার এবং লেমেশো এবং ফ্রাঙ্ক হ্যারেলের আরএমএস বই হ'ল আমি বিভিন্ন ফোরামের দ্বারা এই ফোরামে প্রস্তাবিত দেখেছি।
অ্যান্ডি ডাব্লু

আপনার উত্তর করার জন্য আপনাকে ধন্যবাদ। আমি অনুমান করি যে আমার প্রশ্নের কোনও সহজ উত্তর নেই। আমি আপনার প্রস্তাবনা একবার দেখে নেব। চিয়ার্স।
ialm

23

প্রশ্নটি যথেষ্ট উত্সাহিত হয়নি। মডেল ডায়াগনস্টিকগুলি যেমন চালানোর জন্য একটি কারণ থাকতে হবে

  • মডেলটিকে আরও উন্নত করতে পরিবর্তন করার সম্ভাবনা
  • কোন পরীক্ষাগুলি ব্যবহারের নির্দেশনা জেনে নেই (যেমন, অ-লৈখিকতা বা মিথস্ক্রিয়া পরীক্ষা)
  • P

বীজগণিতীয় রিগ্রেশন স্পেসিফিকেশনের (যেমন, সাধারণ রৈখিক মডেলগুলিতে অবশিষ্টাংশের বিতরণ পরীক্ষা করে দেখার ক্ষেত্রে) দৃষ্টিকোণ সম্পর্কিত বিষয়গুলি পরীক্ষা করা বাদে, মডেল ডায়াগনস্টিকগুলি আমার মতে যত সমস্যার সমাধান করতে পারে তত সমস্যা তৈরি করতে পারে। এটি বাইনারি লজিস্টিক মডেলের ক্ষেত্রে বিশেষত সত্য কারণ এটির কোনও বিতরণযোগ্য ধারণা নেই।

সুতরাং সাধারণত মডেলটি নির্দিষ্ট করে সময় ব্যয় করা ভাল, বিশেষত ভেরিয়েবলগুলি শক্তিশালী বলে মনে করা লাইনারিটি না ধরে রাখার জন্য যার কোনও পূর্ব প্রমাণ প্রমাণিত করে না যে লাইনারিটি থাকে। কিছু ক্ষেত্রে আপনি এমন একটি মডেল প্রি-সুনির্দিষ্ট করতে পারেন যা অবশ্যই ফিট করতে হবে, যেমন, যদি ভবিষ্যদ্বাণীকারীদের সংখ্যা কম হয় বা আপনি যদি সমস্ত ভবিষ্যদ্বাণীকারীকে ননলাইনার হতে দেন এবং (সঠিকভাবে) কোনও ইন্টারঅ্যাকশন অনুমান করেন না।

মডেল ডায়াগনস্টিক্সকে যে মডেলটি পরিবর্তন করতে ব্যবহার করা যেতে পারে সে অনুভূত মডেলটির অনিশ্চয়তা সঠিকভাবে অনুমান করার জন্য বুটস্ট্র্যাপ লুপের মধ্যে সেই প্রক্রিয়াটি চালানো উচিত।


4
আমি একমত যে মডেল ডায়াগনস্টিক্সের মডেলিংয়ের উদ্দেশ্য থেকেই উচিত। যাইহোক, আমি আপনার খোলার অনুচ্ছেদ থেকে ধারণা পেয়েছি যে আপনি আমাদের মনে করেন যে আমরা যে মডেলগুলিতে ডেটার সাথে ফিট করি সেগুলি পরীক্ষা করা উচিত নয়। আমি পুরোপুরি নিশ্চিত যে এটি আপনার মনে ছিল তা নয় । উপরন্তু, বাইনারি লজিস্টিক মডেল অবশ্যই নেই distributional অনুমানের আছে! (প্রতিক্রিয়াটির জন্য কেবল দুটি মান বিদ্যমান বলে সর্বাধিক সুস্পষ্ট বিষয়)
সম্ভাব্যতা

3
Y এর পক্ষে কেবলমাত্র 2 টি নির্দিষ্ট সম্ভাব্য মান রয়েছে তা ধরে নেওয়া ছাড়া, বাইনারি লজিস্টিক মডেলের কোনও দূরত্ব নেই। অনুমানের। আমি ব্যক্তিগতভাবে লজিস্টিক রিগ্রেশন সহ ডায়াগনস্টিক প্লটগুলি প্রায়শই ব্যবহার করি না, পরিবর্তে নমুনার আকার আমাদের পরীক্ষা করার জন্য বিলাসিতা দেয় এমন কোনও উপায়ে ডেটা ফিট করার জন্য যথেষ্ট নমনীয় এমন মডেলগুলি নির্দিষ্ট করে তা বেছে নেওয়া উচিত। ওএলএস-এ আমি যে ডায়াগনস্টিক প্লটটি ব্যবহার করি তা হল অবশিষ্টাংশের স্বাভাবিকতার জন্য কিউকি প্লট।
ফ্র্যাঙ্ক হ্যারেল

একটি সাধারণ রৈখিক মডেল দৃষ্টিকোণ থেকে, লজিস্টিক মডেল দ্বিপদী বিতরণ (বার্নোল্লি বিতরণ) থেকে উত্থিত হয়। তবে তারপরেও, অবশিষ্টাংশগুলি ব্যাখ্যা করা হার is
নতুন_তো_ এই

বিতরণ সম্পর্কে যখন এলোমেলো পরিবর্তনশীল মাত্র দুটি মান গ্রহণ করতে পারে (যেমন, বের্নোল্লি বিতরণ) সহায়ক নয় কারণ পর্যবেক্ষণগুলি স্বতন্ত্র না হলে বিতরণীয় ধারণাটি ভুল হতে পারে এমন কোনও উপায় নেই।
ফ্র্যাঙ্ক হ্যারেল

1
@ ফ্র্যাঙ্কহারেল আমি বুঝতে পারি যে আপনি এখানে কী বিষয়ে কথা বলছেন তা আপনি জানেন তবে আপনার পোস্ট / মন্তব্যগুলি থেকে সমগ্র সম্প্রদায়ের কাছে এটি স্পষ্ট হবে বলে মনে করি না যে লিনিয়ার ভবিষ্যদ্বাণীটির ভুল-স্পেসিফিকেশন (বা এমনকি কোনও অ্যাডেটিভ প্রেডিক্টর একটিতে) গ্যাম কাঠামো) লজিস্টিক রিগ্রেশন জন্য সমস্যা সৃষ্টি করতে পারে। অনেকে যেমন প্রশংসা করতে পারে না যে এটি ডেটা-তে স্বতন্ত্রতা তৈরি করে, যেমনটি আপনি বলেছেন। যখন শিক্ষার্থীরা প্রথমে লিনিয়ার প্রতিরোধের মুখোমুখি হয়, তখন তারা রৈখিক ভবিষ্যদ্বাণীটির ভুল ব্যাখ্যা এবং ত্রুটি বিতরণের ভুল বান্ধবীর মধ্যে পার্থক্য না করেই অবশিষ্টাংশগুলি পরিদর্শন করতে শেখে।
জ্যাকব সোসোলার

5

এই থ্রেডটি বেশ পুরানো, তবে আমি ভেবেছিলাম যে এটি যুক্ত করা কার্যকর হবে কারণ সম্প্রতি, আপনি কোনও জিএল (এম) এম এর অবশিষ্টাংশকে একটি মানক স্থানে রূপান্তর করতে DHARMa R প্যাকেজটি ব্যবহার করতে পারেন । একবার এটি হয়ে গেলে, আপনি দৃশ্যমানভাবে পরীক্ষা / পর্যালোচনা করতে পারেন যেমন বিতরণ থেকে বিচ্যুতি, ভবিষ্যদ্বাণীকের উপর অবশিষ্টাংশ নির্ভরতা, ভিন্ন ভিন্ন উপায়ে বা স্বতঃসংশোধন স্বাভাবিকভাবে। পরিশ্রমের উদাহরণগুলির জন্য প্যাকেজ ভিগনেট দেখুন , সিভিতে অন্যান্য প্রশ্নগুলি এখানে এবং এখানে দেখুন

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.