আর-এ লজিস্টিক রিগ্রেশনের ফলে নিখুঁত বিচ্ছেদ ঘটে (হ্যাক-ডোনার ঘটনা)। এখন কি?


56

আমি 50 ধারাবাহিক ব্যাখ্যামূলক ভেরিয়েবলগুলি ব্যবহার করে বাইনারি ফলাফলের পূর্বাভাস দেওয়ার চেষ্টা করছি (বেশিরভাগ ভেরিয়েবলের পরিসীমা to )আমার ডেটা সেটটিতে প্রায় 24,000 সারি রয়েছে। আমি যখন আর তে চালাই , তখন আমি পাই:glm

Warning messages:  
1: glm.fit: algorithm did not converge  
2: glm.fit: fitted probabilities numerically 0 or 1 occurred 

আমি অন্যান্য প্রতিক্রিয়াগুলি পড়েছি যেগুলি নিখুঁত পৃথকীকরণ হতে পারে বলে মনে করে, তবে আমি আত্মবিশ্বাসী যে আমার ডেটাতে এটি ঘটেনি (যদিও অর্ধ-সম্পূর্ণ বিচ্ছেদ থাকতে পারে; আমি কীভাবে তা পরীক্ষা করে দেখতে পারি?) । যদি আমি কিছু পরিবর্তনশীল অপসারণ করি তবে "রূপান্তর হয়নি" ত্রুটিটি চলে যেতে পারে। তবে যা হয় তা সবসময় হয় না।

আমি একটি bayesglmফাংশনে একই ভেরিয়েবলগুলি ব্যবহার করার চেষ্টা করেছি এবং একই ত্রুটি পেয়েছি।

এখানে ঠিক কী চলছে তা বের করার জন্য আপনি কী পদক্ষেপ গ্রহণ করবেন? কোন ভেরিয়েবলগুলি সমস্যা তৈরি করছে তা আপনি কীভাবে আবিষ্কার করবেন?


5
আপনি কেন আত্মবিশ্বাসী যে বিচ্ছেদ ঘটছে না? ইন কাগজ , তারা যুক্তি দেন যে বিচ্ছেদ "একটি সাধারণ সমস্যা, এমনকি যখন নমুনা আকার বড় এবং ভবিষ্যতবক্তা সংখ্যা ছোট" হয়bayesglm
ডেভিড জে হ্যারিস

2
আরেকটি চিন্তাভাবনা: bayesglmএকটি পূর্ব যোগ করে পৃথকীকরণ এড়ানোর চেষ্টা করে, তবে 24,000 সারি দিয়ে সম্ভবত পূর্বের সম্ভাবনাটি ভেসে যায়। সংকুচিত হওয়ার চেষ্টা করুন prior.scale, সম্ভবত প্রচুর পরিমাণে। স্বাধীনতার পূর্বের ডিগ্রিগুলি বাড়ানোর বিষয়েও বিবেচনা করুন, যা বিচ্ছেদের সাথে যুক্ত বড় মূল্যবোধকে বাতিল করতে সহায়তা করবে।
ডেভিড জে হ্যারিস

ডেভিড পরামর্শের জন্য ধন্যবাদ। আমি মনে করি না যে বিচ্ছেদ ঘটছে কারণ আমি যখন প্রত্যেকটি ব্যাখ্যামূলক ভেরিয়েবলকে সাজিয়ে রাখি, নির্ভরশীল ভেরিয়েবলটি ব্যাখ্যামূলক ভেরিয়েবলের উচ্চ বা নিম্ন মানের জন্য সর্বদা সত্য বা মিথ্যা হয় না। যতক্ষণ না এটি বিভাজন হিসাবে বিবেচনা করা হয়: নির্ভরশীল পরিবর্তনশীল সমস্ত x7> 32 এর ক্ষেত্রে সত্য তবে 10 ক্ষেত্রে x7 কেবল> 32 is লজিস্টিক রিগ্রেশন এর বাইরের বিচ্ছেদ যাচাই করার কোনও উপায় আছে কি? অথবা দেখুন কোন পরিবর্তনশীল বিচ্ছেদ ঘটায়? আমি আপনার বেইসগ্ল্যাম পরামর্শগুলি চেষ্টা করেছি (আমি পূর্বের স্কেল 1 এবং পূর্বের দিকে ইনফ থেকে পূর্বে সেট করেছি) এবং এখনও হক ডোনারের ত্রুটি পেয়েছি।
ডিসক


"কোন ভেরিয়েবলগুলি সমস্যা তৈরি করছে তা আপনি কীভাবে আবিষ্কার করবেন?" বাইনারি-অনুসন্ধান সর্বদা একটি ভাল ফলব্যাক। আপনার কেবল 50 টি ভেরিয়েবল রয়েছে, সুতরাং যদি এটি সম্পূর্ণরূপে একটি পৃথক ভেরিয়েবল দ্বারা পৃথক করা হয় তবে 6 পুনরাবৃত্তিগুলি অপরাধীকে খুঁজে পাবে। যদি এটি দুটি পরিবর্তনশীল হয় তবে সর্বাধিক 49 + 6 = 55 পুনরাবৃত্তি এটি খুঁজে পাবে, সবচেয়ে খারাপ ক্ষেত্রে-
smci

উত্তর:


55

এত বড় ডিজাইনের স্পেসের সাথে ( !) পৃথকভাবে নেওয়া কোনও ভেরিয়েবলের বিচ্ছেদ না করে নিখুঁত পৃথকীকরণ পাওয়া সম্ভব। এমনকি ডেভিড জে হ্যারিসের মন্তব্যটিকে আমি দ্বিতীয় বলব যে এটি সম্ভবত।R50

আপনার ক্লাসগুলি আপনার ডিজাইনের জায়গাতে পুরোপুরি আলাদা হয়েছে কিনা তা আপনি সহজেই পরীক্ষা করতে পারেন। এটি একটি লিনিয়ার প্রোগ্রামিং সমস্যা সমাধানে ফোটে। নিরাপদবিনগ্রেশন প্যাকেজে এই 'পরীক্ষার' (শব্দটির পরিসংখ্যানিক অর্থে কোন পরীক্ষা নয়) একটি আর বাস্তবায়ন করা হয়েছে ।

যদি এটির সক্রিয় হয় যে বিচ্ছেদটি আসলেই সমস্যা you পৃথকীকরণের বিরুদ্ধে একে 'শক্তিশালী' করার জন্য ধ্রুপদীটিকে সামান্য পরিবর্তন করে if এটি hlr প্যাকেজে প্রয়োগ করা হয়


4
খুব শীতল এবং দরকারী উত্তর! আমাকে সেই প্যাকেজগুলি খতিয়ে দেখতে হবে। (+1)
পিটার ফ্লুম - মনিকা পুনরায়

1
এফডাব্লুআইডাব্লু এখানে আরও শক্তিশালী অ্যালগরিদমের বর্ণনা: win-vector.com/blog/2012/10/rudie-cant-fail-if-majised
অ্যালেক্স

2
@ অ্যালেক্স: লিঙ্কটির জন্য ধন্যবাদ। খারাপ সূচনার কারণে যদি গ্ল্যাম রূপান্তরিত না হয় তবে আমি দেখতে পারি যে এই পদ্ধতিটি এতে কীভাবে সহায়তা করবে। অন্যদিকে, সমস্যাটি নিখুঁত পৃথকীকরণের কারণে হয়ে থাকে তবে এমএম ধারণা কীভাবে এটিকে মোকাবেলা করবে তা আমার কাছে স্পষ্ট নয়। আমি ভাবছিলাম যে আপনি এটি সম্পর্কে মন্তব্য করতে পারেন কিনা (আমি শেষ পর্যন্ত এটি একটি পৃথক প্রশ্ন হিসাবে পোস্ট করতে পারি)।
ব্যবহারকারী 60

দুর্দান্ত (+1)! আমাকেও সেই প্যাকেজগুলি খতিয়ে দেখতে হবে।
jboman

1
উত্তর @ ব্যবহারকারী 603 এর জন্য ধন্যবাদ! আমি সেফবাইনারিআগ্রেশন ব্যবহার করেছি এবং বিচ্ছিন্নতাটি বেশ কয়েকটি ভেরিয়েবলের সাথে ঘটেছিল। তারপরে আমি এই বিচ্ছেদটির জন্য একটি মডেল দৃust়তা তৈরি করতে hlr প্যাকেজে এমইএল ব্যবহার করার চেষ্টা করেছি। যাইহোক, সহগ বিস্তর বিশাল (যেমনটি স্বাভাবিক গ্ল্যামের মধ্যে বিচ্ছেদ ঘটে তখন তারা হবে) এবং এখানে ডিএফ এবং বিচ্যুতি সংখ্যা রয়েছে: স্বাধীনতার ডিগ্রি: 19112 মোট (অর্থাত নাল); 19063 রেসিডুয়াল নাল ডিভ্যান্স: 24990 রেসিডুয়াল ডিভ্যান্স: 626000 এআইসি: 626000 আপনি কি ভাবেন যে আমি কিছু ভুল করেছি?
ডিসক
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.