লজিস্টিক রিগ্রেশন অবশিষ্টাংশ বিশ্লেষণ


12

এই প্রশ্নটি সাধারণ এবং দীর্ঘ-বায়ুযুক্ত, তবে দয়া করে আমাকে সহ্য করুন।

আমার অ্যাপ্লিকেশনটিতে, আমার কাছে অনেকগুলি ডেটাসেট রয়েছে, প্রতিটিতে ~ 50,000 বৈশিষ্ট্য এবং একক নির্ভরশীল বাইনারি ভেরিয়েবল সহ 20,000 ডলার ডেটাপয়েন্ট রয়েছে। আমি নিয়মিত লজিস্টিক রিগ্রেশন (আর প্যাকেজ গ্ল্যামনেট ) ব্যবহার করে ডেটাসেটগুলি মডেল করার চেষ্টা করছি

আমার বিশ্লেষণের অংশ হিসাবে, আমি নিম্নরূপ অবশিষ্টাংশ প্লট তৈরি করেছি। প্রতিটি বৈশিষ্ট্যের জন্য, আমি সেই বৈশিষ্ট্যের মান অনুসারে ডেটাপয়েন্টগুলি বাছাই করি, ডেটাপয়েন্টগুলিকে 100 বালতিতে বিভক্ত করি এবং তারপরে প্রতিটি বালতির মধ্যে গড় আউটপুট মান এবং গড় পূর্বাভাস মান গণনা করি। আমি এই পার্থক্য প্লট।

এখানে একটি উদাহরণ অবশিষ্ট অবধি:

উপরের প্লটটিতে বৈশিষ্ট্যটির পরিসর [0,1] রয়েছে (1 টিতে ভারী ঘনত্ব সহ)। আপনি দেখতে পাচ্ছেন, যখন বৈশিষ্ট্যের মান কম থাকে, তখন মডেলটি 1-আউটপুট সম্ভাবনার চেয়ে বেশি পরিমাণে পক্ষপাতদুষ্ট বলে মনে হয়। উদাহরণস্বরূপ, বাম দিকের বালতিতে, মডেল সম্ভাব্যতাটিকে প্রায় 9% দ্বারা বাড়িয়ে তোলে।

এই তথ্যের সাথে সজ্জিত, আমি এই পক্ষপাতদুটির জন্য মোটামুটি সংশোধন করার জন্য বৈশিষ্ট্য সংজ্ঞাটি সোজা পদ্ধতিতে পরিবর্তন করতে চাই। প্রতিস্থাপনের মতো পরিবর্তন

xx

অথবা

xfa(x)={a if x<a x else

কিভাবে আমি এটি করতে পারব? আমি একটি সাধারণ পদ্ধতি খুঁজছি যাতে কোনও মানুষ দ্রুত সমস্ত ~ 50 ডলার প্লটের মাধ্যমে স্ক্রল করে পরিবর্তন করতে পারে এবং সমস্ত ডেটাসেটের জন্য এটি করতে পারে এবং সময়ের সাথে সাথে ডেভলপ হওয়ার সাথে সাথে মডেলগুলি আপ টু ডেট রাখার জন্য প্রায়শই পুনরাবৃত্তি করতে পারে।

একটি সাধারণ প্রশ্ন হিসাবে, এটি কি সঠিক পদ্ধতির? গুগল "লজিস্টিক রিগ্রেশন রেসিডুয়াল অ্যানালাইসিস" এর জন্য অনুসন্ধান করে ভাল ব্যবহারিক পরামর্শ দিয়ে অনেক ফলাফল ফেরত দেয় না। তারা এই প্রশ্নের উত্তরে স্থির হয়ে গেছে বলে মনে হচ্ছে, "এই মডেলটি কি ঠিক ফিট?" এবং উত্তর দেওয়ার জন্য হোসমার-লেমেশোর মতো বিভিন্ন পরীক্ষার অফার দেয়। তবে আমার মডেলটি ভাল কিনা সে সম্পর্কে আমি কোনও চিন্তা করি না, আমি কীভাবে এটি আরও উন্নত করতে পারি তা জানতে চাই!

উত্তর:


4

লজিস্টিক রিগ্রেশন আপনি সত্যিই পক্ষপাত মূল্যায়ন করতে পারবেন না। লজিজিটিক রিগ্রেশন কেবল লগ প্রতিক্রিয়া বা লগিট স্কোর, লগ (পি / (1-পি)) এর পক্ষপাতহীন বলে আশা করা যায়। অনুপাতগুলি স্কিউ করা হবে এবং তাই পক্ষপাতদুষ্ট দেখায়। লগ প্রতিকূলতার ক্ষেত্রে আপনার অবশিষ্টাংশ প্লট করতে হবে।


আমি কীভাবে বালতিতে লগ-বিজোক্ত অবশিষ্টগুলি একত্রিত করব? গাণিতিক গড়? এটা আমার কাছে একটু আনসেটলিং। স্বজ্ঞাতভাবে, যদি একটি অবশিষ্টাংশ বিশ্লেষণ কোনও পক্ষপাতিত্ব না দেখায়, তবে আমি প্রত্যাশা করি যে যখন মডেল প্রি [y = 1] <0.2 এর পূর্বাভাস দেয়, তখন y এর সম্ভাব্যতা 0.2 এর চেয়ে কমের সাথে 1 সমান হওয়া উচিত। তবে আপনার উত্তর বলে মনে হচ্ছে এটি কেস নয়। আমি কি সঠিকভাবে বুঝতে পারি?
shsh

এটি সম্ভবত একটি মন্তব্য হিসাবে ভাল পোস্ট করা হয়।
সম্ভাব্যতা

না ডেভিড, এটি 0.2 সম্ভাব্যতা ব্যতীত অন্য কিছু বোঝায় না, সম্ভবত আমার সম্পাদনাগুলি এটিকে আরও পরিষ্কার করে দেয়।
জন

দুঃখিত, আমি এখনও কিছুটা বিভ্রান্ত একটি নিরপেক্ষ মডেল সম্পর্কে আমার স্বজ্ঞাত জ্ঞানটি হ'ল যদি মডেলটি যদি বিপুল সংখ্যক ডেটাপয়েন্টের প্রতিটির উপর p = 0.2 পূর্বাভাস দেয় তবে সেই ডেটাপয়েন্টগুলির 20% হ'ল y = 1 হওয়া উচিত। এই বোঝার কি সঠিক? যদি তা হয় তবে মনে হয় আমার চক্রান্ত করার পদ্ধতিটি সঠিকভাবে পক্ষপাত প্রদর্শন করবে। যদি না হয় ... তবে আমি "পক্ষপাত" এই ধারণায় খুব খুশি নই! যদি 0.2 এর একটি নিরপেক্ষ মডেল পড়ার সম্ভাবনা সম্পর্কে y = 1 সম্পর্কে আমাকে কিছু না বলে, তবে পক্ষপাতহীনতা কতটা ভাল?
shsh

হ্যাঁ, 20% এর y = 1 হওয়া উচিত। তবে এটি মারা যাচ্ছে না, এটি কিছু পরিমাণে বন্ধ হয়ে যাবে। সম্ভাবনার জায়গাতে আপনি কোন দিকটি এবং কতটা বন্ধ হয়ে যাবেন বলে মনে করেন? যদি এটি পক্ষপাতহীন হয় তবে এটি .2: 1 বা 0: .2 এর কোথাও সমানে নেমে যাবে। তবে আপনি যে জায়গাগুলির আকারের দ্বারা দেখতে পাচ্ছেন তারা কেবলমাত্র পারে সেজন্য তারা আরও বৃহত্তর অঞ্চলে আরও দূরে থাকবে। লজিট স্পেসে দূরত্বটি সমান + বা - হওয়া উচিত।
জন

2

এটি করার জন্য কোনও সাধারণ সফ্টওয়্যার থাকার সম্ভাবনা নেই। সম্ভবত কারণ রিগ্রেশন সংক্রান্ত সমস্যাগুলি স্থির করার জন্য কোনও সাধারণ তত্ত্ব নেই। অতএব এটি একটি তাত্ত্বিক ভিত্তি ভিত্তিক পদ্ধতির পরিবর্তে "আমি কী করব" প্রকারের উত্তর বেশি।

আপনার উত্পাদিত প্লটটি মূলত 100 টি বিনের সাথে একটি ভিজ্যুয়াল এইচএল পরীক্ষা, তবে বিনিংয়ের পূর্বাভাসের সম্ভাবনার পরিবর্তে একক ভবিষ্যদ্বাণী ব্যবহার করে। এর অর্থ হল আপনার পদ্ধতিটি এইচএল পরীক্ষার কয়েকটি বৈশিষ্ট্যের উত্তরাধিকারী হতে পারে।

আপনার পদ্ধতিটি যুক্তিসঙ্গত মনে হচ্ছে, যদিও আপনার নিজের মানদণ্ডকে "অতিমাত্রায়িত করা" সম্পর্কে সচেতন হওয়া উচিত। আপনার মাপদণ্ডটি ডায়াগনস্টিক হিসাবেও কম দরকারী কারণ এটি অনুমান প্রক্রিয়ার অংশ হয়ে গেছে। এছাড়াও, যখনই আপনি স্বজ্ঞাততা দিয়ে কিছু করেন, আপনার সিদ্ধান্ত গ্রহণের প্রক্রিয়াটি যতটা ব্যবহারিক তত বিশদে লিখে দেওয়া উচিত in এটি কারণ আপনি একটি সাধারণ প্রক্রিয়া বা তত্ত্বের বীজ আবিষ্কার করতে পারেন যা বিকশিত হওয়ার পরে আরও ভাল পদ্ধতির দিকে পরিচালিত হয় (কিছু তত্ত্বের ক্ষেত্রে আরও স্বয়ংক্রিয় এবং অনুকূল)।

আমি মনে করি যে যাওয়ার একটি উপায় হ'ল প্রথমে আপনার তদন্ত করতে হবে এমন প্লটের সংখ্যা হ্রাস করা। এটি করার একটি উপায় হ'ল প্রতিটি ভেরিয়েবলকে কিউবিক স্প্লাইন হিসাবে ফিট করা এবং তারপরে প্লটগুলি অনুসন্ধান করুন যা শূন্য নন রৈখিক অনুমান রয়েছে। ডেটা পয়েন্টের সংখ্যার ভিত্তিতে এটি অ-রৈখিকতার জন্য একটি সহজ স্বয়ংক্রিয় ফিক্স। এটি আপনার মডেলটি 50 থেকে 200 + 50k পর্যন্ত প্রসারিত করবে যেখানে k নটগুলির সংখ্যা। আপনি এটিকে "সত্য" রূপান্তরটির "পরিসংখ্যান টেলর সিরিজ সম্প্রসারণ" প্রয়োগ হিসাবে ভাবতে পারেন।

যদি আপনার ডায়াগনস্টিক স্টিলগুলি এর পরেও খারাপ লাগে তবে আমি ইন্টারঅ্যাকশন শর্তগুলি যুক্ত করার চেষ্টা করব।

আপনার প্রশ্নের অংশগুলি একটি ইন্টারেক্টিভ প্রোগ্রাম লেখার বিষয়ে আরও বেশি মনে হয় যা এখানে তুলনায় স্ট্যাকওভারফ্লো এর ডোমেন। এটি অনুসন্ধানী ডেটা বিশ্লেষণ সরঞ্জামগুলি অনুসন্ধান করতেও কার্যকর হতে পারে কারণ এগুলিতে আপনার "পিগির ব্যাক" বন্ধ করতে পারে এমন বৈশিষ্ট্যগুলির সম্ভাবনা বেশি।


এই প্রতিক্রিয়া জন্য ধন্যবাদ। আমি কিউবিক স্প্লাইন ধারণাটি সন্ধান করব। লিনিয়ার-রিগ্রেশন সেটিংয়ে আমি এই "প্লটগুলিতে নজর দিন এবং বৈশিষ্ট্যগুলি সমন্বয় করুন" পদ্ধতির ব্যবহার করেছি, যেখানে আরও ভাল ফিট কীভাবে পাওয়া যায় তা আরও সুস্পষ্ট বলে মনে হয়েছিল। উদাহরণস্বরূপ, আপনি যদি হকি-স্টিক দেখতে পান তবে এটি স্পষ্ট যে f_a (x) সংশোধন প্রয়োগ করা আরও ভাল ফিট করে। প্রায়শই, সমস্যাযুক্ত ডোমেন থেকে জ্ঞান এই সিদ্ধান্তের সাথে মিলে যায়: আপনি যদি আয় থেকে সুখের পূর্বাভাস দিচ্ছেন, উদাহরণস্বরূপ, এটি আয়ের আয়কে বোধ করবে, যদি না আপনি ভাবেন যে বিলিয়নেয়াররা কোটিপতিদের চেয়ে 1000x সুখী are
shsh

কিন্তু যখন আমি একটি লজিস্টিক রিগ্রেশন সেটিংয়ে স্যুইচ করেছি, তখন বুঝতে পেরেছিলাম যে আমার পদ্ধতিটি কীভাবে স্থানান্তর করতে হবে তা আমি সত্যই নিশ্চিত নই। অতএব এই জমা।
shsh
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.