এই প্রশ্নটি সাধারণ এবং দীর্ঘ-বায়ুযুক্ত, তবে দয়া করে আমাকে সহ্য করুন।
আমার অ্যাপ্লিকেশনটিতে, আমার কাছে অনেকগুলি ডেটাসেট রয়েছে, প্রতিটিতে ~ 50,000 বৈশিষ্ট্য এবং একক নির্ভরশীল বাইনারি ভেরিয়েবল সহ 20,000 ডলার ডেটাপয়েন্ট রয়েছে। আমি নিয়মিত লজিস্টিক রিগ্রেশন (আর প্যাকেজ গ্ল্যামনেট ) ব্যবহার করে ডেটাসেটগুলি মডেল করার চেষ্টা করছি
আমার বিশ্লেষণের অংশ হিসাবে, আমি নিম্নরূপ অবশিষ্টাংশ প্লট তৈরি করেছি। প্রতিটি বৈশিষ্ট্যের জন্য, আমি সেই বৈশিষ্ট্যের মান অনুসারে ডেটাপয়েন্টগুলি বাছাই করি, ডেটাপয়েন্টগুলিকে 100 বালতিতে বিভক্ত করি এবং তারপরে প্রতিটি বালতির মধ্যে গড় আউটপুট মান এবং গড় পূর্বাভাস মান গণনা করি। আমি এই পার্থক্য প্লট।
এখানে একটি উদাহরণ অবশিষ্ট অবধি:
উপরের প্লটটিতে বৈশিষ্ট্যটির পরিসর [0,1] রয়েছে (1 টিতে ভারী ঘনত্ব সহ)। আপনি দেখতে পাচ্ছেন, যখন বৈশিষ্ট্যের মান কম থাকে, তখন মডেলটি 1-আউটপুট সম্ভাবনার চেয়ে বেশি পরিমাণে পক্ষপাতদুষ্ট বলে মনে হয়। উদাহরণস্বরূপ, বাম দিকের বালতিতে, মডেল সম্ভাব্যতাটিকে প্রায় 9% দ্বারা বাড়িয়ে তোলে।
এই তথ্যের সাথে সজ্জিত, আমি এই পক্ষপাতদুটির জন্য মোটামুটি সংশোধন করার জন্য বৈশিষ্ট্য সংজ্ঞাটি সোজা পদ্ধতিতে পরিবর্তন করতে চাই। প্রতিস্থাপনের মতো পরিবর্তন
অথবা
কিভাবে আমি এটি করতে পারব? আমি একটি সাধারণ পদ্ধতি খুঁজছি যাতে কোনও মানুষ দ্রুত সমস্ত ~ 50 ডলার প্লটের মাধ্যমে স্ক্রল করে পরিবর্তন করতে পারে এবং সমস্ত ডেটাসেটের জন্য এটি করতে পারে এবং সময়ের সাথে সাথে ডেভলপ হওয়ার সাথে সাথে মডেলগুলি আপ টু ডেট রাখার জন্য প্রায়শই পুনরাবৃত্তি করতে পারে।
একটি সাধারণ প্রশ্ন হিসাবে, এটি কি সঠিক পদ্ধতির? গুগল "লজিস্টিক রিগ্রেশন রেসিডুয়াল অ্যানালাইসিস" এর জন্য অনুসন্ধান করে ভাল ব্যবহারিক পরামর্শ দিয়ে অনেক ফলাফল ফেরত দেয় না। তারা এই প্রশ্নের উত্তরে স্থির হয়ে গেছে বলে মনে হচ্ছে, "এই মডেলটি কি ঠিক ফিট?" এবং উত্তর দেওয়ার জন্য হোসমার-লেমেশোর মতো বিভিন্ন পরীক্ষার অফার দেয়। তবে আমার মডেলটি ভাল কিনা সে সম্পর্কে আমি কোনও চিন্তা করি না, আমি কীভাবে এটি আরও উন্নত করতে পারি তা জানতে চাই!