সুতরাং আমি আর-তে লজিস্টিক রিগ্রেশন মডেল নিয়ে কাজ করছি statistics যদিও আমি এখনও পরিসংখ্যানগুলিতে নতুন I তবে মনে হচ্ছে আমি এখন পর্যন্ত রিগ্রেশন মডেলগুলির জন্য কিছুটা বোঝাপড়া পেয়েছি, তবে এখনও কিছু আছে যা আমাকে বিরক্ত করছে:
লিঙ্কযুক্ত ছবিটি দেখে আপনি আমার তৈরি মডেলটির জন্য সারাংশ আর্ট প্রিন্ট দেখতে পাবেন। মডেলটি ভবিষ্যদ্বাণী করার চেষ্টা করছে, যদি ডেটাসেটে কোনও ইমেল প্রত্যাবর্তিত হয় বা না (বাইনারি ভেরিয়েবল isRefound
) এবং ডেটাসেটের সাথে দুটি সম্পর্কিত ভেরিয়েবল রয়েছে isRefound
, যথা নাম next24
এবং next7days
- এগুলিও বাইনারি এবং এটি বলে যে কোনও মেল ক্লিক করা হবে পরেরটিতে লগগুলিতে বর্তমান পয়েন্ট থেকে 24 ঘন্টা / পরবর্তী 7 দিন।
উচ্চ পি-মানটি নির্দেশ করা উচিত, মডেল পূর্বাভাসের উপর এই ভেরিয়েবলের প্রভাবটি বেশ এলোমেলো, তাই না? এর ভিত্তিতে আমি বুঝতে পারি না কেন যখন এই দুটি ভেরিয়েবল গণনার সূত্রের বাইরে রেখে যায় তখন মডেলগুলির পূর্বাভাসগুলির যথার্থতা 10% এর নিচে নেমে যায়। যদি এই ভেরিয়েবলগুলি এত কম তাত্পর্য দেখায়, তবে কেন তাদের মডেল থেকে সরানো এত বড় প্রভাব ফেলবে?
শুভেচ্ছা এবং অগ্রিম ধন্যবাদ, রিকিফক্স
সম্পাদনা করুন:
প্রথমে আমি কেবল পরের ২৪ অপসারণ করেছি, যা কম প্রভাব ফেলতে হবে কারণ এটি কোফ বেশ ছোট। যেমনটি প্রত্যাশা করা হয়েছিল, সামান্য পরিবর্তিত হয়েছে - তার জন্য কোনও পিক আপলোড করা হবে না।
পরবর্তী 7 দিনগুলি সরানো মডেলটিতে বড় প্রভাব ফেলেছিল: AIC 200k আপ, যথার্থতা 16% এ নেমে আসবে এবং 73% এ নেমে আসবে
isRefound ~ day + next24
সমস্ত অন্যান্য ভেরিয়েবলগুলি থাকে এবং বাদ দেয় তবে কী হবে?