লজিস্টিক রিগ্রেশন মডেল ভেরিয়েবলগুলির পি-মান অর্থ


9

সুতরাং আমি আর-তে লজিস্টিক রিগ্রেশন মডেল নিয়ে কাজ করছি statistics যদিও আমি এখনও পরিসংখ্যানগুলিতে নতুন I তবে মনে হচ্ছে আমি এখন পর্যন্ত রিগ্রেশন মডেলগুলির জন্য কিছুটা বোঝাপড়া পেয়েছি, তবে এখনও কিছু আছে যা আমাকে বিরক্ত করছে:

লিঙ্কযুক্ত ছবিটি দেখে আপনি আমার তৈরি মডেলটির জন্য সারাংশ আর্ট প্রিন্ট দেখতে পাবেন। মডেলটি ভবিষ্যদ্বাণী করার চেষ্টা করছে, যদি ডেটাসেটে কোনও ইমেল প্রত্যাবর্তিত হয় বা না (বাইনারি ভেরিয়েবল isRefound) এবং ডেটাসেটের সাথে দুটি সম্পর্কিত ভেরিয়েবল রয়েছে isRefound, যথা নাম next24এবং next7days- এগুলিও বাইনারি এবং এটি বলে যে কোনও মেল ক্লিক করা হবে পরেরটিতে লগগুলিতে বর্তমান পয়েন্ট থেকে 24 ঘন্টা / পরবর্তী 7 দিন।

উচ্চ পি-মানটি নির্দেশ করা উচিত, মডেল পূর্বাভাসের উপর এই ভেরিয়েবলের প্রভাবটি বেশ এলোমেলো, তাই না? এর ভিত্তিতে আমি বুঝতে পারি না কেন যখন এই দুটি ভেরিয়েবল গণনার সূত্রের বাইরে রেখে যায় তখন মডেলগুলির পূর্বাভাসগুলির যথার্থতা 10% এর নিচে নেমে যায়। যদি এই ভেরিয়েবলগুলি এত কম তাত্পর্য দেখায়, তবে কেন তাদের মডেল থেকে সরানো এত বড় প্রভাব ফেলবে?

শুভেচ্ছা এবং অগ্রিম ধন্যবাদ, রিকিফক্স

এখানে চিত্র বর্ণনা লিখুন


সম্পাদনা করুন:

প্রথমে আমি কেবল পরের ২৪ অপসারণ করেছি, যা কম প্রভাব ফেলতে হবে কারণ এটি কোফ বেশ ছোট। যেমনটি প্রত্যাশা করা হয়েছিল, সামান্য পরিবর্তিত হয়েছে - তার জন্য কোনও পিক আপলোড করা হবে না।

পরবর্তী 7 দিনগুলি সরানো মডেলটিতে বড় প্রভাব ফেলেছিল: AIC 200k আপ, যথার্থতা 16% এ নেমে আসবে এবং 73% এ নেমে আসবে

এখানে চিত্র বর্ণনা লিখুন


1
আপনার যদি কেবলমাত্র isRefound ~ day + next24সমস্ত অন্যান্য ভেরিয়েবলগুলি থাকে এবং বাদ দেয় তবে কী হবে?
স্মিলিগ

উত্তর:


11

মূলত, দেখে মনে হচ্ছে আপনার কোনও মাল্টিকলাইনারিটির সমস্যা হচ্ছে। এই ওয়েবসাইট থেকে বা উইকিপিডিয়াতে শুরু করে এ সম্পর্কে প্রচুর পরিমাণে সামগ্রী উপলব্ধ।

সংক্ষেপে, দুটি ভবিষ্যদ্বাণীকারী আপনার ফলাফলের সাথে সত্যই সম্পর্কিত বলে মনে হচ্ছে তবে তারা একে অপরের সাথে সম্ভবত অত্যন্ত সংযুক্তও রয়েছে (নোট করুন যে দুটিরও বেশি ভেরিয়েবলের সাথে এখনও শক্তিশালী দ্বিখণ্ডিত পারস্পরিক সম্পর্ক না থাকলে বহুবিধ লম্বা বিষয়গুলি থাকা সম্ভব)। এটি অবশ্যই অনেক অর্থবহ করে তোলে: ২৪ ঘন্টার মধ্যে ক্লিক করা সমস্ত ইমেলগুলিও within দিনের মধ্যে (সংজ্ঞা অনুসারে) ক্লিক করা হয়েছে এবং বেশিরভাগ ইমেলগুলি সম্ভবত ক্লিক করা হয়নি (২৪ ঘন্টা নয় এবং 7 দিনের মধ্যে নয়)।

আপনার উপস্থাপিত আউটপুটে এটির একটি উপায় প্রাসঙ্গিক সহগের জন্য অবিশ্বাস্যভাবে বড় স্ট্যান্ডার্ড ত্রুটিগুলি / সিআইয়ের মাধ্যমে দেখানো হয়েছে (আপনি বিগলিম ব্যবহার করছেন এবং এটি এমনকি ক্ষুদ্রতর গুণাগুণগুলিও অত্যন্ত তাত্পর্যপূর্ণ তা দেখে মনে হচ্ছে আপনার নমুনার আকার যথেষ্ট পরিমাণের চেয়ে বেশি হওয়া উচিত ভাল অনুমান পেতে)। এই ধরণের সমস্যাগুলি সনাক্ত করতে আপনি অন্যান্য জিনিসগুলি করতে পারেন: যুগলভাবে সংযুক্তিগুলি দেখুন, সন্দেহজনক ভেরিয়েবলগুলির মধ্যে কেবল একটিটিকে সরিয়ে ফেলুন (@ নিক সাব্বির পরামর্শ অনুসারে), উভয় ভেরিয়েবলের সম্মিলিতভাবে পরীক্ষার তাত্পর্য।

আরও সাধারণভাবে, উচ্চ পি-মানগুলির অর্থ এই নয় যে এফেক্টটি ছোট বা এলোমেলো তবে এর গুণাগুণটি 0 থেকে আলাদা নয় এমন কোনও প্রমাণ নেই যা এটি খুব বড়ও হতে পারে, আপনি কেবল জানেন না (হয় কারণ নমুনা আকার খুব ছোট বা কারণ মডেলটিতে অন্য কিছু সমস্যা রয়েছে)।


1
মনে রাখবেন যে আপনার পোস্ট করা নতুন আউটপুটটি পরামর্শ দেয় যে কিছু অন্যান্য ভেরিয়েবলগুলিও এতে জড়িত থাকতে পারে (বা এমন একটি সমস্যা আছে যা আমি দেখিনি) কারণ অন্যথায় দুটি ভেরিয়েবলের মধ্যে কেবল একটি অন্তর্ভুক্ত থাকলে আপনি এসই অনেক কম হবেন বলে আশা করবেন ।
গালা

হ্যাঁ ইতিমধ্যে এটি লক্ষ করেছেন, তবে আপনাকে ধন্যবাদ। আপনি আগ্রহী হলে এই কি কারণ হতে পারে তা আপনাকে জানাতে আমি পরবর্তী সময়ে একটি সম্পাদনা করব
10
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.