কম ইভেন্টের হারের সাথে লজিস্টিক রিগ্রেশন প্রয়োগ করা হচ্ছে


15

আমার একটি ডেটাসেট রয়েছে যাতে ইভেন্টের হার খুব কম ( 40,000 )। আমি এটিতে লজিস্টিক রিগ্রেশন প্রয়োগ করছি। আমি এমন কারও সাথে আলোচনা করেছি যেখানে এটি বেরিয়ে এসেছিল যে লজিস্টিক রিগ্রেশন এত কম ইভেন্টের হারের ডেটাতে ভাল বিভ্রান্তির ম্যাট্রিক্স দেয় না। তবে ব্যবসায়ের সমস্যা এবং এটি সংজ্ঞায়িত করার কারণে, আমি ইভেন্টের সংখ্যা ৪০,০০০ থেকে কোনও বৃহত্তর সংখ্যায় বাড়িয়ে তুলতে পারি না যদিও আমি সম্মতি জানাই যে আমি কিছু জনসংখ্যার লোককে মুছে ফেলতে পারি।12105

বিশেষ করে আমাকে এই সম্পর্কে আপনার মতামত বলুন:

  1. লজিস্টিক রিগ্রেশনের নির্ভুলতা কি ইভেন্টের হারের উপর নির্ভর করে বা কোনও ন্যূনতম ইভেন্টের হারের প্রস্তাব দেওয়া হয়?
  2. লো ইভেন্ট রেট ডেটার জন্য কোনও বিশেষ কৌশল আছে?
  3. আমার মডেলটির নির্ভুলতার জন্য আমার অবিশ্বাস্য জনসংখ্যা মুছে ফেলা কি ভাল হবে?

আমি পরিসংখ্যানগত মডেলিংয়ে নতুন তাই আমার অজ্ঞতা ক্ষমা করুন এবং দয়া করে যে কোনও সম্পর্কিত সমস্যা সম্পর্কে আমি ভাবতে পারি তার সমাধান করুন।

ধন্যবাদ,


3
40000 / 12e5 = 3.3%, এটি আমার কাছে খুব কম হার বলে মনে হয় না।
গাবার্গুলিয়া

1
ধন্যবাদ গা ... এর ক্ষেত্রে লোকেরা কম এবং উচ্চ ইভেন্টের হার নির্ধারণের জন্য আরও প্রসঙ্গের প্রয়োজন, এই ডেটা বীমা খাতের।
আয়ুষ বিয়ানি

উত্তর:


11

আমি আপনার প্রশ্নের উত্তর দিতে চাইছি না:

3 আমার অস্তিত্বের জনসংখ্যা মুছে ফেলা কি আমার মডেলের যথার্থতার জন্য ভাল হবে?

প্রতিটি পর্যবেক্ষণ প্যারামিটার সম্পর্কে কিছু অতিরিক্ত তথ্য সরবরাহ করবে (সম্ভাবনা ফাংশনের মাধ্যমে)। সুতরাং তথ্য মুছে ফেলার কোনও অর্থ নেই, কারণ আপনি কেবল তথ্য হারাবেন।

1 লজিস্টিক রিগ্রেশনের নির্ভুলতা কি ইভেন্টের হারের উপর নির্ভর করে বা কোনও ন্যূনতম ইভেন্টের হারের প্রস্তাব দেওয়া হয়?

প্রযুক্তিগতভাবে, হ্যাঁ: একটি বিরল পর্যবেক্ষণ অনেক বেশি তথ্যবহুল (এটি হ'ল সম্ভাবনা কার্যটি স্টিপার হবে)। যদি আপনার ইভেন্টের অনুপাত 50:50 হয়, তবে একই পরিমাণ ডেটার জন্য আপনি অনেক শক্ত আত্মবিশ্বাস ব্যান্ডগুলি (বা বিশ্বাসযোগ্য অন্তরগুলি যদি আপনি বায়েশিয়ান হচ্ছেন) পেতে পারেন । তবে আপনি আপনার ইভেন্টের হারটি বেছে নিতে পারবেন না (যদি না আপনি কেস-কন্ট্রোল স্টাডি করছেন) তবে আপনাকে যা করতে হবে তা করতে হবে।

2 কম ইভেন্ট রেট ডেটার জন্য কোনও বিশেষ কৌশল আছে?

সবচেয়ে বড় সমস্যাটি দেখা দিতে পারে নিখুঁত পৃথকীকরণ : এটি ঘটে যখন কিছু ভেরিয়েবলের সংমিশ্রণটি সমস্ত অ-ইভেন্টগুলি (বা সমস্ত ইভেন্ট) দেয়: এক্ষেত্রে সর্বাধিক সম্ভাবনার পরামিতি অনুমান (এবং তাদের মান ত্রুটিগুলি) অনন্তের কাছে পৌঁছাবে (যদিও সাধারণত অ্যালগরিদম আগেই বন্ধ হয়ে যাবে)। দুই সম্ভাব্য সমাধান আছে:

ক) মডেল থেকে ভবিষ্যদ্বাণীকারীদের অপসারণ: যদিও এটি আপনার অ্যালগরিদম রূপান্তরিত করবে, আপনি সর্বাধিক ব্যাখ্যামূলক শক্তির সাহায্যে চলকটি সরিয়ে ফেলবেন, সুতরাং আপনার মডেলটি শুরু করার জন্য অতিরিক্ত মানানসই ছিল (যেমন অনেক জটিল ইন্টারেক্টিভ ফিটিং) ।

খ) পূর্ববর্তী বিতরণের মতো কিছু ধরণের দণ্ড ব্যবহার করা, যা অনুমানগুলি আরও যুক্তিসঙ্গত মানগুলিতে ফিরিয়ে দেয়।


+1 আমি কেবল এগুলি যুক্ত করব যে আমি প্রসঙ্গগুলি দেখেছি যেখানে লোকেরা তাদের ডেটা 50:50 এ পুনরায় আলোকিত করেছে। ট্রেডঅফ সামগ্রিক বিস্তৃতি সম্পর্কে কিছু ক্ষয়ক্ষতি এবং সহগের ব্যাখ্যা করতে কিছু অতিরিক্ত অসুবিধা বনাম মডেলটির শ্রেণিবদ্ধকরণের দক্ষতার উন্নতি বলে মনে হচ্ছে (একটি ভাল চৌম্বকটি বেছে নেওয়া হয়েছে বলে ধরে নেওয়া হয়েছে)।
ডেভিড জে হ্যারিস

1
@ ডেভিড: আমি লোকদের পুনরায় ওজন এবং জটিল সিউডো-বুটস্ট্র্যাপ স্কিম ব্যবহার করার কথা শুনেছি যেখানে তারা কেবল উচ্চ-ফ্রিকোয়েন্সি শ্রেণির পুনরায় নমুনা দেয়। এই সমস্ত কৌশলগুলির জন্য, আপনি শেষ পর্যন্ত ডেটা ফেলে দিচ্ছেন (বা তৈরি করছেন)। আমি যুক্তি দিয়ে বলছি যে এটি যদি আপনার মডেলটির উন্নতি করে তবে আপনি সম্ভবত ভুল মডেলটি ফিট করছেন। এখানে আমার মন্তব্যগুলিও দেখুন: stats.stackexchange.com/Qestions/10356/…
সাইমন বায়ার্ন

1) দুঃখিত যদি আমি পরিষ্কার না থাকি: আমি আর এর glmকার্যকারিতা "ওজন" যুক্তি হিসাবে ঘটনাগুলি এবং কোনটিই নয়, সম্পর্কিত আপেক্ষিক প্রভাব পরিবর্তন করার কথা বলছিলাম । খারাপ, এই নিক্ষেপ মত হল অংশ প্রতিটি downweighted ডেটার দূরে নির্দেশ আমি অনুমান, কিন্তু এটি সত্যিই একই জিনিস নয়। 2) যেমনটি আমি বলেছি, এই সিদ্ধান্তের সাথে জড়িত বাণিজ্য রয়েছে। এটি সম্ভবত প্রাসঙ্গিক ক্ষেত্রে সর্বাধিক জ্ঞান অর্জন করে যেখানে জনসংখ্যার নমুনা দেওয়া হচ্ছে এমন সংজ্ঞা দেওয়া হয়নি এবং সত্য ইভেন্টের হারটি শুরু হওয়া অর্থবহ নয়। আমি অবশ্যই বোর্ড জুড়ে এটি সুপারিশ করব না।
ডেভিড জে হ্যারিস

2

অস্থায়ী বা স্থানিক ডেটার জন্য কিছুই না মুছে ফেলার আরও ভাল বিকল্প আছে: আপনি সময় / স্থান জুড়ে আপনার ডেটা একত্রিত করতে পারেন এবং পয়সন হিসাবে গণনাগুলির মডেল করতে পারেন। উদাহরণস্বরূপ, যদি আপনার ইভেন্টটি হয় "এক্স দিবসে আগ্নেয় বিস্ফোরণ ঘটে", তবে অনেক দিনেই আগ্নেয়গিরির অগ্নুৎপাত ঘটবে না। তবে, আপনি যদি দিনগুলিকে সপ্তাহ বা মাসের মধ্যে একত্রে গ্রুপ করেন তবে উদাহরণস্বরূপ "X মাসে X আগ্নেয়গিরির অগ্নুৎপাতের সংখ্যা", তবে আপনি ইভেন্টের সংখ্যা হ্রাস করেছেন, এবং ইভেন্টের বেশিরভাগের ননজারো মান থাকবে।


6
আমাকে বলতে হবে এই পরামর্শটি প্রশ্নের কোনও উত্তর দেয় না। 1) ওপটি স্থানিক বা অস্থায়ী ডেটা নিয়ে কাজ করে এমন পরামর্শে এগুলি তেমন কিছুই নয়। 2) কীভাবে ডেটা একত্রিত করা কোনও অর্থবহ সম্পর্কগুলি সনাক্ত করতে সহায়তা করবে (এটি মূল ইউনিটগুলির তুলনায় কম তথ্য ব্যবহার করে!)
অ্যান্ডি ডব্লিউ

2
এছাড়াও একটি নোট হিসাবে, কোনও পর্যবেক্ষণকৃত সম্পর্ক সামগ্রিক স্তরে ঘটে যাওয়ার জন্য এটি মূল ইউনিটগুলির স্তরে উপস্থিত থাকতে হবে, যদিও সমষ্টিগত স্তরে একটি সম্পর্ক অগত্যা দুটি ভেরিয়েবলের মধ্যে সম্পর্কটি কীভাবে একত্রিত হয়েছে তা প্রতিফলিত করে না স্তর। দেখুন qmrg.org.uk/files/2008/11/38-maup-openshaw.pdf
অ্যান্ডি ডাব্লু

অ্যান্ডির সাথে একমত
আয়ুষ বিয়ানি
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.