বিরল ঘটনা লজিস্টিক রিগ্রেশন মোকাবেলা করার কৌশল


27

আমি একটি সীমাবদ্ধ জনসংখ্যার মধ্যে বিরল ঘটনা অধ্যয়ন করতে চাই। যেহেতু আমি কোন কৌশলটি সর্বোত্তমভাবে উপযুক্ত সে সম্পর্কে আমি অনিশ্চিত, তাই আমি এই বিষয়ে সম্পর্কিত টিপস এবং রেফারেন্সগুলির প্রশংসা করব, যদিও আমি এটি ভালভাবে জানি যে এটি মূলত কভার করা হয়েছে। আমি ঠিক জানি না কোথা থেকে শুরু করব।

আমার সমস্যাটি একটি রাজনৈতিক বিজ্ঞান এবং আমার সীমাবদ্ধ জনসংখ্যা রয়েছে ৫১৫,৮৪৩ রেকর্ডস নিয়ে। তারা 513,334 "0" গুলি এবং 2,509 "1" s এর সাথে বাইনারি নির্ভরশীল চলকটির সাথে সম্পর্কিত। আমি আমার "1" গুলি বিরল ইভেন্ট হিসাবে মুদ্রণ করতে পারি যেহেতু তারা জনসংখ্যার কেবল 0.49%।

আমার প্রায় 10 টি স্বতন্ত্র ভেরিয়েবলের একটি সেট রয়েছে আমি "1" এর উপস্থিতি ব্যাখ্যা করার জন্য একটি মডেল তৈরি করতে চাই। আমাদের অনেকের মত, আমি কিং ও জেং এর 2001 এর বিরল ঘটনা সংশোধন সম্পর্কিত নিবন্ধটি পড়েছি । তাদের পদ্ধতির ক্ষেত্রে "0" এর সংখ্যা হ্রাস করতে কেস-নিয়ন্ত্রণ নকশা ব্যবহার করা হয়েছিল, তারপরে ইন্টারসেপ্টে সংশোধন প্রয়োগ করুন।

তবে এই পোস্টে বলা হয়েছে যে আমি ইতিমধ্যে পুরো জনসংখ্যার উপরে আমার ডেটা সংগ্রহ করে নিলে কিং ও জেংয়ের যুক্তি প্রয়োজন ছিল না, এটি আমার ক্ষেত্রে case অতএব, আমাকে ক্লাসিকাল লগিট মডেলটি ব্যবহার করতে হবে। দুর্ভাগ্যক্রমে আমার জন্য, যদিও আমি ভাল উল্লেখযোগ্য সহগ অর্জন করি, আমার মডেলটি পূর্বাভাসের দিক থেকে সম্পূর্ণ অকেজো (আমার "1" s এর 99.48% পূর্বাভাস দিতে ব্যর্থ হয়)।

কিং ও জেংয়ের নিবন্ধটি পড়ার পরে, আমি কেস-নিয়ন্ত্রণ নকশা চেষ্টা করতে চেয়েছিলাম এবং সমস্ত "1" এর সাথে "0" এর মাত্র 10% নির্বাচন করেছি। প্রায় একই সহগ সহ, মডেল সম্পূর্ণ জনসংখ্যার জন্য প্রয়োগ করা হলে "1" এর প্রায় এক তৃতীয়াংশ পূর্বাভাস দিতে সক্ষম হয়েছিল। অবশ্যই, অনেকগুলি মিথ্যা-পজিটিভ রয়েছে।

আমি আপনাকে তিনটি প্রশ্ন জিজ্ঞাসা করতে চাই:

1) আপনার জনসংখ্যার সম্পূর্ণ জ্ঞান থাকা অবস্থায় যদি কিং এবং জেং এর দৃষ্টিভঙ্গি পূর্বঘটিত হয়, তবে তারা কেন এমন পরিস্থিতি ব্যবহার করবেন যেখানে তারা তাদের নিবন্ধে জনসংখ্যাকে জানেন তাদের বক্তব্য প্রমাণ করার জন্য?

2) যদি আমার কোনও লজিট রিগ্রেশনটিতে ভাল এবং তাত্পর্যপূর্ণ সহগ থাকে তবে খুব দুর্বল ভবিষ্যদ্বাণীমূলক শক্তি থাকে, তার মানে কি এই ভেরিয়েবল দ্বারা ব্যাখ্যা করা বৈকল্পিক অর্থহীন?

3) বিরল ঘটনা মোকাবেলার জন্য সর্বোত্তম পন্থা কোনটি? আমি কিংয়ের রিলজিট মডেল, ফर्थের অ্যাপ্রোচ, সঠিক লজিট ইত্যাদি সম্পর্কে পড়েছি, আমাকে অবশ্যই স্বীকার করতে হবে যে আমি এই সমস্ত সমাধানগুলির মধ্যে একটি হারিয়েছি।


নম্বরটি পরিচিত মনে হচ্ছে ... কোনও সুযোগেই জাতিগত সংঘাত সম্পর্কে কোনও ডেটাসেট? যদি আপনি, এটি একটি সময়ের সিরিজ - একটি জাতিগত সংঘাত অধ্যয়নের দুর্দান্ত সাফল্যের জন্য আমি বেঁচে থাকার মডেলটি ব্যবহার করেছি ...
খ্রিস্টান স্যুর

খুব কাছাকাছি. এটি আফ্রিকার বিরোধের ইভেন্টগুলির অবস্থান সম্পর্কিত একটি ডেটাসেট। তবে আমি সময়ের জন্য হিসাব ছাড়াই এই ইভেন্টগুলির অবস্থান অধ্যয়ন করি।
ড্যামিয়েন

1
আহ, আমার অনেকগুলি মামলা আফ্রিকা থেকে এসেছে, যেহেতু সেখানে জাতিগত কোন্দল প্রচুর পরিমাণে রয়েছে। আপনি কি ভৌগলিক পড়াশোনা করেন? সময়ের হিসাব করা কি এক বিশাল সমস্যা হবে? আমি এটি সত্যিই দরকারী বলে মনে করেছি, বিশেষত সময়ের সাথে কিছু পরিবর্তনশীল পরিবর্তিত হচ্ছে (রাজনৈতিক ব্যবস্থা, শীতল যুদ্ধ ইত্যাদি) কারণে
ক্রিশ্চিয়ান সৌর

আমি ইউসিডিপির জিইডি ডেটাसेट ব্যবহার করছি যা 1989-2010 সময়কালে covers আমি ভৌগলিক কারণগুলিতে আগ্রহী যেগুলি সংঘাতের ইভেন্টগুলির অবস্থানের ক্ষেত্রে ভূমিকা নিতে পারে। সময়ের পরিবর্তনের অবশ্যই অনেক কিছু বলা যায় তবে উত্তর দেওয়া প্রশ্নগুলি আলাদা। এছাড়াও, আমার অনেকগুলি স্বতন্ত্র ভেরিয়েবল বিভিন্ন সময়কালের জন্য উপলব্ধ (ল্যান্ড কভার) অথবা মোটেও পরিবর্তন হয়নি (টোগ্রাফি)
ড্যামিয়েন

1
"(আমার" 1 "s এর 99.48% পূর্বাভাস দিতে ব্যর্থ হয়েছে)" এই শব্দগুলির মতো মনে হচ্ছে আপনি শ্রেণিবদ্ধ করার জন্য কিছু নির্বিচারে কাটঅফ নিয়ম [উদাহরণস্বরূপ ০.০!] ব্যবহার করছেন, যেখানে লজিস্টিক রিগ্রেশন সম্পর্কিত পুরো ধারণাটি আউটপুট সম্ভাব্যতা রয়েছে - মিথ্যা পজিটিভ / নেগেটিভের ভারসাম্য বজায় রাখার দ্বারপ্রান্তটি নির্ধারণ করা আপনার উপর
নির্ভর করে

উত্তর:


17

(1) আপনি যদি "জনসংখ্যার সম্পূর্ণ জ্ঞান" থাকেন তবে ভবিষ্যদ্বাণী করার জন্য আপনার কেন মডেল দরকার? আমি সন্দেহ করি যে আপনি এগুলি স্পষ্টতই একটি অনুমানমূলক অতি-জনসংখ্যার নমুনা হিসাবে বিবেচনা করছেন here এখানে এবং এখানে দেখুন । সুতরাং আপনার নমুনা থেকে পর্যবেক্ষণগুলি ফেলে দেওয়া উচিত? নং কিং ও জেং এটিকে সমর্থন করেন না:

[...] আন্তর্জাতিক সম্পর্কের মতো ক্ষেত্রে, পর্যবেক্ষণযোগ্য 1 এর সংখ্যা (যেমন যুদ্ধ) কঠোরভাবে সীমাবদ্ধ, তাই বেশিরভাগ প্রয়োগগুলিতে সমস্ত উপলব্ধ 1 বা সেগুলির একটি বৃহত নমুনা সংগ্রহ করা ভাল। তারপরে কেবল আসল সিদ্ধান্তটি হ'ল কতগুলি 0 সংগ্রহ করতে হবে। যদি 0 এর সংগ্রহ করা ব্যয়বহুল হয় তবে আমাদের যতটা পাওয়া যায় তা সংগ্রহ করা উচিত, যেহেতু আরও ডেটা সবসময়ই ভাল।

ওয়াই

(২) এখানে আপনার প্রধান মডেলটি আপনার মডেলটির ভবিষ্যদ্বাণীপূর্ণ পারফরম্যান্সটি মূল্যায়নের জন্য অযোগ্য স্কোরিং নিয়মের ব্যবহার । ধরুন আপনার মডেলটি সত্য ছিল , যাতে কোনও ব্যক্তির পক্ষে আপনি বিরল ঘটনার সম্ভাবনা জানতেন - পরের মাসে একটি সাপকে কামড়েছিল বলে। আপনি একটি স্বেচ্ছাসেবীর সম্ভাবনা কাট অফ স্থির করে এবং উপরের যেগুলি দংশিত হবে এবং নীচের যারা হবে না তা অনুমান করে আরও কী শিখবেন? আপনি যদি কাট-অফ 50% করেন তবে আপনি সম্ভবত ভবিষ্যদ্বাণী করবেন যে কেউই কামড়ায় না। আপনি যদি এটি যথেষ্ট পরিমাণে কম করেন তবে আপনি ভবিষ্যদ্বাণী করতে পারেন যে সবাই কামড় পাবে। তাতে কি? কোনও মডেলটির বোধগম্য প্রয়োগের জন্য বৈষম্য প্রয়োজন anti অ্যান্টি-ভেনমের একমাত্র শিশি দেওয়া উচিত? - বা ক্রমাঙ্কন whom যার জন্য জুতো কেনা মূল্য, সাপের কামড়ের সাথে তার ব্যয় তুলনামূলকভাবে?


উত্তর দেওয়ার জন্য আপনাকে ধন্যবাদ। (1) সম্পর্কিত, ভবিষ্যতের ঘটনাগুলির সম্ভাবনার জন্য অ্যাকাউন্ট করার জন্য আমরা এ পর্যন্ত জানি যে পর্যবেক্ষণগুলির একটি নমুনা সম্পর্কে কথা বলা কি আরও উপযুক্ত হবে? (2) সম্পর্কিত, আমি স্কোরিংয়ের নিয়ম কী তা বোঝার চেষ্টা করে একটি মুহূর্ত ব্যয় করেছি। যদি আমি উইকিপিডিয়া নিবন্ধটি সঠিকভাবে বুঝতে পারি তবে আমার সম্ভাব্যতার বিভিন্ন মানের জন্য স্কোরিং ফাংশনটি পৃথক করা উচিত যার জন্য ঘটনাটি ঘটবে বলে আশা করা হচ্ছে, তারপরে কাট অফের মান হিসাবে সম্ভাব্যতার সর্বোচ্চটি বেছে নিন choose যদি আমি লগারিদমিক স্কোরিং নিয়মটি বেছে নিই, তবে আমার কীভাবে প্রত্যাশিত মানটি প্রয়োগ করার কথা?
ড্যামিয়েন

1
আর2

@ স্কার্টচি; সুতরাং আপনি কি লজিস্টিক রিগ্রেশন ব্যবহার করে ওপস করবেন, না যেমন ওপস-এর মতো পর্যবেক্ষণ / মামলার সংখ্যা হিসাবে (~ 10 ধারাবাহিক ভবিষ্যদ্বাণী দিয়ে বলুন), যদি কোনও মামলার সম্ভাবনা প্রয়োজন হয়, যা এটি অবমূল্যায়িত বলে মনে হয়? ধন্যবাদ
ব্যবহারকারী 2957945

3

এক পর্যায়ে, আমি অবাক হয়েছি যে আপনার মডেলের কতটা অসম্পূর্ণতা কেবল এটিই আপনার প্রক্রিয়াটি অনুমান করা শক্ত এবং আপনার ভেরিয়েবলগুলি এটি করার পক্ষে পর্যাপ্ত নয়। আরও কিছু ভেরিয়েবল রয়েছে যা আরও ব্যাখ্যা করতে পারে?

অন্যদিকে, আপনি যদি কোনও নির্ভরশীল পরিবর্তনশীলকে একটি গণনা / অর্ডিনাল সমস্যা (সংঘাতের কারণে হতাহত হওয়া, বা দ্বন্দ্বের সময়কালের মতো) হিসাবে ফেলতে পারেন তবে আপনি শূন্য-স্ফীত গণনা রিগ্রেশন বা বাধা মডেলগুলি চেষ্টা করতে পারেন। এগুলির ক্ষেত্রে 0 এবং 1 এর মধ্যে দুর্বল সংজ্ঞা একই সমস্যা হতে পারে তবে কিছু বিবাদ যা আপনার ভেরিয়েবলগুলির সাথে সম্পর্কযুক্ত তা শূন্য থেকে দূরে টানতে পারে।


4
(+1) ভাল পরামর্শ। যদিও আমি বীণা বানাতে চাই যে, মডেলের "ভুলতা" কেবল 50% এরও বেশি সম্ভাবনার পূর্বাভাস দিতে ব্যর্থ। যদি "1" গুলি 10% থেকে 40% সম্ভাব্যতার পূর্বাভাস দিয়ে থাকে তবে "0" এর ক্ষেত্রে 0.5% এর নীচে কিছুটা তুলনা করা হয় - এটি অনেকগুলি অ্যাপ্লিকেশনে দৃ strong় ভবিষ্যদ্বাণীপূর্ণ কর্মক্ষমতা হিসাবে বিবেচিত হবে।
স্কোর্টচি - মনিকা পুনরায় ইনস্টল করুন

2

সংখ্যাগরিষ্ঠ জনসংখ্যাকে হ্রাস করার পাশাপাশি আপনি বিরল ঘটনাগুলিকেও নমুনা দিতে পারেন তবে সচেতন থাকবেন যে সংখ্যালঘু শ্রেণির ওভার স্যাম্পলিংয়ের কারণে অতিরিক্ত চাপ পড়তে পারে, তাই জিনিসগুলি সাবধানতার সাথে পরীক্ষা করে দেখুন।

এই কাগজটি এ সম্পর্কে আরও তথ্য দিতে পারে: ইয়াপ, বি ওয়াহ, ইত্যাদি। "ভারসাম্যহীন, ইনড্যাম্পলিং, ব্যাগিং এবং ভারসাম্যহীন ডেটাসেটগুলি পরিচালনা করার ক্ষেত্রে বুস্টিংয়ের একটি অ্যাপ্লিকেশন" " পিডিএফ

এছাড়াও, আমি এই প্রশ্নটি যুক্ত করতে চাই কারণ এটি একই সমস্যাটিও আলোচনা করে


0

আপনার প্রশ্নটি উত্সাহিত করে যে আরও ভাল সমাধানের জন্য আমি কীভাবে লজিট রিগ্রেশনকে কোক্সেট করতে পারি। তবে আপনি কি আরও নিশ্চিত যে এর থেকে আরও ভাল সমাধান বিদ্যমান? মাত্র দশটি প্যারামিটার দিয়ে, আপনি কি আরও ভাল সমাধান খুঁজে পেতে পেরেছিলেন?

আমি উদাহরণস্বরূপ ইনপুটটিতে পণ্যের পদ যুক্ত করা বা লক্ষ্য পক্ষের একটি সর্বাধিক আউট স্তর যুক্ত করে আরও জটিল মডেলটি চেষ্টা করবো (যাতে আপনার লক্ষ্যগতভাবে 1s এর বিভিন্ন অভিযোজিতভাবে আবিষ্কার করা সাবসেটগুলির জন্য একাধিক লজিস্টিক রেজিস্ট্রার থাকতে পারে))


আপনার উত্তরের জন্য ধন্যবাদ. আমি অবশ্যই আমার চলকগুলি বিভিন্ন উপায়ে সংযুক্ত করার চেষ্টা করব। তবে এর আগে, আমি জানতে চাই যে আমার মডেলের দুর্বল অভিনয়গুলি প্রযুক্তিগত সমস্যা থেকে বা অন্য কোথাও থেকে আসে
ড্যামিয়েন

-1

দুর্দান্ত প্রশ্ন।

আমার মনে হ'ল বিষয়টি হ'ল আপনি অনুমানের চেষ্টা করছেন কিনা (আপনার সহগ আপনাকে যা বলছে তাতে আপনি কি আগ্রহী?) বা পূর্বাভাস। যদি আধুনিক হয় তবে আপনি মেশিন লার্নিং (বার্ট, র্যান্ডমফোরস্ট, বুস্টেড ট্রি ইত্যাদি) থেকে মডেলগুলি ধার নিতে পারেন যা লগাইটের চেয়ে অবশ্যই ভবিষ্যদ্বাণীতে আরও ভাল কাজ করবে। আপনি যদি অনুমান করছেন, এবং আপনার অনেকগুলি ডেটাপয়েন্ট রয়েছে, তবে বুদ্ধিমান ইন্টারঅ্যাকশন শর্তাদি, বহুপদী শর্তাদি ইত্যাদি অন্তর্ভুক্ত করার চেষ্টা করুন বিকল্পভাবে, আপনি এই কাগজে যেমন বার্ট থেকে অনুমান করতে পারেন:

http://artsandsciences.sc.edu/people/kernh/publications/Green%20and%20Kern%20BART.pdf

আমি সম্প্রতি বিরল ঘটনা নিয়ে কিছু কাজ করছি, এবং বিরল ঘটনাগুলি বিশ্লেষণকে কতটা প্রভাবিত করতে পারে তা আগে আমার ধারণা ছিল না। 0-কেস ডাউন-স্যাম্পলিং করা আবশ্যক। আদর্শ ডাউন-নমুনা অনুপাত সন্ধান করার জন্য একটি কৌশল হবে

  1. আপনার সমস্ত 1 গুলি নিন, আসুন আমরা বলি যে এর মধ্যে N1 রয়েছে।
  2. আপনি যে এন 1 টি আঁকবেন তার কিছু মান z = একাধিক সেট করুন; সম্ভবত 5 এ শুরু এবং 1 এ হ্রাস।
  3. z * n1 0 টি পর্যবেক্ষণ আঁকুন
  4. আপনার উপসেট ডেটার নমুনায় আপনার মডেলটি অনুমান করুন, এটি নিশ্চিত করে যে আপনি পুরো ডেটাসেটে ক্রস-বৈধতা দিয়েছেন
  5. আপনার আগ্রহী প্রাসঙ্গিক উপযুক্ত পদক্ষেপগুলি সংরক্ষণ করুন: আগ্রহের গুণাগুণ, একটি আরওসি বক্ররেখার এওসি, একটি বিভ্রান্তির ম্যাট্রিক্স সম্পর্কিত প্রাসঙ্গিক মান ইত্যাদি
  6. ধারাবাহিকভাবে আরও ছোট zs এর জন্য পদক্ষেপ 2: 5 পুনরাবৃত্তি করুন। আপনি সম্ভবত দেখতে পাবেন যে আপনি নিম্ন-নমুনা হিসাবে, মিথ্যা-নেতিবাচক থেকে মিথ্যা পজিটিভ অনুপাত (আপনার পরীক্ষার-সেটটিতে) হ্রাস পাবে। এটি হ'ল, আপনি আরও 1 টি পূর্বাভাস দেওয়া শুরু করবেন, আশা করা যায় যে এটি আসল 1s, তবে অনেকগুলি আসলে 0 এর যদি এই ভুল শৃঙ্খলায় কোনও স্যাডল পয়েন্ট থাকে তবে এটি ডাউন ডাউন-স্যাম্পল অনুপাত হবে।

আশাকরি এটা সাহায্য করবে. জাতীয়


1
(-1) লজিস্টিক রিগ্রেশন জন্য ডাউন-স্যাম্পল করার কোনও প্রয়োজন নেই। এখানে দেখুন ; প্রতিক্রিয়াটি নির্বাচন করা হলে কেবল প্রত্যাশিত ইন্টারসেপ্ট পরিবর্তন হয়, সুতরাং ডাউন-স্যাম্পলিং কেবলমাত্র অনুমানের প্রতিকূল অনুপাতের যথার্থতা হ্রাস করে। লজিস্টিক রিগ্রেশন আপনাকে ভবিষ্যদ্বাণী করা সম্ভাব্যতা দেয় যা আপনি বিভিন্ন ধরণের ভুল-শ্রেণিবদ্ধকরণের মূল্য বিবেচনার জন্য গণনা করা কাট-অফগুলি ব্যবহার করে শ্রেণিবদ্ধ করতে বা ব্যক্তিদের পদমর্যাদায় ব্যবহার করতে বা তাদের নিজস্ব অধিকারে আগ্রহী হতে ব্যবহার করতে পারেন।
স্কর্চচি - মনিকা পুনরায় ইনস্টল করুন

আপনি লক্ষ্য করবেন যে আমি লজিস্টিক রিগ্রেশন ব্যবহারের কথা উল্লেখ করি নি, এবং পরিবর্তে পরামর্শ দিয়েছিলাম যে এমন পদ্ধতি আছে (ডাউন-স্যাম্পেলড বার্টের মতো) যা বিরল ক্ষেত্রে সম্ভবত বেশি উপযুক্ত।
জিম

প্রশ্নটি লজিস্টিক রিগ্রেশন এবং এটি করার সময় ডাউন-স্যাম্পল করার বিষয়ে কিনা এবং আপনি যখন "বুদ্ধিমান মিথস্ক্রিয়া সংক্রান্ত শর্তাদি, বহুপক্ষীয় পদগুলি" সহ লেখেন তখন আপনি লজিস্টিক রিগ্রেশন নিয়ে আলোচনা করবেন বলে মনে হয়; সুতরাং এটি স্পষ্ট নয় যে ডাউন-স্যাম্পলিংয়ের বিষয়ে আপনার পরামর্শটি কেবলমাত্র বিকল্প পদ্ধতি ব্যবহারের জন্য is সম্ভবত আপনি নিজের উত্তরটি এটিকে পরিষ্কার করার জন্য সম্পাদনা করার বিষয়টি বিবেচনা করবেন।
স্কর্চচি - মনিকা পুনরায় ইনস্টল করুন
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.