লজিস্টিক রিগ্রেশন: সর্বাধিক ধনাত্মক - মিথ্যা ধনাত্মক


9

আমার একটি লজিস্টিক রিগ্রেশন মডেল রয়েছে (ইলাস্টিক নেট নিয়মিতকরণের সাথে আর গ্ল্যামনেটের মাধ্যমে ফিট) এবং আমি সত্য ধনাত্মক এবং মিথ্যা ধনাত্মকগুলির মধ্যে পার্থক্য সর্বাধিকতর করতে চাই। এটি করার জন্য, নিম্নলিখিত পদ্ধতিটি মাথায় এলো:

  1. মানসম্পন্ন লজিস্টিক রিগ্রেশন মডেল ফিট করুন
  2. পূর্বাভাস প্রান্তিকতা 0.5 হিসাবে ব্যবহার করে সমস্ত ধনাত্মক পূর্বাভাস শনাক্ত করুন
  3. ইতিবাচকভাবে পূর্বাভাস দেওয়া পর্যবেক্ষণগুলির জন্য ওজন 1 নির্ধারণ করুন, অন্য সকলের জন্য 0 করুন
  4. ওজনযুক্ত লজিস্টিক রিগ্রেশন মডেল ফিট করুন

এই পদ্ধতির সাথে ত্রুটিগুলি কী হবে? এই সমস্যাটি নিয়ে এগিয়ে যাওয়ার সঠিক উপায় কী হবে?

সত্য পজিটিভ এবং মিথ্যা নেগেটিভের সংখ্যার মধ্যে পার্থক্য সর্বাধিকতর করে তুলতে চাওয়ার কারণটি হ'ল আমার অ্যাপ্লিকেশনটির নকশা। কোনও শ্রেণি প্রকল্পের অংশ হিসাবে, আমি একটি অনলাইন মার্কেটপ্লেসে একটি স্বায়ত্তশাসিত অংশগ্রহণকারী তৈরি করছি - যদি আমার মডেল ভবিষ্যদ্বাণী করে তবে এটি কিছু কিনতে পারে এবং পরে উচ্চতর মূল্যে বিক্রি করতে পারে, এটি একটি বিড রাখে। আমি লজিস্টিক রিগ্রেশন এবং আউটপুট বাইনারি ফলাফলগুলিতে (জয়, হারাতে) স্থির খরচ এবং ইউনিট মূল্যবৃদ্ধির উপর নির্ভর করতে চাই (প্রতিটি লেনদেনে আমি একই পরিমাণ অর্জন করি বা হারাতে পারি)। একটি মিথ্যা ধনাত্মক আমাকে আঘাত করে কারণ এর অর্থ হল যে আমি কিছু কিনেছি এবং এটি উচ্চ মূল্যে বিক্রি করতে অক্ষম। যাইহোক, একটি মিথ্যা নেতিবাচক আমাকে ক্ষতি করে না (কেবলমাত্র সুযোগ মূল্যের ক্ষেত্রে) কারণ এটির অর্থ কেবল আমি কিনেছি না, তবে আমার কাছে থাকলে আমি অর্থ উপার্জন করতাম। একইভাবে,

আমি সম্মত হই যে ০.০ কাট-অফ পুরোপুরি স্বেচ্ছাসেবী এবং যখন আমি ভবিষ্যদ্বাণী থ্রেশহোল্ডের প্রথম ধাপ থেকে মডেলটি অনুকূল করে ফেলেছি যা সত্য / মিথ্যা ধনাত্মকটির মধ্যে সর্বোচ্চ পার্থক্য দেয় তখন এটি 0.4 এর কাছাকাছি হয়ে যায়। আমি মনে করি এটি আমার ডেটাগুলির স্কંકી প্রকৃতির কারণে isণাত্মক এবং ধনাত্মকগুলির মধ্যে অনুপাত প্রায় 1: 3।

এখনই, আমি নিম্নলিখিত পদক্ষেপগুলি অনুসরণ করছি:

  1. স্প্লিট ডেটা ইন্টো প্রশিক্ষণ / পরীক্ষা
  2. প্রশিক্ষণের বিষয়ে মডেল ফিট করুন, পরীক্ষার সেটে ভবিষ্যদ্বাণী করুন এবং সত্য / মিথ্যা ধনাত্মকগুলির মধ্যে গণনা পার্থক্য করুন
  3. পুরো মডেল ফিট করুন, পরীক্ষার সেটে ভবিষ্যদ্বাণী করুন এবং সত্য / মিথ্যা ধনাত্মকগুলির মধ্যে গণনা পার্থক্য করুন

প্রশিক্ষণের সেটটি পুরো সেটের উপসেট হয়েও, সত্য # / মিথ্যা ধনাত্মকগুলির মধ্যে পার্থক্য # 3 ধাপের চেয়ে কম ধাপে 3। যেহেতু আমি # 3 এর মডেলটির আরও সত্য নেতিবাচক এবং কম মিথ্যা নেতিবাচক আছে কিনা সেদিকে খেয়াল নেই, সম্ভাবনা ফাংশনটি পরিবর্তন না করে আমি কী কিছু করতে পারি?


এই পদ্ধতির ত্রুটিগুলি কী হবে তা জিজ্ঞাসার আগে, আপনার মতে এই পন্থাটি কেন কাজ করা উচিত তা আপনার লেখা উচিত। আপনি কেন মনে করেন যে 2-4 পদক্ষেপগুলি ফলাফলকে উন্নতি করবে?
ব্যবহারকারী31264

এছাড়াও, আমি কি ঠিক বলেছি যে আপনি শেষ ধাপ 1 থেকে মডেলটি বাদ দিন এবং পদক্ষেপ 4 থেকে কেবলমাত্র মডেলটি ব্যবহার করবেন?
ব্যবহারকারী31264

হ্যাঁ, আমি পুরো ডেটা সেটের সাথে লাগানো মডেলটি ব্যবহার করার পরিকল্পনা করছিলাম, তবে এটি করা বুদ্ধিমানের কারণ এটি প্রশিক্ষণ সংস্থার সাথে সজ্জিত মডেলটির কম-সম্পাদন করছে।
tmakino

2
এই মুহুর্তে আমার কাছে কোনও উত্স নেই ... তবে আপনি কি জানেন যে আপনি (রিসিভার অপারেটিং চরিত্রগত) কার্ভের অধীনে অঞ্চলটি সর্বাধিকতর করতে একটি লজিস্টিক রিগ্রেশন মডেলটিকে অনুকূল করতে পারেন (বা এটিসি)? চাকা পুনর্নবীকরণের দরকার নেই।
অ্যাডামো

2
আমি এখানে যা বেশিরভাগই বুঝতে পারি না তা হ'ল আপনি কেন আপনার মডেলটিতে ভবিষ্যদ্বাণী করা ভবিষ্যতের দাম সম্পর্কে কিছু অন্তর্ভুক্ত করেননি বা আপনি লাভ / ক্ষতির পরিমাণটিকে অপ্টিমাইজেশনে অন্তর্ভুক্ত করেননি। "ক্রয়" করার যে সিদ্ধান্তটি 99% লোকসানের দিকে পরিচালিত করে তা অবশ্যই "ক্রয়" করার সিদ্ধান্তের চেয়ে অনেক খারাপ, যা উভয়ই মিথ্যা ধনাত্মক হলেও, 1% লোকসানের দিকে নিয়ে যায়।
সম্ভাব্যতা ব্লগ

উত্তর:


24

আপনি মোটেও লজিস্টিক রিগ্রেশন চান না বলে মনে হয়। আপনি যা বলেন তা হ'ল "আমি সত্য ধনাত্মক এবং মিথ্যা ধনাত্মকগুলির মধ্যে পার্থক্য সর্বাধিক করতে চাই" " এটি একটি সূক্ষ্ম উদ্দেশ্যমূলক ফাংশন, তবে এটি লজিস্টিক রিগ্রেশন নয়। দেখা যাক এটি কী।

প্রথম, কিছু স্বরলিপি। নির্ভরশীল চলক হতে চলেছেওয়াইআমি:

ওয়াইআমি={1ক্রয় আমি লাভজনক ছিল0ক্রয় আমি অলাভজনক ছিল

স্বাধীন ভেরিয়েবলগুলি (আপনি যে জিনিস কিনেছেন তা ভবিষ্যদ্বাণী করার চেষ্টা করার জন্য ব্যবহৃত জিনিসগুলি) হতে চলেছে এক্সআমি(একটি ভেক্টর) আপনি যে প্যারামিটারটি অনুমান করার চেষ্টা করছেন সেটি হতে চলেছেβ(একটি ভেক্টর) আপনি যখন ভবিষ্যদ্বাণী করবেনএক্সআমিβ>0। পর্যবেক্ষণের জন্যআমি, আপনি যখন কিনে পূর্বাভাস এক্সআমিβ>0 বা যখন সূচক কাজ করে 1এক্সআমিβ>0=1

একটি সত্য ইতিবাচক পর্যবেক্ষণ নেভিগেশন ঘটে আমি যখন উভয় ওয়াইআমি=1 এবং 1এক্সআমিβ>0=1। পর্যবেক্ষণ সম্পর্কে একটি মিথ্যা ইতিবাচকআমি ঘটে যখন ওয়াইআমি=0 এবং 1এক্সআমিβ>0=1। আপনি খুঁজে পেতে ইচ্ছুকβ যা সত্য ধনাত্মককে সর্বনিম্ন বিয়োগ মিথ্যা ধনাত্মক করে বা:

মিএকটিএক্সβΣআমি=1এনওয়াইআমি1এক্সআমিβ>0-Σআমি=1এন(1-ওয়াইআমি)1এক্সআমিβ>0

এটি একটি পৃথক প্রতিক্রিয়া মডেল অনুমান করার জন্য একটি বিশেষভাবে উদ্দেশ্যমূলক ফাংশন নয়, তবে উদ্দেশ্যমূলক ফাংশনটিতে আমি যখন একটি সামান্য বীজগণিত করি তখন আমার সাথে সহ্য করুন:

Σআমি=1এনওয়াইআমি1এক্সআমিβ>0-Σআমি=1এন(1-ওয়াইআমি)1এক্সআমিβ>0=Σআমি=1এনওয়াইআমি1এক্সআমিβ>0-Σআমি=1এন1এক্সআমিβ>0+ +Σআমি=1এনওয়াইআমি1এক্সআমিβ>0=Σআমি=1এনওয়াইআমি1এক্সআমিβ>0-Σআমি=1এন1এক্সআমিβ>0+ +Σআমি=1এনওয়াইআমি1এক্সআমিβ>0+ +Σআমি=1এন1-Σআমি=1এন1+ +Σআমি=1এনওয়াইআমি-Σআমি=1এনওয়াইআমি=Σআমি=1এনওয়াইআমি1এক্সআমিβ>0+ +Σআমি=1এন(1-ওয়াইআমি)(1-1এক্সআমিβ>0)-Σআমি=1এন1+ +Σআমি=1এনওয়াইআমি

ঠিক আছে, এখন লক্ষ্য করুন যে যোগফলের শেষ দুটি পদটি কার্যকারিতা নয় β, যাতে আমরা তাদেরকে সর্বোচ্চে অগ্রাহ্য করতে পারি। অবশেষে, আমরা কেবল দেখিয়েছি যে সমস্যাটি আপনি সমাধান করতে চান, "সত্য ধনাত্মক এবং মিথ্যা ধনাত্মকগুলির মধ্যে পার্থক্য সর্বাধিক করুন" এই সমস্যাটির মতোই:

মিএকটিএক্সβΣআমি=1এনওয়াইআমি1এক্সআমিβ>0+ +Σআমি=1এন(1-ওয়াইআমি)(1-1এক্সআমিβ>0)

এখন, সেই অনুমানের একটি নাম আছে! এটি সর্বাধিক স্কোর অনুমানকারী হিসাবে নামকরণ করা হয়। এটি একটি পৃথক প্রতিক্রিয়া মডেলের প্যারামিটার অনুমান করার জন্য একটি খুব স্বজ্ঞাত উপায়। সঠিক পূর্বাভাসের সংখ্যা সর্বাধিক করার জন্য প্যারামিটারটি বেছে নেওয়া হয়েছে। প্রথম শব্দটি সত্য ধনাত্মক সংখ্যা এবং দ্বিতীয় পদটি সত্য negativeণাত্মক সংখ্যা।

এটি একটি (বাইনারি) পৃথক প্রতিক্রিয়া মডেলটি অনুমান করার জন্য বেশ ভাল উপায়। উদাহরণস্বরূপ উদাহরণস্বরূপ সামঞ্জস্যপূর্ণ। (মানসকি, 1985, একোমেট্রিক্সের জে) যদিও এই অনুমানের কিছু প্রতিকূলতা রয়েছে। প্রথমত, এটি ছোট নমুনাগুলিতে অনন্য নয়। একবার আপনি একটি খুঁজে পেয়েছেনβ যা সর্বাধিক সমাধান করে, তারপরে অন্য কোনও β যা আপনার ডেটাসেটে ঠিক একই পূর্বাভাস সর্বাধিক সমাধান করবে --- সুতরাং, অসীম অনেকগুলি βআপনি যেটিকে পেয়েছেন তার খুব কাছাকাছি। এছাড়াও, অনুমানকটি asympototically স্বাভাবিক নয়, এবং এটি সাধারণত সর্বোচ্চ সম্ভাবনার অনুমানের চেয়ে ধীরকে রূপান্তরিত করে --- কিউব রুটএন পরিবর্তে মূলের এনঅভিসৃতি। (কিম এবং পোলার্ড, ১৯৯০, এ্যান অফ স্ট্যাট) অবশেষে, আপনি এটিতে অনুমান করতে বুটস্ট্র্যাপিং ব্যবহার করতে পারবেন না। (অ্যাব্রেভায়া ও হুয়াং, ২০০,, একনোমেট্রিকিয়া) এই অনুমানকারীটি ব্যবহার করে কিছু কাগজপত্র রয়েছে --- --- এনডিসিএ বাস্কেটবল টুর্নামেন্টে ফলাফলের পূর্বাভাস দেওয়ার বিষয়ে মজা আছে কডিল, আন্তর্জাতিক জার্নাল অফ ফোরকাস্টিং, এপ্রিল ২০০৩, ১৯৯৯, প্রকাশের মাধ্যমে। 2, পৃষ্ঠা 313-17।

এমন একটি অনুমানকারী যা এই সমস্যাগুলিকে বেশিরভাগ ক্ষেত্রে কাটিয়ে ওঠে হোরোভিটসের স্মুথড সর্বাধিক স্কোরের প্রাক্কলনকারী (হোরোভিটস, 1992, একনোমেট্রিকিয়া এবং হরোভিটস, 2002, একনোমেট্রিক্সের জে)। এটি একটি মূল দেয়-এনসামঞ্জস্যপূর্ণ, অ্যাসিপোটোটিক্যালি সাধারণ, অনন্য অনুমানক যা বুটস্ট্র্যাপিংয়ের জন্য উপযুক্ত। হরওভিটস তার ওয়েবপৃষ্ঠায় তার অনুমানকটি প্রয়োগের জন্য উদাহরণ কোড সরবরাহ করে


সর্বাধিক স্কোর অনুমানের সাথে আমার ব্যয় ফাংশনটি সমান করতে বীজগণিত অন্তর্ভুক্ত করার জন্য আপনাকে ধন্যবাদ। এর জন্য প্রদত্ত সূচক ফাংশন সহβটিএক্স>0, এর অর্থ কি আমি সর্বদা শ্রেণিবদ্ধ করব পি>0.5 একটি ইতিবাচক হিসাবে এবং পি<=0.5নেতিবাচক হিসাবে? এছাড়াও, পি (মডেল আউটপুট) ইনপুট সহ লজিস্টিক ফাংশন ব্যবহার করে গণনা করা হয়βটিএক্স? আমি যে বর্তমান পদ্ধতির ব্যবহার করছি তা হ'ল এটিউ কাস্ট ফাংশন, তারপরে সত্যিকারের ধনাত্মক এবং মিথ্যা ধনাত্মকগুলির মধ্যে সর্বাধিক পার্থক্য সহ মান সন্ধান করার জন্য পূর্বাভাসের প্রান্তিকের উপর নির্ভর করে। আমি বুঝতে পেরেছি যে আপনার উত্তর স্পষ্টভাবে সর্বাধিক পার্থক্যটি আবিষ্কার করেছে
tmakino

(অবিরত) ব্যয় ফাংশনে এটি সংজ্ঞায়িত করে (এবং 0.5% এ পূর্বাভাসের প্রান্তিককরণ স্থির করে), এইভাবে আমি যে মধ্যবর্তী পদক্ষেপ নিয়েছি তা এড়িয়ে চলে। যাইহোক, সর্বাধিক স্কোর এসিমেটার না থাকা অবস্থায় আমি (গ্ল্যামনেট) যে রিগ্রেশন প্যাকেজটি ব্যবহার করছি এটি এওসি ইতিমধ্যে বিদ্যমান। আপনি কি মনে করেন যে আমার উদ্দেশ্যটি আমার উদ্দেশ্যকে সমর্থন করে যুক্তিযুক্ত?
tmakino

1
দুর্ভাগ্যক্রমে, আমি এউসি পদ্ধতিটির সাথে খুব বেশি পরিচিত নই, সুতরাং এটি এখানে কতটা উপযুক্ত তা বলতে পারি না। সর্বাধিক স্কোর অনুমানকারী, সত্যিই একটি নেইপি, কারণ আপনি লজিস্টিক মডেল ধরে নিচ্ছেন না। আপনি কেবল 1 টি পূর্বাভাস দেওয়ার সিদ্ধান্ত নিচ্ছেনএক্সআমিβ>0 এবং তারপরে সেরা সন্ধান করুন β
বিল

15

এই পদ্ধতির সাথে বেশ কয়েকটি জিনিস ভুল রয়েছে যার মধ্যে রয়েছে:

  • অবিচ্ছিন্ন সম্ভাবনার জন্য একটি কাট অফ চাইছেন
  • 0.5 এর একটি নির্বিচারে কাট অফ ব্যবহার করে
  • ধরে নিই যে "মিথ্যা পজিটিভ" এবং "মিথ্যা নেতিবাচক" ব্যয়টি সমস্ত বিষয়ের জন্য একই
  • ভগ্নাংশ নয় এমন ওজন ব্যবহার করে
  • অনুমান করা হয় যে ওজন ব্যবহার করে
  • ওভাররাইডিং সর্বাধিক সম্ভাবনা অনুমান
  • সর্বোত্তম বেইস সিদ্ধান্ত তত্ত্বকে ব্যবহার না করা, যা নির্দেশ দেয় যে সর্বোত্তম সিদ্ধান্তগুলি সম্পূর্ণ তথ্যের উপর ভিত্তি করে (কোনও কিছু অন্য কিছুকে অতিক্রম করে কিনা) এবং ইউটিলিটি / ক্ষতি / ব্যয় কার্যকারিতা

1
আপনাকে ধন্যবাদ, লজিস্টিক রিগ্রেশন (যেমন সম্ভাবনা ফাংশন স্পর্শ না করে) আঁকড়ে ধরে এটি অর্জন করার কোনও উপায় আছে?
tmakino

এটি "এটি" কী তার উপর নির্ভর করে। চূড়ান্ত লক্ষ্য কী এবং কীভাবে মডেলটি ব্যবহার করা হবে?
ফ্র্যাঙ্ক হ্যারেল

আমি কী অর্জন করতে চাইছি সে সম্পর্কে বিস্তারিত জানাতে আমার প্রশ্নটি সম্পাদনা করেছি।
tmakino

1
আমি যদি কিছু মিস করি না তবে আপনি যা কিছু যোগ করেছেন তা কোনও কাটপয়েন্টের ব্যবহার বোঝায় না। নোট করুন যে পূর্বাভাসের সম্ভাবনা তার নিজস্ব ত্রুটির হার সরবরাহ করে।
ফ্র্যাঙ্ক হ্যারেল

8

আপনি যা বর্ণনা করার চেষ্টা করছেন তা অর্জনের সর্বোত্তম পন্থা হ'ল সম্ভবত একটি এউসি ক্ষতি কর্মের সাথে লজিস্টিক রিগ্রেশন প্যারামিটারগুলি সরাসরি অনুকূল করা। ঝো রচিত "ডায়াগনস্টিক মেডিসিনে স্ট্যাটিসটিকাল মেথডস" পাঠ্যপুস্তকটি এই পদ্ধতিটি বর্ণনা করে।

এউসি (রিসিভার অপারেটিং বৈশিষ্ট্যযুক্ত কার্ভ - বা আরওসি এর আওতাধীন অঞ্চল) প্রায় একটি ব্যাখ্যা হিসাবে ব্যাখ্যা করা হয় যে এলোমেলোভাবে নমুনাযুক্ত "কেস" এর "নিয়ন্ত্রণ" এর চেয়ে বেশি চিহ্নের মান থাকে। এটি মডেল বৈষম্যের একটি পরিমাপ বা ফলাফলটিকে সঠিকভাবে শ্রেণিবদ্ধ করার ক্ষমতা। আরওসি হ'ল ইউনিট বিমানের একটি বক্ররেখা যা সংবেদনশীলতা বনাম 1 - একটি রিগ্রেশন মডেলের সমস্ত সম্ভাব্য চিহ্নিতকারী মানগুলির জন্য উপযুক্ততা (লাগানো ফলাফল) নির্দিষ্ট করে shows

লজিস্টিক রিগ্রেশন মডেলটির প্রচলিত সূত্র ব্যবহার করে,

লগিট(ওয়াই=1|এক্স)=α+ +βএক্স

মডেল প্যারামিটারগুলির জন্য লগ প্রতিক্রিয়া অনুপাতের সাথে, আপনি অনুকূল পরামিতিগুলি পেতে একটি এওসি ভিত্তিক লোকসান ফাংশনটি মোটামুটি সংজ্ঞায়িত করতে পারেন। সম্ভাবনা ভিত্তিক লজিস্টিক রিগ্রেশন থেকে ভিন্ন, এউসি রিগ্রেশন নিয়মিত নয় এবং প্যারামিটার স্পেসে স্থানীয় ম্যাক্সিমায় রূপান্তর করতে পারে।


1
আমি ভাবতাম এখানে এইউসি সবচেয়ে ভাল নয় কারণ মিথ্যা নেগেটিভের জন্য ক্ষুদ্র ক্ষতি রয়েছে তবে মিথ্যা পজিটিভের জন্য বড় ক্ষতি রয়েছে।
সম্ভাব্যতা ব্লগ

ঠিক আছে, আসল সমস্যাটি হ'ল ওপির একটি অবিচ্ছিন্ন ফলাফল (আরওআই) থাকে এবং এটি ক্ষতি / লাভ হিসাবে দ্বিধাত্বকরণ করে। তবে বিচ্ছিন্ন চুলকে একদিকে ফেলে, সাধারণভাবে "বোকা" চিহ্নিতকারী কাট-অফ অঞ্চলগুলিতে আরওসি-র রিগ্রেশন সহ সত্যই এটিউটির দিকে গুনে। বোকামি চিহ্নিতকারী মূল্যবোধগুলির তুলনায় অর্থবোধক হিসাবে বিবেচনা করা বিষয়টিকে যদি আপনি পূর্বনির্ধারিত করেন তবে আংশিক এওসি ব্যবহার করতে পারেন এবং আংশিক এওসি রিগ্রেশনটিতে একই কর্মক্ষমতা ক্ষমতা (এবং সমস্যাগুলি) রয়েছে।
অ্যাডামো
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.