আমার একটি লজিস্টিক রিগ্রেশন মডেল রয়েছে (ইলাস্টিক নেট নিয়মিতকরণের সাথে আর গ্ল্যামনেটের মাধ্যমে ফিট) এবং আমি সত্য ধনাত্মক এবং মিথ্যা ধনাত্মকগুলির মধ্যে পার্থক্য সর্বাধিকতর করতে চাই। এটি করার জন্য, নিম্নলিখিত পদ্ধতিটি মাথায় এলো:
- মানসম্পন্ন লজিস্টিক রিগ্রেশন মডেল ফিট করুন
- পূর্বাভাস প্রান্তিকতা 0.5 হিসাবে ব্যবহার করে সমস্ত ধনাত্মক পূর্বাভাস শনাক্ত করুন
- ইতিবাচকভাবে পূর্বাভাস দেওয়া পর্যবেক্ষণগুলির জন্য ওজন 1 নির্ধারণ করুন, অন্য সকলের জন্য 0 করুন
- ওজনযুক্ত লজিস্টিক রিগ্রেশন মডেল ফিট করুন
এই পদ্ধতির সাথে ত্রুটিগুলি কী হবে? এই সমস্যাটি নিয়ে এগিয়ে যাওয়ার সঠিক উপায় কী হবে?
সত্য পজিটিভ এবং মিথ্যা নেগেটিভের সংখ্যার মধ্যে পার্থক্য সর্বাধিকতর করে তুলতে চাওয়ার কারণটি হ'ল আমার অ্যাপ্লিকেশনটির নকশা। কোনও শ্রেণি প্রকল্পের অংশ হিসাবে, আমি একটি অনলাইন মার্কেটপ্লেসে একটি স্বায়ত্তশাসিত অংশগ্রহণকারী তৈরি করছি - যদি আমার মডেল ভবিষ্যদ্বাণী করে তবে এটি কিছু কিনতে পারে এবং পরে উচ্চতর মূল্যে বিক্রি করতে পারে, এটি একটি বিড রাখে। আমি লজিস্টিক রিগ্রেশন এবং আউটপুট বাইনারি ফলাফলগুলিতে (জয়, হারাতে) স্থির খরচ এবং ইউনিট মূল্যবৃদ্ধির উপর নির্ভর করতে চাই (প্রতিটি লেনদেনে আমি একই পরিমাণ অর্জন করি বা হারাতে পারি)। একটি মিথ্যা ধনাত্মক আমাকে আঘাত করে কারণ এর অর্থ হল যে আমি কিছু কিনেছি এবং এটি উচ্চ মূল্যে বিক্রি করতে অক্ষম। যাইহোক, একটি মিথ্যা নেতিবাচক আমাকে ক্ষতি করে না (কেবলমাত্র সুযোগ মূল্যের ক্ষেত্রে) কারণ এটির অর্থ কেবল আমি কিনেছি না, তবে আমার কাছে থাকলে আমি অর্থ উপার্জন করতাম। একইভাবে,
আমি সম্মত হই যে ০.০ কাট-অফ পুরোপুরি স্বেচ্ছাসেবী এবং যখন আমি ভবিষ্যদ্বাণী থ্রেশহোল্ডের প্রথম ধাপ থেকে মডেলটি অনুকূল করে ফেলেছি যা সত্য / মিথ্যা ধনাত্মকটির মধ্যে সর্বোচ্চ পার্থক্য দেয় তখন এটি 0.4 এর কাছাকাছি হয়ে যায়। আমি মনে করি এটি আমার ডেটাগুলির স্কંકી প্রকৃতির কারণে isণাত্মক এবং ধনাত্মকগুলির মধ্যে অনুপাত প্রায় 1: 3।
এখনই, আমি নিম্নলিখিত পদক্ষেপগুলি অনুসরণ করছি:
- স্প্লিট ডেটা ইন্টো প্রশিক্ষণ / পরীক্ষা
- প্রশিক্ষণের বিষয়ে মডেল ফিট করুন, পরীক্ষার সেটে ভবিষ্যদ্বাণী করুন এবং সত্য / মিথ্যা ধনাত্মকগুলির মধ্যে গণনা পার্থক্য করুন
- পুরো মডেল ফিট করুন, পরীক্ষার সেটে ভবিষ্যদ্বাণী করুন এবং সত্য / মিথ্যা ধনাত্মকগুলির মধ্যে গণনা পার্থক্য করুন
প্রশিক্ষণের সেটটি পুরো সেটের উপসেট হয়েও, সত্য # / মিথ্যা ধনাত্মকগুলির মধ্যে পার্থক্য # 3 ধাপের চেয়ে কম ধাপে 3। যেহেতু আমি # 3 এর মডেলটির আরও সত্য নেতিবাচক এবং কম মিথ্যা নেতিবাচক আছে কিনা সেদিকে খেয়াল নেই, সম্ভাবনা ফাংশনটি পরিবর্তন না করে আমি কী কিছু করতে পারি?