আমি মেশিন লার্নিংয়ের একটি শিক্ষানবিশ এবং আমি একটি পরিস্থিতির মুখোমুখি হয়েছি। আইপিন ইউ ডেটাসেটের সাথে আমি রিয়েল টাইম বিডিং সমস্যা নিয়ে কাজ করছি এবং আমি ক্লিকের পূর্বাভাস দেওয়ার চেষ্টা করছি।
জিনিসটি হ'ল আপনি যেমন জানেন যে ডেটাসেটটি খুব ভারসাম্যহীন: প্রায় 1 টি ইতিবাচক উদাহরণের জন্য 1300 নেতিবাচক উদাহরণ (ক্লিক নয়) click
এই আমি কি কি:
- ডেটা লোড করুন
- ডেটাসেটটি 3 উপাত্তে বিভক্ত করুন: এ = প্রশিক্ষণ (60%) বি = যাচাইকরণ (20%) সি = পরীক্ষা (20%)
- প্রতিটি ডেটাসেটের জন্য (এ, বি, সি), প্রতিটি নেতিবাচক শ্রেণীর উপর একটি নিম্ন-নমুনা করুন যাতে অনুপাত 5 থাকে (1 ইতিবাচক উদাহরণের জন্য 5 নেতিবাচক উদাহরণ)। এটি আমাকে 3 টি নতুন ডেটাসেট দেয় যা আরও ভারসাম্যযুক্ত: A 'B' C '
তারপরে আমি ডেটাসেট এ 'এবং লজিস্টিক রিগ্রেশন দিয়ে আমার মডেলটিকে প্রশিক্ষণ দিই।
আমার প্রশ্ন হ'ল:
বৈধতার জন্য আমার কোন ডেটাসেট ব্যবহার করতে হবে? বি বা বি '?
পরীক্ষার জন্য আমার কোন ডেটাসেট ব্যবহার করতে হবে? সি বা সি '
কোন মডেলগুলি আমার মডেলটি মূল্যায়নের জন্য সবচেয়ে প্রাসঙ্গিক? F1Score মনে হয় একটি ভাল ব্যবহৃত মেট্রিক। তবে এখানে ভারসাম্যহীন শ্রেণীর কারণে (যদি আমি ডেটাসেট বি এবং সি ব্যবহার করি), যথার্থতা কম (0.20 এর নিচে) এবং এফ 1 স্কোর কম রিক্যাল / স্পষ্টতা দ্বারা খুব প্রভাবিত। এটি কি আইউকিআর বা অউক্রোক ব্যবহার করা আরও সঠিক হবে?
যদি আমি শিখনের বক্ররেখা প্লট করতে চাই তবে আমার কোন মেট্রিক ব্যবহার করা উচিত? (আমি বৈধতার জন্য বি 'ডেটাসেট ব্যবহার করি তবে% ত্রুটি প্রাসঙ্গিক নয় তা জেনেও)
আপনার সময় জন্য আগাম ধন্যবাদ !
শুভেচ্ছা।