আমি ডেটা মেশিন লার্নিং প্রকল্পে ডেটা নিয়ে কাজ করছি যা ইতিমধ্যে (প্রচুর) ডেটা নির্বাচনের পক্ষপাতদুষ্ট।
ধরে নেওয়া যাক আপনার কাছে কঠোর কোডেড বিধিগুলির একটি সেট রয়েছে। এটি প্রতিস্থাপনের জন্য আপনি কীভাবে একটি মেশিন লার্নিং মডেল তৈরি করবেন, যখন এটি ব্যবহার করতে পারে এমন সমস্ত ডেটা সেই ডেটা যা ইতিমধ্যে সেই নিয়মগুলি দ্বারা ফিল্টার করা হয়েছিল?
বিষয়গুলি পরিষ্কার করার জন্য, আমার ধারণা সর্বোত্তম উদাহরণটি হ'ল ক্রেডিট ঝুঁকি মূল্যায়ন : কাজটি এমন সমস্ত ক্লায়েন্টকে ফিল্টার করা যা কোনও অর্থ প্রদানের ক্ষেত্রে ব্যর্থ হতে পারে।
- এখন, আপনার কাছে থাকা কেবলমাত্র (লেবেলযুক্ত) ডেটা হ'ল ক্লায়েন্টদের কাছ থেকে যা নিয়মের সেট দ্বারা গৃহীত হয়েছে, কারণ স্বীকার করার পরেই আপনি দেখতে পাবেন যে কেউ অর্থ প্রদান করেছে কিনা (স্পষ্টতই)। আপনি জানেন না যে নিয়মগুলির সেটটি কতটা ভাল এবং তারা পরিশোধিত-না-পরিশোধিত বিতরণকে কতটা প্রভাবিত করবে। অতিরিক্ত হিসাবে, নিয়মগুলি সেট করার কারণে আবারও আপনার কাছে ক্লায়েন্টদের কাছ থেকে লেবেলযুক্ত ডেটা প্রত্যাখ্যান করা হয়েছে। সুতরাং আপনি জানেন না যে এই ক্লায়েন্টদের যদি তারা গ্রহণ করা হত তবে তাদের সাথে কি হত।
উদাহরণস্বরূপ একটি নিয়ম হতে পারে: "যদি ক্লায়েন্টের বয়স <18 বছর হয় তবে গ্রহণ করবেন না"
এই নিয়মগুলি দ্বারা ফিল্টার করা ক্লায়েন্টদের কীভাবে পরিচালনা করতে শ্রেণিবদ্ধার কাছে শেখার কোনও উপায় নেই। শ্রেণিবদ্ধের এখানে প্যাটার্ন শেখার কথা কীভাবে?
এই সমস্যাটিকে উপেক্ষা করে মডেলটি এমন ডেটা প্রকাশের মুখোমুখি হবে যা এর আগে কখনও হয় নি। মূলত, x যখন এখানে [এ, খ] এর বাইরে থাকে তখন আমি f (x) এর মানটি অনুমান করতে চাই।