আমি এই সত্যটি সম্পর্কে সচেতন যে কে স্তরের সাথে শ্রেণিবদ্ধ ভেরিয়েবলগুলি ডামি এনকোডিংয়ে (1 একইভাবে বহু-মূল্যবান শ্রেণিবদ্ধ ভেরিয়েবলগুলির জন্য) কে -1 ভেরিয়েবলের সাথে এনকোড করা উচিত। আমি ভাবছিলাম যে বিভিন্ন রিগ্রেশন পদ্ধতির জন্য মূলত লিনিয়ার রিগ্রেশন, পেনালাইড লিনিয়ার রিগ্রেশন (লাসো, রিজ, ইলাস্টিক নেট), বৃক্ষভিত্তিক (এলোমেলো বন) এক-হট এনকোডিং (যেমন পরিবর্তে কে ভেরিয়েবল ব্যবহার করে) কতটা সমস্যা করে? , গ্রেডিয়েন্ট বুস্টিং মেশিন)।
আমি জানি যে লিনিয়ার রিগ্রেশন, মাল্টি-কোলাইনারিটি সমস্যা দেখা দেয় (যদিও বাস্তবে আমি কোনও সমস্যা ছাড়াই ওএইচই ব্যবহার করে লিনিয়ার রিগ্রেশন লাগিয়েছি)।
যাইহোক, ডামি এনকোডিংগুলি কী কী সেগুলি সবগুলিতেই ব্যবহার করা দরকার এবং যদি কেউ একটি-হট এনকোডিং ব্যবহার করে তবে ফলাফলগুলি কী ভুল হতে পারে?
আমার ফোকাস একাধিক (উচ্চ কার্ডিনালিটি) শ্রেণিবদ্ধ ভেরিয়েবলগুলির সাথে রিগ্রেশন মডেলগুলির পূর্বাভাসের দিকে রয়েছে, তাই আমি আত্মবিশ্বাসের অন্তরগুলিতে আগ্রহী নই।