শ্রেণিবদ্ধ ভেরিয়েবলগুলি এনকোডিংয়ের দুটি ভিন্ন উপায় রয়েছে। বলুন, একটি শ্রেণীবদ্ধ ভেরিয়েবলের n মান রয়েছে। এক-হট এনকোডিং এটিকে এন ভেরিয়েবলে রূপান্তরিত করে , যখন ডামি এনকোডিং এটিকে এন -1 ভেরিয়েবলগুলিতে রূপান্তর করে । আমাদের কাছে যদি k শ্রেণীবদ্ধ ভেরিয়েবল থাকে, যার প্রত্যেকটির এন মান হয়। একটি হট এনকোডিংটি এন ভেরিয়েবলের সাথে সমাপ্ত হয়, যখন ডামি এনকোডিংটি ন-কে ভেরিয়েবলের সাথে শেষ হয়।
আমি শুনেছি ওয়ান-হট এনকোডিংয়ের জন্য, ইন্টারসেপ্টের ফলে কলিনারিটির সমস্যা হতে পারে, যা মডেলটিকে শোনায় না। কেউ এটিকে " ডামি ভেরিয়েবল ট্র্যাপ " বলে।
আমার প্রশ্নগুলো:
সাইকিট-লার্নের লিনিয়ার রিগ্রেশন মডেল ব্যবহারকারীদের ইন্টারসেপটি অক্ষম করতে দেয়। সুতরাং এক-গরম এনকোডিংয়ের জন্য, আমি কি সর্বদা ফিট_ইন্টারসেপ্ট = মিথ্যা সেট করব? ডামি এনকোডিংয়ের জন্য, ফিট_ইন্টারসেপ্ট সবসময় সত্য হিসাবে সেট করা উচিত? ওয়েবসাইটে কোনও "সতর্কতা" দেখছি না।
যেহেতু এক-হট এনকোডিং আরও ভেরিয়েবল উত্পন্ন করে, তাই এটির কি ডামি এনকোডিংয়ের চেয়ে বেশি ডিগ্রি স্বাধীনতা পাওয়া যায়?