যদিও এএন 6 ইউ 5 খুব ভাল উত্তর দিয়েছে, আমি ভবিষ্যতের রেফারেন্সের জন্য কয়েকটি পয়েন্ট যুক্ত করতে চেয়েছিলাম। যখন বিবেচনা করা এক হট এনকোডিং (OHE) এবং লেবেল এনকোডিং , যদি আমরা চেষ্টা তা বুঝতে মডেল আপনি নির্মাণ করার চেষ্টা করছেন উচিত নয়। যাকে আমরা দুটি বিভাগের মডেল বিবেচনা করব তা হ'ল:
- গাছ ভিত্তিক মডেল : গ্রেডিয়েন্ট বুস্টড ডিসিশন ট্রি এবং এলোমেলো বন।
- নন-ট্রি ভিত্তিক মডেল : লিনিয়ার, কেএনএন বা নিউরাল নেটওয়ার্ক ভিত্তিক।
গাছ ভিত্তিক মডেলগুলি তৈরি করার সময় কখন OHE প্রয়োগ করতে হবে এবং কখন লেবেল এনকোডিং প্রয়োগ করতে হবে তা বিবেচনা করুন।
আমরা যখন OHE প্রয়োগ করি তখন:
- লেবেল এনকোডিংয়ে একে অপরের নিকটে থাকা মানগুলি যখন লক্ষ্য মানের সাথে মিল থাকে না (অ-লিনিয়ার ডেটা)।
- শ্রেণীবদ্ধ বৈশিষ্ট্যটি যখন অর্ডিনাল নয় (কুকুর, বিড়াল, মাউস)।
আমরা লেবেল এনকোডিং প্রয়োগ করি যখন:
- শ্রেণীবদ্ধ বৈশিষ্ট্যটি হ'ল অর্ডিনাল (জুনিয়র কেজি, সিনিয়র কেজি, প্রাইমারী স্কুল, উচ্চ বিদ্যালয়, ইত্যাদি)।
- যখন আমরা একই রকম বিভাগগুলিতে ঘনিষ্ঠ লেবেলগুলি নির্ধারণ করে এমন একটি লেবেল এনকোডার নিয়ে আসতে পারি : এটি ট্র্রেসে কম স্পিল্টের দিকে নিয়ে যায় তাই কার্যকর করার সময় হ্রাস করে।
- যখন ডেটাসেটে শ্রেণিবদ্ধ বৈশিষ্ট্যগুলির সংখ্যা বিশাল: এক-হট এনকোডিংয়ের সাথে বিপুল সংখ্যক মান সহ শ্রেণীবদ্ধ বৈশিষ্ট্যটি (1) উচ্চ মেমরির গ্রাহক হতে পারে এবং (2) ক্ষেত্রে যখন অ-বিভাগীয় বৈশিষ্ট্যগুলি মডেল দ্বারা খুব কমই ব্যবহৃত হয়। আপনি স্পার্স ম্যাট্রিক্স নিযুক্ত করলে আপনি 1 ম কেস নিয়ে কাজ করতে পারেন। আপনি যদি বৈশিষ্ট্যের একটি উপসেট ব্যবহার করে একটি গাছ তৈরি করেন তবে ২ য় ক্ষেত্রে ঘটতে পারে। উদাহরণস্বরূপ, যদি আপনার কাছে 9 টি সংখ্যাসূচক বৈশিষ্ট্য এবং 100 টি স্বতন্ত্র মানগুলির সাথে 1 শ্রেণীবদ্ধ থাকে এবং আপনি সেই শ্রেণীবদ্ধ বৈশিষ্ট্যটিকে এক-হট-এনকোড করেন তবে আপনি 109 টি বৈশিষ্ট্য পাবেন। যদি কোনও গাছ কেবলমাত্র বৈশিষ্ট্যের একটি উপসেট দিয়ে নির্মিত হয় তবে প্রাথমিক 9 টি সংখ্যাসূচক বৈশিষ্ট্য খুব কমই ব্যবহৃত হবে। এই ক্ষেত্রে, আপনি এই উপসেটটির প্যারামিটার নিয়ন্ত্রণের আকার বাড়াতে পারেন। এক্সজিবিস্টে একে কলসাম্পল_বাইট্রি বলা হয়, স্কেলের্নের র্যান্ডম ফরেস্ট সর্বাধিক ফিচারে।
আপনি যদি ওএনএইচই দিয়ে চালিয়ে যেতে চান তবে @ এএন 6 ইউ 5 এর পরামর্শ অনুসারে আপনি পিসিএকে ওএইচইয়ের সাথে সংযুক্ত করতে চাইতে পারেন।
বৃক্ষবিহীন মডেলগুলি তৈরি করার সময় কখন OHE এবং লেবেল এনকোডিং প্রয়োগ করবেন তা বিবেচনা করতে দিন।
লেবেল এনকোডিং প্রয়োগ করতে, লেবেল এনকোডিং কার্যকরভাবে ব্যবহারের জন্য বৈশিষ্ট্য এবং লক্ষ্যটির মধ্যে নির্ভরতা লিনিয়ার হতে হবে।
একইভাবে, নির্ভরতা যদি অ-রৈখিক হয়, আপনি একই জন্য ওএইচই ব্যবহার করতে চাইতে পারেন।
দ্রষ্টব্য: কয়েকটি ব্যাখ্যা কোরাসেরা থেকে ডেটা বিজ্ঞান প্রতিযোগিতা কীভাবে জিততে হবে তা থেকে উল্লেখ করা হয়েছে ।