রিগ্রেশন সমস্যার জন্য কিছু অভিজ্ঞতাবাদী বৈশিষ্ট্য নির্বাচন করার জন্য আমি র্যান্ডম অরণ্য থেকে বৈশিষ্ট্য আমদানি ব্যবহার করার চেষ্টা করছিলাম যেখানে সমস্ত বৈশিষ্ট্যগুলি শ্রেণিবদ্ধ এবং তাদের অনেকের অনেকগুলি স্তর রয়েছে (100-1000 এর ক্রম অনুসারে)। এক-হট এনকোডিং প্রতিটি স্তরের জন্য একটি ডামি ভেরিয়েবল তৈরি করে এই বৈশিষ্ট্যটি আমদানি প্রতিটি স্তরের জন্য এবং প্রতিটি বৈশিষ্ট্য (কলাম) নয়। এই বৈশিষ্ট্য আমদানিকে একত্রিত করার একটি ভাল উপায় কী?
আমি কোনও বৈশিষ্ট্যের সমস্ত স্তরের গড় সংমিশ্রণ বা গড় গুরুত্ব পাওয়ার বিষয়ে চিন্তা করেছি (সম্ভবত পূর্ববর্তী আরও বৈশিষ্ট্যযুক্ত সেই বৈশিষ্ট্যগুলির প্রতি পক্ষপাতদুষ্ট হবে)। এই ইস্যুতে কোন রেফারেন্স আছে?
বৈশিষ্ট্যের সংখ্যা হ্রাস করতে অন্য কেউ কী করতে পারেন? আমি গ্রুপ লাসো সম্পর্কে সচেতন, বিজ্ঞান-শিখার জন্য সহজে ব্যবহারের মতো কিছুই খুঁজে পাইনি।