লজিস্টিক রিগ্রেশন-এর বাইনারি ক্লাসের সমস্যা সহ প্রতিটি নমুনার জন্য আমার কাছে 330 নমুনা এবং 27 টি বৈশিষ্ট্যযুক্ত একটি ডেটাসেট রয়েছে।
"নিয়ম যদি দশ" অনুযায়ী প্রতিটি বৈশিষ্ট্য অন্তর্ভুক্ত করার জন্য আমার কমপক্ষে 10 টি ইভেন্টের প্রয়োজন। যদিও, আমার 20% হে পজিটিভ ক্লাস এবং 80% নেতিবাচক বর্গ সহ একটি ভারসাম্যহীন ডেটাসেট রয়েছে।
এটি আমাকে কেবল 70 ইভেন্ট দেয়, প্রায় 7/8 বৈশিষ্ট্যগুলিকে লজিস্টিক মডেলটিতে অন্তর্ভুক্ত করার অনুমতি দেয়।
আমি ভবিষ্যদ্বাণীকারী হিসাবে সমস্ত বৈশিষ্ট্য মূল্যায়ন করতে চাই, আমি কোনও বৈশিষ্ট্য বাছাই করতে চাই না।
তাহলে আপনি কি পরামর্শ দেবেন? আমি কি সমস্ত সম্ভব 7 বৈশিষ্ট্য সংমিশ্রণ করা উচিত? আমার প্রতিটি বৈশিষ্ট্যটি একাই কোনও সমিতির মডেল দিয়ে মূল্যায়ন করা উচিত এবং তারপরে একটি চূড়ান্ত মডেলের জন্য কেবল সেরাগুলি বাছাই করা উচিত?
শ্রেণিবদ্ধ এবং অবিচ্ছিন্ন বৈশিষ্ট্যগুলির পরিচালনা সম্পর্কে আমিও কৌতূহল, আমি কি তাদের মিশ্রণ করতে পারি? আমার যদি একটি বিভাগীয় [0-1] এবং অবিচ্ছিন্ন [0-100] থাকে তবে আমার কি স্বাভাবিক হওয়া উচিত?
আমি বর্তমানে পাইথনের সাথে কাজ করছি।
আপনার সাহায্যের জন্য অসংখ্য ধন্যবাদ!