আমার বেশিরভাগ আর্থিক ভেরিয়েবল (120 বৈশিষ্ট্য, 4 কে উদাহরণ) সহ একটি ডেটাসেট রয়েছে যা বেশিরভাগ ক্ষেত্রে অত্যন্ত সম্পর্কিত এবং খুব কোলাহলযুক্ত (প্রযুক্তিগত সূচক, উদাহরণস্বরূপ) তাই আমি মডেল প্রশিক্ষণের সাথে পরবর্তী ব্যবহারের জন্য সর্বাধিক 20-30 টি নির্বাচন করতে চাই (বাইনারি শ্রেণিবদ্ধকরণ) - বৃদ্ধি হ্রাস).
আমি বৈশিষ্ট্য র্যাঙ্কিংয়ের জন্য এলোমেলো বন ব্যবহার করার কথা ভাবছিলাম। এগুলি পুনরাবৃত্তভাবে ব্যবহার করা কি ভাল ধারণা? উদাহরণস্বরূপ, আসুন প্রথম রাউন্ডে আমি বলি যে আমি সবচেয়ে খারাপ 20% রেখেছি, দ্বিতীয়টি এবং আরও কিছু না হওয়া পর্যন্ত আমি পছন্দসই সংখ্যার বৈশিষ্ট্যগুলি না পেয়েছি। আমি কি আরএফ এর সাথে ক্রস-বৈধতা ব্যবহার করব? (সিভি ব্যবহার না করা আমার পক্ষে স্বজ্ঞাত কারণ এটি আরএফ ইতিমধ্যে যা করে চলেছে তা খুব বেশি।)
এছাড়াও আমি যদি এলোমেলো বনের সাথে যাই তবে আমার কী এগুলি বাইনারি বা রেগ্রেসারের ক্লাসিফায়ার হিসাবে প্রকৃত বৃদ্ধি / হ্রাসের জন্য বৈশিষ্ট্য আমদানি পেতে ব্যবহার করা উচিত?
যাইহোক, বৈশিষ্ট্য নির্বাচনের পরে আমি যে মডেলগুলি চেষ্টা করতে চাই সেগুলি হ'ল: এসভিএম, নিউরাল নেট, স্থানীয়ভাবে ওজনযুক্ত রিগ্রেশন এবং এলোমেলো বন। আমি মূলত পাইথনে কাজ করছি।
built-in
অ্যাট্রিবিউট RandomForestClassifier মধ্যে sklearn
নামক feature_importances_
....? আপনি এটি লিঙ্কে দেখতে পাবেন।
multicollinearity
বৈশিষ্ট্য আমদানি এবং বৈশিষ্ট্য নির্বাচনকে বিকৃত করতে পারে। এটি এখানে দেখুন