আমার কাছে প্রায় 5000 টি বৈশিষ্ট্যের ডেটা সেট রয়েছে। সেই ডেটার জন্য আমি বৈশিষ্ট্য নির্বাচনের জন্য চি চি স্কোয়ার পরীক্ষাটি প্রথম ব্যবহার করেছি; এর পরে, আমি প্রায় 1500 ভেরিয়েবল পেয়েছি যা প্রতিক্রিয়ার ভেরিয়েবলের সাথে তাত্পর্যপূর্ণ সম্পর্ক দেখায়।
এখন আমার এটিতে লজিস্টিক রিগ্রেশন ফিট করতে হবে। আমি আর এর জন্য গ্লমলটি প্যাকেজটি ব্যবহার করছি (গ্লমলটি প্যাকেজটি ভিএলএমের জন্য দক্ষ সাবসেট নির্বাচন সরবরাহ করে) তবে এটি একবারে কেবলমাত্র 30 টি বৈশিষ্ট্য ব্যবহার করতে পারে, অন্যথায় এটির কার্যকারিতা হ্রাস পাবে কারণ আমার ডেটাসেটে সারি সংখ্যা 20000 এর কাছাকাছি রয়েছে।
উপরোক্ত সমস্যাগুলি সমাধান করার জন্য অন্য কোনও পদ্ধতি বা কৌশল আছে কি? আমি যদি উপরের পদ্ধতিটি অনুসরণ করি তবে এটি মডেল ফিট করতে খুব বেশি সময় লাগবে।
sklearn
's LogisticRegression
এবং এটি আমার ল্যাপটপ এর ক্ষেত্রে এক মিনিটেরও সম্পর্কে একটি 4000 বৈশিষ্ট্য, 20,000 সারি সমস্যা solves।