আমার কাছে প্রায় 5000 টি বৈশিষ্ট্যের ডেটা সেট রয়েছে। সেই ডেটার জন্য আমি বৈশিষ্ট্য নির্বাচনের জন্য চি চি স্কোয়ার পরীক্ষাটি প্রথম ব্যবহার করেছি; এর পরে, আমি প্রায় 1500 ভেরিয়েবল পেয়েছি যা প্রতিক্রিয়ার ভেরিয়েবলের সাথে তাত্পর্যপূর্ণ সম্পর্ক দেখায়।
এখন আমার এটিতে লজিস্টিক রিগ্রেশন ফিট করতে হবে। আমি আর এর জন্য গ্লমলটি প্যাকেজটি ব্যবহার করছি (গ্লমলটি প্যাকেজটি ভিএলএমের জন্য দক্ষ সাবসেট নির্বাচন সরবরাহ করে) তবে এটি একবারে কেবলমাত্র 30 টি বৈশিষ্ট্য ব্যবহার করতে পারে, অন্যথায় এটির কার্যকারিতা হ্রাস পাবে কারণ আমার ডেটাসেটে সারি সংখ্যা 20000 এর কাছাকাছি রয়েছে।
উপরোক্ত সমস্যাগুলি সমাধান করার জন্য অন্য কোনও পদ্ধতি বা কৌশল আছে কি? আমি যদি উপরের পদ্ধতিটি অনুসরণ করি তবে এটি মডেল ফিট করতে খুব বেশি সময় লাগবে।
sklearn's LogisticRegressionএবং এটি আমার ল্যাপটপ এর ক্ষেত্রে এক মিনিটেরও সম্পর্কে একটি 4000 বৈশিষ্ট্য, 20,000 সারি সমস্যা solves।
