আমার একটি কম্পিউটার বিজ্ঞানের পটভূমি রয়েছে তবে ইন্টারনেটে সমস্যা সমাধানের মাধ্যমে নিজেকে ডেটা বিজ্ঞান শেখানোর চেষ্টা করছি।
আমি গত কয়েক সপ্তাহ ধরে প্রায় এই সমস্যাটি নিয়ে কাজ করছি (প্রায় 900 টি সারি এবং 10 টি বৈশিষ্ট্য)। আমি প্রথমে লজিস্টিক রিগ্রেশন ব্যবহার করছিলাম তবে এখন আমি এলোমেলো বনগুলিতে স্যুইচ করেছি। আমি যখন আমার প্রশিক্ষণ ডেটাতে আমার এলোমেলো বন মডেল চালাই তখন আমি নিচের (> 99%) জন্য সত্যই উচ্চ মানের পাই। যাইহোক আমি যখন পরীক্ষার ডেটাতে একই মডেলটি চালিত করি তখন ফলাফলগুলি খুব ভাল হয় না (প্রায় 77 77% নির্ভুলতা)। এটি আমাকে বিশ্বাস করতে পরিচালিত করে যে আমি প্রশিক্ষণের ডেটা ফিট করছি।
এলোমেলো বনাঞ্চলে ওভার ফিটিং প্রতিরোধ সম্পর্কে সেরা অনুশীলনগুলি কী কী?
আমি আর আরস্টুডিওকে আমার বিকাশের পরিবেশ হিসাবে ব্যবহার করছি। আমি randomForest
প্যাকেজটি ব্যবহার করছি এবং সমস্ত পরামিতিগুলির জন্য ডিফল্ট গ্রহণ করেছি