আমি আর এ র্যান্ডমফোরস্ট প্যাকেজটি ব্যবহার করছি র্যান্ডম ফরেস্ট মডেল বিকাশের জন্য, একটি "প্রশস্ত" ডেটাসেটে অবিচ্ছিন্ন ফলাফলকে নমুনার চেয়ে আরও বেশি ভবিষ্যদ্বাণীকারী ব্যাখ্যা করার চেষ্টা করার জন্য।
বিশেষত, আমি একটি আরএফ মডেল ফিটিং করছি ~ 75 পূর্বাভাসকারী ভেরিয়েবলগুলির সেটটি যেটি আমার কাছে গুরুত্বপূর্ণ বলে মনে হয় সেট থেকে প্রক্রিয়াটি নির্বাচন করতে দেয়।
আমি পরীক্ষা করে দেখছি যে মডেলটি এখানে পোস্ট হওয়া পদ্ধতির ব্যবহার করে, কোনও সংরক্ষিত পরীক্ষার সেটটির প্রকৃত ফলাফল সম্পর্কে কতটা ভাল ভবিষ্যদ্বাণী করে ,

... বা আর তে:
1 - sum((y-predicted)^2)/sum((y-mean(y))^2)
তবে এখন আমার কাছে অতিরিক্ত ~ 25 প্রেডিকটার ভেরিয়েবল রয়েছে যা আমি যুক্ত করতে পারি। 100 ডলার পূর্বাভাসকারীদের সেটটি ব্যবহার করার সময়, R² বেশি হয়। আমি এই পরিসংখ্যানগতভাবে পরীক্ষা করতে চাই, অন্য কথায়, ~ 100 পূর্বাভাসকারীদের সেটটি ব্যবহার করার সময়, ~ 75 ভবিষ্যদ্বাণীকারীদের ব্যবহার করে মডেল ফিটের চেয়ে ডেটা পরীক্ষায় উল্লেখযোগ্যভাবে কী মডেল পরীক্ষা হয় ? অর্থাৎ, হ্রাসকৃত ডেটাসেটে আরএফ মডেলটি পরীক্ষা করা থেকে আরএফের তুলনায় আরএফের তুলনায় উল্লেখযোগ্যভাবে পূর্ণ ডেটাসেটের ফিট ফিট থেকে আর ²
এটি পরীক্ষা করার জন্য আমার পক্ষে গুরুত্বপূর্ণ, কারণ এটি পাইলট ডেটা, এবং সেই অতিরিক্ত 25 ভবিষ্যদ্বাণী নেওয়া ব্যয়বহুল ছিল, এবং আমার আরও জানতে হবে যে আরও বড় ফলো-আপ সমীক্ষায় এই ভবিষ্যদ্বাণীকারীদের পরিমাপ করার জন্য আমার অর্থ প্রদান করা উচিত কিনা।
আমি এক ধরণের পুনরায় মডেলিং / ক্রম ছাড়ার পদ্ধতির কথা ভাবার চেষ্টা করছি তবে কিছুই মনে আসে না।