আমি মনে করি মূল কাগজে তারা ) ব্যবহার করার পরামর্শ দিচ্ছে , তবে উভয়ভাবেই ধারণাটি নিম্নলিখিত:log2(N+1
এলোমেলোভাবে নির্বাচিত বৈশিষ্ট্যগুলির সংখ্যা দুটিভাবে জেনারালাইজেশন ত্রুটিকে প্রভাবিত করতে পারে: অনেকগুলি বৈশিষ্ট্য নির্বাচন করা পৃথক গাছের শক্তি বৃদ্ধি করে এবং বৈশিষ্ট্যগুলির সংখ্যা হ্রাস করে পুরো গাছের মধ্যে একটি কম পারস্পরিক সম্পর্ক গড়ে তোলে as
মজার বিষয় হ'ল র্যান্ডম ফরেস্টের লেখকগণ (শ্রেণিবিন্যাস) এবং শ্রেণিবিন্যাসের মধ্যে একটি অভিজ্ঞতাগত পার্থক্য খুঁজে পান:
রিগ্রেশন এবং শ্রেণিবিন্যাসের মধ্যে একটি আকর্ষণীয় পার্থক্য হ'ল ব্যবহৃত বৈশিষ্ট্যগুলির সংখ্যা বৃদ্ধি পাওয়ায় পারস্পরিক সম্পর্ক বেশ ধীরে ধীরে বৃদ্ধি পায়।
N/3N−−√
N−−√logN
মধ্যবর্তী পরিসরটি সাধারণত বড়। এই ব্যাপ্তিতে, বৈশিষ্ট্যগুলির সংখ্যা যত বাড়ছে, পারস্পরিক সম্পর্ক বাড়ছে, কিন্তু পিই * (গাছ) হ্রাস করে ক্ষতিপূরণ দেয়।
(পিই * সাধারণীকরণের ত্রুটি হচ্ছে)
যেমন তারা পরিসংখ্যানগত শিক্ষার উপাদানগুলিতে বলে:
অনুশীলনে এই পরামিতিগুলির সর্বোত্তম মানগুলি সমস্যার উপর নির্ভর করবে এবং এগুলি টিউনিং পরামিতি হিসাবে বিবেচনা করা উচিত।
আপনার সমস্যার উপর নির্ভর করতে পারে এমন একটি বিষয় হল শ্রেণিবদ্ধ ভেরিয়েবলের সংখ্যা। আপনার যদি এমন অনেক শ্রেণীবদ্ধ ভেরিয়েবল থাকে যা ডামি-ভেরিয়েবল হিসাবে এনকোড থাকে তবে প্যারামিটারটি বাড়ানোর ক্ষেত্রে এটি সাধারণত বোধগম্য হয়। আবার, র্যান্ডম ফরেষ্টস পেপার থেকে:
int(log2M+1)