অন্যান্য মডেলের সাথে সম্পর্কিত, এলোমেলো বনগুলিতে উপচে পড়া সম্ভাবনা কম তবে এটি এখনও এমন কিছু যা আপনি এড়াতে সুস্পষ্ট প্রচেষ্টা করতে চান। মডেল প্যারামিটারগুলি টিউন করা অবশ্যই অতিরিক্ত পরিমাণে এড়ানো একটি উপাদান তবে এটি কেবলমাত্র এক নয়। আসলে আমি বলব যে আপনার প্রশিক্ষণ বৈশিষ্ট্যগুলি মডেল প্যারামিটারগুলির তুলনায় বিশেষত একটি র্যান্ডম অরণ্যগুলির সাথে বেশি মানানসই হওয়ার সম্ভাবনা রয়েছে। সুতরাং আমি মনে করি কীটির কাছে আপনার মডেলের মূল্যায়ন করার জন্য একটি নির্ভরযোগ্য পদ্ধতি রয়েছে যা অন্য কোনও কিছুর চেয়ে বেশি পরিমাণে ফিট করার জন্য যাচাই করে যা আমাদের দ্বিতীয় প্রশ্নে নিয়ে আসে।
উপরে উল্লিখিত হিসাবে, ক্রস বৈধকরণ চলমান আপনাকে ওভারফিটিং এড়াতে অনুমতি দেবে। সিভি ফলাফলের উপর ভিত্তি করে আপনার সেরা মডেল নির্বাচন করা এমন মডেলকে নিয়ে যাবে যা অত্যধিক মানানসই নয়, যা ব্যাগ ত্রুটি থেকে বেরিয়ে যাওয়ার মতো কোনও বিষয় নয়। আর-তে সিভি চালানোর সহজতম উপায় হ'ল caret
প্যাকেজটি। একটি সাধারণ উদাহরণ নীচে:
> library(caret)
>
> data(iris)
>
> tr <- trainControl(method = "cv", number = 5)
>
> train(Species ~ .,data=iris,method="rf",trControl= tr)
Random Forest
150 samples
4 predictor
3 classes: 'setosa', 'versicolor', 'virginica'
No pre-processing
Resampling: Cross-Validated (5 fold)
Summary of sample sizes: 120, 120, 120, 120, 120
Resampling results across tuning parameters:
mtry Accuracy Kappa Accuracy SD Kappa SD
2 0.96 0.94 0.04346135 0.06519202
3 0.96 0.94 0.04346135 0.06519202
4 0.96 0.94 0.04346135 0.06519202
Accuracy was used to select the optimal model using the largest value.
The final value used for the model was mtry = 2.