আমি এলোমেলো বন মডেল চালানোর জন্য কারও কাছ থেকে একটি আর স্ক্রিপ্ট পেয়েছি। আমি কিছু কর্মচারী ডেটা দিয়ে এটি সংশোধন করে চালিত করেছি। আমরা স্বেচ্ছাসেবী বিচ্ছিন্নতার পূর্বাভাস দেওয়ার চেষ্টা করছি।
এখানে কিছু অতিরিক্ত তথ্য দেওয়া হল: এটি একটি শ্রেণিবদ্ধকরণ মডেল ছিল 0 = কর্মচারী থাকা, 1 = কর্মচারী সমাপ্ত, আমরা বর্তমানে কেবলমাত্র এক ডজন প্রেডিকটার ভেরিয়েবলের দিকে তাকিয়ে আছি, শব্দটি 'র ভারসাম্যহীন' যে শব্দটির রেকর্ডগুলি প্রায় 7 টি তৈরি করে মোট রেকর্ড সেট এর%।
আমি বিভিন্ন মাতৃ এবং ntree নির্বাচন সঙ্গে মডেল চালানো কিন্তু নীচে স্থির। ওওবি 6.8% যা আমি ভাল বলে মনে করি তবে বিভ্রান্তির ম্যাট্রিক্স শর্তগুলি পূর্বাভাস দেওয়ার জন্য একটি ভিন্ন গল্প বলে মনে হচ্ছে যেহেতু ত্রুটি হারটি 92.79% এ বেশিরভাগই আমি ধরে নিচ্ছি যে আমি এই মডেলটির উপর নির্ভর করতে পারি না এবং ব্যবহার করতে পারি না কারণ শর্তাবলী পূর্বাভাস জন্য উচ্চ ত্রুটি হার? বা আরএফ ব্যবহার করতে এবং শর্তাবলী পূর্বাভাস দেওয়ার জন্য একটি ছোট ত্রুটি হার পেতেও আমি কিছু করতে পারি?
FOREST_model <- randomForest(theFormula, data=trainset, mtry=3, ntree=500, importance=TRUE, do.trace=100)
ntree OOB 1 2
100: 6.97% 0.47% 92.79%
200: 6.87% 0.36% 92.79%
300: 6.82% 0.33% 92.55%
400: 6.80% 0.29% 92.79%
500: 6.80% 0.29% 92.79%
> print(FOREST_model)
Call:
randomForest(formula = theFormula, data = trainset, mtry = 3, ntree = 500, importance = TRUE, do.trace = 100)
Type of random forest: classification
Number of trees: 500
No. of variables tried at each split: 3
OOB estimate of error rate: 6.8%
Confusion matrix:
0 1 class.error
0 5476 16 0.002913328
1 386 30 0.927884615
> nrow(trainset)
[1] 5908