আমি 10x10CV দিয়ে একটি র্যান্ডমফোরস্ট অবজেক্ট প্রশিক্ষণের জন্য ক্যারেট প্যাকেজটি ব্যবহার করি।
library(caret)
tc <- trainControl("repeatedcv", number=10, repeats=10, classProbs=TRUE, savePred=T)
RFFit <- train(Defect ~., data=trainingSet, method="rf", trControl=tc, preProc=c("center", "scale"))
এর পরে, আমি একটি টেস্টসেটে নতুন র্যান্ডমফোরস্টটি পরীক্ষা করি (নতুন ডেটা)
RF.testSet$Prediction <- predict(RFFit, newdata=testSet)
কনফিউশন ম্যাট্রিক্স আমাকে দেখায়, যে মডেলটি খুব খারাপ নয়।
confusionMatrix(data=RF.testSet$Prediction, RF.testSet$Defect)
Reference
Prediction 0 1
0 886 179
1 53 126
Accuracy : 0.8135
95% CI : (0.7907, 0.8348)
No Information Rate : 0.7548
P-Value [Acc > NIR] : 4.369e-07
Kappa : 0.4145
আমি এখন $ ফাইনাল মডেলটি পরীক্ষা করতে চাই এবং আমার মনে হয় এটি আমাকে একই ফলাফল দেবে, তবে কোনওভাবে আমি পেয়েছি
> RF.testSet$Prediction <- predict(RFFit$finalModel, newdata=RF.testSet)
> confusionMatrix(data=RF.testSet$Prediction, RF.testSet$Defect)
Confusion Matrix and Statistics
Reference
Prediction 0 1
0 323 66
1 616 239
Accuracy : 0.4518
95% CI : (0.4239, 0.4799)
No Information Rate : 0.7548
P-Value [Acc > NIR] : 1
Kappa : 0.0793
আমি কী মিস করছি?
@ টপ্পো সম্পাদনা করুন:
আমি প্রি-প্রসেসড বিকল্প ছাড়াই আরও একটি র্যান্ডমফরেস্ট শিখেছি এবং অন্য ফলাফল পেয়েছি:
RFFit2 <- train(Defect ~., data=trainingSet, method="rf", trControl=tc)
testSet$Prediction2 <- predict(RFFit2, newdata=testSet)
confusionMatrix(data=testSet$Prediction2, testSet$Defect)
Confusion Matrix and Statistics
Reference
Prediction 0 1
0 878 174
1 61 131
Accuracy : 0.8111
95% CI : (0.7882, 0.8325)
No Information Rate : 0.7548
P-Value [Acc > NIR] : 1.252e-06
Kappa : 0.4167
train
মডেলের জন্য আপনি কিছুটা আলাদা ফলাফল পাবেন যদি না আপনি চালানোর আগে এলোমেলো সংখ্যা বীজ সেট না করে (দেখুন ?set.seed
)। যথার্থ মানগুলি 0.8135 এবং 0.8111, যা বেশ কাছাকাছি এবং কেবল পুনরায় মডেলিংয়ের মডেল এবং মডেল গণনার কারণে are
RFFit
, দ্বিতীয় বার আপনি যখন মডেল অবজেক্টটি ব্যবহার করে ভবিষ্যদ্বাণী করেছিলেন, আমার ধারণা। সুতরাং পার্থক্যটি ট্রেনের অবজেক্টের সাথে অন্যান্য জিনিস পাস করার ক্ষেত্রেও হতে পারে যা ট্রেনের অবজেক্টটি ব্যবহার না করেই আপনার নতুন পরীক্ষার ডেটা একরকম আলাদাভাবে প্রক্রিয়া করে।