র্যান্ডম ফরেস্ট প্যাকেজ থেকে পরিবর্তনশীল গুরুত্ব আউটপুট কীভাবে ব্যাখ্যা করতে হয় তা বুঝতে আমার কিছুটা সমস্যা হচ্ছে। যথাযথতার গড় হ্রাসকে সাধারণত "প্রতিটি বৈশিষ্ট্যের মানগুলিকে অনুমতি দেওয়া থেকে মডেল নির্ভুলতার হ্রাস" হিসাবে বর্ণনা করা হয়।
এটি পুরোপুরি বৈশিষ্ট্য সম্পর্কে বা বৈশিষ্ট্যের মধ্যে নির্দিষ্ট মান সম্পর্কে কোনও বিবৃতি? উভয় ক্ষেত্রেই, মডেল থেকে প্রশ্নে বৈশিষ্ট্যটি (বা বৈশিষ্ট্য থেকে মানগুলি) মুছে ফেলার মাধ্যমে ভুলভাবে শ্রেণিবদ্ধ করা পর্যবেক্ষণগুলির সংখ্যা বা অনুপাতের সঠিকতার মধ্যে গড় হ্রাস হ'ল?
আমাদের নীচের মডেল আছে বলুন:
require(randomForest)
data(iris)
set.seed(1)
dat <- iris
dat$Species <- factor(ifelse(dat$Species=='virginica','virginica','other'))
model.rf <- randomForest(Species~., dat, ntree=25,
importance=TRUE, nodesize=5)
model.rf
varImpPlot(model.rf)
Call:
randomForest(formula = Species ~ ., data = dat, ntree = 25,
proximity = TRUE, importance = TRUE, nodesize = 5)
Type of random forest: classification
Number of trees: 25
No. of variables tried at each split: 2
OOB estimate of error rate: 3.33%
Confusion matrix:
other virginica class.error
other 97 3 0.03
virginica 2 48 0.04
এই মডেলটিতে, ওওবি রেট বরং কম (প্রায় 5%)। তবুও, এই পরিমাপের সর্বাধিক মান সহ প্রেডিক্টর (পেটাল। লেন্থ) এর যথাযথতার যথাযথতা হ্রাস হ্রাস মাত্র 8 এর কাছাকাছি।
এর অর্থ কি এই যে মডেল থেকে পেটাল। দৈর্ঘ্য অপসারণের ফলে কেবল গড়ে অতিরিক্ত 8 টি বা তার বেশি পর্যবেক্ষণের ভুল বিভ্রান্তি ঘটতে পারে?
পেটালের জন্য নির্ভুলতার গড় হ্রাস কীভাবে হতে পারে? দৈর্ঘ্যটি এত কম হতে পারে যে এই পরিমাপের ক্ষেত্রে এটি সর্বোচ্চ, এবং এইভাবে অন্যান্য ভেরিয়েবলগুলির এই পরিমাপের উপরও কম মান রয়েছে?