এলোমেলো বনের জন্য ক্যারেটের সাথে বৈশিষ্ট্য নির্বাচন এবং প্যারামিটারের সুর


12

কয়েক হাজার বৈশিষ্ট্যযুক্ত আমার কাছে ডেটা রয়েছে এবং আমি তথ্যবিরোধীগুলি অপসারণ করতে পুনরাবৃত্ত বৈশিষ্ট্য নির্বাচন (আরএফই) করতে চাই। আমি ক্যারেট এবং আরএফই দিয়ে এটি করি। যাইহোক, আমি ভাবতে শুরু করেছিলাম, যদি আমি সেরা রিগ্রেশন ফিট ফিট করতে চাই (উদাহরণস্বরূপ এলোমেলো বন), আমি কখন পরামিতি টিউনিং করব (আরএফের mtryজন্য)? এটি, যেমন আমি বুঝতে পারি যে ক্যারেট ট্রেনগুলি আরএফকে বারবার বিভিন্ন নির্দিষ্ট বৈশিষ্ট্যের সাবটেক্টগুলিতে স্থির শোকের সাহায্যে নিয়ে আসে। আমি মনে করি mtryবৈশিষ্ট্য নির্বাচন শেষ হওয়ার পরে সর্বোত্তমটি খুঁজে পাওয়া উচিত, তবে ক্যারেটেরmtry মানটি বৈশিষ্ট্যের নির্বাচিত উপসেটকে প্রভাবিত করবে? কম সহ ক্যারেট ব্যবহার করা অবশ্যই অনেক দ্রুত।mtry

আশা করি কেউ আমাকে এটি ব্যাখ্যা করতে পারে।


2
আরএফের একটি অন্তর্নির্মিত বৈশিষ্ট্য নির্বাচন রয়েছে - আরএফই ব্যবহার করার দরকার নেই যাতে কেউ কেবল মাতকে সুর করতে পারেন এবং এটি দিয়ে সম্পন্ন করতে পারেন।
ইয়েভজেনি

উত্তর:


11

আপনি যে বিষয়টির দিকে নজর রাখতে চাইতে পারেন তা হ'ল নিয়মিত র্যান্ডম বন, যা বৈশিষ্ট্য নির্বাচনের জন্য বিশেষভাবে ডিজাইন করা হয়েছে। এই কাগজটি ধারণাটি ব্যাখ্যা করে এবং কীভাবে তারা এলোমেলো বন থেকে পৃথক হয়

নিয়মিত বৃক্ষের মাধ্যমে বৈশিষ্ট্য নির্বাচন

এছাড়াও একটি ক্র্যান প্যাকেজ আরআরএফ রয়েছে যা এলোমেলোভাবে তৈরি করা যায় যা আপনাকে এগুলিকে আরে সহজেই প্রয়োগ করতে দেয় I've আমি নিজে এই পদ্ধতিটির সাথে সৌভাগ্য অর্জন করেছি।

আপনার প্রাথমিক প্রশ্নটি সম্পর্কে, আমি কেবলমাত্র পরামর্শ দিতে পারি যে আপনার যদি প্রচুর কোলিনারিটি থাকে তবে আপনার জন্য ছোট গাছের আকার ছোট হওয়া দরকার। এটি অ্যালগরিদমকে প্রান্তিক প্রভাব থেকে কম হস্তক্ষেপের সাথে গুরুত্ব নির্ধারণ করতে দেয়।


1

আপনি caretFuncs এরকম কিছু ব্যবহার করতে সক্ষম হতে পারেন :

myRFE <- caretFuncs
myRFE$summary <- twoClassSummary  (default is defaultSummary)

rctrl <- rfeControl(method='repeatedcv', repeats=5, number=10,
                   functions=myRFE)

tctrl <- trainControl(method = "cv",
                      classProbs = TRUE,
                      summaryFunction = twoClassSummary)

rfeObj = rfe(x,y,sizes=seq(1,ncol(x),2),
             rfeControl=rctrl,  
             # to be passed to train()
             method='rf',
             importance=T,  # do not forget this
             ntree=1000,
             metric = "ROC",
             tuneLength = 10,
             # mtry=c(1,3,5,50),
             # specify the exact mtry, or tuneLength
             # can auto truncate the grid to minimal sizes (with or without warning)
             # p <- ncol(x) ... if (mtry < 1 || mtry > p) warning("invalid try: reset to within valid range") try <- max(1, min(p, round(try))) 
             trControl=tctrl)

এছাড়াও, কেউ valSelRFপ্যাকেজ পরীক্ষা করতে পারে । এটি regularized random forestএখানে উল্লিখিত থেকে কীভাবে পৃথক তা নিশ্চিত নয় ।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.