এলোমেলো বনে কীভাবে অতিরিক্ত পোশাক এড়ানো যায়?


11
  1. আমি এলোমেলো বনাঞ্চলে ওভারফিটিং এড়াতে চাই। এই ক্ষেত্রে, আমি কদাচিৎ, নোডসাইজ এবং ম্যাক্সনোড ইত্যাদি ব্যবহার করার ইচ্ছা করি আপনি কি দয়া করে আমাকে এই পরামিতিগুলির জন্য মানগুলি চয়ন করতে সহায়তা করতে পারেন? আমি আর ব্যবহার করছি

  2. এছাড়াও, যদি সম্ভব হয় তবে দয়া করে আমাকে বলুন কীভাবে আমি এলোমেলো অরণ্যের (আর মধ্যে) কে-ফোল্ড ক্রস বৈধতা ব্যবহার করতে পারি।

উত্তর:


7

অন্যান্য মডেলের সাথে সম্পর্কিত, এলোমেলো বনগুলিতে উপচে পড়া সম্ভাবনা কম তবে এটি এখনও এমন কিছু যা আপনি এড়াতে সুস্পষ্ট প্রচেষ্টা করতে চান। মডেল প্যারামিটারগুলি টিউন করা অবশ্যই অতিরিক্ত পরিমাণে এড়ানো একটি উপাদান তবে এটি কেবলমাত্র এক নয়। আসলে আমি বলব যে আপনার প্রশিক্ষণ বৈশিষ্ট্যগুলি মডেল প্যারামিটারগুলির তুলনায় বিশেষত একটি র্যান্ডম অরণ্যগুলির সাথে বেশি মানানসই হওয়ার সম্ভাবনা রয়েছে। সুতরাং আমি মনে করি কীটির কাছে আপনার মডেলের মূল্যায়ন করার জন্য একটি নির্ভরযোগ্য পদ্ধতি রয়েছে যা অন্য কোনও কিছুর চেয়ে বেশি পরিমাণে ফিট করার জন্য যাচাই করে যা আমাদের দ্বিতীয় প্রশ্নে নিয়ে আসে।

উপরে উল্লিখিত হিসাবে, ক্রস বৈধকরণ চলমান আপনাকে ওভারফিটিং এড়াতে অনুমতি দেবে। সিভি ফলাফলের উপর ভিত্তি করে আপনার সেরা মডেল নির্বাচন করা এমন মডেলকে নিয়ে যাবে যা অত্যধিক মানানসই নয়, যা ব্যাগ ত্রুটি থেকে বেরিয়ে যাওয়ার মতো কোনও বিষয় নয়। আর-তে সিভি চালানোর সহজতম উপায় হ'ল caretপ্যাকেজটি। একটি সাধারণ উদাহরণ নীচে:

> library(caret)
> 
> data(iris)
> 
> tr <- trainControl(method = "cv", number = 5)
> 
> train(Species ~ .,data=iris,method="rf",trControl= tr)
Random Forest 

150 samples
  4 predictor
  3 classes: 'setosa', 'versicolor', 'virginica' 

No pre-processing
Resampling: Cross-Validated (5 fold) 

Summary of sample sizes: 120, 120, 120, 120, 120 

Resampling results across tuning parameters:

  mtry  Accuracy  Kappa  Accuracy SD  Kappa SD  
  2     0.96      0.94   0.04346135   0.06519202
  3     0.96      0.94   0.04346135   0.06519202
  4     0.96      0.94   0.04346135   0.06519202

Accuracy was used to select the optimal model using  the largest value.
The final value used for the model was mtry = 2. 

উত্তর এবং পরামর্শের জন্য আপনাকে অনেক ধন্যবাদ। র্যান্ডমফরেস্ট অ্যালগরিদম ব্যবহার করে গুরুত্বপূর্ণ ভেরিয়েবলগুলি নির্বাচনের সাথে তুলনা করার সময় বৈশিষ্ট্য নির্বাচনের জন্য ক্যারেট প্যাকেজটি কীভাবে ব্যবহার করছে তা কেবল জানতে চাই?
অরুণ

এটি পোস্ট করার জন্য একটি পৃথক প্রশ্নের মতো শোনাচ্ছে - আপনি ক্যারেটে আপনার পছন্দের কোনও অ্যালগরিদম ব্যবহার করে পুনরাবৃত্ত বৈশিষ্ট্য নির্বাচনের মতো জিনিস চালানোর কারণে এই পার্থক্যগুলি বিস্তৃত।
ডেভিড

@ ডেভিড "ব্যাগ ত্রুটি থেকে বেরিয়ে আসার মতো কোনও ক্ষেত্রে অবশ্যই এটি হয় না" এর অর্থ কী? আপনি কি বোঝাচ্ছেন যে ব্যাগের অনুমানের বাইরে চলে যাওয়া এড়ানো ভাল উপায় নয়?
পিয়েরে

5

@ xof6 এই বিবেচনায় সঠিক যে মডেলটির গভীরতা যত বেশি পরিমাণে বাড়বে ততই আমি ততক্ষণ আরও কিছু পরামিতি যুক্ত করতে চেয়েছিলাম যা আপনার পক্ষে কার্যকর হতে পারে। আপনি আর এর সাথে কোন প্যাকেজটি ব্যবহার করছেন তা আমি জানি না এবং আমি আর এর সাথে মোটেও পরিচিত নই, তবে আমি মনে করি যে সেখানে এই পরামিতিগুলি কার্যকর করা উচিত।

গাছের সংখ্যা - এই সংখ্যাটি যত বেশি বড়, বনটি বেশি সাফল্যের সম্ভাবনা কম। এর অর্থ হ'ল প্রতিটি সিদ্ধান্তের গাছ যেমন প্রশিক্ষণের ডেটার কিছু দিক শিখছে, আপনি তার থেকে বেছে নেওয়ার জন্য আরও বিকল্প পাচ্ছেন। বৈশিষ্ট্যের সংখ্যা - প্রতিটি পৃথক গাছ কতগুলি বৈশিষ্ট্য শেখে এই সংখ্যাটি এটি গঠন করে। এই সংখ্যাটি বাড়ার সাথে সাথে গাছগুলি আরও বেশি জটিল হয়ে যায়, তাই তারা নিদর্শনগুলি শিখছে যা পরীক্ষার ডেটাতে নাও থাকতে পারে। সঠিক মানটি খুঁজে পেতে কিছু পরীক্ষা নিরীক্ষা লাগবে, তবে এটি মেশিন লার্নিং। সাধারণ গভীরতার সাথে পরীক্ষার পাশাপাশি আমরা উল্লেখ করেছি!


4

এখানে স্ট্যাকেক্সচেঞ্জ /stats/111968/random-forest-how-to-handle-overfitting- এ একটি চমৎকার লিঙ্ক দেওয়া হয়েছে , তবে আমার সাধারণ অভিজ্ঞতাটি মডেলটির যত বেশি গভীরতা দেখায় পরিধান করা।


এটি একটি একক গাছের শ্রেণিবদ্ধের সাথে উপলব্ধি করে। যাইহোক, আমি এই ফোরামগুলিতে পড়েছি যে এলোমেলো বনগুলি অত্যধিক মানানসই থেকে সুরক্ষিত এবং গাছগুলি সম্পূর্ণরূপে বৃদ্ধি করা উচিত (অর্থাত্ নোডেসাইজ = 1 শ্রেণিবিন্যাসের জন্য)।
সানোসাপিয়েন

0

আমি সর্বদা, mtryট্রেনের ডেটাসেটে ত্রুটি বৃদ্ধি না হওয়া পর্যন্ত হ্রাস করি, তারপরে আমি ট্রেন এবং ডেটাসেটের ত্রুটির মধ্যে পার্থক্য হ্রাস না হওয়া পর্যন্ত নোডসাইজ এবং গভীরতা কম করি

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.