Rpart () এ বিভাজনের সংখ্যা কীভাবে চয়ন করবেন?


9

আমি ব্যবহার করেছি rpart.controlজন্য minsplit=2, এবং থেকে নিম্নলিখিত ফলাফল পেয়েছিলাম rpart()ফাংশন। ডেটা অত্যধিক উপকার এড়াতে, আমার কি স্প্লিট 3 বা স্প্লিট 7 ব্যবহার করা উচিত? আমি স্প্লিট 7 ব্যবহার করা উচিত নয়? আমাকে বুঝতে দাও.

গাছের নির্মাণে ব্যবহৃত ভেরিয়েবলগুলি:

[1] ct_a ct_b usr_a

Root node error: 23205/60 = 386.75

n= 60        

    CP nsplit rel error  xerror     xstd
1 0.615208      0  1.000000 1.05013 0.189409
2 0.181446      1  0.384792 0.54650 0.084423
3 0.044878      2  0.203346 0.31439 0.063681
4 0.027653      3  0.158468 0.27281 0.060605
5 0.025035      4  0.130815 0.30120 0.058992
6 0.022685      5  0.105780 0.29649 0.059138
7 0.013603      6  0.083095 0.21761 0.045295
8 0.010607      7  0.069492 0.21076 0.042196
9 0.010000      8  0.058885 0.21076 0.042196

1
আপনি পূর্ববর্তী প্রশ্নে পোস্ট করেছেন এমন ফলোআপে আমি এটির জবাব দিয়েছি। এটি দেওয়া দরকার ছিল না। আমি উল্লেখ করেছি যে ভবিষ্যতের রেফারেন্সের জন্য আপনার কিউ'স ফলোআপ করতে হবে না !
গ্যাভিন সিম্পসন

1
ভবিষ্যতে সম্পর্কিত প্রশ্নটি অনুসন্ধান এড়ানোর জন্য, এখানে পূর্ববর্তী প্রশ্ন: stats.stackexchange.com/questions/13446/… এর লিঙ্ক
chl

উত্তর:


10

কনভেনশনটি হ'ল সর্বোত্তম গাছের (সর্বনিম্ন ক্রস-বৈধতাযুক্ত আপেক্ষিক ত্রুটি) বা সেরা গাছের এক মানক ত্রুটির মধ্যে সবচেয়ে ছোট (সরলতম) গাছ ব্যবহার করা। সেরা গাছটি সারিতে 8 (7 টি বিভাজন) হয় তবে সারিতে 7 (6 টি বিভাজন) xerrorগাছ কার্যকরভাবে একই কাজ করে ( সারিতে 7 = 0.21761 গাছের জন্য, যা xerrorসেরা গাছের চেয়ে ছোট ( প্লাস ওয়ান স্ট্যান্ডার্ড ) এর মধ্যে থাকে ত্রুটি,, xstd(0.21076 + 0.042196) = 0.252956) এবং সহজ, সুতরাং 1 স্ট্যান্ডার্ড ত্রুটি নিয়ম এটি নির্বাচন করবে।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.