উত্তর:
এলোমেলো বন ব্যবহারসমূহ ব্যাগিং (বরং তাদের সব চেয়ে পর্যবেক্ষণ একটি নমুনা অবচয়) এবং র্যান্ডম subspace পদ্ধতি (অন্য কথায় পরিবর্তে তাদের সব চেয়ে বৈশিষ্ট্য একটি নমুনা অবচয়, - অ্যাট্রিবিউট ব্যাগিং ) একটি গাছ হত্তয়া। যদি পর্যবেক্ষণের সংখ্যাটি বড় হয় তবে গাছের সংখ্যা খুব কম হয় তবে কিছু পর্যবেক্ষণ কেবল একবার বা এমনকি মোটেও হবে না বলে পূর্বাভাস দেওয়া হবে। যদি ভবিষ্যদ্বাণীকারীদের সংখ্যা বড় হয় তবে গাছের সংখ্যা খুব কম হয় তবে কয়েকটি বৈশিষ্ট্য (তাত্ত্বিকভাবে) সমস্ত ব্যবহৃত উপস্থানে মিস করা যেতে পারে। উভয় ক্ষেত্রেই এলোমেলো বনের ভবিষ্যদ্বাণীমূলক শক্তি হ্রাস ঘটে। তবে সর্বশেষটি একটি বরং চরম ক্ষেত্রে, যেহেতু প্রতিটি নোডে সাবস্পেস নির্বাচন করা হয়।
শ্রেণিবিন্যাসের সময় উপসর্গের মাত্রা (বরং ছোট,পিহ'ল পূর্বাভাসের সংখ্যা) তবে একটি গাছে অনেকগুলি নোড থাকে। রিগ্রেশন চলাকালীনডিফল্টরূপে উপ-স্থানের মাত্রাp/3(যথেষ্ট বড়) হয় যদিও একটি গাছে কম নোড থাকে। সুতরাং এলোমেলো বনের গাছের অনুকূল সংখ্যা কেবলমাত্র চরম ক্ষেত্রে ভবিষ্যদ্বাণীকারীদের সংখ্যার উপর নির্ভর করে।
অ্যালগরিদম অফিসিয়াল পেজ রাজ্যের র্যান্ডম বন overfit এই নয় যে, এবং হিসাবে আপনি চান আপনি অনেক গাছের মত ব্যবহার করতে পারেন। তবে মার্ক আর। সেগাল (এপ্রিল 14, 2004. "মেশিন লার্নিং বেঞ্চমার্কস এবং র্যান্ডম ফরেস্ট রেগ্রেশন।" বায়োইনফর্ম্যাটিকস এবং মলিকুলার বায়োস্ট্যাটাস্টিকস সেন্টার) সন্ধান পেয়েছে যে এটি কিছু গোলমাল ডেটাসেটের জন্য অতিরিক্ত নয়। সুতরাং সর্বোত্তম নম্বর পাওয়ার জন্য আপনি ntree
প্যারামিটারের গ্রিডে এলোমেলো বন প্রশিক্ষণের চেষ্টা করতে পারেন (সহজ, তবে আরও সিপিইউ গ্রহণকারী) বা বহু গাছের সাথে একটি করে এলোমেলো বন তৈরি করতে পারেন keep.inbag
, প্রথম গাছগুলির জন্য আউট-অফ-ব্যাগ (ওওবি) ত্রুটির হার গণনা করুন (যেখানে এন 1 থেকে পরিবর্তিত হয় ) এবং প্লট OOB ত্রুটি হার বনাম গাছের সংখ্যা (আরও জটিল, তবে কম সিপিইউ গ্রহণকারী)।ntree
এই নিবন্ধ অনুসারে
তারা পরামর্শ দেয় যে একটি এলোমেলো বনে 64৪ - ১২৮ টি গাছের মধ্যে প্রচুর গাছ থাকা উচিত । এটির সাথে, আপনার আরওসি এউসি এবং প্রসেসিং সময়ের মধ্যে একটি ভাল ভারসাম্য থাকা উচিত।
আমি যদি আপনার 1000 টিরও বেশি বৈশিষ্ট্য এবং 1000 সারি ব্যবহার করি তবে আপনি কেবল গাছের সংখ্যাটি নিতে পারবেন না i
আমার পরামর্শ আপনি প্রথমে সিপিইউ এবং র্যামের সংখ্যা সনাক্ত করতে হবে তাদের এবং গাছের সংখ্যার মধ্যে অনুপাত সন্ধানের জন্য ক্রস বৈধকরণ চালু করার আগে
আপনি যদি অজগরটিতে সিকিত শিখাই ব্যবহার করেন তবে আপনার n_jobs=-1
সমস্ত প্রক্রিয়াটি ব্যবহার করার বিকল্প রয়েছে তবে প্রতিটি কোর ডেটাটির অনুলিপি প্রয়োজন পরে আপনি এই সূত্রটি ট্রিস করতে পারেন
ntree = sqrt (সারি সংখ্যা * কলামের সংখ্যা) / numberofcpu