এলোমেলো বনের গাছের অনুকূল সংখ্যা কি ভবিষ্যদ্বাণীকারীদের সংখ্যার উপর নির্ভর করে?


46

ভবিষ্যদ্বাণীকারীদের সংখ্যা বেশি হলে কেউ এলোমেলো বনে কেন আমাদের প্রচুর পরিমাণে গাছের প্রয়োজন তা ব্যাখ্যা করতে পারে? আমরা কীভাবে গাছের অনুকূল সংখ্যা নির্ধারণ করতে পারি?

উত্তর:


70

এলোমেলো বন ব্যবহারসমূহ ব্যাগিং (বরং তাদের সব চেয়ে পর্যবেক্ষণ একটি নমুনা অবচয়) এবং র্যান্ডম subspace পদ্ধতি (অন্য কথায় পরিবর্তে তাদের সব চেয়ে বৈশিষ্ট্য একটি নমুনা অবচয়, - অ্যাট্রিবিউট ব্যাগিং ) একটি গাছ হত্তয়া। যদি পর্যবেক্ষণের সংখ্যাটি বড় হয় তবে গাছের সংখ্যা খুব কম হয় তবে কিছু পর্যবেক্ষণ কেবল একবার বা এমনকি মোটেও হবে না বলে পূর্বাভাস দেওয়া হবে। যদি ভবিষ্যদ্বাণীকারীদের সংখ্যা বড় হয় তবে গাছের সংখ্যা খুব কম হয় তবে কয়েকটি বৈশিষ্ট্য (তাত্ত্বিকভাবে) সমস্ত ব্যবহৃত উপস্থানে মিস করা যেতে পারে। উভয় ক্ষেত্রেই এলোমেলো বনের ভবিষ্যদ্বাণীমূলক শক্তি হ্রাস ঘটে। তবে সর্বশেষটি একটি বরং চরম ক্ষেত্রে, যেহেতু প্রতিটি নোডে সাবস্পেস নির্বাচন করা হয়।

শ্রেণিবিন্যাসের সময় উপসর্গের মাত্রা (বরং ছোট,পিহ'ল পূর্বাভাসের সংখ্যা) তবে একটি গাছে অনেকগুলি নোড থাকে। রিগ্রেশন চলাকালীনডিফল্টরূপে উপ-স্থানের মাত্রাp/3(যথেষ্ট বড়) হয় যদিও একটি গাছে কম নোড থাকে। সুতরাং এলোমেলো বনের গাছের অনুকূল সংখ্যা কেবলমাত্র চরম ক্ষেত্রে ভবিষ্যদ্বাণীকারীদের সংখ্যার উপর নির্ভর করে।ppp/3

অ্যালগরিদম অফিসিয়াল পেজ রাজ্যের র্যান্ডম বন overfit এই নয় যে, এবং হিসাবে আপনি চান আপনি অনেক গাছের মত ব্যবহার করতে পারেন। তবে মার্ক আর। সেগাল (এপ্রিল 14, 2004. "মেশিন লার্নিং বেঞ্চমার্কস এবং র্যান্ডম ফরেস্ট রেগ্রেশন।" বায়োইনফর্ম্যাটিকস এবং মলিকুলার বায়োস্ট্যাটাস্টিকস সেন্টার) সন্ধান পেয়েছে যে এটি কিছু গোলমাল ডেটাসেটের জন্য অতিরিক্ত নয়। সুতরাং সর্বোত্তম নম্বর পাওয়ার জন্য আপনি ntreeপ্যারামিটারের গ্রিডে এলোমেলো বন প্রশিক্ষণের চেষ্টা করতে পারেন (সহজ, তবে আরও সিপিইউ গ্রহণকারী) বা বহু গাছের সাথে একটি করে এলোমেলো বন তৈরি করতে পারেন keep.inbag, প্রথম গাছগুলির জন্য আউট-অফ-ব্যাগ (ওওবি) ত্রুটির হার গণনা করুন (যেখানে এন 1 থেকে পরিবর্তিত হয় ) এবং প্লট OOB ত্রুটি হার বনাম গাছের সংখ্যা (আরও জটিল, তবে কম সিপিইউ গ্রহণকারী)।nn1ntree


-2

এই নিবন্ধ অনুসারে

তারা পরামর্শ দেয় যে একটি এলোমেলো বনে 64৪ - ১২৮ টি গাছের মধ্যে প্রচুর গাছ থাকা উচিত । এটির সাথে, আপনার আরওসি এউসি এবং প্রসেসিং সময়ের মধ্যে একটি ভাল ভারসাম্য থাকা উচিত।


10
এটি অদ্ভুত বলে মনে হচ্ছে যে ডেটাসেটের বৈশিষ্ট্যগুলির সংখ্যার উপর তাদের ফলাফলগুলির মধ্যে কোনও নির্ভরতা নেই ...
naught101

-5

আমি যদি আপনার 1000 টিরও বেশি বৈশিষ্ট্য এবং 1000 সারি ব্যবহার করি তবে আপনি কেবল গাছের সংখ্যাটি নিতে পারবেন না i

আমার পরামর্শ আপনি প্রথমে সিপিইউ এবং র‌্যামের সংখ্যা সনাক্ত করতে হবে তাদের এবং গাছের সংখ্যার মধ্যে অনুপাত সন্ধানের জন্য ক্রস বৈধকরণ চালু করার আগে

আপনি যদি অজগরটিতে সিকিত শিখাই ব্যবহার করেন তবে আপনার n_jobs=-1সমস্ত প্রক্রিয়াটি ব্যবহার করার বিকল্প রয়েছে তবে প্রতিটি কোর ডেটাটির অনুলিপি প্রয়োজন পরে আপনি এই সূত্রটি ট্রিস করতে পারেন

ntree = sqrt (সারি সংখ্যা * কলামের সংখ্যা) / numberofcpu


6
আমি মনে করি আপনার বিবৃতিগুলির প্রমাণ এবং ন্যায়সঙ্গত সরবরাহ করার জন্য আপনাকে এটি সম্পাদনা করতে হবে।
mdewey
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.