আমার এলোমেলো বনের ফলাফলগুলি কেন এত পরিবর্তনশীল?


10

আমি 2 টি দলের মধ্যে নমুনা শ্রেণিবদ্ধ করার জন্য এলোমেলো বনের দক্ষতার পরীক্ষা করার চেষ্টা করছি; শ্রেণিবিন্যাসের জন্য 54 টি নমুনা এবং ভেরিয়েবলের বিবিধ সংখ্যা রয়েছে।

আমি ভাবছিলাম যে আমি 50 কে গাছ ব্যবহার করার পরেও কেন আউট-অফ-ব্যাগের (OOB) অনুমানগুলি একে অপরের থেকে 5% হিসাবে আলাদা হতে পারে? এটি কি এমন কিছু যা বুটস্ট্র্যাপিং দিয়ে সহায়তা করতে পারে?


6
আপনার কয়েকটি নমুনা আছে। 50 কে গাছ এত কম নমুনা দিয়ে কোনও ধারণা দেয় না। প্রকরণটি সম্ভবত একটি মাত্র নমুনা ভুলভাবে রানগুলির মধ্যে শ্রেণীবদ্ধ করা হচ্ছে।
ThiS

@ তিনটি আমি ভেবেছিলাম যে গাছের সংখ্যা বাড়লে আমার যে পরিমাণে বৈচিত্র্য আসবে তা হ্রাস পাবে। কার্যকরভাবে শূন্য করার জন্য এটি হ্রাস করার কোনও উপায় আছে বা কোনটি সবচেয়ে নির্ভুল তা জানে?
শেঠজার্ড

উত্তর:


12

ওওবি বৈকল্পের দুটি উত্স রয়েছে। একটি প্রক্রিয়া নিজেই এলোমেলোতা হয়; গাছের সংখ্যা বাড়িয়ে এটি হ্রাস করা যায়।

বৈকল্পিকতার অন্য উত্স হ'ল সীমিত ডেটা থাকার এবং জটিল বিশ্বে বসবাসের অপ্রতিরোধযোগ্য অপূর্ণতা। গাছের সংখ্যা বাড়ানো এটিকে ঠিক করতে পারে না।

অতিরিক্তভাবে, কখনও কখনও সমস্যাটি সমাধান করার জন্য পর্যাপ্ত ডেটা থাকে না। উদাহরণস্বরূপ, দুটি দৃষ্টান্তের বিপরীতে লেবেল রয়েছে তবে অভিন্ন বৈশিষ্ট্যের মানগুলি কল্পনা করুন। এর মধ্যে একটি নমুনা সর্বদা বিযুক্ত করা হবে। (এটি একটি চূড়ান্ত উদাহরণ, তবে বোঝায় যে কিছু সমস্যা কীভাবে অনুচিত নয় We আমরা একজন ভেক্টরকে ক্ষুদ্র নৈবেদ্য বিবেচনা করে কিছুটা শিথিল করতে পারি; এখন সাধারণত এটি দুটি যমজ হিসাবে একই হিসাবে শ্রেণিবদ্ধ করা হবে তবে সর্বদা নয়)) এই সমস্যা সমাধানের জন্য , দুটি পয়েন্টকে আরও আলাদা করতে আপনাকে অতিরিক্ত পরিমাপ সংগ্রহ করতে হবে।

গাছের সংখ্যা বাড়ানো মতো কোনও কিছুর প্রাক্কলনের অনুমানের বৈচিত্রকে হ্রাস করতে পারে । কেন্দ্রীয় সীমাবদ্ধ উপপাদ্য থেকে প্রাপ্ত ফলাফলগুলি বিবেচনা করুন: নমুনার আকার বাড়ানো গড়ের মতো পরিসংখ্যানের বৈচিত্রকে হ্রাস করতে পারে, তবে এটি অপসারণ করতে পারে না। এলোমেলো বনের পূর্বাভাস সমস্ত গাছের পূর্বাভাসের গড় are, এবং এই পূর্বাভাসগুলি নিজেরাই এলোমেলো পরিবর্তনশীল (কারণ বুটস্ট্র্যাপিং এবং বৈশিষ্ট্যগুলির এলোমেলো সাবসেটিংয়ের কারণে; উভয়ই স্বাধীনভাবে ঘটে, তাই ভোটগুলিও আইআইডি হয়)। সিএলটি সরবরাহ করে যে a একটি সাধারণ বিতরণে পৌঁছায় , যেখানে সত্যিকারের গড় পূর্বাভাস is এবংপি(Y=1|এক্স)এক্স¯এক্স¯এক্স¯~এন(μ,σ2এন)μσ2গাছের ভোটের বৈকল্পিকতা। (ভোটগুলি 0 বা 1 এর মান গ্রহণ করে, তাই ভোটের গড়ের সীমাবদ্ধ বৈচিত্র রয়েছে)) মুল বক্তব্যটি হ'ল গাছের সংখ্যা দ্বিগুণ করার ফলে অর্ধেক var এর প্রকরণ কেটে যাবে , তবে এটিকে চালিত করবে না শূন্য। এক্স¯( ব্যতীত তবে আমরা জানি যে এখানে পরিস্থিতি নেই is)σ2=0

অপ্রয়োজনীয় বৈকল্পিকতা বুটস্ট্র্যাপিং দ্বারা স্থির করা যায় না। তদুপরি, এলোমেলো বন ইতিমধ্যে বুটস্ট্র্যাপযুক্ত; এটি তার নামে এটি "এলোমেলো" থাকার একটি অংশ। (অন্য কারণ হ'ল প্রতিটি বিভাগে বৈশিষ্ট্যগুলির এলোমেলো উপসেট নির্বাচন করা হয়))

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.