একটি খুব ভাল প্রশ্নের জন্য ধন্যবাদ! আমি এর পিছনে আমার অন্তর্দৃষ্টি দেওয়ার চেষ্টা করব
এটি বোঝার জন্য, এলোমেলো বন শ্রেণিবদ্ধের "উপাদানগুলি" মনে রাখবেন (কিছু পরিবর্তন রয়েছে তবে এটি সাধারণ পাইপলাইন):
- পৃথক গাছ তৈরির প্রতিটি ধাপে আমরা ডেটার সেরা বিভাজন খুঁজে পাই
- একটি গাছ তৈরি করার সময় আমরা পুরো ডেটাसेट ব্যবহার করি না, তবে বুটস্ট্র্যাপ নমুনা ব্যবহার করি
- আমরা পৃথক গাছের আউটপুটগুলিকে গড়ে গড়ে গড়ে তুলি (আসলে 2 এবং 3 এর অর্থ আরও সাধারণ ব্যাগিং প্রক্রিয়া )।
প্রথম পয়েন্ট ধরুন। সর্বদা সেরা বিভাজন খুঁজে পাওয়া সম্ভব নয়। উদাহরণস্বরূপ নীচের ডাটাবেসে প্রতিটি বিভাজন হ'ল একটি বিযুক্ত শ্রেণীর বস্তু দেবে।
এবং আমি মনে করি যে ঠিক এই পয়েন্টটি বিভ্রান্তিকর হতে পারে: প্রকৃতপক্ষে, পৃথক বিভাজনের আচরণটি কোনওভাবেই নায়েভ বেয়েস শ্রেণিবদ্ধের আচরণের মতো: যদি ভেরিয়েবলগুলি নির্ভরশীল হয় - সিদ্ধান্ত গাছের পক্ষে এর চেয়ে ভাল বিভাজন আর নায়েভ বেয়েস শ্রেণিবদ্ধও ব্যর্থ হয় also (কেবল মনে করিয়ে দেওয়ার জন্য: স্বাধীন ভেরিয়েবলগুলি মূল অনুমান যা আমরা নাইভ বেয়েস শ্রেণিবদ্ধে করি; অন্য সমস্ত অনুমানগুলি আমরা যে সম্ভাব্য মডেলগুলি বেছে নিই তা থেকে আসে))
তবে এখানে সিদ্ধান্ত গাছগুলির দুর্দান্ত সুবিধাটি রয়েছে: আমরা যে কোনও বিভাজন নিয়েছি এবং আরও বিভাজন চালিয়ে যাব । এবং নিম্নলিখিত বিভক্তির জন্য আমরা একটি নিখুঁত পৃথকীকরণ (লাল রঙের মধ্যে) পাব।
এবং যেমন আমাদের কোনও সম্ভাব্য মডেল নেই, তবে কেবল বাইনারি বিভাজন, আমাদের কোনও অনুমান করার দরকার নেই।
এটি সিদ্ধান্ত গাছ সম্পর্কে ছিল, তবে এটি র্যান্ডম ফরেস্টের জন্যও প্রযোজ্য। পার্থক্য হ'ল র্যান্ডম ফরেস্টের জন্য আমরা বুটস্ট্র্যাপ একত্রিতকরণ ব্যবহার করি। এর নীচে কোনও মডেল নেই এবং এটি কেবল নির্ভর করে যে এটি নির্ভর করে তা হল নমুনাটি প্রতিনিধিত্বকারী । তবে এটি সাধারণত একটি সাধারণ অনুমান। উদাহরণস্বরূপ, যদি একটি শ্রেণি দুটি উপাদান নিয়ে গঠিত হয় এবং আমাদের ডেটাসেটে একটি উপাদান 100 টি নমুনা দ্বারা উপস্থাপিত হয় এবং অন্য উপাদানটি 1 টি নমুনা দ্বারা প্রতিনিধিত্ব করে - সম্ভবত বেশিরভাগ স্বতন্ত্র সিদ্ধান্তের গাছগুলি কেবল প্রথম উপাদানটি দেখতে পাবে এবং র্যান্ডম ফরেস্ট দ্বিতীয়টিটিকে ভুলভাবে শ্রেণিবদ্ধ করবে ।
আশা করি এটি আরও কিছু বোঝার সুযোগ দেবে।