কেন একটি ব্যাগযুক্ত গাছ / এলোমেলো বন গাছের একক সিদ্ধান্ত গাছের চেয়ে উচ্চ পক্ষপাত হয়?


11

যদি আমরা একটি পূর্ণ বর্ধিত সিদ্ধান্তের গাছটিকে বিবেচনা করি (যেমন একটি অরক্ষিত সিদ্ধান্ত গাছ) এটির উচ্চতর বৈকল্পিকতা এবং কম পক্ষপাত রয়েছে।

ব্যাগিং এবং র্যান্ডম অরণ্যগুলি এই উচ্চতর বৈকল্পিক মডেলগুলি ব্যবহার করে এবং বৈকল্পিকতা হ্রাস করতে এবং এইভাবে পূর্বাভাসের নির্ভুলতা বাড়ানোর জন্য তাদের একত্র করে। ব্যাগিং এবং এলোমেলো বন উভয়ই বুটস্ট্র্যাপের নমুনা ব্যবহার করে এবং "স্ট্যাটাসটিকাল লার্নিং এর উপাদানসমূহ" তে বর্ণিত হিসাবে এটি একক গাছের পক্ষপাত বাড়িয়ে তোলে।

তদুপরি, র্যান্ডম ফরেস্ট পদ্ধতিটি প্রতিটি নোডে অনুমোদিত ভেরিয়েবলগুলিকে বিভক্ত করতে সীমাবদ্ধ করার কারণে, একটি একক এলোমেলো বন গাছের পক্ষপাতিত্ব আরও বেশি বৃদ্ধি পেয়েছে।

সুতরাং, ব্যাগিং এবং র্যান্ডম অরণ্যে একক গাছের পক্ষপাত বাড়ানো যদি বৈকল্পিক হ্রাসকে "নজরদারি" না করে তবে ভবিষ্যদ্বাণীটির সঠিকতা কেবলমাত্র বৃদ্ধি করা হয়।

এটি আমাকে নিম্নলিখিত দুটি প্রশ্নের দিকে নিয়ে যায়: 1) আমি জানি যে বুটস্ট্র্যাপের নমুনা নিয়ে আমরা (প্রায় সর্বদা) বুটস্ট্র্যাপের নমুনায় কিছু একই পর্যবেক্ষণ করব। তবে কেন এটি ব্যাগিং / এলোমেলো বনাঞ্চলে পৃথক গাছের পক্ষপাতিত্ব বাড়ায়? ২) তদতিরিক্ত, কেন প্রতিটি বিভক্তিতে বিভাজন উপলভ্য পরিবর্তনশীলগুলির সীমাটি এলোমেলো বনাঞ্চলের পৃথক গাছগুলিতে উচ্চ পক্ষপাতের দিকে পরিচালিত করে?

উত্তর:


5

আমি কুনলুনের কাছ থেকে ১) এর উত্তরটি গ্রহণ করব, তবে এই মামলাটি বন্ধ করার জন্য, আমি এখানে আমার থিসিসে যে দুটি প্রশ্ন পৌঁছেছি (যেগুলি উভয়ই আমার তত্ত্বাবধায়ক দ্বারা স্বীকৃত হয়েছিল) সম্পর্কে সিদ্ধান্তে পৌঁছে যাব:

1) আরও ডেটা আরও ভাল মডেল উত্পাদন করে এবং যেহেতু আমরা কেবলমাত্র মডেলটি (বুটস্ট্র্যাপ) প্রশিক্ষণের জন্য পুরো প্রশিক্ষণ তথ্যের অংশ ব্যবহার করি, তাই প্রতিটি গাছে উচ্চতর পক্ষপাত ঘটে (কুনলুনের উত্তর থেকে অনুলিপি করুন)

2) র্যান্ডম অরণ্যগুলির অ্যালগরিদমে, আমরা প্রতিটি বিভক্তিতে ভেরিয়েবলের সংখ্যাকে বিভক্ত করতে সীমাবদ্ধ করি - অর্থাৎ আমরা আমাদের ডেটার সাথে ব্যাখ্যা করার জন্য ভেরিয়েবলের সংখ্যাকে সীমাবদ্ধ করি। আবার প্রতিটি গাছে উচ্চতর পক্ষপাত ঘটে।

উপসংহার: উভয় পরিস্থিতি জনসংখ্যার ব্যাখ্যা করার জন্য আমাদের ক্ষমতা সীমিত করার বিষয়: প্রথমে আমরা পর্যবেক্ষণের সংখ্যা সীমাবদ্ধ করি, তারপরে আমরা প্রতিটি বিভক্তিতে ভেরিয়েবলের সংখ্যাকে সীমাবদ্ধ করি। উভয় সীমাবদ্ধতা প্রতিটি গাছে উচ্চ পক্ষপাতের দিকে পরিচালিত করে, তবে প্রায়শই মডেলটির বৈচিত্র্য হ্রাস প্রতিটি গাছের পক্ষপাত বাড়ানোর উপর নজর রাখে এবং এভাবে ব্যাগিং এবং র্যান্ডম অরণ্যগুলি কেবল একটি একক সিদ্ধান্তের গাছের চেয়ে আরও ভাল মডেল তৈরি করতে পারে।


-1

আপনার প্রশ্নগুলি বেশ সোজা। 1) আরও ডেটা আরও ভাল মডেল উত্পাদন করে, যেহেতু আপনি কেবলমাত্র আপনার মডেলকে (বুটস্ট্র্যাপ) প্রশিক্ষণ দেওয়ার জন্য পুরো প্রশিক্ষণের ডেটার অংশ ব্যবহার করেন, উচ্চতর পক্ষপাতিত্ব যুক্তিসঙ্গত। 2) আরও বিভক্ত হওয়ার অর্থ গভীর গাছ বা খাঁটি নোড। এটি সাধারণত উচ্চ বৈকল্পিক এবং কম পক্ষপাতের দিকে পরিচালিত করে। যদি আপনি বিভাজনকে সীমাবদ্ধ করেন তবে নিম্নতর বৈকল্পিক এবং উচ্চতর পক্ষপাতিত্ব।


4
আমি 1 এর পক্ষে আর্গুমেন্টটি পুরোপুরি কিনতে পারি না, যেহেতু প্রতিটি বুটস্ট্র্যাপের নমুনা সমান সম্ভাবনা থাকে, এবং পক্ষপাতিত্ব গড় মডেলের আচরণ সম্পর্কে। দেখে মনে হচ্ছে এটি এর চেয়ে আরও সূক্ষ্ম হতে হবে। আমি মনে করি না 2) জিজ্ঞাসা করা প্রশ্নটি সম্বোধন করে। পোস্টারটির অর্থ "সীমাবদ্ধ বিভাজন" নয় যেমন "অগভীর গাছ বাড়ান" in
ম্যাথু ড্রুরি
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.