আমি রিগ্রেশনের জন্য আর (আর সংস্করণ ২.১13.১, র্যান্ডমফোরস্ট সংস্করণ ৪.6-২) এ র্যান্ডমফোরস্ট প্যাকেজটি ব্যবহার করছি এবং আমার ফলাফলগুলিতে একটি উল্লেখযোগ্য পক্ষপাতিত্ব লক্ষ্য করেছি: ভবিষ্যদ্বাণী ত্রুটি প্রতিক্রিয়ার ভেরিয়েবলের মানের উপর নির্ভরশীল। উচ্চ মানগুলি পূর্বাভাসিত এবং নিম্ন মানগুলি পূর্বাভাসিত হয়। প্রথমে আমি সন্দেহ করি এটি আমার ডেটা এর পরিণতি ছিল তবে নিম্নলিখিত সাধারণ উদাহরণটি এলোমেলো বন অ্যালগরিদমের সহজাত যা বোঝায়:
n = 1000;
x1 = rnorm(n, mean = 0, sd = 1)
response = x1
predictors = data.frame(x1=x1)
rf = randomForest(x=predictors, y=response)
error = response-predict(rf, predictors)
plot(x1, error)
আমার সন্দেহ হয় যে পক্ষপাতটি প্রতিক্রিয়ার বিতরণের উপর নির্ভরশীল, উদাহরণস্বরূপ, যদি x1
অভিন্নভাবে বিতরণ করা হয় তবে কোনও পক্ষপাত নেই; যদি x1
তাৎক্ষণিকভাবে বিতরণ করা হয়, পক্ষপাতটি একতরফা। মূলত, একটি সাধারণ বিতরণের লেজগুলিতে প্রতিক্রিয়ার মানগুলি হ'ল বিদেশী। এটি কোনও আশ্চর্যজনক বিষয় নয় যে কোনও মডেলটির বহিরাগতদের ভবিষ্যদ্বাণী করতে অসুবিধা হবে। র্যান্ডমফোরেস্টের ক্ষেত্রে, বিতরণের লেজ থেকে চরম মাত্রার একটি প্রতিক্রিয়া মান টার্মিনাল পাতায় শেষ হওয়ার সম্ভাবনা কম থাকে এবং এর প্রভাবটি মিলিত গড়তে ধুয়ে ফেলা হবে।
নোট করুন যে আমি এই প্রভাবটি আগের উদাহরণটিতে ক্যাপচার করার চেষ্টা করেছি, "র্যান্ডমফরেস্ট ইন আর লিনিয়ার রিগ্রেশন টেইল মিট্রি"। এটি একটি খারাপ উদাহরণ ছিল। যদি উপরের উদাহরণের পক্ষপাতটি সত্যই অ্যালগরিদমের অন্তর্নিহিত হয় তবে এটি অনুসরণ করে যে প্রতিক্রিয়া বিতরণ করার পূর্বে যে কোনও ভবিষ্যদ্বাণী করার চেষ্টা করা হচ্ছে তার ফলে একটি পক্ষপাত সংশোধন করা যেতে পারে যার ফলে আরও সঠিক ভবিষ্যদ্বাণী ঘটে।
গাছ ভিত্তিক পদ্ধতি যেমন এলোমেলো বন, প্রতিক্রিয়া বিতরণ পক্ষপাতের বিষয়? যদি তা হয়, তবে এটি পূর্বে কী পরিসংখ্যান সম্প্রদায়ের কাছে জানা ছিল এবং কীভাবে এটি সাধারণত সংশোধন করা হয় (উদাহরণস্বরূপ একটি দ্বিতীয় মডেল যা পক্ষপাতদুষ্ট মডেলের অবশিষ্টাংশকে ইনপুট হিসাবে ব্যবহার করে)?
প্রতিক্রিয়া-নির্ভর পক্ষপাত সংশোধন করা কঠিন কারণ প্রকৃতির দ্বারা, প্রতিক্রিয়াটি জানা যায় না। দুর্ভাগ্যক্রমে, অনুমান / পূর্বাভাস দেওয়া প্রতিক্রিয়া প্রায়শই পক্ষপাতিত্বের সাথে একই সম্পর্ক ভাগ করে না।