প্রতিক্রিয়া-বিতরণ-নির্ভর পক্ষপাত এলোমেলো বন দমন


9

আমি রিগ্রেশনের জন্য আর (আর সংস্করণ ২.১13.১, র্যান্ডমফোরস্ট সংস্করণ ৪.6-২) এ র্যান্ডমফোরস্ট প্যাকেজটি ব্যবহার করছি এবং আমার ফলাফলগুলিতে একটি উল্লেখযোগ্য পক্ষপাতিত্ব লক্ষ্য করেছি: ভবিষ্যদ্বাণী ত্রুটি প্রতিক্রিয়ার ভেরিয়েবলের মানের উপর নির্ভরশীল। উচ্চ মানগুলি পূর্বাভাসিত এবং নিম্ন মানগুলি পূর্বাভাসিত হয়। প্রথমে আমি সন্দেহ করি এটি আমার ডেটা এর পরিণতি ছিল তবে নিম্নলিখিত সাধারণ উদাহরণটি এলোমেলো বন অ্যালগরিদমের সহজাত যা বোঝায়:

n = 1000; 
x1 = rnorm(n, mean = 0, sd = 1)
response = x1
predictors = data.frame(x1=x1) 
rf = randomForest(x=predictors, y=response)
error = response-predict(rf, predictors)
plot(x1, error)

আমার সন্দেহ হয় যে পক্ষপাতটি প্রতিক্রিয়ার বিতরণের উপর নির্ভরশীল, উদাহরণস্বরূপ, যদি x1অভিন্নভাবে বিতরণ করা হয় তবে কোনও পক্ষপাত নেই; যদি x1তাৎক্ষণিকভাবে বিতরণ করা হয়, পক্ষপাতটি একতরফা। মূলত, একটি সাধারণ বিতরণের লেজগুলিতে প্রতিক্রিয়ার মানগুলি হ'ল বিদেশী। এটি কোনও আশ্চর্যজনক বিষয় নয় যে কোনও মডেলটির বহিরাগতদের ভবিষ্যদ্বাণী করতে অসুবিধা হবে। র্যান্ডমফোরেস্টের ক্ষেত্রে, বিতরণের লেজ থেকে চরম মাত্রার একটি প্রতিক্রিয়া মান টার্মিনাল পাতায় শেষ হওয়ার সম্ভাবনা কম থাকে এবং এর প্রভাবটি মিলিত গড়তে ধুয়ে ফেলা হবে।

নোট করুন যে আমি এই প্রভাবটি আগের উদাহরণটিতে ক্যাপচার করার চেষ্টা করেছি, "র‌্যান্ডমফরেস্ট ইন আর লিনিয়ার রিগ্রেশন টেইল মিট্রি"। এটি একটি খারাপ উদাহরণ ছিল। যদি উপরের উদাহরণের পক্ষপাতটি সত্যই অ্যালগরিদমের অন্তর্নিহিত হয় তবে এটি অনুসরণ করে যে প্রতিক্রিয়া বিতরণ করার পূর্বে যে কোনও ভবিষ্যদ্বাণী করার চেষ্টা করা হচ্ছে তার ফলে একটি পক্ষপাত সংশোধন করা যেতে পারে যার ফলে আরও সঠিক ভবিষ্যদ্বাণী ঘটে।

গাছ ভিত্তিক পদ্ধতি যেমন এলোমেলো বন, প্রতিক্রিয়া বিতরণ পক্ষপাতের বিষয়? যদি তা হয়, তবে এটি পূর্বে কী পরিসংখ্যান সম্প্রদায়ের কাছে জানা ছিল এবং কীভাবে এটি সাধারণত সংশোধন করা হয় (উদাহরণস্বরূপ একটি দ্বিতীয় মডেল যা পক্ষপাতদুষ্ট মডেলের অবশিষ্টাংশকে ইনপুট হিসাবে ব্যবহার করে)?

প্রতিক্রিয়া-নির্ভর পক্ষপাত সংশোধন করা কঠিন কারণ প্রকৃতির দ্বারা, প্রতিক্রিয়াটি জানা যায় না। দুর্ভাগ্যক্রমে, অনুমান / পূর্বাভাস দেওয়া প্রতিক্রিয়া প্রায়শই পক্ষপাতিত্বের সাথে একই সম্পর্ক ভাগ করে না।


আমি প্রায় 12 মাস ধরে এই একই প্রশ্নে ভাবছি। দেখুন stats.stackexchange.com/questions/21530/... এবং kaggle.com/forums/t/1106/random-forests-newbie-question । আমি সম্মত হই যে সমস্যাটি মনে হচ্ছে যে প্রতিটি নোডে পূর্বাভাস হিসাবে ব্যবহৃত গড়গুলি আউটলিয়ারদের ভাল উপস্থাপন করা হচ্ছে না। পূর্বাভাস সামঞ্জস্য বা মডেল-ইন-নোড যুক্তিসঙ্গত পদ্ধতির মতো বলে মনে হয় তবে মানক পদ্ধতির কী তা নিশ্চিত নয়।
redcalx

উত্তর:


4

আপনার সন্দেহ হিসাবে এটি পুরোপুরি - লিফ নোডের কিছু উপাদান অন্তর্ভুক্ত হওয়ার অর্থ কোনও প্রতিক্রিয়া গাছের মডেল প্রতিক্রিয়া বিতরণকে শক্ত করে তোলে এবং কোনও অতিরিক্ত এক্সট্রোপলেশনকে অসম্ভব করে তোলে। অবশ্যই তাড়াতাড়ি এটিতে সহায়তা করে না এবং বাস্তবে পরিস্থিতি আরও খারাপ করে তোলে।

নিষ্পাপ সমাধান (এবং অত্যধিক ফিটনের কারণে বিপজ্জনক) মডেলটিকে কোনও ধরণের ধ্রুপদী প্রতিরোধের মধ্যে আবৃত করা যা এটির কাঙ্ক্ষিত বিতরণের প্রতিক্রিয়া পুনরুদ্ধার করবে।

এর চেয়ে ভাল সমাধানটি হল পাতায় প্যাকেজের এমওবি উদাহরণস্বরূপ, পাতাগুলির একটি মডেল in এখানে ধারণাটি হ'ল সমস্যাটি যখন কোনও সাধারণ মূল্যে (নিয়মিত গাছের মতো) নয় বরং প্রতিক্রিয়া এবং কিছু ভবিষ্যদ্বাণীকের মধ্যে একটি সহজ সম্পর্ক (রৈখিক বলুন) এর সাথে সহজ হয়ে যায় তখন বৈশিষ্ট্য স্পেসের বিভাজনটি শেষ হওয়া উচিত। এই জাতীয় সম্পর্কটি এখন কিছু সাধারণ মডেল ফিট করে সমাধান করা যেতে পারে যা বিতরণকে বাধা দেয় না বা চরম মানগুলি ছাঁটাই করে এবং এক্সট্রোপোলেট করতে সক্ষম হবে।


প্রতিক্রিয়া বিতরণ পুনরুদ্ধার কেন overfitting বাড়ে? অরণ্যের যে কোনও দুটি আউটপুটগুলির মধ্যে অর্ডারের সম্পর্ক এটি পুনরুদ্ধারের জন্য বহুপক্ষীয় ফিটের মাধ্যমে চাপ দেওয়ার পরে একই ক্রমটি ধরে রাখবে, সুতরাং আপনি যদি সিদ্ধান্তের আউটপুটটির পরিমাণের ভিত্তিতে সিদ্ধান্ত নেন তবে মডেল থেকে সিদ্ধান্ত নেওয়া প্রভাবিত হবে না।
জেস

তুমি ঠিক; আমি এমন একটি দৃশ্যের কথা ভাবছিলাম যখন আরএফ সম্পূর্ণ বোকা উত্তর উত্পন্ন করে এবং রিগ্রেশন এটিকে প্রতারণামূলকভাবে আরও ভাল দিয়ে রূপান্তরিত করে । আর2

3

শর্তসাপেক্ষ আরএফের সাথে ইঁদুর প্যাকেজটির মাধ্যমে অ্যাক্সেস পাওয়া আমার ঠিক একই সমস্যা ছিল। আমি গ্রাহাম উইলিয়ামসকে (ইঁদুরের লেখক) এটি ইমেল করেছিলাম, যিনি আমার জিজ্ঞাসাটি উদাত্ত লেখকের কাছে প্রেরণা দিয়েছিলেন, যারা প্রতিক্রিয়া জানিয়েছিল এবং দুটি পরামিতি নিয়ে খেলার পরামর্শ দিয়েছিল যা আসলে সিআরএফ ডকুমেন্টেশনে কোথাও রেফারেন্স করা হয়নি বলে মনে হয়, তবে যা সম্বোধন করার মতো বলে মনে হয় না seemed সমস্যাটি, অর্থাত্ মিনিপ্লিট = 2 এবং মিনিবুকিট = 1।


minsplit, আমি ধরে নিচ্ছি আপনার অর্থ
স্মি

2

আপনার বিভিন্ন স্তরের গ্রিডের উপরে নমুনা "ক্রস-বৈধতাযুক্ত ত্রুটি" এর বাইরে ন্যূনতম করে, নির্দিষ্ট বৈশিষ্ট্যগুলির নির্দিষ্ট সংখ্যার জন্য কোনও সম্পর্কিত প্রতিক্রিয়ার ভেরিয়েবলের জন্য স্যাম্পসাইজ প্যারামিটারের তুলনামূলক সর্বোত্তম মানের অনুমান করা উচিত এবং তারপরে কোনও সিদ্ধান্ত নেওয়া উচিত- ফলাফল পদে। আপনি বিস্তৃত.grid ব্যবহার করে গ্রিড পরামিতিগুলির সংমিশ্রণ তৈরি করতে পারেন।


2
এটি বিল্ডিং মডেলগুলির জন্য একটি ভাল পরামর্শ, সাধারণভাবে অনুকূলিত পরামিতিগুলি আরও সঠিক ভবিষ্যদ্বাণী করবে। তবে, এক্ষেত্রে পক্ষপাতটি টিউন না করেই বিদ্যমান, যতদূর আমি বলতে পারি। কেবলমাত্র একজন ভবিষ্যদ্বাণীবিদ রয়েছে তাই কাতলা হওয়া উচিত ১। এন এর চেয়ে কম যে কোনও নমুনার আকার কেবল পক্ষপাত বাড়ানোর জন্য পরিবেশন করে এবং নোডসাইজের খুব কম প্রভাব পড়ে।
রামবলবি
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.