এলোমেলো বন কি পূর্বাভাস পক্ষপাতিত্ব প্রদর্শন করে?


12

আমি মনে করি এটি একটি সরল প্রশ্ন, যদিও কেন বা কেন হবে না এর পিছনে যুক্তি। আমি জিজ্ঞাসার কারণটি হ'ল আমি সম্প্রতি একটি আরএফের নিজস্ব বাস্তবায়ন লিখেছি এবং যদিও এটি দুর্দান্তভাবে সম্পাদন করে তবে এটি আমার যেমনটি প্রত্যাশা করা হয়েছিল তেমন পারফরম্যান্স করছে না ( কাগল ফটো কোয়ালিটি প্রিডিকশন প্রতিযোগিতার ডেটা সেট, বিজয়ী স্কোর এবং কিছুটির উপর ভিত্তি করে ) পরবর্তী কৌশলগুলি কী কী কৌশল ব্যবহার করা হয়েছিল সে সম্পর্কে উপলভ্য হয়েছিল)।

এই জাতীয় পরিস্থিতিতে আমি প্রথম কাজটি করি তা হ'ল আমার মডেলের প্লট পূর্বাভাস ত্রুটি, সুতরাং প্রতিটি প্রদত্ত পূর্বাভাসের মানের জন্য আমি সঠিক টার্গেট মান থেকে দূরে গড় বায়াস (বা বিচ্যুতি) নির্ধারণ করি। আমার আরএফের জন্য আমি এই প্লটটি পেয়েছি:

সঠিক লক্ষ্য মান থেকে পক্ষপাতের তুলনায় পূর্বাভাস মান

আমি ভাবছি যে এটি আরএফের জন্য একটি সাধারণভাবে পর্যবেক্ষণ করা পক্ষপাতী প্যাটার্ন (যদি না হয় তবে এটি সম্ভবত ডেটা সেট এবং / অথবা আমার বাস্তবায়নের ক্ষেত্রে নির্দিষ্ট কিছু হতে পারে)। আমি অবশ্যই এই প্লটটি পক্ষপাতিত্বের ক্ষতিপূরণের জন্য এটি ব্যবহার করে ভবিষ্যদ্বাণীগুলি উন্নত করতে ব্যবহার করতে পারি, তবে আমি ভাবছি যে আরএফ মডেলটিতে নিজেই আরও বেশি মৌলিক ত্রুটি বা ঘাটতি রয়েছে যা সম্বোধনের প্রয়োজন রয়েছে। ধন্যবাদ.

== অ্যাডেন্ডাম ==

আমার প্রাথমিক তদন্তটি এই ব্লগ এন্ট্রি র‌্যান্ডম ফরেস্ট বায়াস - আপডেট at


2
এটি আপনার ডেটার বৈশিষ্ট্য হতে পারে; আপনি কি অন্য আরএফ বাস্তবায়নটি একই ডেটাসেটটিতে চালানোর চেষ্টা করেছেন যাতে এটি এই প্রভাবটি পুনরুত্পাদন করে?

উত্তর:


4

(আমি বিশেষজ্ঞের থেকে অনেক দূরে। এগুলি কেবলমাত্র জুনিয়র পরিসংখ্যানবিদদের কাছ থেকে পাওয়া ম্যাসেজ যা বিভিন্ন, তবে আলগাভাবে সাদৃশ্যপূর্ণ বিষয়গুলি নিয়ে কাজ করেছে My আমার উত্তরটি প্রসঙ্গের বাইরে থাকতে পারে))

ভবিষ্যদ্বাণী করার জন্য একটি নতুন নমুনা দেওয়া হয়েছে এবং এমন একটি ওরাকল যা অনেক বড় প্রশিক্ষণের সেটটিতে অ্যাক্সেস পেয়েছে, তারপরে সম্ভবত "সেরা" এবং সর্বাধিক সৎ ভবিষ্যদ্বাণীটি বলতে হবে "আমি 60% সম্ভাবনা নিয়ে ভবিষ্যদ্বাণী করি যে এটি রেড ক্লাসের চেয়ে বেশি ব্লু ক্লাস "।

আমি আরও দৃ concrete় উদাহরণ দেব। কল্পনা করুন যে, আমাদের খুব বড় প্রশিক্ষণের সেটে, একটি নতুন সেট রয়েছে যা আমাদের নতুন নমুনার সাথে খুব মিল। এর মধ্যে %০% নীল এবং ৪০% লাল। এবং রেড থেকে ব্লুজগুলিকে আলাদা করার মতো কিছুই নেই বলে মনে হয়। এই জাতীয় ক্ষেত্রে, এটি স্পষ্টতই যে 60% / 40% হ'ল একমাত্র বুদ্ধিমান ব্যক্তিই ভবিষ্যদ্বাণী করে।

অবশ্যই, আমাদের কাছে এমন ওরাকল নেই, পরিবর্তে আমাদের প্রচুর গাছ রয়েছে। সাধারণ সিদ্ধান্ত গাছগুলি এই 60% / 40% ভবিষ্যদ্বাণী করতে অক্ষম এবং তাই প্রতিটি গাছ একটি পৃথক ভবিষ্যদ্বাণী করবে (লাল বা নীল, এর মধ্যে কিছুই নেই)। এই নতুন নমুনাটি সিদ্ধান্তের পৃষ্ঠের ঠিক লাল দিকে পড়লে আপনি দেখতে পাবেন যে প্রায় সব গাছই নীলের চেয়ে লালকে পূর্বাভাস দেয়। প্রতিটি গাছ তার চেয়ে বেশি নির্দিষ্ট হওয়ার ভান করে এবং এটি পক্ষপাতদুষ্ট ভবিষ্যদ্বাণীটির দিকে পদক্ষেপ শুরু করে।

সমস্যাটি হ'ল আমরা একটি গাছ থেকে সিদ্ধান্তের ভুল ব্যাখ্যা করতে ঝোঁক। যখন কোনও একক গাছ রেড ক্লাসে নোড রাখে তখন আমাদের গাছ থেকে 100% / 0% ভবিষ্যদ্বাণী হিসাবে ব্যাখ্যা করা উচিত নয় । (আমি কেবল এটি বলছি না যে আমরা 'জানি' এটি সম্ভবত একটি খারাপ ভবিষ্যদ্বাণী I'm আমি আরও শক্তিশালী কিছু বলছি, অর্থাত আমাদের সতর্কতা অবলম্বন করা উচিত যাতে আমরা গাছের ভবিষ্যদ্বাণী বলে ব্যাখ্যা করি)। আমি কীভাবে এটি ঠিক করতে পারি তা সংক্ষিপ্তভাবে প্রসারিত করতে পারি না। তবে কোনও গাছের অনিশ্চয়তা সম্পর্কে আরও সৎ হতে উত্সাহিত করার জন্য কোনও গাছে কীভাবে আরও 'ফাজি' বিভাজন তৈরি করা যায় সে সম্পর্কে পরিসংখ্যানের ক্ষেত্রগুলি থেকে ধারণা নেওয়া সম্ভব। তারপরে, কোনও গাছের বন থেকে ভবিষ্যদ্বাণীগুলি অর্থপূর্ণভাবে গড়ে তোলা সম্ভব।

আমি আশা করি এটি কিছুটা সাহায্য করবে। যদি তা না হয় তবে আমি কোনও প্রতিক্রিয়া থেকে শিখতে আশা করি।


চরম আরএফের চেতনায় (তবে সম্ভবত এত চরম নয়?) অদ্ভুত বিভাজনগুলি, পেয়েছে। আপনার ব্যাখ্যাটি আমার কাছে বোধগম্য হওয়ায় আমি এটি চেষ্টা করব। ধন্যবাদ।
redcalx

[র্যান্ডম ফরেস্ট - বায়াস সমস্যার বিষয়ে চিন্তাভাবনা] ( the-locster.livej Journal.com/134241.html ) "তখন মূল কীটি (আমার মনে হয়) একটি অ-অভিন্ন র্যান্ডমাইজেশন [তেহ বিভাজনের প্রান্তের] ব্যবহার করা যা এইভাবে সমস্ত সেট বিভাজন পয়েন্টগুলি যখন যুক্ত হবে তখন y = f (x) পুনরায় তৈরি করবে এবং আরএফ-তে ডিটি সংখ্যা হিসাবে অনন্তের দিকে ঝুঁকবে তাই y = f (x) এর নিখুঁত উপস্থাপনের কাছে যাবে ""
redcalx

60/40% ভবিষ্যদ্বাণীগুলি কি রিগ্রেশন ট্রি দ্বারা পরিচালিত হবে না? আস্থা একটি পাতার বিভাজনে (শ্রেণীর প্রশিক্ষণের জন্য) শ্রেণি অনুপাত করবে। সম্ভবত এটিও পরিসংখ্যানগত শক্তিকে মোকাবেলা করার জন্য প্রসারিত করা যেতে পারে
পরিবর্তন করুন

3

হ্যাঁ. বেশিরভাগ গাছের লেজগুলিতে পক্ষপাত রয়েছে। দেখা:

অবিচ্ছিন্ন ভেরিয়েবলের পূর্বাভাস দেওয়ার সময় কীভাবে সিদ্ধান্ত নেওয়া হবে গাছের বিভাজনগুলি কার্যকর করা উচিত?

"গাছগুলির সাথে একটি সম্ভাব্য সমস্যা হ'ল তারা লেজগুলিতে খুব ভালভাবে ফিট করে the ফলাফল (যেহেতু এটি গড়)


আমি মনে করি না যে মন্তব্যটি এলোমেলো বনের জন্য প্রযোজ্য
জ্যাচ

আমি বিশ্বাস করি যে রেসপন্স অরণ্যের রেফারেন্স বাস্তবায়ন নোডগুলিতে ~ 5 টি পর্যবেক্ষণ সহ বন্ধ হয় যখন প্রতিক্রিয়া পরিবর্তনশীল অবিচ্ছিন্ন থাকে। বিভাজনের পরিবর্তনশীল যদি ধারাবাহিকভাবে চলতে থাকে তবে এটি অল্প পরিমাণ পক্ষপাতিত্ব প্রবর্তন করবে। সহায়তার প্রান্তগুলিতে কেন LOESS প্রায়শই কেন্দ্রীক চলমান গড়ের চেয়ে আরও ভাল দেখায় তার অনুরূপ ...
শেয়া পার্কস
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.