উন্নত করার জন্য ব্যাগের বাইরে থাকা ত্রুটি অনুমান?


9

র্যান্ডম ফরেস্টে, প্রতিটি গাছের সমান্তরালভাবে ডেটার এক অনন্য বুস্ট্র্যাপ নমুনায় উত্থিত হয়। যেহেতু প্রতিটি বুস্ট্র্যাপ নমুনায় প্রায়% 63% অনন্য পর্যবেক্ষণ রয়েছে বলে আশা করা যায়, এটি প্রায় পর্যবেক্ষণের প্রায় 37% ছেড়ে দেয় যা গাছ পরীক্ষার জন্য ব্যবহার করা যেতে পারে।

এখন, মনে হচ্ছে স্টোকাস্টিক গ্রেডিয়েন্ট বুস্টিং-এ, আরএফ-এর মতো একটি :OOBerror

যদি ব্যাগ.ফ্রাকশন 0-এর চেয়ে বেশি সেট করা থাকে (0.5 বাঞ্ছনীয়) তবে জিবিএম ভবিষ্যদ্বাণীপূর্ণ কার্যকারিতাটির উন্নতির একটি প্রাক-ব্যাগ প্রাক্কলন গণনা করে। এটি পরবর্তী রিগ্রেশন ট্রি নির্বাচন করতে ব্যবহৃত হয়নি এমন পর্যবেক্ষণগুলির উপর বিচ্যুতি হ্রাসের মূল্যায়ন করে।

সূত্র: রিজওয়ে (2007) , বিভাগ 3.3 (পৃষ্ঠা 8)।

এটি কীভাবে কার্যকর হয় / বৈধ তা বুঝতে আমার সমস্যা হয়। বলুন আমি ক্রমে একটি গাছ যুক্ত করছি। আমি এই গাছটি মূল ডেটা সেটের এলোমেলো উপস্থানে বাড়ছি। আমি এই একা গাছটি পর্যবেক্ষণগুলিতে পরীক্ষা করতে পারি যা এটি বাড়ার জন্য ব্যবহৃত হয় নি। একমত। কিন্তু , যেহেতু বুস্টিং ক্রমযুক্ত , তাই আমি বাম-আউট পর্যবেক্ষণগুলির জন্য পূর্বাভাস দেওয়ার জন্য এ পর্যন্ত নির্মিত গাছের সম্পূর্ণ ক্রমটি ব্যবহার করছি । এবং, পূর্ববর্তী গাছগুলির মধ্যে অনেকগুলি এই পর্যবেক্ষণগুলি ইতিমধ্যে দেখেছেন এমন উচ্চ সম্ভাবনা রয়েছে। সুতরাং মডেলটি সত্যই কি আরএফ-এর মতো অদৃশ্য পর্যবেক্ষণগুলিতে প্রতিটি রাউন্ডে পরীক্ষা করা হচ্ছে না, তাই না?

সুতরাং, কীভাবে এটিকে "আউট-অফ-ব্যাগ" ত্রুটির প্রাক্কলন বলা হয়? আমার কাছে, পর্যবেক্ষণগুলি ইতিমধ্যে দেখা গেছে বলে এটি কোনও ব্যাগের "আউট" বলে মনে হয় না?


1
এখানে আলোচনা দেখুন github.com/scikit-learn/scikit-learn/pull/1806 । ওওবি অনুমান যেভাবে গণনা করা হয় তা উদ্বেগ প্রকাশ করার ক্ষেত্রে আপনি একা নন।
এমপিটিকাস

লিঙ্কটির জন্য ধন্যবাদ, তবে দুর্ভাগ্যক্রমে সমস্ত থ্রেড অবদানকারীরা আমার মতোই হারিয়ে গেছে বলে মনে হচ্ছে!
এন্টোইন

1
আসলে না. Github.com/scikit-learn/scikit-learn/pull/2188 দেখুন । এই কমিটমেন্টে ওওবি স্কোরটি জিবিএম যেভাবে করে ওওবি উন্নতিতে পরিবর্তিত হয়। আমি জানি না এই ধারণাটি কীভাবে সুনির্দিষ্টভাবে কাজ করে, তবে যা আমি জড়ো করেছি, তার থেকে বর্তমান গাছের জন্য oob নমুনাটি OOB উন্নতি গণনা করার জন্য ব্যবহৃত হয়। আমি গাণিতিক সূত্রগুলি সন্ধান করতে পারি নি, সুতরাং এই উন্নতিটি কীভাবে নিখুঁতভাবে গণনা করা হয় তা দেখতে জিবিএম কোডটি খনন করা প্রয়োজন।
এমপিটিকাস

@ এন্টাইন সত্যিই উত্তেজনাপূর্ণ প্রশ্ন! একটি নির্দিষ্ট উত্তর পাওয়া গেল?
সোরেন হাভেলুন্ড ওয়েলিং

1
না, দুর্ভাগ্যক্রমে। উপরের লিঙ্কগুলি (মন্তব্যে), এই থ্রেড এবং এই অন্যান্য থ্রেডের দ্বারা কিছু ইঙ্গিত দেওয়া হয়েছে । এটি আমাকে পুরোপুরি পাগল করছে। কোনও দিন ড। ফ্রিডম্যান / হাসিটির কাছে কারও একটি ইমেল গুলি করা উচিত ... তবে আপনার মনোযোগের জন্য ধন্যবাদ Thanks
এন্টোইন

উত্তর:


2

কেবলমাত্র আংশিক উত্তর দেওয়া (এবং আপনার প্রশ্নের ক্ষেত্রে একটি নতুন প্রশ্ন যুক্ত করা)।

আর http://www.rdocamentation.org/packages/gbm/funitions/gbm এ জিবিএম প্রয়োগের কিছুটা ব্যাগনেস সামঞ্জস্য করার জন্য দুটি পরামিতি রয়েছে।

ক) train.fractionসমস্ত গাছকে প্রশিক্ষণের জন্য যে ডেটা ব্যবহার করা হয় তার একটি অনুপাত নির্ধারণ করবে এবং এভাবে 1- train.fractionসত্য ওওবি (ব্যাগের বাইরে) হবে be

খ) bag.fractionবৃদ্ধিতে পরবর্তী গাছ তৈরিতে ব্যবহৃত প্রশিক্ষণের ডেটাগুলির অনুপাত নির্ধারণ করবে। সুতরাং এমন কিছু ডেটা থাকতে পারে যা কখনই কোনও গাছ তৈরির জন্য ব্যবহৃত হয় না এবং সেগুলি সত্যই ওওবি ডেটা হিসাবে ব্যবহার করা যেতে পারে but (তবে এটি অসম্ভব, নীচের প্রশ্নটি দেখুন)

যা আমাকে প্রশ্নে নিয়ে আসে। OOB হিসাবে আপনার 37% ডেটা বিশ্লেষণ কেবল একটি গাছের জন্যই সত্য। তবে যে কোনও ডেটা যে কোনও গাছে ব্যবহার করা হয় না সে আরও ছোট - (সমস্ত গাছের জন্য এটি OOB এ থাকতে হবে - আমার বোঝা হ'ল প্রতিটি গাছ নিজস্ব বুটস্ট্র্যাপ করে)। সুতরাং র‌্যান্ডমফোরেস্টে বনটি পরীক্ষা করার জন্য কোনও ওওবি হওয়ার খুব সম্ভাবনা থাকা উচিত। এবং তবুও আর এলোমেলোভাবে বাস্তবায়ন (ব্রেইমানের মূল কোডের উপর ভিত্তি করে) ওওবি সম্পর্কে অনেক কথা বলে (উদাহরণস্বরূপ ফলাফলের ডেটা এবং দেখুন http://www.rdocamentation.org/packages/randomForest/funitions/randomForest )0.37ntreesntreeerr.rateconfusion

আমি কীভাবে উত্তর দিতে পারি তা জানি না (এবং আমি আপনাকে ধন্যবাদ জানাতে (+1) প্রশ্ন জিজ্ঞাসা করার জন্য এবং আমাকে উপলব্ধি করতে পেরেছি যে আমি এলোমেলো দুর্ঘটনার এই দিকটি বুঝতে পারি না)। এর সম্ভাব্য সমাধানটি হ'ল কেবল একটি বুটস্ট্র্যাপ রয়েছে - এবং এটি থেকে সমস্ত গাছ নির্মিত হয় - তবে যতদূর আমি জানি, এটি তেমন নয়।


আরএফ / ব্যাগিংয়ের জন্য কোনও সমস্যা নেই: জমায়েত-বিল্ডিং প্রক্রিয়াটির যে কোনও পদক্ষেপে, মূল উপাত্ত সেটটিতে যে কোনও পর্যবেক্ষণ এই পর্যবেক্ষণ থেকে বঞ্চিত বুস্ট্র্যাপ নমুনাগুলিতে প্রশিক্ষিত সমস্ত গাছকে খাওয়ানো যেতে পারে। মোট গাছের সংখ্যার প্রায় এক তৃতীয়াংশ (~ 37%) এই শর্তটি পূরণ করবে। তদুপরি, এই বৃক্ষগুলিকে ভোট দেওয়ার মাধ্যমে এবং সর্বাধিক জনপ্রিয় শ্রেণিতে পর্যবেক্ষণের জন্য একটি পূর্বাভাস পাওয়া যেতে পারে obtained সমস্ত শ্রেণীর তুলনায় গড় পর্যবেক্ষণের সত্য লেবেল থেকে ভবিষ্যদ্বাণীটি কতবার পৃথক হয়েছে, ব্যাগের বাইরে ব্যাগের ত্রুটি অনুমান করে
এন্টোইন

1
এছাড়াও, দেখে মনে হচ্ছে বুস্টিংয়ে যা ওওবি ত্রুটির প্রাক্কলন ক্ষমতা দেয় তা train.fractionপরামিতি থেকে আসে না (যা কেবলমাত্র জিবিএম ফাংশনের বৈশিষ্ট্য তবে মূল অ্যালগরিদমে উপস্থিত নেই) তবে সত্যিকারের কেবলমাত্র একটি নমুনা থেকে পর্যবেক্ষণের বাইরে রেখে প্রতিটি গাছকে প্রশিক্ষণের জন্য ডেটা ব্যবহার করা হয় (যা পরীক্ষার জন্য ব্যবহার করা যেতে পারে)। যা আমার মূল প্রশ্নে ফিরে যায়। এই পর্যবেক্ষণগুলি পরীক্ষার জন্য কীভাবে ব্যবহার করা যেতে পারে যেহেতু তারা ক্রমগুলি বহু পূর্ববর্তী গাছ দ্বারা সম্ভবত বহুবার দেখা গেছে?
এন্টোইন

ভুলে গেছেন যে আরএফের প্রতিটি গাছ সত্যই আসল তথ্যটির নিজস্ব, অনন্য বুটস্ট্র্যাপ নমুনা থেকে তৈরি হয়েছিল
এন্টোইন

@ ব্যবহারকারী 2835597 আরএফ সম্পর্কিত আপনার ব্যাখ্যার জন্য ধন্যবাদ। সুতরাং একটি আরএফের একটি ওওবি ত্রুটি সত্যই বনের কেবলমাত্র 1/3 টি গাছের মূল্যায়ন করে (যা আমার পক্ষে খুব কার্যকর মনে হয় না)। ঠিক আছে, প্রতিদিন কিছু শিখছি।
জ্যাক ওয়াইনার

যাইহোক, ট্রেন.ফ্রাকশন প্যারামিটারটি আপনার প্রশ্নের উত্তর বলে মনে হচ্ছে। স্ক্যালার বাস্তবায়নেও একই ধরণের প্যারামিটার রয়েছে, সাব
জ্যাক ওয়াইনার

-2

আমি বিশ্বাস করি তারা প্রতিটি পদক্ষেপে ব্যাগের প্রাক্কলন ব্যয় করে। যেহেতু সমস্ত পদক্ষেপের ফলাফল যুক্ত করা হয় (সহগুণ সহ), ওওবি ত্রুটিগুলিও একই সহগের সাথে যুক্ত করা যেতে পারে।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.