এলোমেলো বন কি বস্টিং অ্যালগরিদম?


51

বৃদ্ধির সংক্ষিপ্ত সংজ্ঞা :

দুর্বল শিক্ষার্থীদের একটি সেট কি একক শক্তিশালী শিক্ষানবিস তৈরি করতে পারে? একটি দুর্বল শিক্ষানবিসকে শ্রেণীবদ্ধকারী হিসাবে সংজ্ঞায়িত করা হয় যা কেবলমাত্র প্রকৃত শ্রেণিবিন্যাসের সাথে সম্পর্কিত (এটি এলোমেলো অনুমানের চেয়ে উদাহরণগুলি আরও ভাল লেবেল করতে পারে)।

র্যান্ডম ফরেস্টের সংক্ষিপ্ত সংজ্ঞা :

এলোমেলো বন অনেক শ্রেণিবিন্যাস গাছ বৃদ্ধি করে। একটি ইনপুট ভেক্টর থেকে একটি নতুন বস্তুর শ্রেণিবদ্ধকরণ করতে, ইনপুট ভেক্টরটিকে বনের প্রতিটি গাছের নীচে রাখুন। প্রতিটি গাছ একটি শ্রেণিবদ্ধকরণ দেয় এবং আমরা গাছটিকে সেই শ্রেণীর জন্য "ভোট" বলি। বনটি সর্বাধিক ভোট (শ্রেণিবদ্ধ সমস্ত গাছের উপরে) শ্রেণিবিন্যাস চয়ন করে।

র্যান্ডম ফরেস্টের আর একটি সংক্ষিপ্ত সংজ্ঞা :

একটি এলোমেলো বন একটি মেটা অনুমানকারী যা ডেটাসেটের বিভিন্ন উপ-নমুনাগুলির উপর অনেকগুলি ট্রি ট্রি ক্লাসিফায়ারকে ফিট করে এবং ভবিষ্যদ্বাণীমূলক নির্ভুলতা এবং ওভার-ফিটিং নিয়ন্ত্রণের জন্য গড় ব্যবহার করে।

আমি যেমন বুঝতে পারি র‌্যান্ডম ফরেস্ট হ'ল একটি বস্টিং অ্যালগরিদম যা গাছকে এর দুর্বল শ্রেণিবদ্ধ হিসাবে ব্যবহার করে। আমি জানি যে এটি অন্যান্য কৌশলগুলিও ব্যবহার করে এবং তাদের উন্নতি করে। কেউ আমাকে সংশোধন করেছেন যে র‌্যান্ডম ফরেস্ট কোনও বুস্টিং অ্যালগরিদম নয়?

কেউ কি এ বিষয়ে বিস্তারিত বলতে পারেন, কেন র্যান্ডম ফরেস্ট বস্টিং অ্যালগরিদম নয়?


13
র্যান্ডম অরণ্যগুলি একটি ব্যাগিং অ্যালগরিদম: en.wikedia.org/wiki/Bootstrap_aggregating । আমি প্রস্তাব দিচ্ছি যে পার্থক্যটি দেখার জন্য আপনি সংক্ষিপ্ততম বর্ণনার তুলনায় আরও পড়ুন। উত্সাহ দেওয়ার ক্ষেত্রে, পুনরায় মডেলিং কৌশলটি এলোমেলো নয়
মার্ক ক্লেসেন

12
মজাদার ঘটনা: মূল র্যান্ডম ফরেস্ট পেপারে ব্রেইমান পরামর্শ দেয় যে অ্যাডাবোস্ট (অবশ্যই একটি উত্সাহিতকরণ অ্যালগরিদম) বেশিরভাগ র্যান্ডম ফরেস্ট করে যখন কিছু পুনরাবৃত্তির পরে, তার অনুকূলকরণের স্থানটি এতটাই গোলমাল হয়ে যায় যে এটি কেবল স্টোচাস্টিকালি প্রায় ছড়িয়ে পড়ে।

উত্তর:


81

র‌্যান্ডম ফরেস্ট হ'ল আলগরিদম বাড়ানোর পরিবর্তে একটি ব্যাগিং অ্যালগরিদম। স্বল্প ত্রুটি অর্জনের জন্য এগুলি দুটি বিপরীত উপায়।

আমরা জানি যে ত্রুটি পক্ষপাত এবং বৈকল্পিকতা থেকে মিশ্রিত করা যেতে পারে। একটি খুব জটিল মডেলের কম পক্ষপাত কিন্তু বৃহত বৈকল্পিক রয়েছে, খুব সাধারণ মডেলের কম বৈকল্পিক রয়েছে তবে বড় পক্ষপাত, উভয়ই একটি উচ্চ ত্রুটির কারণ কিন্তু দুটি ভিন্ন কারণ। ফলস্বরূপ, সমস্যা সমাধানের দুটি ভিন্ন উপায় মানুষের মনে আসে (সম্ভবত ব্রেমন এবং অন্যরা), কোনও জটিল মডেলের জন্য বৈচিত্র্য হ্রাস, বা সাধারণ মডেলের পক্ষপাতিত্ব হ্রাস, যা এলোমেলো বন এবং উত্সাহকে বোঝায়।

এলোমেলো বন কম পক্ষপাত সহ বিশাল সংখ্যক "জটিল" মডেলের বৈচিত্রকে হ্রাস করে। আমরা দেখতে পাই রচনা উপাদানগুলি "দুর্বল" মডেল নয় তবে খুব জটিল মডেল। আপনি যদি অ্যালগরিদম সম্পর্কে পড়েন তবে অন্তর্নিহিত গাছগুলি "সম্ভাব্য" হিসাবে বৃহত্তর "কিছুটা" রোপণ করা হয়। অন্তর্নিহিত গাছগুলি স্বাধীন সমান্তরাল মডেল। এগুলিকে আরও বেশি স্বাধীন করার জন্য তাদের মধ্যে অতিরিক্ত এলোমেলো পরিবর্তনশীল নির্বাচন প্রবর্তিত হয় যা এটি সাধারণ ব্যাগিংয়ের চেয়ে আরও ভাল পারফর্ম করে এবং "র্যান্ডম" নামটি উপাধি দেয়।

উত্সাহিত করার সময় স্বল্প বৈকল্পিকতা সহ বিশাল সংখ্যক "ছোট" মডেলের পক্ষপাত হ্রাস করে। আপনার উদ্ধৃতি হিসাবে তারা "দুর্বল" মডেল। অন্তর্নিহিত উপাদানগুলি কোনওভাবে প্রতিটি স্তরের পক্ষপাত সম্পর্কে "চেইন" বা "নেস্টেড" পুনরাবৃত্ত মডেলের মতো। সুতরাং তারা স্বাধীন সমান্তরাল মডেল নয় তবে প্রতিটি মডেল ওজন দ্বারা পূর্ববর্তী সমস্ত ছোট মডেলের উপর ভিত্তি করে নির্মিত। এটি একে একে তথাকথিত "বুস্টিং"।

ব্রেইমের কাগজপত্র এবং বইগুলিতে গাছ, এলোমেলো বন এবং যথেষ্ট উত্সাহিত করার বিষয়ে আলোচনা করা হয়েছে। এটি আপনাকে অ্যালগরিদমের পিছনে নীতিটি বুঝতে সহায়তা করে।


25

একটি এলোমেলো বন একটি উত্সাহী ধরণের অ্যালগরিদম হিসাবে বিবেচনা করা হয় না।

আপনার বুস্টিং লিঙ্কে ব্যাখ্যা করা হয়েছে:

... বেশিরভাগ বুস্টিং অ্যালগরিদমগুলি বিতরণের ক্ষেত্রে শ্রদ্ধার সাথে দুর্বল শ্রেণিবদ্ধকে শেখার এবং তাদের একটি চূড়ান্ত শক্তিশালী শ্রেণিবদ্ধে যুক্ত করে। এগুলি যুক্ত করা হলে এগুলি সাধারণত কোনও উপায়ে ওজনযুক্ত হয় যা সাধারণত দুর্বল শিক্ষার্থীদের যথার্থতার সাথে সম্পর্কিত। দুর্বল শিখার যোগ করার পরে, ডেটা পুনরায় আলোকিত হয় ...

এই পুনরাবৃত্ত প্রক্রিয়াটির একটি উদাহরণ অ্যাডাবোস্ট, যার মাধ্যমে দুর্বল ফলাফলগুলি অনেক পুনরাবৃত্তির উপর দিয়ে বেড়ে যায় বা পুনর্চালিত হয় যাতে শিখরটি ভুল হয়ে গেছে এমন জায়গাগুলির দিকে আরও মনোনিবেশ করতে পারে এবং সেই পর্যবেক্ষণগুলিতে সঠিক ছিল না less

বিপরীতে, একটি এলোমেলো বন হ'ল একটি জড়ো ব্যাগিং বা গড় পদ্ধতি যা ডেটাসেট থেকে এলোমেলোভাবে অনেক গাছ বাছাই করে এবং গড় হিসাবে পৃথক গাছের বৈচিত্রকে হ্রাস করতে পারে।


7

এটি ব্যাগিংয়ের একটি এক্সটেনশন। পদ্ধতিটি নিম্নরূপ: আপনি আপনার ডেটার একটি বুটস্ট্র্যাপ নমুনা নেন এবং তারপরে শ্রেণিবদ্ধকরণ বা রিগ্রেশন ট্রি (সিআরটি) বাড়ানোর জন্য এটি ব্যবহার করেন। এটি একটি পূর্বনির্ধারিত সংখ্যক বার করা হয় এবং পূর্বাভাসটি হ'ল পৃথক গাছের পূর্বাভাসের সমষ্টি হয়, এটি সংখ্যাগরিষ্ঠ ভোট (শ্রেণিবিন্যাসের জন্য) বা গড় (প্রতিরোধের জন্য) হতে পারে। এই পদ্ধতির ব্যাগিং (ব্রেইম্যান 1994) বলা হয়। জন্য উপরন্তু প্রার্থী পরিবর্তনশীল প্রতিটি বিভক্ত প্রতিটিসমস্ত উপলভ্য স্বাধীন ভেরিয়েবলগুলির একটি এলোমেলো নমুনা থেকে গাছ নেওয়া হয়। এটি আরও বেশি পরিবর্তনশীলতার পরিচয় দেয় এবং গাছগুলিকে আরও বৈচিত্র্যময় করে তোলে। এটিকে র্যান্ডম সাবস্পেস পদ্ধতি (হো, 1998) বলা হয়। যেমনটি উল্লেখ করা হয়েছে, এটি এমন গাছ তৈরি করে যা একেবারেই বিচিত্র এবং এমন গাছগুলিতে অনুবাদ করে যা একে অপরের থেকে অত্যন্ত স্বতন্ত্র। কারণ জেনসেন এর বৈষম্য আমরা জানি যে এই গাছ ভবিষ্যৎবাণী ত্রুটি গড় ছোট বা গড় গাছ যে ডেটা সেট থেকে উত্থিত ত্রুটির সমান হতে হবে। এটি দেখার আরেকটি উপায় হ'ল গড় স্কোয়ার ত্রুটিটি লক্ষ্য করা এবং লক্ষ্য করা যায় কীভাবে এটি পক্ষপাত এবং বৈকল্পিক অংশগুলিতে ক্ষয় হতে পারে (এটি তত্ত্বাবধানে শেখার কোনও সমস্যার সাথে বায়াস-ভেরিয়েন্স ট্রেড অফ বলা হয়))। অস্থিসন্ধি গাছের পূর্বাভাস গড়ের মাধ্যমে বৈকল্পিক হ্রাস করে এলোমেলো বন আরও ভাল নির্ভুলতা অর্জন করে। এটি লক্ষ করা উচিত যে এটি তার গাছের পক্ষপাতিত্ব উত্তরাধিকার সূত্রে প্রাপ্ত, যা বেশ আলোচিত সমস্যা, উদাহরণস্বরূপ এই প্রশ্নটি পরীক্ষা করে দেখুন ।


5

আমি বিশ্বাস করি আপনি সাধারণভাবে জমায়েত পদ্ধতিগুলি দ্বারা বিশেষত বিভ্রান্ত করছেন, যার মধ্যে অনেকগুলি রয়েছে। আপনার উত্সাহের "সংজ্ঞা" সম্পূর্ণ সংজ্ঞা নয়, যা প্যাট এর উত্তরে ব্যাখ্যা করা হয়েছে। আপনি যদি সংগ্রহের পদ্ধতি সম্পর্কে আরও জানতে চান তবে আমি আপনাকে নীচের বইটি বেছে নেওয়ার পরামর্শ দিচ্ছি:

জন এল্ডার এবং জিওভানি সেনি i ডেটা মাইনিংয়ে জড়িত পদ্ধতিগুলি: পূর্বাভাসের সংমিশ্রণের মাধ্যমে নির্ভুলতা বৃদ্ধি করা । (2010)


3

এলোমেলো বন হ'ল একটি ব্যাগিং কৌশল এবং কোনও উত্সাহ দেওয়ার কৌশল নয়। নামটি যেমন বোঝাচ্ছে তেমন একজন অন্যের কাছ থেকে শিখছে যা ফলস্বরূপ শিক্ষাকে বাড়িয়ে তোলে।

এলোমেলো বনের গাছগুলি সমান্তরালে চালিত হয়। গাছ তৈরির সময় এই গাছগুলির মধ্যে কোনও মিথস্ক্রিয়া নেই। সমস্ত গাছ একবার নির্মিত হয়ে গেলে সমস্যাটি শ্রেণিবদ্ধকরণ বা রিগ্রেশন সমস্যা কিনা তার উপর নির্ভর করে সমস্ত গাছের পূর্বাভাস জুড়ে একটি ভোটদান বা গড় নেওয়া হয়।

জিবিএম-গ্রেডিয়েন্ট বুস্টিং মেশিনের মতো অ্যালগরিদম বৃদ্ধিতে গাছগুলি ধারাবাহিকভাবে প্রশিক্ষিত হয়।

আসুন ধরা যাক প্রথম গাছটি প্রশিক্ষণ পেয়েছে এবং এটি প্রশিক্ষণের ডেটাতে কিছু ভবিষ্যদ্বাণী করেছে। এই সমস্ত ভবিষ্যদ্বাণী সঠিক হবে না। আসুন আমরা মোট 100 পূর্বাভাসগুলির মধ্যে বলি, প্রথম গাছ 10 টি পর্যবেক্ষণের জন্য ভুল করেছিল। এখন দ্বিতীয় গাছ তৈরি করার সময় এই 10 টি পর্যবেক্ষণকে আরও ওজন দেওয়া হবে। লক্ষ্য করুন যে দ্বিতীয় গাছের শিক্ষাটি প্রথম গাছের শিক্ষা থেকে উত্সাহ পেয়েছিল। সুতরাং, শব্দ উত্সাহ। এইভাবে, প্রতিটি গাছ পূর্ববর্তী গাছগুলি থেকে শেখার উপরে ক্রমান্বয়ে নির্মিত হয়।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.