গ্রেডিয়েন্ট বুস্টিং ট্রি বনাম র্যান্ডম ফরেস্ট


110

ফ্রেডম্যান প্রস্তাবিত গ্রেডিয়েন্ট ট্রি বুস্টিং সিদ্ধান্ত কাঠ গাছগুলি বেস লার্নার হিসাবে ব্যবহার করে। আমি ভাবছি যে বেস ভিত্তি গাছটিকে যতটা সম্ভব জটিল (পুরোপুরি বড় হওয়া) বা সহজতর করা উচিত? পছন্দ জন্য কোন ব্যাখ্যা আছে?

বেস লার্নার হিসাবে সিদ্ধান্ত গাছ ব্যবহার করে র্যান্ডম ফরেস্ট হল আরেকটি জাতীয় পদ্ধতি। আমার বোঝার উপর ভিত্তি করে, আমরা সাধারণত প্রতিটি পুনরাবৃত্তিতে প্রায় সম্পূর্ণভাবে বর্ধিত সিদ্ধান্ত গাছ ব্যবহার করি। আমি কি সঠিক?


1
উত্সাহিত গাছগুলির জন্য আপনি আরও একটি খুব ভাল রেফারেন্সটি এখানে পেতে পারেন: xgboost.readthedocs.io/en/latest/model.html
নাগমেহে

@ নাঘমেহ - মৃত লিঙ্ক; xgboost.readthedocs.io/en/latest/tutorials/model.html
মিলিবি

উত্তর:


149

error = bias + variance

  • বুস্টিং দুর্বল শিক্ষার্থীদের (উচ্চ পক্ষপাত, কম বৈকল্পিক) উপর ভিত্তি করে । সিদ্ধান্ত গাছের ক্ষেত্রে, দুর্বল শিক্ষার্থীরা অগভীর গাছ, কখনও কখনও সিদ্ধান্ত স্টাম্পের মতোও ছোট (দুটি পাতা সহ গাছ)। বুস্টিং মূলত পক্ষপাত হ্রাস করে ত্রুটি হ্রাস করে (এবং বেশ কিছু পরিমাণে বৈকল্পিকতাও অনেক মডেল থেকে আউটপুট একত্রিত করে) reduces
  • অন্যদিকে, র্যান্ডম ফরেস্ট যেমন আপনি বলেছিলেন সম্পূর্ণরূপে উত্থিত সিদ্ধান্তের গাছগুলি (কম পক্ষপাত, উচ্চ বৈচিত্র) ব্যবহার করে। এটি বিপরীতে ত্রুটি হ্রাস কাজটি মোকাবেলা করে: বৈকল্পিকতা হ্রাস করে। গাছগুলির বৈচিত্র্য হ্রাস সর্বাধিকীকরণের জন্য নিবিড় are সুতরাং বৃহত, অরক্ষিত গাছের প্রয়োজন, যাতে পক্ষপাতটি প্রাথমিকভাবে যতটা সম্ভব কম।

দয়া করে নোট করুন যে বুস্টিং (যা অনুক্রমিক) এর বিপরীতে, আরএফ সমান্তরালভাবে গাছ বাড়ায় । iterativeআপনি যে শব্দটি ব্যবহার করেছেন তা এইভাবে অনুপযুক্ত।


1
"গাছগুলি বৈষম্যের হ্রাস সর্বাধিকতর করার জন্য অসংগঠিত তৈরি করা হয়, তবে অ্যালগরিদম পক্ষপাত হ্রাস করতে পারে না (যা বনের একটি পৃথক গাছের পক্ষপাতের চেয়ে কিছুটা বেশি)" - অংশটি "কোনও ব্যক্তির পক্ষপাতের চেয়ে কিছুটা বেশি বনের গাছ "ভুল মনে হয়। দেখুন web.stanford.edu/~hastie/Papers/ESLII.pdf অধ্যায় 15.4.2, "ব্যাগিং হিসাবে, একটি র্যান্ডম বন পক্ষপাত পৃথক নমুনা গাছ কোনো পক্ষপাত হিসাবে একই।" সম্ভবত আপনি বলতে চাইছেন "একটি সম্পূর্ণ পূর্ণ-উত্থিত গাছের পক্ষপাতের চেয়ে কিছুটা বেশি মূল মূল্যের সাথে ফিট"?
অ্যাড্রিয়ান

1
@ গুং আমি ভাবি যে ওপিতে উত্তরহীন একটি মূল প্রশ্ন রয়েছে, যা হ'ল জিবিএমের প্রথম ধাপে পুরোপুরি উত্থিত গাছটি ব্যবহার করবেন না কেন? কেন একক সম্পূর্ণরূপে বর্ধিত গাছের চেয়ে দুর্বল শিক্ষার্থীদের ক্রম ব্যবহার ভাল? আমি সে সম্পর্কে কৌতূহলী
এফটিএক্সএক্স

55

এই প্রশ্নটি খুব সুন্দর পোস্টটিতে সম্বোধন করা হয়েছে। দয়া করে এটি এবং এর উল্লেখগুলি একবার দেখুন। http://fastml.com/what-is-better-gradient-boosted-trees-or-random-forest/

নিবন্ধে লক্ষ্য করুন যে স্পষ্টত ক্যালিব্রেশন সম্পর্কে কথা বলে এবং অন্য একটি (সুন্দর) ব্লগ পোস্টে এটির লিঙ্ক। তবুও, আমি দেখতে পেয়েছি যে বুস্টিংয়ের কাছ থেকে ক্যালিব্রেটেড সম্ভাব্যতা অর্জনের কাগজটি আপনাকে উত্সাহিত শ্রেণিবদ্ধগুলির প্রসঙ্গে ক্যালিব্রেশন কী এবং এটি সম্পাদন করার মানক পদ্ধতিগুলি কী তা সম্পর্কে আরও ভাল ধারণা উপলব্ধ করা হয়।

এবং অবশেষে একটি দিক অনুপস্থিত (কিছুটা আরও তাত্ত্বিক)। আরএফ এবং জিবিএম উভয়ই জড়ো করার পদ্ধতি, যার অর্থ আপনি একটি বিশাল সংখ্যক ছোট শ্রেণিবদ্ধের তৈরি করে একটি শ্রেণিবদ্ধ তৈরি করেন। এখন মৌলিক পার্থক্য ব্যবহৃত পদ্ধতিতে নিহিত:

  1. আরএফ সিদ্ধান্ত গাছ ব্যবহার করে, যা অত্যধিক মানানসই প্রবণতা। উচ্চতর নির্ভুলতা অর্জনের জন্য, আরএফ ব্যাগিংয়ের উপর ভিত্তি করে এগুলির একটি বিশাল সংখ্যক তৈরি করার সিদ্ধান্ত নিয়েছে । মূল ধারণাটি হ'ল তথ্যকে বারবার পুনরায় নমুনা দেওয়া এবং প্রতিটি নমুনা প্রশিক্ষণের জন্য একটি নতুন শ্রেণিবদ্ধ। বিভিন্ন শ্রেণিবদ্ধকারীরা ডেটা আলাদা উপায়ে উপস্থাপন করে এবং ভোট দেওয়ার মাধ্যমে এই পার্থক্যগুলি গড়ে নেওয়া হয়।
  2. জিবিএম হ'ল একটি উত্সাহদান পদ্ধতি, যা দুর্বল শ্রেণিবদ্ধদের উপর ভিত্তি করে । ধারণাটি হ'ল একবারে একটি শ্রেণিবদ্ধকারী যুক্ত করা, যাতে পরবর্তী শ্রেণিবদ্ধকারী ইতিমধ্যে প্রশিক্ষণপ্রাপ্ত ছাঁটাই উন্নত করার জন্য প্রশিক্ষিত হয়। লক্ষ্য করুন যে আরএফের প্রতিটি পুনরাবৃত্তির জন্য শ্রেণিবদ্ধকারী বাকী থেকে স্বতন্ত্র প্রশিক্ষিত হয়।

3
আপনার উত্তর থেকে এটি কি ন্যায্য সিদ্ধান্তে পৌঁছবে যে আরএফ জিবিএমের চেয়ে বেশি পরিমাণে চাপ দেয়?
8:48

4
@ 8Forty আমি এই উপসংহারটি আঁকতে পারব না - যখন আরএফের একটি গাছ একটি জিবিএমের একটি গাছের চেয়ে বেশি উপকারী হবে (কারণ এগুলি অনেক ছোট), আরএফ-তে এই গাছগুলির বেশিরভাগ গাছ লাগানোর সময় গড় হবে আপনি যত বেশি গাছ জিবিএম যুক্ত করবেন, তত বেশি ঝুঁকির ঝুঁকি তত বেশি। সংক্ষেপে, এন (ব্যবহৃত গাছের সংখ্যা) অসীমের দিকে চলে যাওয়ার জন্য, আমি আশা করি আরএফ জিবিএম এর চেয়ে অনেক কম উপকার করবে
এন্ট
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.