গ্রেডিয়েন্ট বুস্টিংয়ের সাথে কি অবশিষ্টাংশগুলি সম্পর্কিত?


11

সম্প্রতি, আমরা রেসিডুয়াল নিউরাল নেট এর উত্থান দেখেছি, যার মধ্যে প্রতিটি স্তরের একটি কম্পিউটেশনাল মডিউল এবং একটি শর্টকাট সংযোগ থাকে যা স্তরের ইনপুট যেমন স্তরটির আউটপুট প্রদর্শন করে: নেটওয়ার্কটি অবশিষ্টাংশের বৈশিষ্ট্যগুলি নিষ্কাশনের অনুমতি দেয় এবং শিল্পের পারফরম্যান্সের গ্রেডিয়েন্ট সমস্যাটির প্রতি আরও হওয়ার পাশাপাশি গভীর গভীরতার জন্য অনুমতি দেয়।y i + 1 = c i + y ici

yi+1=ci+yi

মধ্যে delved রয়ে গ্রেডিয়েন্ট boosting , মেশিন লার্নিং বিশ্বের একটি খুব শক্তিশালী ensembling কৌশল, এছাড়াও ক্ষতির অবশিষ্ট উপর গ্রেডিয়েন্ট অপ্টিমাইজেশান একটি ফর্ম সঞ্চালন বলে মনে হয় যা, তার কঠিন আদল কিছু ফর্ম দেখতে না।

আমি জানি যে এগুলি একই রকম তবে একই নয় - একটি প্রধান পার্থক্য আমি লক্ষ্য করেছি যে গ্রেডিয়েন্ট বুস্টিং অ্যাডিটিভ টার্মের উপর অপ্টিমাইজেশন সম্পাদন করে যখন অবশিষ্ট নেটওয়ার্ক পুরো নেটওয়ার্কটিকে অনুকূল করে।

আমি দেখিনি যে তিনি তাদের মূল কাগজে তাদের প্রেরণার অংশ হিসাবে এটি নোট করেছেন । তাই আমি ভাবছিলাম যে এই বিষয়ে আপনার অন্তর্দৃষ্টিগুলি কী এবং আপনার কাছে থাকা আকর্ষণীয় সংস্থানগুলি ভাগ করে নেওয়ার জন্য জিজ্ঞাসা করব।

ধন্যবাদ.

উত্তর:


7

ল্যাংফোর্ড এবং শাপায়ার দল থেকে সম্ভবত এটির একটি নতুন কাগজ যা এটিকে আরও সম্বোধন করার চেষ্টা করে: ডিপ রেসনেট ব্লকগুলি যথাযথভাবে বুস্টিং থিয়োরি ব্যবহার করে শিখছে

আগ্রহের অংশগুলি হ'ল (বিভাগ 3 দেখুন):

মূল পার্থক্য হ'ল বুস্টিং অনুমান করা অনুমানের একটি সংযুক্তি যেখানে রেসনেট আনুমানিক বৈশিষ্ট্য উপস্থাপনার একটি । এই সমস্যাটি সমাধান করার জন্য, অনুমানের মডিউলটি নির্মাণের জন্য আমরা প্রতিটি অবশিষ্টাংশের উপরে একটি সহায়ক লিনিয়ার শ্রেণিবদ্ধ প্রবর্তন করি । সাধারণত একটি হাইপোথিসিস মডিউলটি হিসাবে সংজ্ঞায়িত করা হয়t=0Tft(gt(x))wto t ( x ) : = w T t g t ( x ) R

ot(x):=wtTgt(x)R

...

(কোথায়)ot(x)=t=0t1wtTft(gt(x))

দুর্বল মডিউল শ্রেণিবদ্ধ এবং কীভাবে এটি তাদের BoostResNet অ্যালগরিদমের সাথে একীভূত হয় তার আশেপাশে কাগজটি আরও বিস্তারিতভাবে চলে ।ht(x)


এই উত্তরে কিছুটা বিশদ যুক্ত করা, সমস্ত বুস্টিং অ্যালগরিদমগুলি [1] (পি 5, 180, 185 ...) এর কিছু আকারে রচনা করা যেতে পারে:

FT(x):=t=0Tαtht(x)

যেখানে হ'ল দুর্বল অনুমান, কিছু পছন্দ । নোট যে বিভিন্ন boosting আলগোরিদিম সমর্পণ করা হবে এবং বিভিন্ন উপায়ে।httthαtαtht

উদাহরণস্বরূপ AdaBoost [1] (P 5.) ব্যবহার ভরযুক্ত ত্রুটি কমানোর জন্য সঙ্গেhtϵtαt=12log1ϵtϵt

অন্যদিকে, গ্রেডিয়েন্ট বুস্টিং সেটিং [1] (পি 190.) এ, নির্বাচন করা হয়েছে যা সর্বোচ্চ , এবং নির্বাচিত হয়েছে (শেখার হার ইত্যাদি হিসাবে)htL(Ft1(x))htαt>0

যেখানে [2] লেমমা ৩.২ এর অধীনে রয়েছে, এটি দেখানো হয়েছে যে গভীরতার আউটপুট- রেজনেট যা সমানTF(x)

F(x)t=0Tht(x)

এটি বুস্টিং এবং রিসেটের মধ্যে সম্পর্ককে সম্পূর্ণ করে। কাগজ [২] এটিকে আকারে জন্য সহায়ক লিনিয়ার স্তর যুক্ত করার প্রস্তাব করেছে , যা তাদের বুস্টরনেস অ্যালগরিদম এবং তার চারপাশে কিছু আলোচনা করে leadsFT(x):=t=0Tαtht(x)

[1] রবার্ট ই। শাপ্পায়ার এবং ইওভা ফ্রেন্ড। 2012. বুস্টিং: ফাউন্ডেশন এবং অ্যালগরিদম। এমআইটি প্রেস। পি 5, 180, 189
[2] ফুরং হুয়াং, জর্ডান অ্যাশ, জন ল্যাংফোর্ড, রবার্ট শাপ্পায়ার: বুস্টিং থিয়োরি, আইসিএমএল 2018 ব্যবহার করে ডিপ রেসনেট ব্লকগুলি যথাযথভাবে শিখছে


4

আমার নিজের প্রশ্নের জবাব দেওয়া: আমি একটি উল্লেখযোগ্য কাগজ পেয়েছি যা তদন্ত করে প্রমাণিত করে যে ডিপ রেসিডুয়াল নেটওয়ার্কগুলি সত্যই অগভীর নেটওয়ার্কগুলির একটি অংশ।

অন্য কোনও সম্পাদনা, এই বিষয়টি বোঝার পরেও আরও কিছুটা কম পড়ে: আমি 'ফিচার বুস্টিং' শেখার উপায় হিসাবে রিসেটসকে দেখি। অবশিষ্ট সংযোগটি উত্সাহ দেয় তবে উদ্দেশ্য নয় বরং পরবর্তী স্তরের আউটপুট বৈশিষ্ট্যগুলিতে। সুতরাং তারা প্রকৃতপক্ষে সংযুক্ত, তবে এটি ধ্রুপদী গ্রেডিয়েন্ট বুস্টিং নয়, তবে আসলে 'গ্রেডিয়েন্ট ফিচার বুস্টিং'।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.