টেলর এক্সপেনশন সহ এক্সজিবিস্ট লস ফাংশন আনুমানিক


28

উদাহরণস্বরূপ, উপর XGBoost মডেল উদ্দেশ্য ফাংশন নিতে 'ম পুনরাবৃত্তির:t

L(t)=i=1n(yi,y^i(t1)+ft(xi))+Ω(ft)

যেখানে ক্ষতি ফাংশন, হয় 'ম গাছ আউটপুট এবং নিয়মিতকরণ হয়। দ্রুত গণনার জন্য (অনেকগুলি) গুরুত্বপূর্ণ পদক্ষেপগুলির মধ্যে একটি হল আনুমানিক:fttΩ

L(t)i=1n(yi,y^i(t1))+gtft(xi)+12hift2(xi)+Ω(ft),

যেখানে এবং হ্রাস ফাংশনের প্রথম এবং দ্বিতীয় ডেরাইভেটিভ।gihi

আমি যা জিজ্ঞাসা করছি তা হল উপরোক্ত আনুমানিকতা কেন কাজ করে তা নির্মূল করার জন্য যুক্তিগুলি বোঝানোর পক্ষে যুক্তিযুক্ত:

1) উপরোক্ত অনুমানের সাথে এক্সজিবিস্ট কীভাবে সম্পূর্ণ উদ্দেশ্যমূলক কার্যের সাথে এক্সজিবিস্টের সাথে তুলনা করে? সম্ভাব্য আকর্ষণীয়, উচ্চতর অর্ডার আচরণটি প্রায় অনুপাতে হারিয়ে যায়?

2) এটি কল্পনা করা কিছুটা শক্ত (এবং ক্ষতির ফাংশনের উপর নির্ভর করে) তবে, যদি ক্ষতির ফাংশনটিতে একটি বড় ঘন উপাদান থাকে, তবে সম্ভবত অনুমানটি ব্যর্থ হবে। এটি কীভাবে এটি এক্সজিবিস্টের সমস্যার সৃষ্টি করে না?

উত্তর:


62

এটি একটি খুব আকর্ষণীয় প্রশ্ন। কী চলছে তা পুরোপুরি বুঝতে, আমাকে এক্সজিবিস্ট কী করার চেষ্টা করছে এবং এটি মোকাবেলা করার জন্য আমাদের টুলবক্সে আমাদের অন্যান্য কী কী পদ্ধতিগুলি ছিল তা দিয়ে যেতে হয়েছিল। আমার উত্তরটি গতানুগতিক পদ্ধতির উপর যায় এবং কীভাবে / কেন XGBoost একটি উন্নতি হয়। আপনি যদি কেবল বুলেট পয়েন্ট চান তবে শেষে একটি সংক্ষিপ্তসার উপস্থিত রয়েছে।

.তিহ্যগত গ্রেডিয়েন্ট বুস্টিং

Traditionalতিহ্যগত গ্রেডিয়েন্ট বুস্টিং অ্যালগরিদম (উইকিপিডিয়া) বিবেচনা করুন :

  • গণনা বেস মডেল H0
  • জন্য m1:M
    • গণনা ছদ্ম-অবশিষ্টাংশ rim=(yi,Hm1(xi))Hm1(xi)
    • সিউডো-অবশিষ্টাংশগুলিতে একটি বেস লার্নার hm(x) ফিট করুন
    • γγ=argminγi=1N(yi,Hm1(xi)+γhm(xi))
    • মডেলটি আপডেট করুন ।Hm(x)=Hm1(x)+γhm(x)
  • আপনি আপনার উত্সাহিত মডেল ।HM(x)

ফাংশনটির আনুমানিকতা গুরুত্বপূর্ণ যা নিম্নলিখিত অংশের জন্য,

সিউডো-অবশিষ্টাংশগুলিতে একটি বেস লার্নার ফিট করুন ।hm(x)

আপনি কল্পনা করুন কোথায় আপনার গ্রেডিয়েন্ট বুস্টিং অ্যালগরিদম নির্লজ্জভাবে নির্মাণ করবেন। আপনি বিদ্যমান রিগ্রেশন ট্রি দুর্বল শিখর হিসাবে ব্যবহার করে উপরের অ্যালগরিদম তৈরি করবেন। ধরে নেওয়া যাক আপনাকে দুর্বল শিক্ষার্থীদের বিদ্যমান বাস্তবায়নটিকে সামঞ্জস্য করার অনুমতি নেই। ইন মতলব , ডিফল্ট বিভক্ত নির্ণায়ক মিন স্কয়ার ত্রুটি। সাইকিট শিখতে একই হয় ।

আপনি সেরা মডেল করার চেষ্টা করছেন যা হ্রাস করে । তবে এটি করার জন্য, আপনি MSE অবজেকটিভ ফাংশন হিসাবে ব্যবহার করে অবশিষ্টাংশগুলিতে একটি সাধারণ রিগ্রেশন মডেল ফিট করছেন। লক্ষ্য করুন যে আপনি যা চান তা সরাসরি কমাচ্ছেন না, তবে অবশিষ্টাংশ এবং এমএসইকে প্রক্সি হিসাবে ব্যবহার করছেন। খারাপ অংশটি এটি প্রয়োজনীয় সমাধানটি প্রয়োজনীয়ভাবে দেয় না। ভাল অংশ এটি কাজ করে।hm(x)( y i )(yi,Hm1(xi)+hm(xi))

.তিহ্যগত গ্রেডিয়েন্ট বংশোদ্ভূত

এটি প্রচলিত গ্রেডিয়েন্ট বংশোদ্ভূত (উইকিপিডিয়া) এর সাথে সাদৃশ্য , যেখানে আপনি ফাংশনের (নেগেটিভ) গ্রেডিয়েন্ট অনুসরণ করে একটি ব্যয় ফাংশন হ্রাস করার চেষ্টা করছেন , প্রতিটি পদক্ষেপে ।f(x)f(x)

x(i+1)=x(i)f(x(i))

এটি আপনাকে এক ধাপের পরে সঠিক ন্যূনতম সন্ধান করতে দেয় না, তবে প্রতিটি পদক্ষেপ আপনাকে সর্বনিম্নের কাছাকাছি পৌঁছে দেয় (যদি ফাংশনটি উত্তল হয়)। এটি একটি আনুমানিক, তবে এটি খুব ভালভাবে কাজ করে এবং এটি আলগোরিদম যা আমরা traditionতিহ্যগতভাবে একটি লজিস্টিক রিগ্রেশন করতে ব্যবহার করি, উদাহরণস্বরূপ।

গর্ভনাটিকা

এই মুহুর্তে, বোঝার বিষয়টি হ'ল সাধারণ গ্রেডিয়েন্ট বুস্টিং অ্যালগরিদম প্রতিটি সম্ভাব্য বিভাজনের জন্য ব্যয় ফাংশন গণনা করে না , এটি অবশিষ্টাংশগুলিকে ফিট করার জন্য রিগ্রেশন দুর্বল শিক্ষার্থীর ব্যয় ফাংশনটি ব্যবহার করে।

আপনার প্রশ্নটির দ্বারা যা বোঝা যাচ্ছে তা হ'ল "সত্য XGBoost" এর প্রতিটি বিভাজনের জন্য ব্যয় ফাংশন গণনা করা উচিত এবং এটি "আনুমানিক XGBoost" এটি আনুমানিকর জন্য একটি তাত্ত্বিক ব্যবহার করছে। আপনি এটি সেভাবে দেখতে পারেন, তবে historতিহাসিকভাবে, আমাদের কাছে সাধারণ গ্রেডিয়েন্ট বুস্টিং অ্যালগরিদম ছিল, যা ব্যয় কার্যকারিতা সম্পর্কিত তথ্য ব্যবহার করে না, বর্তমান বিন্দুতে ডেরাইভেটিভ ব্যতীত। এক্সজিবিস্ট গ্রেডিয়েন্ট বুস্টিংয়ের একটি এক্সটেনশন যা কেবল গ্রেডিয়েন্টের চেয়ে আরও নিখুঁত সান্নিধ্য ব্যবহার করে দুর্বল রিগ্রেশন গাছগুলি বাড়ানোর বিষয়ে স্মার্ট হওয়ার চেষ্টা করে।

সেরা মডেল চয়ন করার অন্যান্য উপায়hm(x)

গ্রেডিয়েন্ট বুস্টিংয়ের বিশেষ ক্ষেত্রে হিসাবে যদি আমরা অ্যাডাবোস্টকে এক নজরে দেখি তবে এটি নিবন্ধককে নয় বরং দুর্বল শিক্ষার্থী হিসাবে শ্রেণিবদ্ধকারী নির্বাচন করে। যদি আমরা set এ সেট , তবে অ্যাডাবোস্ট সেরা মডেলটি যেভাবে নির্বাচন করে তা সন্ধানের মাধ্যমেhm(x){1,1}

hm=argmaxhmi=1Nwihm(xi)

যেখানে অবশিষ্টাংশ ( উত্স, 20 স্লাইডে শুরু হয় )। এই উদ্দেশ্য ফাংশন ব্যবহারের জন্য যুক্তি যে যদি হয় এবং একই go / একই চিহ্ন, পয়েন্ট ডান দিক থেকে সরানোর হয় আছে, এবং আপনি আন্দোলনের সর্বোচ্চ পরিমাণ পূর্ণবিস্তার করার চেষ্টা করছেন সঠিক দিক।wiডাব্লু আই এইচ এম ( এক্স আই )wihm(xi)

কিন্তু আবার, এই সরাসরি পরিমাপ করা হয় না যা ছোট। এটা তোলে পরিমাপ করা হয় কিভাবে ভাল পদক্ষেপ সামগ্রিক দিক দিয়ে তোমাদের যাওয়া উচিত্ সঙ্গে সম্মানের সঙ্গে, হয়, যেমন অবশিষ্টাংশ সঙ্গে মাপা , যা একটি পড়তা হয়। অবশিষ্টাংশগুলি আপনাকে জানায় যে আপনি তাদের সাইন দিয়ে কী দিকে অগ্রসর হবেন এবং মোটামুটি কত পরিমাণে তার প্রস্থে চলেছেন, তবে আপনাকে কোথায় থামানো উচিত তা তারা আপনাকে জানায় না।hm(yi,Hm1(xi)+hm(xi))hmwi

আরও ভাল গ্রেডিয়েন্ট বংশোদ্ভূত

পরবর্তী তিনটি উদাহরণ ব্যাখ্যাটির জন্য অপরিহার্য নয় এবং কেবলমাত্র ভ্যানিলা গ্রেডিয়েন্ট বংশদ্ভুতের চেয়ে আরও ভাল করার কিছু উপায় উপস্থাপনের জন্য, এক্সজিবিস্ট যা করে তা গ্রেডিয়েন্ট বংশোদ্ভূত উন্নতির আরেকটি উপায়, এই ধারণাকে সমর্থন করার জন্য। একটি traditionalতিহ্যগত গ্রেডিয়েন্ট বংশোদ্ভূত সেটিং-এ, যখন হ্রাস করার চেষ্টা করা হচ্ছে, কেবল গ্রেডিয়েন্টটি অনুসরণ না করে আরও ভাল করা সম্ভব। অনেক এক্সটেনশন প্রস্তাব করা হয়েছে (উইকিপিডিয়া) । এখানে দেখাতে হবে যে এটি আরো গণনার সময় বা ফাংশনের আরো বৈশিষ্ট্য দেওয়া ভালো করতে, সম্ভব তাদের কিছু হয় ।f(x)ff

  • লাইন অনুসন্ধান / ব্যাকট্র্যাকিং: গ্রেডিয়েন্ট বংশোদ্ভূত, একবার গ্রেডিয়েন্ট গণনা করা হয়, পরবর্তী পয়েন্টটি হওয়া উচিতf(x(i))

    x(i+1)=x(i)f(x(i))

    কিন্তু গ্রেডিয়েন্ট শুধুমাত্র দিক যা এক সরানো উচিত নয় সত্যিই "কত" দ্বারা, তাই অন্য পদ্ধতি ব্যবহার করা যেতে পারে, সেরা এটি দেয় যেমন যেc>0

    xc(i+1)=x(i)cf(x(i))

    ব্যয়ের কাজটি হ্রাস করে। এটি কিছু জন্য মূল্যায়নের মাধ্যমে করা হয় , এবং যেহেতু ফাংশন উত্তল হওয়া উচিত তাই লাইন অনুসন্ধান (উইকিপিডিয়া) বা ব্যাকট্র্যাকিং লাইন অনুসন্ধান (উইকিপিডিয়া) এর মাধ্যমে করা তুলনামূলকভাবে সহজ । এখানে, মূল ব্যয় হ'ল মূল্যায়ন । সুতরাং এই এক্সটেনশনটি সবচেয়ে ভাল কাজ করে যদি গণনা করা সহজ হয়। নোট করুন যে গ্রেডিয়েন্ট বুস্টিংয়ের জন্য সাধারণ অ্যালগরিদম লাইন অনুসন্ধান ব্যবহার করে, যেমনটি আমার উত্তরের শুরুতে দেখানো হয়েছে।f(xc(i+1))cff ( x )f(x)f

  • দ্রুত প্রক্সিমাল গ্রেডিয়েন্ট পদ্ধতি: যদি কমাতে ফাংশনটি দৃ strongly়ভাবে উত্তল হয় এবং এর গ্রেডিয়েন্ট মসৃণ হয় ( লিপস্চিজ (উইকিপিডিয়া) ), তবে সেই বৈশিষ্ট্যগুলি ব্যবহার করে কিছু কৌশল আছে যা রূপান্তরকে গতি দেয়।

  • স্টোকাস্টিক গ্রেডিয়েন্ট ডিসেন্ট এবং মোমেন্টাম পদ্ধতি: স্টোকাস্টিক গ্রেডিয়েন্ট বংশোদ্ভূতিতে আপনি সমস্ত পয়েন্টের উপর গ্রেডিয়েন্টটি মূল্যায়ন করেন না, কেবলমাত্র সেই পয়েন্টগুলির একটি উপসেটে। আপনি একটি পদক্ষেপ নেন, তারপরে অন্য ব্যাচের গ্রেডিয়েন্টটি গণনা করুন এবং চালিয়ে যান। স্টোকাস্টিক গ্রেডিয়েন্ট ডিসেন্ট ব্যবহার করা যেতে পারে কারণ সমস্ত পয়েন্টের গণনা খুব ব্যয়বহুল, বা সম্ভবত এই সমস্ত পয়েন্টগুলি মেমরির সাথেও খাপ খায় না। এটি আপনাকে আরও দ্রুত পদক্ষেপ নিতে, তবে আরও কম নির্ভুলভাবে মঞ্জুরি দেয়।

    এটি করার সময়, গ্রেডিয়েন্টের দিকটি পরিবর্তন হতে পারে কোন পয়েন্টের নমুনা রয়েছে তার উপর নির্ভর করে। এই প্রভাবটি মোকাবেলা করার জন্য, গতিময় পদ্ধতিগুলি প্রতিটি মাত্রার জন্য দিকের একটি চলমান গড় রাখে, প্রতিটি পদক্ষেপের বৈকল্পিকতা হ্রাস করে।

এক্সজিবিস্টের আমাদের আলোচনায় গ্রেডিয়েন্ট বংশোদ্ভূত হওয়ার সর্বাধিক প্রাসঙ্গিক এক্সটেনশন হ'ল নিউটনের পদ্ধতি (উইকিপিডিয়া) । কেবল গ্রেডিয়েন্টটি গণনা করা এবং এটি অনুসরণ করার পরিবর্তে এটি দ্বিতীয় ক্রমটি ডেরাইভেটিভ ব্যবহার করে এটি যেদিকে যেতে হবে সে সম্পর্কে আরও তথ্য সংগ্রহ করে। যদি আমরা গ্রেডিয়েন্ট বংশদ্ভুত ব্যবহার করি তবে আমাদের প্রতিটি পুনরাবৃত্তিতে এটি রয়েছে যে আমরা আমাদের পয়েন্ট update অনুসরণ করে আপডেট ,x(i)

x(i+1)=x(i)f(x(i))

যেহেতু গ্রেডিয়েন্ট সর্বোচ্চ বৃদ্ধির দিক থেকে পয়েন্ট , সর্বোচ্চ হ্রাস দিক তার নেতিবাচক পয়েন্ট, এবং আমরা আশা করি যে । । এটি ধরে রাখতে পারে না, কারণ আমরা গ্রেডিয়েন্টের দিক থেকে (সুতরাং লাইন অনুসন্ধান এক্সটেনশন) খুব বেশি এগিয়ে যেতে পারি, তবে এটি একটি ভাল অনুমান। নিউটনের পদ্ধতিতে আমরা follow অনুসরণ হিসাবে আপডেট করি,(এক্স(আমি))(এক্স(আমি+ +1))<(এক্স(আমি))এক্স(আমি)

এক্স(আমি+ +1)=এক্স(আমি)-(এক্স(আমি))হেস(এক্স(আমি))

কোথায় এর চট হয় মধ্যে । এই আপডেটটি দ্বিতীয় ক্রমের তথ্য বিবেচনা করে, সুতরাং দিকটি আর সর্বোচ্চ হ্রাসের দিক নয়, তবে দিকে আরও সুনির্দিষ্টভাবে নির্দেশ করা উচিত যেমন (বা বিন্দু যেখানে ন্যূনতম, যদি কোনও শূন্য না থাকে)। যদি দ্বিতীয় আদেশের বহুবর্ষ হয়, তবে নিউটনের পদ্ধতিটি একটি লাইন অনুসন্ধানের সাথে এক ধাপে সর্বনিম্ন সন্ধান করতে সক্ষম হবে।হেস(এক্স)এক্সএক্স(আমি+ +1)(এক্স(আমি+ +1))=0

নিউটনের পদ্ধতি স্টোকাস্টিক গ্রেডিয়েন্ট বংশোদ্ভূত সঙ্গে বিপরীতে। স্টোকাস্টিক গ্রেডিয়েন্ট বংশোদ্ভূত, আমরা আরও দ্রুত এগিয়ে যাওয়ার আশায় আমরা আরও বেশি দিক তৈরির লক্ষ্যে আমাদের যে দিকে যেতে হবে সেগুলি গণনা করতে কম পয়েন্ট ব্যবহার করি। নিউটনের পদ্ধতিতে, আমরা যে দিকে যেতে চাই সেগুলি গণনা করতে আমরা আরও সময় নিই, এই আশায় সেখানে যাওয়ার জন্য আমাদের কম পদক্ষেপ নিতে হবে।

এখন, নিউটনের পদ্ধতিটি কেন কাজ করে তা এক্সজিবিস্টের আনুমানিক কাজ কেন একই রকম এবং এটি টেলরের সম্প্রসারণ (উইকিপিডিয়া) এবং টেলরের উপপাদ্য (উইকিপিডিয়া) এর উপর নির্ভর করে । বিন্দুতে একটি ফাংশনের টেলর সম্প্রসারণ (বা টেলর সিরিজ হয়(এক্স+ +একটি)

(এক্স)+ +(এক্স)এক্সএকটি+ +122(এক্স)এক্স2একটি2+ +=Σএন=01এন!এন(এক্স)এক্সএনএকটিএন

এই এক্সপ্রেশন এবং আনুমানিক XGBoost ব্যবহার করছে এর মধ্যে সাদৃশ্যটি নোট করুন। টেইলরের উপপাদ্য বলে যে, আপনি এ সম্প্রসারণ বন্ধ করেন তাহলে , তারপর ত্রুটি, বা মধ্যে পার্থক্য এবং , সর্বাধিক হয় , যেখানে চমৎকার সম্পত্তি এটি শুন্যতে যায় সঙ্গে একটি ফাংশন শূন্য চলে যায়।(এক্স+ +একটি)Σএন=01এন!এন(এক্স)এক্সএনএকটিএন(এক্স)একটিএকটি

আপনি যদি কিছু ফাংশনগুলির অনুমানের পরিমাণটি কতটা ভালভাবে দেখতে চান তবে উইকিপিডিয়া পৃষ্ঠাগুলি একবার দেখুন, তাদের কাছে বহু-বহিরাগত ফাংশন যেমন , সান্নিধ্যের জন্য কিছু গ্রাফ রয়েছে ।এক্সলগ(এক্স)

লক্ষ্য করার মতো বিষয়টি হল আপনি যদি এর আশেপাশে এর মান গণনা করতে চান তবে আনুমানিক খুব ভাল কাজ করে যা খুব ছোট পরিবর্তনের জন্য । এটি আমরা বুস্টিংয়ে করতে চাই। অবশ্যই আমরা সেই গাছটি খুঁজতে চাই যা সবচেয়ে বড় পরিবর্তন করে। আমরা যে দুর্বল শিখিগুলি তৈরি করি তারা যদি খুব ভাল হয় এবং খুব বড় পরিবর্তন করতে চায়, তবে আমরা কেবল বা প্রয়োগ করে এটিকে নির্বিচারে বাধা দিতে পারিএক্সএকটি0.10.01এর প্রভাব। এটি ধাপের আকার বা গ্রেডিয়েন্ট বংশদ্ভুতের শেখার হার। এটি গ্রহণযোগ্য, কারণ যদি আমাদের দুর্বল শিক্ষার্থীরা খুব ভাল সমাধান পেয়ে থাকে তবে এর অর্থ হ'ল সমস্যাটি সহজ, এক্ষেত্রে আমরা যে কোনও উপায়ে একটি ভাল সমাধান শেষ করতে চলেছি, বা আমরা অত্যধিক মানিয়ে নিচ্ছি, সুতরাং কিছুটা বা খুব বেশি এই খারাপ দিকের অনেকটাই অন্তর্নিহিত সমস্যাটিকে পরিবর্তন করে না।

তাহলে এক্সজিবিস্ট কী করছে এবং এটি কেন কাজ করে?

এক্সজিবিস্ট হ'ল গ্রেডিয়েন্ট বুস্টিং অ্যালগরিদম যা দুর্বল শিক্ষার্থীদের হিসাবে রিগ্রেশন ট্রি তৈরি করে। Traditionalতিহ্যগত গ্রেডিয়েন্ট বুস্টিং অ্যালগরিদম লাইন অনুসন্ধানের সাথে গ্রেডিয়েন্ট বংশোদ্ভূত হওয়ার সাথে খুব মিল, যেখানে পাওয়া দিকটি দুর্বল শিক্ষার্থীদের কাছ থেকে আঁকতে হবে। গ্রেডিয়েন্ট বুস্টিংয়ের নির্বিকার বাস্তবায়ন দুর্বল শিক্ষার্থীদের ব্যয় ফাংশনটি এটি অবশিষ্টাংশের সাথে ফিট করার জন্য ব্যবহার করবে। এটি নতুন মডেলের ব্যয়কে হ্রাস করার জন্য একটি প্রক্সি, যা গণনা করা ব্যয়বহুল। এক্সজিবিস্ট যা করছে তা গাছের সাথে মানিয়ে নেওয়ার জন্য একটি কাস্টম ব্যয় ফাংশন তৈরি করা হচ্ছে, টেলর সিরিজের দুটি ক্রমকে সত্য ব্যয়ের ফাংশনের জন্য অনুমান হিসাবে ব্যবহার করা, যেমন এটি যে গাছটি বেছে নেয় সেটি আরও ভাল নিশ্চিত হতে পারে। এক্ষেত্রে এবং সরলকরণ হিসাবে এক্সটিবিস্ট হ'ল গ্রেডিয়েন্ট বুস্টিংয়ের জন্য নিউটনের পদ্ধতি গ্রেডিয়েন্ট বংশোদ্ভূত।

কেন তারা সেভাবে এটি তৈরি করেছিল

কেন এই আনুমানিক ব্যবহার ব্যবহার করে একটি ব্যয় / পারফরম্যান্স ট্রেড অফের বিষয়ে আপনার প্রশ্ন। এই ব্যয় ফাংশনটি রিগ্রেশন গাছগুলির জন্য সম্ভাব্য বিভাজনের তুলনা করতে ব্যবহৃত হয়, সুতরাং আমাদের পয়েন্টগুলি যদি 10 টি আলাদা আলাদা মান সহ গড়ে 50 টি বৈশিষ্ট্য বলে থাকে তবে প্রতিটি নোডে 500 টি সম্ভাব্য বিভাজন রয়েছে, সুতরাং ফাংশনটির 500 মূল্যায়ন রয়েছে। যদি আপনি একটি অবিচ্ছিন্ন বৈশিষ্ট্য বাদ দেন তবে বিভাজনের সংখ্যাটি বিস্ফোরিত হয় এবং বিভক্তির মূল্যায়নটিকে আরও বেশি বেশি বলা হয় (এক্সজিবিস্টের অবিচ্ছিন্ন বৈশিষ্ট্যগুলি মোকাবেলা করার জন্য অন্য কৌশল আছে, তবে এটি সুযোগের বাইরে নয়)। অ্যালগরিদম যেমন বিভাজনগুলি মূল্যায়নের জন্য বেশিরভাগ সময় ব্যয় করবে তাই অ্যালগরিদমের গতি বাড়ানোর উপায় গাছের মূল্যায়নের গতি বাড়ানো।

আপনি সম্পূর্ণ খরচ ফাংশন গাছ মূল্যায়ন পারেন, , এটা প্রতিটি নতুন বিভক্ত জন্য একটি নতুন গণনার হয়। ব্যয় ফাংশনের গণনায় অপ্টিমাইজেশন করার জন্য, আপনার ব্যয় ক্রিয়াকলাপের বিষয়ে তথ্য থাকতে হবে যা গ্রেডিয়েন্ট বুস্টিংয়ের পুরো বিষয়: এটি প্রতিটি ব্যয় ফাংশনের জন্য কাজ করা উচিত।

দ্বিতীয় ক্রমের আনুমানিক সংযোজনীয়ভাবে সুন্দর, কারণ প্রদত্ত পুনরাবৃত্তিতে বেশিরভাগ পদ একই। প্রদত্ত পুনরাবৃত্তির জন্য, বেশিরভাগ প্রকাশ একবারে গণনা করা যায় এবং সমস্ত বিভাজনের জন্য ধ্রুবক হিসাবে পুনরায় ব্যবহার করা যায়:

এল(টি)Σআমি=1এন(Yআমি,Y^আমি(টি-1))ধ্রুব+ +আমিধ্রুবটি(এক্সআমি)+ +12আমিধ্রুবটি2(এক্সআমি)+ +Ω(টি),

সুতরাং আপনার একমাত্র জিনিসটি হ'ল এবং এবং তারপরে যা অবশিষ্ট রয়েছে তা বেশিরভাগ সংযোজন এবং কিছু গুণতদুপরি, আপনি যদি এক্সজিবিস্ট পেপার (আরক্সিভ) দেখুন , আপনি দেখতে পাবেন যে তারা একটি গাছ তৈরি করছে যা আরও সূচী করে সূচকের সংক্ষেপের একগুচ্ছের কাছে অভিব্যক্তিটিকে আরও সহজ করার জন্য, যা খুব দ্রুত।টি(এক্সআমি)Ω(টি)

সারাংশ

আপনি সঠিক সমাধানের সাথে যথাযথ সমাধান, "ট্রু এক্সজিবিস্ট" এর একটি অনুমান হিসাবে রিগ্রেশন হিসাবে এক্সজিবিস্ট দেখতে পারেন (আনুমানিক সহ)। তবে সঠিক মূল্যায়ন যেহেতু ব্যয়বহুল, তাই দেখার আরেকটি উপায় হ'ল বিশাল ডেটাসেটের উপর, প্রায় আমরা বাস্তবসম্মতভাবেই করতে পারি, এবং এই সীমাবদ্ধতাটি প্রথম অর্ডারটির সান্নিধ্যের তুলনায় আরও নির্ভুল একটি "ন্যাভ" গ্রেডিয়েন্ট বুস্টিং অ্যালগরিদম করবে ।

ব্যবহারে পড়তা অনুরূপ নিউটনের পদ্ধতি , এবং দ্বারা সমর্থন করা হয় টেলর সিরিজ (উইকিপিডিয়া) এবং টেলর উপপাদ্য (উইকিপিডিয়া)

উচ্চতর অর্ডার তথ্য প্রকৃতপক্ষে পুরোপুরি ব্যবহৃত হয় না, তবে এটি প্রয়োজনীয় নয়, কারণ আমরা আমাদের প্রারম্ভিক বিন্দুর আশেপাশে একটি ভাল আনুমানিকতা চাই ।

দৃশ্যধারণের জন্য, টেলর সিরিজ / টেলরের উপপাদ্যের উইকিপিডিয়া পৃষ্ঠা , বা টেলর সিরিজের আনুমানিকভাবে খান একাডেমি , বা অ-বহুবর্ষগুলির বহুত্বীয় অনুমানের ম্যাথডেমো পৃষ্ঠা দেখুন


2
+1 টি। আমাকে অবশ্যই স্বীকার করতে হবে যে আমি এই উত্তরটি (এখনও?) পড়িনি এবং এটি যেভাবেই আমার দক্ষতার বাইরে নয় তবে এটির পক্ষে বিচার করতে পারছি না, তবে এটি এতই চিত্তাকর্ষক দেখাচ্ছে যা আমি উত্সাহিত করতে পেরে খুশি। ভাল হয়েছে [মনে হচ্ছে]!
অ্যামিবা বলেছেন মোনিকা

এটি একটি দুর্দান্ত উত্তর ছিল। যদিও আমার একটি প্রশ্ন রয়েছে G এক্সজিবিস্টে গাছের কাঠামো কীভাবে নির্ধারিত হয় ??
gnikol

আপনি উত্তর পেরেক করেছেন, ভাল কাজ!
মার্সিন জাবলোকি
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.