বুস্টিং: শেখার হারকে নিয়মিতকরণের পরামিতি কেন বলা হয়?


19

গ্রেডিয়েন্ট বুস্টিং- এ লার্নিং রেট প্যারামিটার ( ) প্রতিটি নতুন বেস মডেলের অবদান সঙ্কুচিত করে - মূলত একটি অগভীর গাছ- যা সিরিজে যুক্ত করা হয়। এটি টেস্ট সেট যথার্থতা নাটকীয়ভাবে বৃদ্ধি করে দেখানো হয়েছিল, এটি ছোট পদক্ষেপের মতোই বোধগম্য, ক্ষতির ন্যূনতমতম কাজটি আরও সঠিকভাবে অর্জন করা যেতে পারে। ν[0,1]

আমি বুঝতে পারি না কেন শিক্ষার হারকে নিয়মিতকরণের পরামিতি হিসাবে বিবেচনা করা হয় ? পরিসংখ্যানগত শিক্ষার উপাদানসমূহের উদ্ধৃতি , বিভাগ 10.12.1, p.364:

গাছের সংখ্যা নিয়ন্ত্রণ করা কেবলমাত্র নিয়মিতকরণের কৌশল নয়। রিজ রিগ্রেশন এবং নিউরাল নেটওয়ার্কগুলির মতো সংকোচনের কৌশলগুলিও নিযুক্ত করা যেতে পারে। আরও ছোট মানগুলি (আরও সংকোচনের ফলে) একই সংখ্যার পুনরাবৃত্তি এর বৃহত্তর প্রশিক্ষণের ঝুঁকিতে পড়ে । সুতরাং, এবং উভয়ই প্রশিক্ষণের ডেটাতে ভবিষ্যদ্বাণী নিয়ন্ত্রণ করে।νএমνএম

নিয়ন্ত্রণের অর্থ "ওভারফিটিং এড়ানোর উপায়", সুতরাং এটি পরিষ্কার যে এর পুনরাবৃত্তির সংখ্যা সেই ক্ষেত্রে গুরুত্বপূর্ণ (একটি যা অত্যধিক মানানসই দিকে উচ্চতর হয়)। কিন্তু:এমএম

আরও ছোট মানগুলি (আরও সংকোচনের ফলে) একই সংখ্যার পুনরাবৃত্তি এর বৃহত্তর প্রশিক্ষণের ঝুঁকিতে পড়ে ।νএম

কেবলমাত্র এর অর্থ হ'ল কম শিক্ষার হারের সাথে প্রশিক্ষণের সেটটিতে একই নির্ভুলতা অর্জনের জন্য আরও পুনরাবৃত্তি প্রয়োজন। তাহলে কীভাবে এটি ওভারফিটিংয়ের সাথে সম্পর্কিত?

উত্তর:


23

ধরুন আপনি পুনরাবৃত্তির সংখ্যার মাধ্যমে উদ্দেশ্য ফাংশনটি হ্রাস করার চেষ্টা করছেন। এবং বর্তমান মান । প্রদত্ত ডেটা সেটে কোনও "অপরিবর্তনীয় ত্রুটি" নেই এবং আপনি প্রশিক্ষণ ডেটার জন্য হ্রাস করতে পারেন । এখন আপনার এটি করার দুটি উপায় রয়েছে।0.0100.00.0

  • প্রথম উপায় হ'ল "বৃহত্তর শেখার হার" এবং কয়েকটি পুনরাবৃত্তি। ধরুন আপনি প্রতিটি পুনরাবৃত্তিতে দ্বারা লোকসান হ্রাস করতে পারেন , তারপরে, পুনরাবৃত্তিতে, আপনি হ্রাস করতে পারবেন ।10 0.010.0100.0

  • দ্বিতীয় উপায়টি হ'ল "ধীরে ধীরে শেখার হার" তবে আরও পুনরাবৃত্তি হবে। মনে করুন আপনি প্রতিটি পুনরাবৃত্তির মধ্যে লোকসানটি দ্বারা হ্রাস করতে পারেন এবং আপনার প্রশিক্ষণের ডেটাতে 0.0 লোকসান পেতে আপনার পুনরাবৃত্তি প্রয়োজন ।1001.0100

এখন এই সম্পর্কে চিন্তা করুন: দুটি পদ্ধতির সমান? এবং না হলে অপ্টিমাইজেশন প্রসঙ্গে এবং মেশিন লার্নিং প্রসঙ্গে আরও ভাল কি?

ইন অপ্টিমাইজেশান সাহিত্য , দুটি একই। যেহেতু তারা উভয়ই অনুকূল সমাধানে রূপান্তর করে । অন্যদিকে, মেশিন লার্নিংয়ে তারা সমান নয়। কারণ বেশিরভাগ ক্ষেত্রে আমরা প্রশিক্ষণে সেটটি ক্ষতিপূরণ করি না যা অত্যধিক ফিটনেসের কারণ হবে।0

আমরা "মোটা স্তর গ্রিড অনুসন্ধান" হিসাবে প্রথম পদ্ধতির, এবং "সূক্ষ্ম স্তর গ্রিড অনুসন্ধান" হিসাবে দ্বিতীয় পদ্ধতির বিষয়ে ভাবতে পারি। দ্বিতীয় পদ্ধতির সাধারণত আরও ভাল কাজ করে তবে আরও পুনরাবৃত্তির জন্য আরও বেশি গণনার শক্তি প্রয়োজন।

অতিরিক্ত-ফিটিং প্রতিরোধের জন্য, আমরা বিভিন্ন জিনিস করতে পারি, প্রথম উপায়টি পুনরাবৃত্তির সংখ্যাকে সীমাবদ্ধ করা হবে, ধরুন আমরা প্রথম পদ্ধতির ব্যবহার করছি, আমরা পুনরাবৃত্তির সংখ্যা 5 হতে সীমিত করব, শেষে, প্রশিক্ষণের ডেটাগুলির জন্য ক্ষয় । (বিটিডাব্লু), এটি অপটিমাইজেশন দৃষ্টিকোণ থেকে খুব আশ্চর্যজনক হবে , যার অর্থ আমরা ভবিষ্যতে আমাদের সমাধানটি উন্নত করতে পারি / এটি রূপান্তরিত হয় না, তবে আমরা তা বেছে নিই না optim অপ্টিমাইজেশনে সাধারণত আমরা উদ্দেশ্যমূলক কার্যক্রমে স্পষ্টভাবে বাধা বা দন্ডের শর্তাদি যুক্ত করি, তবে সাধারণত পুনরাবৃত্তির সংখ্যা সীমাবদ্ধ করে না))50

অন্যদিকে, আমরা দ্বিতীয় পদ্ধতিটিও ব্যবহার করতে পারি: যদি আমরা শিখার হারকে ছোট বলে নির্ধারণ করি তবে প্রতিটি পুনরাবৃত্তির জন্য কমিয়ে আনুন, যদিও আমাদের কাছে প্রচুর পরিমাণে পুনরাবৃত্তি পুনরাবৃত্তি বলে , আমরা এখনও ক্ষয়টি কমিয়ে ।500 0.00.15000.0

এ কারণেই ছোট শিক্ষার হার "আরও নিয়মিতকরণের" সমান।

পরীক্ষামূলক ডেটা ব্যবহার করে বিভিন্ন শিক্ষার হার ব্যবহার করার উদাহরণ এখানে xgboost। এর অর্থ etaবা n_iterationsঅর্থ কী তা জানতে দয়া করে দুটি লিংক চেক করুন ।

ট্রি বুস্টার জন্য পরামিতি

এক্সজিবিস্ট কন্ট্রোল ওভারফিটিং

একই সংখ্যার পুনরাবৃত্তির জন্য, বলুন । একটি ছোট শিক্ষার হার হ'ল "আন্ডার-ফিটিং" (বা মডেলটির "উচ্চ পক্ষপাত" আছে), এবং একটি বড় শিক্ষার হার "ওভার-ফিটিং" (বা মডেলটির "উচ্চ বৈকল্পিকতা" রয়েছে)।50

এক্সজিবিস্ট মডেলটিতে শিক্ষার হার ইটিএ পরিবর্তন করার উদাহরণ

পুনশ্চ. আন্ডার-ফিটিংয়ের প্রমাণ উভয়ই প্রশিক্ষণ এবং পরীক্ষার সেটে বড় ত্রুটি রয়েছে এবং প্রশিক্ষণ এবং পরীক্ষার জন্য ত্রুটির বক্ররেখা একে অপরের কাছাকাছি রয়েছে। ওভার-ফিটিংয়ের লক্ষণ হ'ল ট্রেনিং সেটের ত্রুটি খুব কম এবং পরীক্ষার সেটটি খুব বেশি, দুটি বক্ররেখা একে অপরের থেকে অনেক দূরে।


আপনি কী বোঝাতে চেয়েছেন যে নিম্ন শিক্ষার হারের সাথে, আপনাকে একই ক্ষতির জন্য উচ্চতর শিক্ষার হারের চেয়ে আরও বেশি (আপনার অনুসন্ধানকে আরও পরিমার্জন করতে) পুনরাবৃত্তি করার অনুমতি দেওয়া হচ্ছে? আমি মনে করি আপনি যে স্বজ্ঞাপনটি পাশ করার চেষ্টা করছেন তা পেয়েছি তবে আরও কঠোর ব্যাখ্যা এবং / অথবা একটি উদাহরণস্বরূপ উদাহরণ ক্ষতিগ্রস্থ হবে না।
এন্টোইন

ধন্যবাদ. আপনি কি আপনার লিঙ্কগুলি আপডেট করতে পারবেন? তারা আমার পক্ষে কাজ করে না
এন্টোইন

যতক্ষণ না আপনি পরবর্তী পুনরাবৃত্তিতে প্রশিক্ষণের ত্রুটিটি বাড়ান না ততক্ষণ বৃহত্তর শিক্ষার হার ব্যবহার করা আরও ভাল। আপনি যে নিয়মিতকরণের বিষয়টি উল্লেখ করছেন (পক্ষপাত বনাম ভেরিয়েন্স) তা প্রশিক্ষণ / বৈধতা ত্রুটির সাথে সম্পর্কিত এবং শিক্ষার হারের সাথে নয়। আপনি বড় বা ছোট শিক্ষার হার ব্যবহার করছেন কিনা তা যদি আপনি 0.0 প্রশিক্ষণের ত্রুটিতে পৌঁছান তবে আপনি ঠিক ততটাই বেশি মানিয়ে নিচ্ছেন। আপনি যদি বৃহত্তর শিক্ষার হার ব্যবহার করে থাকেন তবে অতিরিক্ত চাপ প্রতিরোধ করার জন্য আপনাকে আগে আপনার অনুকূলকরণ বন্ধ করতে হবে। আপনার বৈধতা ত্রুটিটি কোন পর্যায়ে আপনি প্রশিক্ষণ বন্ধ করে দিয়েছেন কিনা তা দেখার জন্য আপনি একটি বৈধতা সেট ব্যবহার করতে পারেন।
কৌতুহল

বা আমি কিছু অনুপস্থিত হতে পারি :)
কৌতুহল

This is why small learning rate is sort of equal to "more regularizations"। এই কাগজ অনুসারে, বৃহত্তর শিক্ষার হার, আরও নিয়মিতকরণ: সুপার-কনভার্জেন্সি: বৃহত্তর শিক্ষার হারগুলি ব্যবহার করে নিউরাল নেটওয়ার্কগুলির খুব দ্রুত প্রশিক্ষণ
এন্টোইন

2

নিউটনের পদ্ধতির সাহায্যে ক্ষতির বক্ররেখা দ্বারা বিভক্ত লোকসানের গ্রেডিয়েন্টটি বিয়োগ করে আপনি আপনার পরামিতিগুলি আপডেট করেন। গ্রেডিয়েন্ট বংশদ্ভুত অপ্টিমাইজেশনে, আপনি ক্ষতির হারের গ্রেডিয়েন্টটি বিয়োগ করে আপনার পরামিতিগুলি আপডেট করেন। অন্য কথায়, শেখার হারের পারস্পরিক মূল আসল ক্ষতি বক্রতার জায়গায় ব্যবহার করা হয়।

আসুন সমস্যা হ্রাসটিকে ক্ষতি হিসাবে সংজ্ঞায়িত করি যা একটি খারাপ মডেলের তুলনায় একটি ভাল মডেল কী তা নির্ধারণ করে। এটা আসল ক্ষতি। আসুন আপনার আপডেটের বিধি দ্বারা প্রকৃতপক্ষে হ্রাস করা হয়েছে এমনটি হওয়ার জন্য অনুকূলিত ক্ষতির সংজ্ঞা দিন ।

সংজ্ঞা অনুসারে, একটি নিয়মিতকরণ প্যারামিটার এমন কোনও শব্দ যা অপ্টিমাইজড ক্ষতির মধ্যে রয়েছে তবে সমস্যা হ্রাস নয়। যেহেতু শিখার হারটি অনুকূলিত ক্ষতির ক্ষেত্রে অতিরিক্ত চতুষ্কোণ শর্তের মতো কাজ করছে তবে সমস্যা হ্রাসের সাথে তার কোনও যোগসূত্র নেই, এটি নিয়মিতকরণের পরামিতি।

নিয়মিতকরণের অন্যান্য উদাহরণ যা এই দৃষ্টিকোণকে ন্যায়সঙ্গত করে:

  • ওজন ক্ষয়, এটি অনুকূলিতকরণের ক্ষতির অতিরিক্ত শর্তের মতো যা বড় ওজনের দণ্ড দেয়,
  • জটিল মডেলগুলিকে শাস্তি দেওয়ার শর্তাবলী এবং
  • বৈশিষ্ট্যগুলির মধ্যে পারস্পরিক সম্পর্ককে শাস্তি দেয় এমন পদগুলি।

- আমি না In other words, the reciprocal of the learning rate is used in place of the real loss curvature। - আমি একটি ডোমেন বিশেষজ্ঞ নই এবং এটি প্রথমবারের মতো সংজ্ঞা দেখতে হল: a regularization parameter is any term that is in the optimized loss, but not the problem loss। আমি খুব একটা এটি পেতে না। আপনি কি কোনও প্রাসঙ্গিক রেফারেন্স দিতে পারেন? অগ্রিম ধন্যবাদ
এন্টোইন

@ এন্টাইন আমি একটি রেফারেন্স দিতে পারি না। এটি কেবলমাত্র আমার অভিজ্ঞতা যা আমি অন্য তিনটি উদাহরণ ব্যবহার করে ন্যায্যতা প্রমাণ করার চেষ্টা করেছি। বিপরীত লোকসানের বক্ররেখার জায়গায় বসে শেখার হারের বিষয়ে আপনি দেখতে পাচ্ছেন যে আপনি যদি নিউটনের পদ্ধতি এবং গ্রেডিয়েন্ট বংশোদ্ভূত আপডেটের পাশাপাশি পাশাপাশি লিখে রাখেন।
নিল জি
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.