কেন আমরা কেবল হাইপার প্যারামিটারগুলি শিখি না?

11

আমি একটি চমত্কার জনপ্রিয় কাগজ " এক্সপ্ল্লেইং অ্যান্ড হার্নেসিং অ্যাডভারসারিয়াল উদাহরণ " প্রয়োগ করছিলাম এবং কাগজে, এটি একটি প্রতিকূল উদ্দেশ্যমূলক ফাংশন প্রশিক্ষণ দেয়

জ '' (θ) = αজে (θ) + (1 - α) জ '(θ)।

এটি হাইপারপ্যারামিটার হিসাবে আচরণ করে। 0.1 0.1, 0.2, 0.3, ইত্যাদি হতে পারে etc.

এই নির্দিষ্ট কাগজ নির্বিশেষে, আমি ভাবছি, কেন আমরা কেবল আমাদের পরামিতিগুলিতে অন্তর্ভুক্ত করব না এবং সেরাটি শিখি না কেন?

এতে অসুবিধা কী? এটি কি ওভারফিটিংয়ের কারণে? যদি তা হয় তবে কেন আরও 1 টি প্যারামিটার শিখলে এত বেশি চাপ দেওয়া যায়?

— Aerin
সূত্র

ঠিক আছে, হাইপারপ্যারামিটার যদি ব্যয় ফাংশনের একটি প্যারামিটার হয় (এবং ডিজিপি-ডেটা তৈরির প্রক্রিয়া নয়) এটি পরিষ্কার নয় যে নিজেই ডেটাতে সে সম্পর্কে তথ্য রয়েছে।

— কেজেটিল বি হালওয়ারসেন

1

অনেক ক্ষেত্রে, আমরা নির্বাচন করতে ডেটা ব্যবহার করি

α

$\alpha$ একটি বৈধতা সেটটিতে মডেলটির পারফরম্যান্স দেখে। (অর্থাত, সাধারণীকরণ ত্রুটির জন্য একটি প্রক্সি।)

— বিমল

8

"কেন আমরা কেবল হাইপার প্যারামিটারগুলি শিখি না?"

এটি একটি দুর্দান্ত প্রশ্ন! আমি আরও সাধারণ উত্তর দেওয়ার চেষ্টা করব। টি এল; ডিআর উত্তর আপনি স্পষ্টভাবে hyperparameters, ঠিক একই তথ্য থেকে না শেখা যায়। কিছুটা আরও বিশদ উত্তরের জন্য পড়ুন।

একটি হাইপারপ্যারামিটার সাধারণত এর পরামিতিগুলির পরিবর্তে লার্নিং অ্যালগরিদমের একটি সেটিংসের সাথে মিল রাখে। উদাহরণস্বরূপ, গভীর শিক্ষার প্রসঙ্গে, এটি একটি নির্দিষ্ট স্তরের নিউরনের সংখ্যার (একটি হাইপারপ্যারামিটার) এবং একটি নির্দিষ্ট প্রান্তের ওজনের (একটি নিয়মিত, শেখার যোগ্য পরামিতি) পার্থক্য দ্বারা উদাহরণস্বরূপ ।

প্রথম স্থানটিতে কেন পার্থক্য রয়েছে? হাইপারপ্যারামিটারকে পরামিতি তৈরি করার জন্য সাধারণ ক্ষেত্রে হ'ল প্রশিক্ষণ সেট থেকে সেই পরামিতিটি শিখাই উপযুক্ত নয়। উদাহরণস্বরূপ, যেহেতু আরও বেশি নিউরোন যুক্ত করে প্রশিক্ষণের ত্রুটি কমিয়ে আনা সবসময় সহজ, একটি স্তরে নিয়মিত প্যারামিটার করে নিউরনের সংখ্যা তৈরি করা সর্বদা খুব বড় নেটওয়ার্কগুলিকে উত্সাহিত করে, যা আমরা সত্যের জন্য জানি এটি সর্বদা কাম্য নয় (কারণ আমাদের overfitting)।

আপনার প্রশ্নের কাছে, এটি এমন নয় যে আমরা মোটেই হাইপার-প্যারামিটারগুলি শিখি না। এক মিনিটের জন্য গণ্যসংক্রান্ত চ্যালেঞ্জগুলি আলাদা করে রাখা, হাইপারপ্যারামিটারগুলির জন্য ভাল মানগুলি শেখা খুব সম্ভব, এবং এমন ঘটনাও রয়েছে যেখানে ভাল পারফরম্যান্সের জন্য এটি আবশ্যক; প্রথম অনুচ্ছেদে সমস্ত আলোচনার পরামর্শ দেয় সংজ্ঞা অনুসারে, আপনি এই কাজের জন্য একই ডেটা ব্যবহার করতে পারবেন না ।

উপাত্তের আরও একটি বিভাজন ব্যবহার করে (এইভাবে তিনটি বিচ্ছিন্ন অংশ তৈরি করা যায়: প্রশিক্ষণ সেট, বৈধতা সেট এবং পরীক্ষা সেট, আপনি তত্ত্বের মধ্যে যা করতে পারেন তা নীচের নেস্টেড-অপ্টিমাইজেশন পদ্ধতি: বাইরের লুপে, আপনি অনুসন্ধানের চেষ্টা করছেন হাইপারপামিটারগুলির মানগুলি যাচাইকরণের ক্ষতি হ্রাস করে এবং অভ্যন্তরীণ লুপে, আপনি নিয়মিত পরামিতিগুলির জন্য মানগুলি অনুসন্ধান করার চেষ্টা করেন যা প্রশিক্ষণের ক্ষতি হ্রাস করে ।

এটি তাত্ত্বিকভাবে সম্ভব, তবে গণ্যগতভাবে খুব ব্যয়বহুল: বাইরের লুপের প্রতিটি ধাপের জন্য অভ্যন্তরীণ লুপটি সমাধান হওয়া (শেষ হওয়া পর্যন্ত বা কোথাও কোথাও কাছাকাছি হওয়া) প্রয়োজন যা সাধারণত গণনা-ভারী। জিনিসগুলি আরও কী কী জটিল করে তোলে তা হ'ল বাইরের সমস্যাটি সহজ নয়: একটির জন্য অনুসন্ধানের জায়গাটি খুব বড়।

উপরের সেটআপটিকে সহজ করে (গ্রিড অনুসন্ধান, এলোমেলো অনুসন্ধান বা মডেল-ভিত্তিক হাইপার-প্যারামিটার অপ্টিমাইজেশন) এটিকে কাটিয়ে উঠতে অনেকগুলি পন্থা রয়েছে, তবে এগুলি ব্যাখ্যা করা আপনার প্রশ্নের পরিধি ছাড়িয়ে যায়। আপনি যে নিবন্ধটি উল্লেখ করেছেন এটিও প্রমাণ করে যে এটি ব্যয়বহুল প্রক্রিয়া হিসাবে প্রায়শই অর্থ হ'ল গবেষকরা কেবল এটিকে পুরোপুরি এড়িয়ে যান বা ম্যানুয়ালি খুব কম সেটিং চেষ্টা করে অবশেষে সেরাটির সাথে স্থির হন (আবার বৈধতা সেট অনুসারে)। যদিও আপনার মূল প্রশ্নের কাছে আমি যুক্তি দিচ্ছি - যদিও খুব সরল এবং সংশ্লেষিত - এটি এখনও "শেখার" একটি রূপ।

— galoosh33
সূত্র

হাই, আপনার উত্তরের জন্য ধন্যবাদ। আমি যদি একই ডেটা ব্যবহার করি তবে কি হয় ??

— এয়ারিন

7

সেই কাগজের মতো হাইপারপ্যারামিটারগুলি প্রায়শই ক্ষতির ফাংশনে একাধিক পদকে ভারসাম্যপূর্ণ করতে ব্যবহৃত হয়। আপনি যদি তাদের শেখার যোগ্য করে তোলেন, অপ্টিমাইজেশন প্রক্রিয়াটি এমন শর্তাদির জন্য সমস্ত ওজন বরাদ্দ করতে শিখবে যা শর্তাদির ব্যয়কে অনুকূলকরণ করা আরও সহজতর, যা শর্তাবলীর ভারসাম্যের পয়েন্টকে পরাস্ত করে।

এটি দেখার আরেকটি উপায় হ'ল লোকসান ফাংশনটি একটি আসল উদ্দেশ্যটির জন্য একটি সার্গেট যা সংজ্ঞায়িত করা বা অনুকূলকরণ করা কঠিন, যেমন "আউটপুট চিত্রগুলি উত্সাহিত হওয়া উচিত" বা "প্রতিকূল উদাহরণগুলির সাথে প্রতিরোধী হওয়া উচিত"। সেক্ষেত্রে, সত্য লক্ষ্যটি "সারোগেট ক্ষতি হ্রাস করার হাইপারপ্যারামিটারগুলি খুঁজে পাওয়া যায় না", এটি "হাইপারপ্যারামিটারগুলি সন্ধান করুন যেমন আমরা যখন সার্জিটকে অনুকূলকরণের জন্য বাকি পরামিতিগুলিতে এসজিডি চালাই, আমরা সত্যের উপর ভাল পারফরম্যান্স পাই উদ্দেশ্য "।

— shimao
সূত্র

4

যেহেতু আপনি "কাগজ নির্বিশেষে" জিজ্ঞাসা করেছেন তাই আমি একটি সহজ উদাহরণ নিতে চাই: পেনালাইজড লিনিয়ার রিগ্রেশন (রিজ / লাসো)।

এই ক্ষেত্রেগুলির জন্য, আমি দুটি কারণ সম্পর্কে ভাবতে পারি: তবে প্রথমে, এখানে দুটি ফাংশন রয়েছে তা লক্ষ্য করুন: (এফ 1) ক্ষতির ফাংশন, যা হাইপার-প্যারামিটার এবং ডেটার বিশ্লেষণমূলক ফাংশন (আপনি যে পেপারে লিঙ্ক করেছেন, এটা $\tilde{J}$ ; এবং (F2) জেনারাইজেশন ত্রুটির একটি অনুমান, যা (F1) এর সর্বোত্তম সমাধান এবং আপনি যে হাইপার-প্যারামিটারটি বেছে নিয়েছেন তার উপর নির্ভর করে (F1)।

ক্যাভিয়েট: কাগজটিতে একটি অভিহিত দৃষ্টিভঙ্গি প্রকাশ করে যে লেখকরা এমএনআইএসটি ডেটাসেটের জন্য নিউরাল নেটওয়ার্ক শ্রেণিবদ্ধকে প্রশিক্ষণ দেয়। হাইপার-প্যারামিটার কীভাবে চয়ন করা যায় তা স্পষ্টভাবে বলে না $\alpha$ , কিন্তু আমি একটি বাছাই করতে হবে $\alpha$ যা সেরা মডেলের বৈধতা ত্রুটিটিকে হ্রাস করে।

হাইপার-প্যারামিটারটি অনুকূল করে তোলার জন্য উদ্দেশ্যগত কার্যটি এমন একটি অভিব্যক্তি যা সাধারণীকরণের ত্রুটির জন্য প্রক্সি is এই অভিব্যক্তিটি একটি সাধারণ বিশ্লেষণমূলক ফাংশন হিসাবে লিখতে শক্ত যে পৃথক করা যায়, তবে কেবলমাত্র অন্তর্নিহিত অপ্টিমাইজেশান সমস্যা সমাধানের মাধ্যমে এটি সহজেই মূল্যায়ন করা যায়।
ফাংশন (এফ 2) মূল্যায়ন করার জন্য আপনাকে একটি অপ্টিমাইজেশন সমস্যা সমাধান করা দরকার, যা ব্যয়বহুল হতে পারে। সুতরাং, এমনকি যদি আপনি F2 গ্রেডিয়েন্ট বংশোদ্ভূত করার জন্য গ্রেডিয়েন্ট আনুমানিক করতে পারেন তবে এটি ব্যয়বহুল এবং ধীর হবে। এই জাতীয় ক্ষেত্রে, গ্রিড-অনুসন্ধান করা প্রায়শই "যথেষ্ট ভাল"।

হাইপার-প্যারামিটারের উপর নির্ভরশীলতার কারণে কিছু মসৃণতা কাঠামো ধরে ধরে ব্ল্যাক-বাক্স অবজেক্টিভ ফাংশনগুলি (যেমন F2) অনুকূলকরণ করার কৌশল রয়েছে are উদাহরণস্বরূপ, আপনি এই পোস্টটি দেখতে পারেন যা দেখায় যে লাসোর মডেলের পারফরম্যান্স তার হাইপার-প্যারামিটারের সাথে কীভাবে পরিবর্তিত হয় $\lambda$ :

(ছবিটি পোস্ট থেকে নেওয়া হয়েছে: https://stats.stackexchange.com/a/26607/54725 )

কিছু তথ্যসূত্র:

ব্ল্যাক বক্স ফাংশনগুলির জন্য বায়েশিয়ান অপ্টিমাইজেশন সম্পর্কিত কর্মশালা: https://bayesopt.github.io/
ইয়েল্পের এমওই: https://github.com/Yelp/MOE
গুগলের ভাইজার: https://static.googleusercontent.com/media/research.google.com/en//pubs/archive/46180.pdf

— বিমল
সূত্র

আপনি কি কাগজে J (θ, x + esign (JxJ (θ, x, y)) এর দ্বিতীয় পদটি বিশেষত F2 হিসাবে উল্লেখ করছেন?

— এ্যারিন

অ্যারন নং

J

$J$ ব্যয় ফাংশন হয়;

\tilde{J}

$\tilde{J}$ নিয়মিত খরচ ফাংশন। যেহেতু তারা একটি শ্রেণিবদ্ধকারী তৈরি করছে, তাই আমি বলব F2 বৈধতা হ্রাস ফাংশন হতে পারে। কাগজটি আসলে বলেছিল তারা বেছে নিয়েছে

α

$\alpha$ ০.৫ হতে হবে কারণ এটি যথেষ্ট ভাল কাজ করেছে (তারা অন্যান্য মানগুলি অন্বেষণ করে না

α

$\alpha$ , বা বাছাই করার কৌশলও নয়

α

$\alpha$ )।

— বিমাল

সুতরাং কাগজে কী আপনি F1 এবং F2 হিসাবে উল্লেখ করছেন?

— অ্যারিন

এফ 1 হ'ল

\tilde{J}

$\tilde{J}$ এবং আমি F2 হিসাবে বৈধতা ত্রুটি ব্যবহার করব। আমি এটি পরিষ্কার করতে আমার উত্তর আপডেট করব।

— বিমল

1

আমরা হাইপারপ্যারামিটার প্লাগ করলে প্রথম অর্ডার শর্তটি কেমন হবে তা দেখা যাক $\alpha$ এবং এটি একইভাবে শেখার চেষ্টা করুন $\theta$ তথ্য থেকে:

\frac{\partial}{\partial α} {জে}^{"} (θ) = \frac{\partial}{\partial α} α জে (θ) + + \frac{\partial}{\partial α} (1 - α) {জে}^{'} (θ) = জে (θ) - {জে}^{'} (θ) = 0

$\frac \partial{\partial\alpha} J''(\theta) = \frac \partial{\partial\alpha}\alpha J(\theta) + \frac \partial{\partial\alpha}(1 − \alpha)J'(\theta)\\ = J(\theta) − J'(\theta) = 0$ তাই,

জে (θ) = {জে}^{'} (θ)

$J(\theta) = J'(\theta)$

যখন এই হাইপারপ্যারামিটারটি অনুকূল করা হয়, তখন এটি জে এবং জে উভয়ই একই ফাংশন হয়ে উঠবে, অর্থাৎ সমান ওজন ights আপনি একটি তুচ্ছ সমাধান দিয়ে শেষ করব।

আপনি যদি আরও জেনেরিক দার্শনিককরণ চান তবে এটি বিবেচনা করুন: হাইপারপ্যারামিটারগুলি সাধারণত ডেটার সাথে জড়িত হয় না। আমার মানে কী? একটি নিউরাল নেটওয়ার্ক বা এমনকি একটি সাধারণ রিগ্রেশন আপনার মডেল প্যারামিটারগুলি কিছু উপায়ে সরাসরি ডেটার সাথে ইন্টারঅ্যাক্ট করবে:

Y_{এল} = {এক্স}_{এল} β_{এল}

$y_L=X_L\beta_L$

{একটি}_{এল} = σ (Y_{এল})

$a_L=\sigma(y_L)$

{এক্স}_{এল + + 1} = {একটি}_{এল}

$X_{L+1}=a_L$ এবং তাই স্তর নিচে। আপনি কিভাবে দেখুন

β_{L}

$\beta_L$ আপনার তথ্য মধ্যে জট পেতে। সুতরাং, যখন আপনি যেকোন একটি থেকে ডেরাইভেটিভ গ্রহণ

β

$\beta$ অবজেক্টিভ ফাংশনের আপনি ম্যাট্রিক্স, হেসিয়ানস, ক্রস প্রোডাক্টস ইত্যাদিতে সুস্পষ্ট উপায়ে ফলাফল প্রবেশ করানো ডেটা পয়েন্ট পাবেন

তবে, যদি আপনি হাইপারপ্যারামিটারগুলির মাধ্যমে প্রথম অর্ডার শর্তটি অনুমান করার চেষ্টা করেন তবে আপনি এই প্রভাবটি পাবেন না। হাইপারপ্যারামিটারগুলির ডেরিভেটিভগুলি প্রায়শই আপনার মডেলের পুরো অংশগুলি পরিচালনা করে, প্যারামিটারগুলির মাধ্যমে ডেরিভেটিভসের মতো অংশগুলি পরিবর্তন না করে। এই কারণেই হাইপারপ্যারামিটারগুলি অনুকূল করা প্রায়ই নির্দিষ্ট কাগজের জন্য যেমনটি আপনাকে দিয়েছিলাম তেমন তুচ্ছ সমাধানের দিকে নিয়ে যায়। হাইপারপ্যারামিটারগুলি অনুকূল করা আপনার ডেটা সেটটিকে বিরক্ত করে না এবং আকর্ষণীয় কিছু উত্পাদন করতে যথেষ্ট অস্বস্তি করে না।

— Aksakal
সূত্র