লাইন অনুসন্ধান পদ্ধতি কি গভীর শিক্ষায় ব্যবহৃত হয়? কেন না?


18

গ্রেডিয়েন্ট বংশদ্ভুত সম্পর্কে অনেক টিউটোরিয়াল অনলাইন আলোচনা করে এবং প্রায় সকলেই একটি নির্দিষ্ট ধাপের আকার (শিক্ষার হার ) ব্যবহার করে। লাইন অনুসন্ধানের কোনও ব্যবহার নেই কেন (যেমন ব্যাকট্র্যাকিং লাইন অনুসন্ধান বা সঠিক লাইন অনুসন্ধান)?α


5
"এবং প্রায় সকলেই একটি স্থির পদক্ষেপের আকার ব্যবহার করেন" - আপনি কি নিশ্চিত? "লার্নিং রেট" হাইপার প্যারামিটারগুলি পদক্ষেপের আকারকে শর্তের সাথে খাপ খাইয়ে নেওয়ার কথা। একটি খুব জনপ্রিয় অ্যাডাম অ্যালগরিদম ধাপের আকারটি গ্রহণ করে
আকসকল

1
হুম, আসলে অভিযোজিত ধাপের আকারের গ্রেডিয়েন্ট পদ্ধতিগুলি প্রায় কমপক্ষে ২০১১ সাল থেকে প্রায় হয়েছে এবং এগুলি উইকিপিডিয়া স্টোকাস্টিক গ্রেডিয়েন্ট বংশোদ্ভূত পৃষ্ঠায় উদ্ধৃত করা হয় । এটা ঠিক গরম খবর নয়। এমনকি ভ্যানিলা এসজিডি প্রায়শই একটি শেখার হারের সাথে ব্যবহৃত হয় যা পুনরাবৃত্তির সংখ্যা ( সময়সূচী ) এর সাথে পরিবর্তিত হয় । এখন, একটি খুব ভাল প্রশ্ন হবে: কেন, এতগুলি অভিযোজিত গ্রেডিয়েন্ট বংশোদ্ভূত পদ্ধতি থাকলেও, এসজিডি এখনও ডিপ লার্নিং বিশ্বে আধিপত্য বিস্তার করে? প্রশ্নটি মনে হতে পারে তুলনায় অনেক কম তুচ্ছ।
ডেল্টাভ

1
ব্যাকট্র্যাকিং লাইন-অনুসন্ধান একটি দিক স্থির করে এবং তারপরে ক্রিয়াটি হ্রাস করার কোনও উপায় অনুসন্ধান করে। সুতরাং আপনার কাছে অনুসন্ধানের দিকটি বাছাই করার কোনও বুদ্ধিমান উপায় না থাকলে আপনি এক ক্লান্তিকর অপ্টিমাইজেশনের জন্য রয়েছেন।
অ্যালেক্স আর।

1
আমি দেখতে পাচ্ছি না যে লাইন অনুসন্ধান এসজিডি ([ব্যাচ] গ্রেডিয়েন্ট বংশদ্ভুতের বিপরীতে) এর পক্ষে বিবেচনা করে - তাই আমি বলব এটি কারণ the
seanv507

3
গ্রেডিয়েন্ট বংশোদ্ভূত ব্যাচিং হ'ল লাইন অনুসন্ধান খুব জনপ্রিয় না হওয়ার কারণটি আমি সন্দেহ করি। আপনি একটি ব্যাচ পান, তারপরে গ্রেডিয়েন্টটি গণনা করুন। গ্রেডিয়েন্টে গোলমাল করার কারণে এটি লাইনটি পিছনে পিছনে পিছনে যেতে অর্থবোধ করে না। ধাপের আকারটি অ্যানিল করার সময় পরবর্তী ব্যাচটি দিয়ে যাওয়া আরও ভাল।
আকসকল

উত্তর:


14

ভ্যানিলা গ্রেডিয়েন্ট বংশদ্ভুত লাইন অনুসন্ধানগুলি ব্যবহার করে আরও নির্ভরযোগ্য করা যেতে পারে; আমি অ্যালগরিদম লিখেছি যা এটি করে এবং এটি একটি খুব স্থিতিশীল অ্যালগরিদম তৈরি করে (যদিও দ্রুত প্রয়োজন হয় না)।

যাইহোক, স্টোকাস্টিক গ্রেডিয়েন্ট পদ্ধতির জন্য একটি লাইন অনুসন্ধান করতে প্রায় কোনও বুদ্ধি নেই । আমি এটি বলার কারণটি হ'ল যদি আমরা সম্পূর্ণ ক্ষতির কার্যকারিতা হ্রাস করার উপর ভিত্তি করে একটি লাইন অনুসন্ধান করি, আমরা তত্ক্ষণাত স্টোকাস্টিক পদ্ধতিগুলি করার প্রধান প্রেরণা হারিয়ে ফেলেছি; আমাদের এখন প্রতিটি আপডেটের জন্য সম্পূর্ণ ক্ষতির ফাংশন গণনা করতে হবে, যার মধ্যে সম্পূর্ণরূপে প্রথম ডেরাইভেটিভ গণনার সাথে তুলনামূলকভাবে গণনা ব্যয় হয়। গণনাগত ব্যয়ের কারণে আমরা সম্পূর্ণ গ্রেডিয়েন্টের কম্পিউটিং এড়াতে চেয়েছি বলে দেওয়া হয়েছে, এটি খুব কমই বলে মনে হচ্ছে যে আমরা সম্পূর্ণ ক্ষতির ক্রিয়াকলাপটি ঠিক করতে চাই।

বিকল্পভাবে, আপনি এলোমেলোভাবে নমুনাযুক্ত ডেটা পয়েন্টের উপর ভিত্তি করে লাইন অনুসন্ধানের মতো কিছু করার কথা ভাবতে পারেন। তবে এটিও ভাল ধারণা নয়; এটি আপনাকে খুব বেশি দূরে সরে গিয়েছে কিনা (যা লাইন অনুসন্ধানগুলির মূল উপকার) তা সম্পর্কে আপনাকে কিছু বলবে না। উদাহরণস্বরূপ, ধরুন আপনি লজিস্টিক রিগ্রেশন করছেন। তারপরে প্রতিটি ফলাফল কেবল একটি 0 বা 1 হয় এবং যে কোনও একক নমুনার জন্য আমরা তুচ্ছভাবে নির্ভুল পৃথকীকরণ পাই তাই 1 এর নমুনার উপর ভিত্তি করে আমাদের রিগ্রেশন প্যারামিটারের সর্বোত্তম সমাধানটি তুচ্ছ বা হউক ডোনার প্রভাব দ্বারা। এটা ভালো না.

সম্পাদনা

@ ডেলটাইভ উল্লেখ করেছেন যে এটি কেবলমাত্র স্বতন্ত্র নমুনাগুলি নয়, মিনি-ব্যাচের ক্ষেত্রেও প্রযোজ্য।


4
খুব সুন্দর (+1), তবে আমি নিশ্চিত নই কেন শেষ উদাহরণে আপনি একটি একক নমুনা সম্পর্কে কথা বলছেন। আমি সম্মত হই যে একটি মিনি-ব্যাচের উপর ভিত্তি করে লাইন অনুসন্ধানের গণনা করা কোনও অর্থবোধ করে না, তবে একটি মিনি-ব্যাচে এখনও 512 নমুনা থাকে (সাধারণত, এবং যখন ইমেজনেটের কথা হয়): অবশ্যই একটি মিনিতে নমুনার সংখ্যার জন্য কোনও নির্দিষ্ট মান নেই ব্যাচ, তবে 1 টি নমুনা মিনি-ব্যাচগুলি কিছুটা চরম অনুভূত হয়। আপনি কি কেবল আপনার বিষয়টিকে আরও পরিষ্কার করার জন্য সেগুলি ব্যবহার করেছেন, বা আমি কিছু অনুপস্থিত?
ডেল্টাভিও

2
@ ডেলটিআইভি: একমাত্র নমুনা হ'ল বেশিরভাগ সাধারণ সমস্যার ক্ষেত্রে এটি কতটা খারাপ হতে পারে সে সম্পর্কে একটি বিষয় নির্দিষ্ট করে তোলা। যদি আমরা 512+ covariates সহ লজিস্টিক রিগ্রেশনটিতে 512 নমুনা সহ মিনি-ব্যাচটি করি তবে আমরা একই সমস্যাটি দেখতে পাব।
ক্লিফ এবি

10

টিউটোরিয়ালগুলি সম্ভবত গ্রেডিয়েন্ট বংশোদ্ভূত সম্পর্কে কথা বলে কারণ এটি অপটিমাইজেশনের জন্য ব্যবহৃত অন্যতম সহজ অ্যালগরিদম, তাই এটি ব্যাখ্যা করা সহজ। যেহেতু এই জাতীয় বেশিরভাগ টিউটোরিয়াল সংক্ষিপ্ত, তাই তারা সাধারণ স্টাফগুলিতে ফোকাস করে। গভীর গ্রেডিয়েন্ট বংশদ্ভুতের বাইরে কমপক্ষে কয়েকটি জনপ্রিয় অপ্টিমাইজেশন অ্যালগরিদম রয়েছে যা গভীর শিক্ষার জন্য ব্যবহৃত হয়। প্রকৃতপক্ষে লোকেরা প্রায়শই বিভিন্ন অ্যালগরিদমগুলি ব্যবহার করে তারপরে গ্রেডিয়েন্ট বংশোদ্ভূত হয় কারণ তারা সাধারণত দ্রুত রূপান্তর করে। তাদের মধ্যে কিছুতে অবিচ্ছিন্ন শেখার হার রয়েছে (যেমন সময়ের সাথে সাথে হ্রাস পাচ্ছে)। এই জাতীয় অ্যালগরিদমগুলির পর্যালোচনার জন্য আপনি সেবাস্তিয়ান রুডার (বা আর্কাইভস পেপার ) দ্বারা গ্রেডিয়েন্ট বংশদ্ভুত অপ্টিমাইজেশন অ্যালগরিদম পোস্টের একটি ওভারভিউ পরীক্ষা করতে পারেন ।


2
@ ডেলটাইভ: সমস্ত "অন্যান্য" অভিনব পদ্ধতি এসজিডির উপরে নির্মিত। মূল সমস্যাটি হ'ল অন্যান্য পদ্ধতিগুলি স্থানীয় জ্ঞানের সুযোগ নিয়ে আরও দক্ষ জাম্প তৈরির জন্য, এলোমেলোভাবে নমুনা পয়েন্টের পরিবর্তে গ্রেডিয়েন্টটি গণনা করার জন্য। তবে এসজিডি এত সহজ এবং দ্রুত এবং এটি নিজে থেকে সম্পূর্ণ ভয়ঙ্কর নয়।
অ্যালেক্স আর।

2
@AlexR। কথাটি হ'ল এসজিডি সহজ এবং / অথবা দ্রুত। সরলতা কোনও বিষয় নয়, যেহেতু সমস্ত শালীন গ্রন্থাগারগুলি এসজিডি, অ্যাডাম, অ্যাডগ্রাড এবং আরএমএসপ্রপ (এবং আরও অনেক সময়) প্রয়োগ করে। গতি আরও কম গুরুত্বপূর্ণ, কারণ প্যারামিটার-স্তরের আপডেটগুলি গণনা করতে অ্যাডাম দ্বারা ব্যয় করা সময়টি রেজনেটের মতো কোনও মডেলের সামগ্রিক প্রশিক্ষণের সময়ের তুলনায় অনন্য। একমাত্র বক্তব্যটি হ'ল যে কোনও কারণে আমরা আজ পুরোপুরি বুঝতে পারি না, এসজিডি তাদের চেয়ে আরও সাধারণীকরণ করে। সুতরাং মূলত আপনি যদি SOTA কে পরাজিত করতে চান তবে আপনি প্রায়শই এটি ব্যবহার করতে বাধ্য হন বা প্রশিক্ষণের সময় পরে এটিতে স্যুইচ করতে বাধ্য হন।
ডেল্টাভ

3
পছন্দ করুন আপনার সাথে লিঙ্কিত কাগজটি আমি খুলেছি এবং এটি দাবি করে উইলসন এট আল 2017 প্রিপ্রিন্টের উল্লেখ করেছে যে এসজিডি অ্যাডাম ইত্যাদির চেয়ে আরও ভাল জেনারেলাইজ করেছে; সুতরাং আপনি যখন বলেন যে এটি "সুপরিচিত", আপনি অর্ধেক বছর ধরে সুপরিচিত বোঝাচ্ছেন, তাই না?
অ্যামিবা বলেছেন মোনিকা

2
ধন্যবাদ দেলতাভ আমি নিজে গভীর গভীর শেখার খুব একটা করছি না এবং আমি এ সম্পর্কে মোটেই অবগত ছিলাম না। ২০১২ বা তার আগে আমি যখন হিন্টনের কার্সেরা বক্তৃতাগুলি দেখছিলাম, তিনি মূলত আরএমএসপ্রপের পক্ষে ছিলেন এবং সাম্প্রতিক 1-2 বছরে আমার ধারণাটি ছিল যে সবাই অ্যাডাম ব্যবহার করছে (যা অ্যাডাম পেপার অনুসারে আরএমএসপ্রপকে বহিষ্কার করে)। গত বছর যখন আমি অটোনকোডারদের সাথে খেলছিলাম , আমি বুঝতে পেরেছিলাম যে অ্যাডাম এসজিডি থেকে অনেক বেশি দ্রুত কাজ করে, এবং তখন থেকেই কেবল ধরে নিয়েছি যে আজকাল অ্যাডাম একটি ডিফল্ট পছন্দ।
অ্যামিবা বলছেন মনিকাকে

3
@ ক্লিফ্যাব হ্যাঁ, প্রারম্ভিক থামানো এবং নিয়মিতকরণের মধ্যকার সম্পর্কটি কমপক্ষে স্কোয়ারের জন্য পরিষ্কারভাবে দেখা যায়, যেখানে গ্রেডিয়েন্ট বংশোদ্ভূত ইগেনভ্যালু ভিত্তিতে কাজ করে এবং ছোট ইগেনভ্যালুগুলি সর্বশেষে রূপান্তরিত হয়; অন্যদিকে রিজ পেনাল্টি ছোট ছোট ইগেনালুগুলিকেও দণ্ড দেয়। আমার এখন কেবল উইলসন এট আল-তে নজর ছিল। উপরে লিঙ্কযুক্ত, তবে কমপক্ষে তাদের সর্বনিম্ন স্কোয়ার উদাহরণগুলিতে এসজিডি বনাম অ্যাডামের বিপরীতে দেরী থামিয়ে তাড়াতাড়ি ব্যাখ্যা করা হয়নি । তাদের দাবি যে তারা বিভিন্ন সমাধানে রূপান্তর করে।
অ্যামিবা
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.