গ্রেডিয়েন্ট বংশোদ্ভূত কি সর্বদা সর্বোত্তম হয়ে যায়?


21

আমি ভাবছি যে এমন কোনও দৃশ্য আছে যাতে গ্রেডিয়েন্ট বংশোদ্ভূত ন্যূনতম রূপান্তরিত হয় না।

আমি সচেতন যে গ্রেডিয়েন্ট বংশোদ্ভূত সর্বদা বিশ্ব সর্বোত্তম রূপান্তরিত হওয়ার গ্যারান্টিযুক্ত নয়। আমি এও সচেতন যে পদক্ষেপের আকারটি যদি খুব বড় হয় তবে এটি একটি সর্বোত্তম থেকে অন্যদিকে চলে যেতে পারে। যাইহোক, এটি আমার কাছে মনে হয়, এটি যদি কিছু অনুকূল থেকে সরে যায় তবে শেষ পর্যন্ত এটি অন্য একটি সর্বোত্তম হয়ে যাবে।

অতএব, গ্রেডিয়েন্ট বংশোদ্ভূত স্থানীয় বা বৈশ্বিক সর্বোত্তম রূপান্তরিত করার গ্যারান্টিযুক্ত হবে। এটা কি সঠিক? যদি না হয়, আপনি দয়া করে একটি মোটামুটি কাউন্টারিক্স নমুনা সরবরাহ করতে পারেন?


1
আশা করি এই লিঙ্কটি ভবিষ্যতে সহায়তা করবে .. ডেটাসায়েন্স.স্ট্যাকেক্সেঞ্জারওয়েটা
আদিত্য

1
গ্রেডিয়েন্ট বংশোদ্ভূত একটি অ্যানিমেশন তৈরি করে এমন প্রমাণ, চিত্র এবং কোড সহ 3 টি কংক্রিট এবং সাধারণ উদাহরণের জন্য এই উত্তরটি দেখুন
ওরেন মিলম্যান

উত্তর:


28

গ্রেডিয়েন্ট বংশদ্ভুত একটি অ্যালগরিদম যা সর্বোত্তম পয়েন্টগুলি সন্ধান করার জন্য ডিজাইন করা হয়েছে, তবে এই সর্বোত্তম পয়েন্টগুলি গ্লোবাল নয়। এবং হ্যাঁ যদি এটি ঘটে থাকে যে এটি কোনও স্থানীয় অবস্থান থেকে সরে যায় তবে এটি অন্য অনুকূল পয়েন্টে রূপান্তর করতে পারে তবে এর সম্ভাবনা খুব বেশি নয়। কারণটি হ'ল ধাপের আকারটি খুব বেশি আকারের হতে পারে যা এটি একটি সর্বোত্তম বিন্দুটিকে সরিয়ে নেওয়ার অনুরোধ জানায় এবং এটি সংবর্ধনার চেয়ে সম্ভাবনাময় যে এটি দোলায়।

গ্রেডিয়েন্ট বংশোদ্ভূত সম্পর্কে দুটি প্রধান দৃষ্টিভঙ্গি রয়েছে, মেশিন লার্নিং যুগ এবং গভীর শিক্ষার যুগ। মেশিন লার্নিংয়ের যুগে এটা বিবেচনা করা হত যে গ্রেডিয়েন্ট বংশোদ্ভূত স্থানীয় / গ্লোবাল অপ্টিমিট খুঁজে পাবেন তবে গভীর শিক্ষার যুগে যেখানে ইনপুট বৈশিষ্ট্যের মাত্রা অনেক বেশি এটি অনুশীলনে প্রদর্শিত হয় যে সমস্ত বৈশিষ্ট্যই সেখানে অনুকূল মানের মধ্যে থাকার সম্ভাবনা রয়েছে একক বিন্দুতে খুব বেশি নয় এবং ব্যয় কার্যক্রমে সর্বাধিক অবস্থান রয়েছে তা দেখে বেশিরভাগ সময় স্যাডল পয়েন্টগুলি পর্যবেক্ষণ করা হয়। এটি প্রচুর পরিমাণে ডেটা এবং প্রশিক্ষণের যুগের সাথে প্রশিক্ষণের ফলে গভীর শিক্ষার মডেলগুলি অন্যান্য অ্যালগরিদমকে ছাড়িয়ে যায় reasons সুতরাং আপনি যদি আপনার মডেলটিকে প্রশিক্ষণ দেন তবে এটি একটি মোটা পথ খুঁজে পাবে বা উতরাইয়ের দিকে যাওয়ার পথ খুঁজে পাবে এবং স্যাডল পয়েন্টগুলিতে আটকাবেন না, তবে আপনার উপযুক্ত পদক্ষেপের আকার থাকতে হবে।

আরও অন্তর্বিজ্ঞানের জন্য আমি আপনাকে এখানে এবং এখানে উল্লেখ করার পরামর্শ দিচ্ছি ।


3
যথাযথভাবে। এই সমস্যাগুলি সর্বদা তত্ত্বের মধ্যে পপ আপ হয়, তবে প্রকৃত অনুশীলনে খুব কমই। অনেক মাত্রা সহ, এটি কোনও সমস্যা নয়। আপনার একটি ভেরিয়েবলের স্থানীয় মিনিমা থাকবে তবে অন্যটিতে নয়। তদতিরিক্ত, মিনি-ব্যাচ বা স্টোকাস্টিক গ্রেডিয়েন্ট বংশোদ্ভূত কোনও স্থানীয় মিনিমা এড়াতে সহায়তা নিশ্চিত করে।
রিকার্ডো ক্রুজ

3
@ রিকার্ডো ক্রুজ হ্যাঁ, আমি স্যার রাজি হই
মিডিয়া

12

আপনি উল্লিখিত পয়েন্টগুলি বাদ দিয়ে (অ-বৈশ্বিক সর্বনিম্নে রূপান্তর এবং বৃহত্তর পদক্ষেপের আকারগুলি সম্ভবত নন-কনভারজেন্ট অ্যালগরিদমের দিকে পরিচালিত করে), "ইনফ্লেশন রেঞ্জ" একটি সমস্যাও হতে পারে।

নিম্নলিখিত "রিক্লাইনার চেয়ার" ফাংশনের ধরণটি বিবেচনা করুন।

এখানে চিত্র বর্ণনা লিখুন

স্পষ্টতই, এটি তৈরি করা যেতে পারে যাতে মাঝখানে এমন একটি পরিসীমা থাকে যেখানে গ্রেডিয়েন্টটি 0 ভেক্টর হয়। এই ব্যাপ্তিতে, অ্যালগরিদম অনির্দিষ্টকালের জন্য আটকে যেতে পারে। প্রতিচ্ছবি পয়েন্টগুলি সাধারণত স্থানীয় অতিরিক্ত হিসাবে বিবেচিত হয় না।



3

[দ্রষ্টব্য 5 এপ্রিল 2019: কাগজের একটি নতুন সংস্করণ অনেক নতুন ফলাফলের সাথে আরএক্সআইভিতে আপডেট হয়েছে। আমরা মোমেন্টাম এবং এনএজি এর ব্যাকট্র্যাকিং সংস্করণগুলিও প্রবর্তন করি এবং ব্যাকট্র্যাকিং গ্রেডিয়েন্ট বংশোদ্ভূত হিসাবে একই অনুমানের অধীনে রূপান্তর প্রমাণ করি।

সোর্স কোডগুলি লিঙ্কটিতে গিটহাবে উপলভ্য: https://github.com/hank-nguyen/MBT-optimizer

আমরা ডিএনএন-তে আবেদন করার জন্য অ্যালগরিদমগুলিকে উন্নত করেছি এবং এমএমটি, এনএজি, অ্যাডাম, অ্যাডাম্যাক্স, অ্যাডগ্র্যাড, ... এর মতো অত্যাধুনিক আলগোরিদিমগুলির চেয়ে আরও ভাল পারফরম্যান্স পেয়েছি ...

আমাদের অ্যালগরিদমের সর্বাধিক বিশেষ বৈশিষ্ট্য হ'ল এগুলি স্বয়ংক্রিয়, আপনাকে সাধারণ অনুশীলন হিসাবে শিক্ষার হারের ম্যানুয়াল ফিন-টিউন করার দরকার নেই। আমাদের স্বয়ংক্রিয় সূক্ষ্ম সুরকরণ অ্যাডাম, অ্যাডাম্যাক্স, অ্যাডাগ্রেড, ... ইত্যাদি থেকে প্রকৃতিতে আলাদা। আরও বিশদটি কাগজে রয়েছে।

]

খুব সাম্প্রতিক ফলাফলের ভিত্তিতে: এই কাগজে আমার যৌথ কাজে https://arxiv.org/abs/1808.05160

উপরের উপর ভিত্তি করে, আমরা গভীর শিক্ষার ক্ষেত্রে একটি নতুন পদ্ধতি প্রস্তাব করেছি যা বর্তমানের অত্যাধুনিক পদ্ধতির সাথে সমান এবং শিক্ষার হারগুলির ম্যানুয়াল ফাইন টুনিংয়ের প্রয়োজন নেই does ( সংক্ষেপে , ধারণাটি হ'ল আপনি কিছুটা সময় ব্যাকট্র্যাকিং গ্রেডিয়েন্ট বংশোদ্ভূত হন, যতক্ষণ না আপনি দেখতে পান যে প্রতিটি শিক্ষার হারের সাথে পরিবর্তিত শিক্ষার হারগুলি স্থিতিশীল হয়ে যায় abil আমরা এই স্থিতিশীলতার প্রত্যাশা করি, বিশেষত একটি সমালোচনামূলক বিন্দুতে যা সি ^ 2 এবং অবনতিহীন, কারণ আমি পূর্বে উল্লিখিত রূপান্তর ফলাফলের কারণে। এই সময়ে, আপনি স্ট্যান্ডার্ড গ্রেডিয়েন্ট বংশদ্ভুত পদ্ধতিতে স্যুইচ করুন more আরও বিশদ জন্য উদ্ধৃত কাগজটি দেখুন Thisএই পদ্ধতিটি অন্যান্য অনুকূল অ্যালগরিদমেও প্রয়োগ করা যেতে পারে ।)

পিএস স্ট্যান্ডার্ড গ্রেডিয়েন্ট বংশোদ্ভূত পদ্ধতি সম্পর্কে আপনার মূল প্রশ্নটি সম্পর্কে, আমার জ্ঞানের ক্ষেত্রে কেবলমাত্র সেই ক্ষেত্রে যেখানে মানচিত্রের ডেরিভেটিভ বিশ্বব্যাপী লিপস্চিট্জ এবং শিক্ষার হার যথেষ্ট ছোট যে মানক গ্রেডিয়েন্ট বংশোদ্ভূত পদ্ধতিটি রূপান্তরিত প্রমাণিত। [যদি এই শর্তগুলি সন্তুষ্ট না হয় তবে এমন সহজ পাল্টা উদাহরণ রয়েছে যা দেখায় যে কোনও রূপান্তর ফলাফল সম্ভব নয়, কিছুটির জন্য উদ্ধৃত কাগজটি দেখুন]] উপরে বর্ণিত কাগজে আমরা যুক্তি দিয়েছিলাম যে দীর্ঘকাল ধরে ব্যাকট্র্যাকিং গ্রেডিয়েন্ট বংশোদ্ভূত পদ্ধতি হয়ে উঠবে স্ট্যান্ডার্ড গ্রেডিয়েন্ট বংশোদ্ভূত পদ্ধতি, যা স্ট্যান্ডার্ড গ্রেডিয়েন্ট বংশোদ্ভূত পদ্ধতি সাধারণত অনুশীলনে কেন ভালভাবে কাজ করে তার ব্যাখ্যা দেয়।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.