ব্যাকপ্রসারণ ছাড়াই কি নিউরাল নেটওয়ার্ক প্রশিক্ষণ দেওয়া সম্ভব?


94

অনেক নিউরাল নেটওয়ার্ক বই এবং টিউটোরিয়াল ব্যাকপ্রোপেশন অ্যালগরিদমের জন্য প্রচুর সময় ব্যয় করে, যা মূলত গ্রেডিয়েন্টটি গণনা করার একটি সরঞ্জাম।

ধরে নেওয়া যাক আমরা ~ 10 কে পরামিতি / ওজন দিয়ে একটি মডেল তৈরি করছি। কিছু গ্রেডিয়েন্ট ফ্রি অপ্টিমাইজেশন অ্যালগরিদম ব্যবহার করে কী অপ্টিমাইজেশন চালানো সম্ভব?

আমি মনে করি সংখ্যার গ্রেডিয়েন্ট গণনা করা খুব ধীর হবে তবে নেল্ডার-মিড, সিমুলেটেড অ্যানিলিং বা জেনেটিক অ্যালগরিদমের মতো অন্যান্য পদ্ধতির কীভাবে?

সমস্ত অ্যালগোরিদম স্থানীয় মিনিমাতে ভুগবে, কেন গ্রেডিয়েন্টের সাথে আচ্ছন্ন?



6
@ ফ্র্যাঙ্কডেরননকোর্ট আমি অন্য প্রশ্নের ব্যাখ্যা দিয়েছিলাম " নিউরাল নেটওয়ার্ক প্রশিক্ষণের জন্য বিশ্বব্যাপী অপ্টিমাইজেশান কৌশলগুলি কেন ব্যবহার করবেন না ?", যদিও এই প্রশ্নটি আরও বেশি "কেন ডেরিভেটিভ-মুক্ত অপ্টিমজার ব্যবহার করবেন না ..."।
GeoMatt22

6
3 টি আপভোটেড উত্তর সহ, এটি আমার কাছে জবাবদিহি করতে খুব বেশি বিস্তৃত বলে মনে হয় না।
গাং

5
হ্যাঁ, নেলদার-মাংস স্থানীয় নূন্যতম আটকে যাওয়ার বিষয়ে আপনাকে খুব বেশি চিন্তা করার দরকার নেই, কারণ এটি যে কোনও জায়গায় কার্যকর হলে আপনি ভাগ্যবান হবেন।
মার্ক এল। স্টোন

1
বিটিডাব্লু, আল্ট্রা এল-বিএফজিএস, এটিকে ঘূর্ণি দেয়। এটি ভাল হতে পারে, তবে এটি এতটাই অস্পষ্ট সম্ভবত কেউ নিউরাল নেটওয়ার্কগুলিতে এটি চেষ্টাও করেনি। পি তে সমীকরণ 2.9 দেখুন। 12 (যদিও আপনাকে গণিতের সূত্রটি বোঝার জন্য পূর্ববর্তী কয়েকটি পৃষ্ঠাগুলি পড়তে হবে) আল্ট্রা বিএফজিএসের চেয়ে আল্ট্রা এল-বিএফজিএস হতে একটি "এল" (সীমাবদ্ধ মেমরি) সংস্করণে প্রবেশ করুন। নন-এল সংস্করণটি কাগজে লেখা আছে। আল্ট্রা বিএফজিএস মূলত একটি স্যুপড-আপ ("হট রড") বিএফজিএস - দ্রুততর হতে পারে তবে কিছুটা ওয়াইল্ডার হতে পারে।
মার্ক এল। স্টোন

উত্তর:


80

আপনি যে দুটি প্রথম অ্যালগরিদম উল্লেখ করেছেন (নেল্ডার-মিড এবং সিমুলেটেড অ্যানিলিং) সাধারণত অপটিমাইজেশন চেনাশোনাগুলিতে বেশ অপ্রচলিত হিসাবে বিবেচিত হয়, কারণ আরও অনেক ভাল বিকল্প রয়েছে যা উভয়ই নির্ভরযোগ্য এবং কম ব্যয়বহুল। জেনেটিক অ্যালগরিদমগুলি বিস্তৃত পরিসীমা জুড়ে এবং এর কয়েকটি যুক্তিসঙ্গত হতে পারে।

তবে ডেরিভেটিভ-ফ্রি অপ্টিমাইজেশনের (ডিএফও) অ্যালগরিদমগুলির বিস্তৃত শ্রেণিতে এমন অনেকগুলি রয়েছে যা এই "ক্লাসিকগুলি" থেকে তুলনামূলকভাবে ভাল, কারণ সাম্প্রতিক দশকগুলিতে এটি গবেষণার একটি সক্রিয় ক্ষেত্র ছিল। সুতরাং, এই নতুন পদ্ধতির কয়েকটি গভীর শিক্ষার পক্ষে যুক্তিযুক্ত হতে পারে?

আর্টের রাজ্যের তুলনায় তুলনামূলকভাবে সাম্প্রতিক একটি কাগজ নিম্নলিখিত:

রিওস, এলএম, এবং সহিনিডিস, এনভি (2013) ডেরিভেটিভ-মুক্ত অপ্টিমাইজেশন: অ্যালগরিদমগুলির একটি পর্যালোচনা এবং সফ্টওয়্যার বাস্তবায়নের তুলনা। জার্নাল অফ গ্লোবাল অপটিমাইজেশন।

এটি একটি দুর্দান্ত কাগজ যা সাম্প্রতিক কৌশলগুলির মধ্যে অনেক আকর্ষণীয় অন্তর্দৃষ্টি রয়েছে। উদাহরণস্বরূপ, ফলাফলগুলি পরিষ্কারভাবে দেখায় যে সর্বোত্তম স্থানীয় অপ্টিমাইজারগুলি হ'ল "মডেল-ভিত্তিক", ক্রমবর্ধমান কোয়াড্র্যাটিক প্রোগ্রামিং (এসকিউপি) এর বিভিন্ন ফর্ম ব্যবহার করে ।

তবে, তাদের বিমূর্তে উল্লিখিত হিসাবে "আমরা দেখতে পেয়েছি যে ভাল সমাধান পাওয়ার জন্য এই সমস্ত সমাধানকারীদের ক্ষমতা ক্রমবর্ধমান সমস্যার আকারের সাথে হ্রাস পাচ্ছে।" সংখ্যাগুলির ধারণা দেওয়ার জন্য, সমস্ত সমস্যার জন্য সমাধানকারীদের 2500 ফাংশন মূল্যায়নের একটি বাজেট দেওয়া হয়েছিল এবং অনুকূলিতকরণের জন্য সমস্যার আকারগুলি সর্বোচ্চ ~ 300 পরামিতি ছিল। ও [10] পরামিতিগুলির বাইরে, এই অপটিমাইজারগুলির মধ্যে খুব কমই খুব ভাল পারফরম্যান্স করেছে এবং সমস্যাগুলির আকার বৃদ্ধি পাওয়ায় সেরা পারফরম্যান্সে পারফরম্যান্সে একটি লক্ষণীয় ক্ষয়ও প্রদর্শিত হয়েছিল।

সুতরাং খুব উচ্চ মাত্রিক সমস্যার জন্য, ডিএফও অ্যালগরিদমগুলি কেবল ডেরাইভেটিভ ভিত্তিকগুলির সাথে প্রতিযোগিতামূলক নয়। কিছু দৃষ্টিকোণ দেওয়ার জন্য, PDE (আংশিক ডিফারেনশিয়াল সমীকরণ)-ভিত্তিক অনুকূলকরণ খুব উচ্চ মাত্রিক সমস্যাযুক্ত (যেমন, একটি বৃহত থ্রিডি সীমাবদ্ধ উপাদান গ্রিডের প্রতিটি কক্ষের জন্য কয়েকটি পরামিতি ) অন্য একটি ক্ষেত্র। এই রাজ্যে, " অ্যাডেজমেন্ট পদ্ধতি " সর্বাধিক ব্যবহৃত পদ্ধতিগুলির মধ্যে একটি। এটি একটি ফরোয়ার্ড মডেল কোডের স্বয়ংক্রিয় পার্থক্যের ভিত্তিতে গ্রেডিয়েন্ট-বংশোদ্ভূত অপ্টিমাইজার।

একটি হাই-ডাইমেনশনাল ডিএফও অপ্টিমাইজারের সবচেয়ে কাছাকাছিটি সম্ভবত এনসেম্বেল কালম্যান ফিল্টার , জটিল পিডিই সিমুলেশনগুলির উদাহরণ হিসাবে আবহাওয়ার মডেলগুলিতে ডেটা একীকরণের জন্য ব্যবহৃত হয়। মজার বিষয় হল এটি মূলত একটি এসকিউপি পদ্ধতি, তবে একটি বায়সিয়ান-গাউসিয়ান ব্যাখ্যার সাথে (সুতরাং চতুর্ভুজ মডেলটি ইতিবাচক সুনির্দিষ্ট, অর্থাত কোনও স্যাডল পয়েন্ট নয়)। তবে আমি মনে করি না যে এই অ্যাপ্লিকেশনগুলিতে পরামিতি বা পর্যবেক্ষণগুলির সংখ্যা গভীর শিক্ষায় দেখা যায় তার সাথে তুলনামূলক।

পার্শ্ব নোট (স্থানীয় মিনিমা): গভীর শিক্ষার উপর আমি যেটুকু পড়েছি তা থেকে আমি মনে করি যে sensকমত্যটি এটি স্থানীয় মিনিমার পরিবর্তে স্যাডল পয়েন্ট যা উচ্চ মাত্রিক এনএন-প্যারামিটার জায়গাগুলির জন্য সবচেয়ে সমস্যাযুক্ত।

উদাহরণস্বরূপ, প্রকৃতির সাম্প্রতিক পর্যালোচনা বলছে "সাম্প্রতিক তাত্ত্বিক এবং অভিজ্ঞতাবাদী ফলাফলগুলি দৃ strongly়ভাবে সুপারিশ করে যে স্থানীয় মিনিমা সাধারণভাবে কোনও গুরুতর সমস্যা নয় Instead পরিবর্তে, ল্যান্ডস্কেপটি একত্রিতভাবে প্রচুর পরিমাণে জিন পয়েন্টযুক্ত যেখানে গ্রেডিয়েন্টটি শূন্য, এবং পৃষ্ঠের কার্ভগুলি বেশিরভাগ মাত্রায় আপ হয় এবং বাকী অংশগুলিতে বক্ররেখা নীচে যায়। "

সম্পর্কিত উদ্বেগ স্থানীয় বনাম গ্লোবাল অপ্টিমাইজেশন সম্পর্কে (উদাহরণস্বরূপ মন্তব্যে এই প্রশ্নটি দেখানো হয়েছে)। যদিও আমি গভীর শেখা না করি, আমার অভিজ্ঞতার মধ্যে ওভারফিটিং অবশ্যই একটি বৈধ উদ্বেগ। আমার মতে, বৈশ্বিক অপ্টিমাইজেশন পদ্ধতি ইঞ্জিনিয়ারিং ডিজাইন সমস্যার জন্য সবচেয়ে উপযুক্ত যা "প্রাকৃতিক" ডেটার উপর দৃ .়ভাবে নির্ভর করে না। তথ্য আত্তীকরণ সমস্যার, যেকোন বর্তমান বৈশ্বিক মিনিমা সহজে নতুন তথ্য সংযোজন উপর পরিবর্তন হতে পারে (সতর্কীকরণ: আমার অভিজ্ঞতা হয় geoscience সমস্যা, যেখানে তথ্য সাধারণতঃ মডেল ধারণক্ষমতা থেকে "বিক্ষিপ্ত" আপেক্ষিক কেন্দ্রীভূত)।

একটি আকর্ষণীয় দৃষ্টিভঙ্গি সম্ভবত

ও। বাউসকেট এবং এল। বোটোউ (২০০৮) বড় আকারের শিক্ষার ট্রেড অফস Nips।

যা কখন এবং কখন আনুমানিক অপ্টিমাইজেশন অনুশীলনে পছন্দনীয় হতে পারে সে সম্পর্কিত অর্ধ-তাত্ত্বিক যুক্তি সরবরাহ করে।

শেষ দ্রষ্টব্য (মেটা-অপ্টিমাইজেশন): যদিও গ্রেডিয়েন্ট ভিত্তিক কৌশলগুলি প্রশিক্ষণ নেটওয়ার্কগুলির জন্য প্রভাবশালী বলে মনে হয়, তবুও সম্পর্কিত মেটা-অপ্টিমাইজেশন কার্যগুলিতে ডিএফওর জন্য ভূমিকা থাকতে পারে।

একটি উদাহরণ হাইপার-প্যারামিটার টিউনিং হবে। (মজার বিষয় হল, রিওস এবং সহিনিডিসের সফল মডেল-ভিত্তিক ডিএফও অপ্টিমাইজারগুলি অবশ্যই পরীক্ষামূলকভাবে নকশা- প্রতিক্রিয়া / প্রতিক্রিয়া-পৃষ্ঠের সমস্যার সমাধান হিসাবে দেখা যেতে পারে ))

O[N2]notL1 মেটা-অপ্টিমাইজড হতে পারে))


1
আপনি যে পর্যালোচনাটি উদ্ধৃত করেছেন তা হ'ল স্নায়বিক জালের প্রধান সমর্থকগণ; আমি স্থানীয় মিনিমা সম্পর্কে দাবিটি নিয়ে প্রশ্ন করব - এনএনগুলির একটি সুপরিচিত তাত্ত্বিক সমালোচনা অবশ্যই স্পষ্টভাবে যে কোনও জটিল মডেল গ্রেডিয়েন্ট বংশোদ্ভূত দ্বারা অনুকূলিত হতে পারে না কারণ এটি স্থানীয় মিনিমে আটকে যাবে। এটি কেবল এনএনএসের সাফল্য যা ব্যাকড্রপ দিয়ে সমাধান করা যেতে পারে এবং আপনি ব্যর্থতা সম্পর্কে শুনতে পান না তা পরিষ্কার নয়।
seanv507

2
@ জিওম্যাটট২২ কনট্রাস্টিভ ডাইভারজেন্স একটি বিশেষ শ্রেণির মডেলগুলির গ্রেডিয়েন্টের একটি বিশেষ অনুমান যা আরবিএম এর অধীনে আসে। এটি লক্ষ করা উচিত যে আরবিএমগুলি সম্ভাব্য মডেলগুলি যা নির্দিষ্ট ধরণের বিতরণ বোঝায়, যার জন্য সর্বাধিক সম্ভাবনার অনুমানের গ্রেডিয়েন্টটি অচল। নিউরাল নেটওয়ার্কগুলি কম্পিউটেশনাল মডেল, যা কোনও সম্ভাব্য প্রারম্ভিক বিন্দু ছাড়াই ব্যবহার করা যেতে পারে, যেমন দখল ক্ষতির অনুকূলকরণের মাধ্যমে। দীর্ঘ গল্প সংক্ষিপ্ত, সিডি নিউরাল নেটওয়ার্কগুলি অনুকূল করতে সাধারণ অর্থ নয়।
বায়ারজ

2
@ সানভ 7০ While যদিও দাবিটি প্রধান সমর্থকদের দ্বারা করা হয়েছে, সেখানে মেশিন লার্নিংয়ের শীর্ষ সম্মেলনগুলির সমকক্ষ পর্যালোচনা নিবন্ধ রয়েছে যা দাবিগুলি কঠোরভাবে মূল্যায়ন করে, যেমন- arxiv.org/abs/1406.2572 । এতক্ষণে, এই দাবিটি বিস্তৃত এমএল সম্প্রদায়টিতে ব্যাপকভাবে গৃহীত হয়েছে, বেশিরভাগ ক্ষেত্রে এটির উচ্চতর তাত্ত্বিক তাত্ত্বিক যুক্তি এবং অভিজ্ঞতামূলক প্রমাণের কারণে। আমি মনে করি না যে এখানে কোনও বিজ্ঞাপন হোমিনেম যুক্তি যথেষ্ট is
বায়ারজ

1
আমি সম্মত হই যে ডিএল তত্ত্বের অভাব রয়েছে। তবুও আপনাকে স্বীকার করতে হবে যে এর মতো নিবন্ধগুলি এটি এগিয়ে চলেছে। আপনি যদি মনে করেন যে নিবন্ধটি ভুল ফলাফলের কথা বলেছে এবং সিদ্ধান্তগুলি (যেমন "স্থানীয় মিনিমা একটি স্যাডল পয়েন্টের তুলনায় কম সমস্যা") অবৈধ হয়, তবে আপনাকে আরও একটি বিজ্ঞাপন হোমনিম আক্রমণ উল্লেখ করার চেয়ে ভাল করতে হবে, এবার লক্ষ্য সামগ্রিকভাবে এমএল সম্প্রদায়।
বায়ারজ

1
সাম্প্রতিক কাজ দেখায় যে এলোমেলো সূচনা সহ গ্রেডিয়েন্ট বংশোদ্ভূত স্থানীয় সর্বনিম্নে পরিবর্তিত হয় (একটি স্যাডল পয়েন্টের পরিবর্তে)। কাগজটি এখানে: arxiv.org/abs/1602.04915 এবং ব্লগ পোস্ট এখানে: অফকনভেক্স.আর.সি. / 06 / 03 / 24 / saddles-again অন্যদিকে, সাম্প্রতিক একটি হাইপোটিসিস রয়েছে যে বৃহত নিউরাল নেটওয়ার্কগুলিতে স্থানীয় মিনিমা হচ্ছে বিশ্বব্যাপী যতটা ভাল, এখানে আলোচিত তা: stats.stackexchange.com/questions/203288/…
ডেভিডআর

12

আপনি যে জাতীয় সন্ধানের বিভিন্ন ধরণের অ্যালগরিদম ব্যবহার করতে পারেন সেখানে ব্যাকপ্রোপেজেশন সাধারণভাবে আরও জটিল কাজের জন্য সর্বাধিক দক্ষ হিসাবে প্রমাণিত হয়েছে ; এমন পরিস্থিতি রয়েছে যেখানে অন্যান্য স্থানীয় অনুসন্ধানগুলি আরও ভাল।

দ্রুত কোনও সমাধান সমাধান পেতে আপনি নিউরাল নেটওয়ার্কে এলোমেলো-শুরু পাহাড়ী আরোহণ ব্যবহার করতে পারেন তবে কাছের অনুকূল সমাধানটি পাওয়া সম্ভব হবে না।

উইকিপিডিয়া (আমি জানি, সবচেয়ে বড় উত্স নয়, তবে এখনও) বলে

নির্দিষ্ট সময়ের মধ্যে গ্রহণযোগ্য স্থানীয় সর্বোত্তম খুঁজে পাওয়ার চেয়ে সুনির্দিষ্ট বিশ্বব্যাপী সর্বোত্তম সন্ধান করা সমস্যাগুলির ক্ষেত্রে সিমুলেটেড অ্যানেলিং যেমন গ্রেডিয়েন্ট বংশোদ্ভূত বিকল্পগুলির চেয়ে পছন্দসই হতে পারে।

উৎস

জেনেটিক অ্যালগরিদম হিসাবে, আমি নিউরাল নেটওয়ার্ক প্রশিক্ষণের জন্য জিনেটিক অ্যালগরিদম বনাম ব্যাকপ্রোপেশন দেখতে পাব

আমি ব্যাকপ্রপের জন্য যে প্রধান বিষয়টি করব তা হ'ল এটি খুব ব্যাপকভাবে ব্যবহৃত হয় এবং এতে প্রচুর উন্নতি হয়েছিলএই চিত্রগুলি সত্যিই ভ্যানিলা ব্যাকপ্রকাশে অবিশ্বাস্য কিছু অগ্রগতি দেখায়।

আমি ব্যাকপ্রপটিকে একটি অ্যালগোরিদম হিসাবে ভাবব না, তবে এক শ্রেণীর অ্যালগরিদম হিসাবে।

আমি এটি যোগ করতে চাই নিউরাল নেটওয়ার্কগুলির জন্য, 10 কে প্যারামিটারগুলি ছোট মটরশুটি। আর একটি অনুসন্ধান দুর্দান্ত কাজ করবে, তবে কয়েক মিলিয়ন প্যারামিটার সহ একটি গভীর নেটওয়ার্কে এটি কার্যকরভাবে ব্যবহারিক।


12

ঠিক আছে, 70 এর দশকে ব্যাকপ্রসারণ বিপ্লবের আগে আসল স্নায়বিক নেটওয়ার্কগুলি হাতে "প্রশিক্ষিত" ছিল। :)

বলা হচ্ছে যে:

চরম শেখার মেশিন নামে একটি মেশিন লার্নিংয়ের একটি "স্কুল" রয়েছে যা ব্যাকপ্রসারণ ব্যবহার করে না।

তারা যা করে তা হ'ল অনেকগুলি, অনেকগুলি, অনেক নোডের সাথে একটি নিউরাল নেটওয়ার্ক তৈরি করা - এলোমেলো ওজন সহ - এবং তারপরে সর্বনিম্ন স্কোয়ার (লিনিয়ার রিগ্রেশনের মতো) ব্যবহার করে শেষ স্তরটি প্রশিক্ষণ দিন। এরপরে তারা হয় পরে নিউরাল নেটওয়ার্কের ছাঁটাই করে দেয় বা অতিরিক্ত চাপ এড়াতে তারা শেষ ধাপে (লাসোর মতো) নিয়মিতকরণ প্রয়োগ করে। আমি এটি কেবলমাত্র একটি গোপন স্তর সহ নিউরাল নেটওয়ার্কগুলিতে প্রয়োগ করতে দেখেছি। কোনও প্রশিক্ষণ নেই, তাই এটি সুপার দ্রুত। আমি কিছু পরীক্ষা করেছিলাম এবং আশ্চর্যরূপে, এই নিউরাল নেটওয়ার্কগুলি এইভাবে "প্রশিক্ষিত" বেশ নির্ভুল।

বেশিরভাগ লোক, কমপক্ষে আমি যাদের সাথে কাজ করি তারা এই বিদ্যালয়টি "স্কুল" শেখার সাথে উপহাসের সাথে আচরণ করে এবং তারা তাদের নিজস্ব সম্মেলন ইত্যাদির সাথে একটি বহির্মুখী গোষ্ঠী, তবে আমি প্রকৃতপক্ষে মনে করি এটি এক ধরণের জ্ঞানযুক্ত।


অন্য একটি বিষয়: ব্যাকপ্রোপেশনের মধ্যে, এমন বিকল্প রয়েছে যা খুব কমই উল্লেখযোগ্য যেমন রেসিলেন্ট ব্যাকপ্রোগেশন , যা neuralnetপ্যাকেজে আর প্রয়োগ করা হয় , যা কেবলমাত্র ডেরাইভেটিভের মাত্রা ব্যবহার করে। অ্যালগোরিদম লিনিয়ার বীজগণিতের পরিবর্তে যদি-অন্য অবস্থার দ্বারা তৈরি হয়। Traditionalতিহ্যবাহী ব্যাকপ্রকাশের তুলনায় এগুলির কিছু সুবিধা রয়েছে, যথা আপনার নিজের ডেটা স্বাভাবিক করার দরকার নেই কারণ তারা বিলুপ্ত গ্রেডিয়েন্ট সমস্যায় ভুগছেন না ।


আপনার চতুর্থ অনুচ্ছেদে আপনি যে ক্যাবটি করেন (সর্বাধিক বা সমস্তই) তা স্পিল করে এবং তারপরে ফলাফলটিকে "সূক্ষ্ম সুর" করার জন্য ডেরাইভেটিভ ভিত্তিক অপ্টিমাইজেশনের সূচনা পয়েন্ট হিসাবে ব্যবহার করুন।
মার্ক এল। স্টোন

1
@ মার্কএল.স্টোন আমি প্রথমে উত্তরোত্তর স্তরে লিনিয়ার রিগ্রেশন প্রয়োগ করে ব্যাকপ্রোপেশন করেছেন এমন কাউকে আমি চিনি না। এটি আকর্ষণীয় যদিও মনে হচ্ছে।
রিকার্ডো ক্রুজ

1
যতদূর আমি জানি, ইএলএমকে ঘিরে বিতর্ক বেশিরভাগ নৈতিক দিকগুলির কারণে, বাস্তবায়নের কারণে নয়। শ্মিড এট আল ইতিমধ্যে 1992 সালে এ বিষয়ে স্পর্শ করেছিলেন, তাদের ফিডফর্ড নেটওয়ার্কটি এলোমেলো ওজনের সাথে।
ফায়ারব্যাগ

3

নিউরাল নেটওয়ার্কের ওজনকে অনুকূলিত করতে আপনি কোনও সংখ্যাগত অপ্টিমাইজেশন অ্যালগরিদম ব্যবহার করতে পারেন। আপনি কেবলমাত্র ওজনই নয়, লেআউট নিজেই (লেয়ারের সংখ্যা, প্রতিটি স্তরের নিউরনের সংখ্যক এমনকি নিউরনের ধরণের) অনুকূলকরণের জন্য মিশ্র ক্রমাগত-বিযুক্ত অপ্টিমাইজেশন অ্যালগরিদমও ব্যবহার করতে পারেন। তবে এমন কোনও অপ্টিমাইজেশন অ্যালগরিদম নেই যা "মাত্রিকতার অভিশাপ" এবং কোনওভাবে স্থানীয় অপটিমায় ভোগেনা


3

প্যারামিটারগুলি কীভাবে আপডেট করা উচিত তা পরামর্শ দেওয়ার জন্য আপনি অন্য একটি নেটওয়ার্কও ব্যবহার করতে পারেন।

নেই পৃথক নিউরাল ইন্টারফেস (DNI) গুগল Deepmind থেকে। ব্যাকপ্রোপেজেশন ব্যবহার না করে প্যারামিটারগুলি কীভাবে আপডেট করা যায় তা পূর্বাভাস দিতে এটি স্নায়বিক নেটওয়ার্কগুলির আরও একটি সেট ব্যবহার করে যা সমান্তরাল এবং অ্যাসিনক্রোনাস প্যারামিটার আপডেটের অনুমতি দেয়।

কাগজটি দেখায় যে ডিএনআই প্রশিক্ষণের গতি এবং আরএনএনগুলির মডেল ক্ষমতা বাড়িয়ে তোলে এবং বিভিন্ন কাজে আরএনএন এবং এফএফএনএন উভয়ের জন্য তুলনামূলক ফলাফল দেয়।


কাগজটি তালিকাভুক্ত ও অন্যান্য অনেকগুলি নন-ব্যাকপ্রোপ্যাগেইজেশন পদ্ধতির তুলনা করেছে

আমাদের সিন্থেটিক গ্রেডিয়েন্ট মডেলটি একটি মান ফাংশনের সাথে সাদৃশ্যপূর্ণ যা গ্রেডিয়েন্ট অ্যাসেন্ট [2] বা বুটস্ট্র্যাপিংয়ের জন্য ব্যবহৃত একটি মান ফাংশনের জন্য ব্যবহৃত হয়। ব্যাকপ্রপ্যাজেশন অপসারণের লক্ষ্যে কাজ করা বেশিরভাগ অন্যান্য কাজগুলি জৈবিকভাবে প্রশংসনীয় creditণ কার্য সম্পাদনের লক্ষ্যে করে তবে এটি স্তরগুলির মধ্যে আপডেট লকিংকে সরিয়ে দেয় না। উদাহরণস্বরূপ লক্ষ্য প্রসারণ [3, 15] স্তরগুলির মধ্যে গ্রেডিয়েন্টগুলি পাস করার উপর নির্ভরতা সরিয়ে দেয়, পরিবর্তে লক্ষ্য সক্রিয়করণ তৈরি করে যা ফিট করা উচিত। তবে এই লক্ষ্যগুলি এখনও ক্রমানুসারে উত্পন্ন করতে হবে, নেটওয়ার্কের মাধ্যমে পিছনের দিকে প্রচার করা এবং স্তরগুলি তাই এখনও আপডেট- এবং পিছনের দিকে লক করা আছে। অন্যান্য অ্যালগরিদমগুলি প্রতিটি স্তরটিতে সরাসরি ক্ষতি বা পুরষ্কারের সম্প্রচারের অনুমতি দিয়ে পিছনের দিকের লকটি সরিয়ে দেয় - যেমন পুনঃস্থাপনা [২১] (সমস্ত ক্রিয়াকলাপ ক্রিয়াকলাপ বিবেচনা করে),1, এবং নীতি গ্রেডিয়েন্ট কোঅজেন্ট নেটওয়ার্কস [২০] - তবে এখনও আপডেট লক থাকে কারণ তাদের আউটপুট (বা বিশ্বব্যাপী সমালোচক) দ্বারা উত্পন্ন করার জন্য পুরষ্কার প্রয়োজন require যদিও রিয়েল-টাইম পুনরাবৃত্তি শেখা [২২] বা [17] এর মতো অনুমানগুলি আপডেট লকিং অপসারণের একটি প্রতিশ্রুতিবদ্ধ উপায় বলে মনে হতে পারে, এই পদ্ধতিগুলির সাথে পরামিতিগুলির সাথে সম্মতি রেখে বর্তমান রাষ্ট্রের পূর্ণ (বা আনুমানিক) গ্রেডিয়েন্ট বজায় রাখা দরকার। এটি সহজাতভাবে স্কেলযোগ্য নয় এবং নেটওয়ার্ক অবস্থার বিশ্বব্যাপী জ্ঞান অর্জনের জন্য অপটিমাইজারেরও প্রয়োজন। বিপরীতে, ডিএনআইয়ের সাথে স্থানীয় যোগাযোগের সমস্যা হিসাবে স্তরগুলির মধ্যে মিথস্ক্রিয়া তৈরি করে আমরা শিখন পদ্ধতির বিশ্বব্যাপী জ্ঞানের প্রয়োজনীয়তা অপসারণ করি। অন্যান্য কাজ যেমন [৪, ১৯] ব্যাকপ্রোপেশন ছাড়াই সমান্তরালে স্তর প্রশিক্ষণের অনুমতি দেয়,


2

যতক্ষণ না এটি একটি সম্প্রদায়ের প্রশ্ন, আমি ভেবেছিলাম আমি আরও একটি প্রতিক্রিয়া যুক্ত করব। "ব্যাক প্রচার" কেবল গ্রেডিয়েন্ট বংশদ্ভুত অ্যালগরিদম। এটিতে ফাংশনটির কেবল প্রথম ডেরাইভেটিভ ব্যবহার করা জড়িত যার জন্য কেউ স্থানীয় মিনিমা বা ম্যাক্সিমা সন্ধান করার চেষ্টা করছে। নিউটনের পদ্ধতি বা নিউটন-রাফসন নামে আরও একটি পদ্ধতি রয়েছে যার মধ্যে হেসিয়ান গণনা জড়িত এবং তাই দ্বিতীয় ডেরিভেটিভস ব্যবহার করে। এটি এমন পরিস্থিতিতে সফল হতে পারে যেখানে গ্রেডিয়েন্ট বংশোদ্ভূত ব্যর্থ হয়। আমি আমার চেয়ে আরও জ্ঞানী অন্যকে বলেছি, এবং হ্যাঁ এটি কর্তৃত্বের কাছে দ্বিতীয় হাতের আবেদন, এটি নিউরাল জাল ব্যবহার করা হয় না কারণ গণনার ক্ষেত্রে সমস্ত দ্বিতীয় ডেরিভেটিভ গণনা খুব ব্যয়বহুল।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.