গ্রেডিয়েন্ট বংশোদ্ভূত বিকল্প কি কি?


46

গ্রেডিয়েন্ট বংশোদ্ভূত লোকাল মিনিমা আটকে যাওয়ার সমস্যা আছে। গ্লোবাল মিনিমা খুঁজে পেতে আমাদের গ্রেডিয়েন্ট বংশোদ্ভূত ঘন ঘন চালানো দরকার।

নিউরাল নেটওয়ার্ক লার্নিংয়ে প্রয়োগকৃত গ্রেডিয়েন্ট বংশোদ্ভূত বিকল্পগুলির সাথে তাদের পক্ষে মতামত ও বারণ সহ কেউ কি আমাকে বলতে পারবেন?

উত্তর:


38

ব্যবহৃত পদ্ধতিটির তুলনায় ফাংশনটি হ্রাস করা আরও বেশি সমস্যা, যদি সত্যিকারের সর্বনিম্ন ন্যূনতম সন্ধান করা গুরুত্বপূর্ণ হয়, তবে এই জাতীয় সিমুলেটেড অ্যানিলিং পদ্ধতি ব্যবহার করুন । এটি বৈশ্বিক সর্বনিম্ন সন্ধান করতে সক্ষম হবে, তবে এটি করতে খুব বেশি সময় নিতে পারে।

নিউরাল নেটগুলির ক্ষেত্রে, স্থানীয় মিনিমা অগত্যা খুব বেশি সমস্যা হয় না। স্থানীয় কিছু মিনিমা এই কারণে রয়েছে যে আপনি লুকানো স্তর ইউনিটগুলিকে অনুমতি দিয়ে, বা নেটওয়ার্কের ইনপুট এবং আউটপুট ওজন ইত্যাদিকে উপেক্ষা করে একটি কার্যত অভিন্ন মডেল পেতে পারেন এছাড়াও যদি স্থানীয় মিনিমাটি কেবল সামান্য অপ-অনুকূল হয় তবে পারফরম্যান্সের পার্থক্যটি ন্যূনতম হবে এবং তাই এটি সত্যিকার অর্থে গুরুত্বপূর্ণ নয়। শেষ অবধি, এবং এটি একটি গুরুত্বপূর্ণ বিষয়, একটি নিউরাল নেটওয়ার্ক ফিটিংয়ের মূল সমস্যাটি হ'ল অতিরিক্ত মানানসই, সুতরাং আগ্রাসীভাবে ব্যয়টির বিশ্বব্যাপী মিনিমা অনুসন্ধান করার ফলে ওভারফিটিং এবং খারাপ মডেল তৈরির মডেল তৈরি হতে পারে।

নিয়মিতকরণের পদ যুক্ত করা, যেমন ওজন ক্ষয়, ব্যয় কার্যকারিতাটি মসৃণ করতে সহায়তা করতে পারে যা স্থানীয় মিনিমার সমস্যাটি কিছুটা কমিয়ে আনতে পারে এবং অতিরিক্ত কিছু এড়াতে যাওয়ার উপায় হিসাবে আমি যেভাবেই সুপারিশ করব।

স্নায়ুবহুল নেটওয়ার্কগুলিতে স্থানীয় মিনিমা এড়ানোর সর্বোত্তম পদ্ধতি হ'ল গাউসীয় প্রক্রিয়া মডেল (বা একটি রেডিয়াল বেসিস ফাংশন নিউরাল নেটওয়ার্ক) ব্যবহার করা, যার স্থানীয় মিনিমাতে কম সমস্যা রয়েছে।


9
খুবই সত্য. বৈশ্বিক সর্বনিম্ন সন্ধান না করার সমস্যাটি ওভাররেটেড is
বৈয়ারজ

2
যখন আপনি কোনও মডেল (টিপিকাল এনএন ব্যবহারের ক্ষেত্রে) অনেকগুলি পরামিতি ব্যবহার করেন তখন ওভারফিটিং হয় happens এটি স্থানীয় মিনিমার সাথে সম্পর্কিত নয় - কমপক্ষে সুস্পষ্ট উপায়ে নয়। আপনি একটি ছোট স্থানীয় এনএন দিয়ে, এমনকি খুব কম ফ্রি প্যারামিটার সহ, খারাপ স্থানীয় সর্বনিম্নে আটকে যেতে পারেন।
কার্লোসায়াম

1
@ ডিক্রানমারসুপিয়াল, আপনার একক মডেল প্যারামিটার সহ অনেকগুলি স্থানীয় মিনিমা থাকতে পারে। এটি ক্ষতি ফাংশনের আকারের উপর নির্ভর করে। অবদানযুক্ত তবে সাধারণ উদাহরণ: , যেখানে নিকটতম এবং 2-এনডি নিকটতম প্রতিবেশী । টানা দুই পয়েন্টের মধ্যে স্থানীয় ন্যূনতম উপস্থিতি দেখা যায়, অর্থাত্ স্থানীয় মিনিমার পরিমাণ যত বেশি হয়! বিশ্বব্যাপী ডেটাসেটের নিকটতম পয়েন্টগুলির মধ্যে অর্জিত হয়। এটি চরম, আমি জানি, কিন্তু আমি একই রকম আচরণটি পরিবর্তন-পয়েন্ট সমস্যার সমাধান করতে দেখেছি। x এর ( 1 ) , এক্স ( 2 ) ωL(ω)=(x(1)ω)2+(x(2)ω)2x(1),x(2)ω
কার্লোসায়াম

1
@ ডিক্রানমারসুপিয়াল - আমার বাক্য শেষ করার মতো পর্যাপ্ত অক্ষর আমার নেই: :) আমি একইরকম আচরণটি পরিবর্তন-পয়েন্ট সমস্যা সমাধানের জন্য দেখেছি ... নিউরাল নেটওয়ার্ক ব্যবহার করে। এই ধরণের সমস্যায় একটি স্থানীয় সর্বনিম্ন সাধারণত খারাপ থাকে; সুতরাং আমি একমত নই যে এই সমস্যাটি ওভাররেটেড।
কার্লোসয়াম

1
@ কার্লোসায়াম "ওভাররেটেড" এর অর্থ "গুরুত্বহীন" নয়, কেবলমাত্র এটি স্নায়বিক নেটওয়ার্কগুলির একটি সমস্যা যা সাধারণত উত্সাহিত হয়। সমস্ত শিক্ষার পদ্ধতিতে সর্বদা সমস্যা থাকবে, প্রতিটি কিছুর জন্য কোনও নিরাময়ের উপায় নেই এবং আপনার সর্বদা কোনও মডেল দিয়ে সমস্যাগুলি নির্ণয় করতে হবে।
ডিকরান মার্শুপিয়াল

24

গ্রেডিয়েন্ট বংশদ্ভুত একটি অপ্টিমাইজেশন অ্যালগরিদম

অনেক অপ্টিমাইজেশান আলগোরিদিম যে একটি কাজ হয় নির্দিষ্ট সংখ্যক এর বাস্তব মান যে সম্পর্ক হয় ( অ খণ্ডনীয় )। আমরা এগুলিকে মোটামুটি ২ টি বিভাগে ভাগ করতে পারি: গ্রেডিয়েন্ট-ভিত্তিক অপটিমাইজার এবং ডেরাইভেটিভ-মুক্ত অপ্টিমাইজার। সাধারণত আপনি তত্ত্বাবধানে থাকা সেটিংয়ে নিউরাল নেটওয়ার্কগুলি অনুকূল করতে গ্রেডিয়েন্টটি ব্যবহার করতে চান কারণ এটি ডেরাইভেটিভ-মুক্ত অপ্টিমাইজেশনের চেয়ে উল্লেখযোগ্যভাবে দ্রুত। নিউরাল নেটওয়ার্কগুলি অনুকূল করতে ব্যবহৃত হয়েছে বহু গ্রেডিয়েন্ট-ভিত্তিক অপ্টিমাইজেশন অ্যালগরিদম:

  • স্টোকাস্টিক গ্রেডিয়েন্ট ডেসেন্ট (এসজিডি) , মিনিব্যাচ এসজিডি, ...: আপনাকে পুরো প্রশিক্ষণের জন্য গ্রেডিয়েন্টটি মূল্যায়ন করতে হবে না কেবলমাত্র একটি নমুনা বা একটি মিনিবেচের জন্য, এটি সাধারণত ব্যাচের গ্রেডিয়েন্ট বংশোদ্ভূত থেকে অনেক দ্রুত হয়। মিনিবিচগুলি গ্রেডিয়েন্টটি মসৃণ করতে এবং সামনের দিকে এবং পিছনের সমান্তরালে ব্যবহার করতে ব্যবহৃত হয়েছে। অন্যান্য অনেক অ্যালগরিদমের চেয়ে সুবিধাটি হ'ল প্রতিটি পুনরাবৃত্তি ও (এন) এ থাকে (এনটি আপনার এনএন-এর ওজনের সংখ্যা)। এসজিডি সাধারণত স্থানীয় মিনিমা (!) এ আটকে না কারণ এটি স্টোকাস্টিক।
  • ননলাইনার কনজুগেট গ্রেডিয়েন্ট : রিগ্রেশনে খুব সফল বলে মনে হচ্ছে, হে (এন), ব্যাচের গ্রেডিয়েন্টের প্রয়োজন (অতএব, বিশাল ডেটাসেটের জন্য সেরা পছন্দ নাও হতে পারে)
  • এল-বিএফজিএস : শ্রেণিবিন্যাসে খুব সফল বলে মনে হচ্ছে, হেসিয়ান আনুমানিক ব্যবহার করে, ব্যাচের গ্রেডিয়েন্টের প্রয়োজন
  • লেভেনবার্গ-মার্কোয়ার্ড অ্যালগোরিদম (এলএমএ) : এটি আমি জানি সবচেয়ে ভাল অপ্টিমাইজেশন অ্যালগরিদম। এর অসুবিধে রয়েছে যে এর জটিলতা মোটামুটি O (n ^ 3)। এটি বড় নেটওয়ার্কগুলির জন্য ব্যবহার করবেন না!

এবং নিউরাল নেটওয়ার্কগুলির অপ্টিমাইজেশনের জন্য প্রস্তাবিত আরও অনেক অ্যালগরিদম রয়েছে, আপনি হেসিয়ান-মুক্ত অপ্টিমাইজেশন বা ভি-এসজিডি (গুগল করতে পারেন অ্যাডাপটিভ শিখার হার সহ অনেক ধরণের এসজিডি, যেমন এখানে দেখুন ) g

এনএনএসের জন্য অনুকূলিতকরণ কোনও সমস্যার সমাধান নয়! আমার অভিজ্ঞতাগুলিতে সবচেয়ে বড় চ্যালেঞ্জ হল কোনও ভাল স্থানীয় সর্বনিম্ন সন্ধান করা নয়। তবে, চ্যালেঞ্জগুলি হ'ল চ্যাপ্টা অঞ্চলগুলি থেকে বেরিয়ে আসা, অসুস্থ শর্তযুক্ত ত্রুটিযুক্ত ফাংশন ইত্যাদির সাথে ডিল করা That এ কারণেই এলএমএ এবং অন্যান্য অ্যালগরিদমগুলি যেগুলি হেসিয়ানের অনুমান ব্যবহার করে সাধারণত অনুশীলনে খুব ভালভাবে কাজ করে এবং লোকেরা স্টোকাস্টিক সংস্করণগুলি বিকাশের চেষ্টা করে যা কম জটিলতার সাথে দ্বিতীয় ক্রমের তথ্য ব্যবহার করে। যাইহোক, প্রায়শই মিনিব্যাচ এসজিডির জন্য খুব সুসংগত প্যারামিটার সেট যে কোনও জটিল অপটিমাইজেশন অ্যালগরিদমের চেয়ে ভাল।

সাধারণত আপনি একটি বৈশ্বিক সর্বোত্তম খুঁজে পেতে চান না। কারণ এটির জন্য সাধারণত প্রশিক্ষণের ডেটা অতিরিক্ত মানিয়ে নেওয়া প্রয়োজন।


16

গ্রেডিয়েন্ট বংশোদ্ভূত হওয়ার একটি আকর্ষণীয় বিকল্প হ'ল জনসংখ্যা-ভিত্তিক প্রশিক্ষণ অ্যালগরিদম যেমন বিবর্তনীয় অ্যালগরিদম (ইএ) এবং কণা ঝাঁক অপটিমাইজেশন (পিএসও)। জনসংখ্যা-ভিত্তিক পদ্ধতির পিছনে মূল ধারণাটি হ'ল প্রার্থী সমাধানগুলির একটি জনসংখ্যা (এনএন ওয়েট ভেক্টর) তৈরি করা হয়, এবং প্রার্থী সমাধানগুলি পুনরাবৃত্তভাবে অনুসন্ধানের স্থানটি অনুসন্ধান করে, তথ্য বিনিময় করে এবং শেষ পর্যন্ত একটি মিনিমাতে রূপান্তর করে। যেহেতু অনেক শুরুর পয়েন্ট (প্রার্থী সমাধান) ব্যবহৃত হয়, তাই বিশ্ব মিনিমায় রূপান্তরিত হওয়ার সম্ভাবনা উল্লেখযোগ্যভাবে বৃদ্ধি পেয়েছে। পিএসও এবং ইএকে অত্যন্ত প্রতিযোগিতামূলকভাবে সম্পাদন করতে দেখা গেছে, প্রায়শই (সর্বদা নয় তবে) জটিল এনএন প্রশিক্ষণের সমস্যাগুলিতে গ্রেডিয়েন্ট বংশোদ্ভূতিকে ছাড়িয়ে যায়।


+1 মনে রাখবেন যে প্রশিক্ষণের মানদণ্ডটি আগ্রাসীভাবে অনুকূলকরণের ফলে অতিরিক্ত চাপের দিকে নিয়ে যাওয়ার সম্ভাবনা রয়েছে, যদি না এটি প্রতিরোধের পদক্ষেপ নেওয়া হয়, তবে প্রশিক্ষণের মানদণ্ডে নিয়মিতকরণ বা অন্যান্য জটিলতার ভিত্তিতে কিছু না নিলে আমি পিএসও এবং ইএ এড়াতে পারব unless শাস্তি।
ডিকরান মার্সুপিয়াল

5
@ আন্না-এয়ারওয়েন, আপনি কি দয়া করে এমন কিছু উল্লেখ সরবরাহ করতে পারেন যেখানে এসজিডির তুলনায় পিএসও প্রতিযোগিতামূলক পারফর্ম করে?
এমেরিয়া

8

আমি জানি যে এই থ্রেডটি বেশ পুরানো এবং অন্যরা স্থানীয় মিনিমা, ওভারফিটিং ইত্যাদির মত ধারণাগুলি ব্যাখ্যা করার জন্য দুর্দান্ত কাজ করেছে তবে ওপি যেমন বিকল্প সমাধানের সন্ধান করছিল, আমি একটিটিকে অবদান রাখার চেষ্টা করব এবং আশা করি এটি আরও আকর্ষণীয় ধারণাগুলি অনুপ্রাণিত করবে।

ধারণাটি হ'ল প্রতি ওজন ডাব্লু + টি-তে প্রতিস্থাপন করা হবে, যেখানে টি গাউসীয় বিতরণের পরে একটি এলোমেলো সংখ্যা। নেটওয়ার্কের চূড়ান্ত আউটপুট হ'ল টি এর সমস্ত সম্ভাব্য মানের চেয়ে গড় আউটপুট। এটি বিশ্লেষণাত্মকভাবে করা যেতে পারে। তারপরে আপনি গ্রেডিয়েন্ট বংশোদ্ভূত বা এলএমএ বা অন্যান্য অপ্টিমাইজেশন পদ্ধতিতে সমস্যাটি অনুকূল করতে পারেন। অপ্টিমাইজেশানটি শেষ হয়ে গেলে, আপনার কাছে দুটি বিকল্প রয়েছে। একটি বিকল্প হ'ল গাউসীয় বিতরণে সিগমা হ্রাস করা এবং সিগমা 0 পর্যন্ত পৌঁছানো অবধি পুনরায় অপটিমাইজেশন করা, আপনার কাছে আরও ভাল স্থানীয় ন্যূনতম থাকতে হবে (তবে সম্ভবত এটি অত্যধিক উপকারের কারণ হতে পারে)। অন্য বিকল্পটি হ'ল এটিকে তার ওজনে এলোমেলো সংখ্যা সহ ব্যবহার করা অবধি, এটিতে সাধারণত আরও সাধারণীকরণের সম্পত্তি থাকে।

প্রথম পদ্ধতিরটি একটি অপ্টিমাইজেশন ট্রিক (এটি আমি কনভোলিউশনাল টানেলিং হিসাবে ডাকি কারণ এটি লক্ষ্য ফাংশনটি পরিবর্তন করার জন্য প্যারামিটারগুলিতে কনভলিউশন ব্যবহার করে), এটি ব্যয় ফাংশনের আড়াআড়ি পৃষ্ঠকে মসৃণ করে এবং স্থানীয় মিনিমা থেকে কিছুটা মুক্তি দেয়, এইভাবে বিশ্বব্যাপী সর্বনিম্ন (বা আরও ভাল স্থানীয় সর্বনিম্ন) সন্ধান করা সহজ করুন।

দ্বিতীয় পদ্ধতির শব্দ ইঞ্জেকশন সম্পর্কিত (ওজন উপর)। লক্ষ্য করুন যে এটি বিশ্লেষণাত্মকভাবে সম্পন্ন হয়েছে, যার অর্থ চূড়ান্ত ফলাফলটি একাধিক নেটওয়ার্কের পরিবর্তে একটি একক নেটওয়ার্ক।

নিম্নলিখিতগুলি দুটি-সর্পিল সমস্যার জন্য আউটপুটগুলির উদাহরণ। নেটওয়ার্ক আর্কিটেকচার এগুলির তিনটির জন্যই সমান: 30 টি নোডের কেবল একটি লুকানো স্তর রয়েছে এবং আউটপুট স্তরটি রৈখিক। ব্যবহৃত অপটিমাইজেশন অ্যালগরিদম হল এলএমএ। বাম চিত্রটি ভ্যানিলা সেটিংয়ের জন্য; মাঝেরটি প্রথম পন্থাটি ব্যবহার করছে (যা বারবার সিগমা 0 এর দিকে হ্রাস করে); তৃতীয়টি সিগমা = 2 ব্যবহার করছে।

তিনটি পদ্ধতির দ্বারাই স্পাইরাল সমস্যার ফল

আপনি দেখতে পাচ্ছেন যে ভ্যানিলা সলিউশনটি সবচেয়ে খারাপ, কনভোলশনাল টানেলিং আরও ভাল কাজ করে এবং শব্দটি ইঞ্জেকশন (কনভ্যুশনাল টানেলিং সহ) সেরা (সাধারণীকরণের সম্পত্তি হিসাবে)।

উভয় কনভ্যুশনাল টানেলিং এবং গোলমাল ইনজেকশন বিশ্লেষণাত্মক উপায় আমার আসল ধারণা। হতে পারে তারা বিকল্প কেউ আগ্রহী হতে পারে। বিস্তারিত আমার কাগজ খুঁজে পাওয়া যেতে পারে নিউরাল নেটওয়ার্কে এক মিশ্রন অসীম নম্বর । সতর্কতা: আমি পেশাদার একাডেমিক লেখক নই এবং কাগজটি সমকক্ষ পর্যালোচনা করা হয় না। আমি উল্লেখ করা পদ্ধতির সম্পর্কে আপনার যদি প্রশ্ন থাকে তবে একটি মন্তব্য করুন leave


1

চরম শেখার মেশিনগুলি মূলত এগুলি একটি নিউরাল নেটওয়ার্ক যেখানে লুকানো নোডগুলির সাথে ইনপুটগুলিকে সংযুক্ত করার ওজন এলোমেলোভাবে নির্ধারিত হয় এবং কখনই আপডেট হয় না। লুকানো নোড এবং আউটপুটগুলির মধ্যে ওজনগুলি একক পদক্ষেপে রৈখিক সমীকরণ (ম্যাট্রিক্স বিপরীত) সমাধান করে শিখতে হয়।


0

গ্লোবাল অপ্টিমাইজেশনের কাজগুলি যখন আসে (যেমন কোনও উদ্দেশ্য ফাংশনের একটি সর্বনিম্ন ন্যূনতম সন্ধানের চেষ্টা করা) আপনি একবার নজর দিতে চান:

  1. প্যাটার্ন অনুসন্ধান ( সরাসরি অনুসন্ধান, ডেরাইভেটিভ-মুক্ত অনুসন্ধান বা ব্ল্যাক-বাক্স অনুসন্ধানহিসাবেও পরিচিত), যাপরের পুনরাবৃত্তিতে অনুসন্ধানের জন্য পয়েন্টগুলি নির্ধারণ করতেএকটি প্যাটার্ন (ভেক্টরগুলির সেট) ব্যবহার করে।{vi}
  2. জেনেটিক অ্যালগরিদম যা অপরিবর্তনের, ক্রসওভার এবং নির্বাচনের ধারণাটি ব্যবহার করে পয়েন্টগুলির জনসংখ্যাকে অপ্টিমাইজেশনের পরবর্তী পুনরাবৃত্তিতে মূল্যায়ন করার জন্য সংজ্ঞা দেয়।
  3. কণা জলাভূমি অপ্টিমাইজেশন যা কণাগুলির একটি সেটকে সংজ্ঞায়িত করে যা সর্বনিম্ন অনুসন্ধানের জন্য স্থানটি "হাঁটা" করে।
  4. সারোগেট অপটিমাইজেশন যাউদ্দেশ্য কার্যের আনুমানিক জন্যএকটি সারোগেট মডেলব্যবহারকরে। উদ্দেশ্য পদ্ধতিটি মূল্যায়নের জন্য ব্যয়বহুল হলে এই পদ্ধতিটি ব্যবহার করা যেতে পারে।
  5. বহু-উদ্দেশ্যমূলক অপটিমাইজেশন ( যা পেরেটো অপ্টিমাইজেশন হিসাবে পরিচিত ) যা সমস্যার জন্য ব্যবহার করা যেতে পারে যা এমন একরূপে প্রকাশ করা যায় না যার একক উদ্দেশ্যমূলক কার্য রয়েছে (বরং উদ্দেশ্যগুলির ভেক্টর)।
  6. সিমুলেটেড আনিলিং , যাট্রেড-অফ অনুসন্ধান এবং শোষণেরজন্য অ্যানিলিং (বা তাপমাত্রা)ধারণাটি ব্যবহার করে। এটি প্রতিটি পুনরাবৃত্তিতে মূল্যায়নের জন্য নতুন পয়েন্ট প্রস্তাব করে, তবে পুনরাবৃত্তির সংখ্যা বাড়ার সাথে সাথে "তাপমাত্রা" কমে যায় এবং অ্যালগরিদম স্থানটি অন্বেষণ করার সম্ভাবনা কম এবং কম হয়ে যায় এবং এটি তার বর্তমান সেরা প্রার্থীর দিকে "রূপান্তর" করে "

উপরে উল্লিখিত হিসাবে, সিমুলেটেড অ্যানিলিং, পার্টিকাল সোর্ম অপ্টিমাইজেশন এবং জেনেটিক অ্যালগরিদমগুলি ভাল গ্লোবাল অপ্টিমাইজেশন অ্যালগরিদম যা বিশাল অনুসন্ধানের জায়গাগুলির মধ্য দিয়ে ভালভাবে নেভিগেট করে এবং গ্রেডিয়েন্ট বংশোদ্ভুতের পরিবর্তে গ্রেডিয়েন্ট সম্পর্কে কোনও তথ্যের প্রয়োজন হয় না এবং ব্ল্যাক-বাক্স অবজেক্টিভ ফাংশন এবং সমস্যাগুলির সাথে সফলভাবে ব্যবহার করা যেতে পারে যে চলমান সিমুলেশন প্রয়োজন।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.