কীভাবে এটি একটি স্যাডল পয়েন্টে আটকা যেতে পারে?


14

মিনি ব্যাচের গ্রেডিয়েন্ট বংশোদ্ভূত কীভাবে একটি জিন পয়েন্টে আটকা যেতে পারে তা নিয়ে আমি বর্তমানে কিছুটা বিস্মিত হয়েছি।

সমাধানটি খুব তুচ্ছ হতে পারে যা আমি এটি পাই না।

আপনি একটি নতুন নমুনা প্রত্যেক যুগে পেতে, এবং এটি একটি নতুন একটি নতুন ব্যাচ উপর ভিত্তি করে ত্রুটি নির্ণয়, তাই খরচ ফাংশন প্রতিটি ব্যাচ, কেবল স্ট্যাটিক হয় যার মানে গ্রেডিয়েন্ট প্রতিটি ক্ষুদ্র ব্যাচ জন্য পরিবর্তন করা উচিত .. কিন্তু অনুযায়ী এই উচিত একটি ভ্যানিলা বাস্তবায়নের ক্ষেত্রে স্যাডল পয়েন্ট রয়েছে?

নিউরাল নেটওয়ার্কগুলির জন্য সাধারণভাবে নন-কনভেক্স ত্রুটি ফাংশনগুলি হ্রাস করার আরও একটি মূল চ্যালেঞ্জ তাদের অসংখ্য সাবঅপটিমাল স্থানীয় মিনিমাতে আটকা পড়া এড়ানো। ডাউফিন এট আল। [১৯] যুক্তিযুক্ত যে সমস্যাটি স্থানীয় মিনিমা থেকে নয় তবে স্যাডল পয়েন্টগুলি থেকে উত্থাপিত হয়েছিল, যেমন পয়েন্ট যেখানে একটি মাত্রা opালু এবং অন্যটি opালু। এই স্যাডল পয়েন্টগুলি সাধারণত একই ত্রুটির একটি মালভূমি দ্বারা বেষ্টিত থাকে, যা এসজিডিকে পালাতে অসুবিধাজনক করে তোলে কারণ গ্রেডিয়েন্টটি সমস্ত মাত্রায় শূন্যের কাছাকাছি থাকে।

আমি বোঝাতে চাইছি বিশেষত এসজিডি স্যাডল পয়েন্টগুলির বিপরীতে স্পষ্ট সুবিধা পাবে, কারণ এটি তার সংশ্লেষণের দিকে ওঠানামা করে ... ... প্রতিযোগিতার জন্য ওঠানামা এবং এলোমেলো নমুনা এবং ব্যয় ক্রিয়াকলাপ পৃথক হওয়া কোনও কারণেই আটকে না যাওয়ার যথেষ্ট কারণ হওয়া উচিত।

সম্পূর্ণ ব্যাচের গ্রেডিয়েন্ট শালীনতার জন্য কী ত্রুটি ফাংশনটি ধ্রুবক হওয়ায় এটি স্যাডল পয়েন্টে আটকা পড়তে পারে তা বোঝা যায় না।

আমি অন্য দুটি অংশে কিছুটা বিভ্রান্ত হয়ে পড়েছি।


1
মতি পেয়ে যায়। খুব উঁচু opালু এবং জিরো opeালু দ্বারা বেষ্টিত স্যাডল পয়েন্টটি "ব্যাডল্যান্ডস" -র দিকে বড় ধাপে একটি গ্রেডিয়েন্ট বংশোদ্ভূত করে যেখানে এটি পুনরুদ্ধার করতে পারে না। মূলত সমতল সমতলভূমিতে একটি ভাল খোঁজ করার বিষয়ে চিন্তা করুন। এখন শুকনো পাশাপাশি, এবং মাঝখানে একটি পিঁপড়া-পাহাড় নিয়ে ভাবুন। একটি গ্রেডিয়েন্ট-বংশোদ্ভূত যা পিঁপড়ে পাহাড়ে অবতরণ করে, তবে একেবারে শীর্ষে নয়, অনুসন্ধানটি রেডিয়ালি অঙ্কিত করতে চলেছে। এখন কল্পনা করুন যে অনুসন্ধানের ধাপের আকারটি কুয়ার ব্যাসের চেয়ে হাজার গুণ বড়। যদি অনুসন্ধানটি কখনই ভালভাবে খুঁজে পায়, অ্যান্থিল এটি
মন্টানার

আমি কি জিজ্ঞাসা করছি আপনি বিভ্রান্ত। এসজিডি উত্তরাধিকার সূত্রে যে উত্তরাধিকারের শব্দ রয়েছে তার কারণে আপনি কেন বিভ্রান্ত হয়ে পড়েছেন, তাই আপনার মতে এড়াতে সক্ষম হওয়া উচিত? (যদি এটি পুরো ব্যাচের জিডি হত তবে গ্রেডিয়েন্টটি যদি শূন্য হয় এবং কোন শব্দ না হয় তবে তা পালাতে পারে না, আপনার জিজ্ঞাসা কি তাই?)
পিনোকিও

উত্তর:


16

অফ কনভেক্স থেকে নীচের চিত্রটি দেখুন । উত্তল ক্রিয়ায় (বামতম চিত্র), কেবলমাত্র একটি স্থানীয় ন্যূনতম হয়, যা বিশ্ব সর্বনিম্নও। তবে নন-উত্তল ক্রিয়াকলাপে (ডানদিকের চিত্র) একাধিক স্থানীয় মিনিমা থাকতে পারে এবং প্রায়শই দুটি স্থানীয় মিনিমাতে যোগদান করা একটি স্যাডল পয়েন্ট। আপনি যদি উচ্চতর বিন্দু থেকে পৌঁছাচ্ছেন তবে গ্রেডিয়েন্ট তুলনামূলকভাবে চাটুকার হয় এবং আপনি সেখানে আটকে যাওয়ার ঝুঁকি নিয়ে থাকেন, বিশেষত যদি আপনি কেবল এক দিকেই চলছেন।

একটি স্যাডল পয়েন্টের ডায়াগ্রাম্যাটিক উপস্থাপনা

এখন বিষয়টি হ'ল আপনি মিনি ব্যাচ ব্যবহার করে অনুকূলিত হন কিনাবা স্টোচাস্টিক গ্রেডিয়েন্ট বংশোদ্ভূত, অন্তর্নিহিত অ-উত্তল ফাংশনটি একই এবং গ্রেডিয়েন্টটি এই ফাংশনের একটি সম্পত্তি। মিনি-ব্যাচটি করার সময়, আপনি একবারে অনেকগুলি নমুনা বিবেচনা করেন এবং সেগুলির উপরে গড় গড় গ্রেডিয়েন্ট পদক্ষেপ গ্রহণ করেন। এটি বৈকল্পিকতা হ্রাস করে। তবে যদি গড় গ্রেডিয়েন্ট দিকটি এখনও স্যাডল পয়েন্টের মতো একই দিকে ইশারা করে তবে আপনি এখনও সেখানে আটকে যাওয়ার ঝুঁকি নিতে পারেন। সাদৃশ্যটি হ'ল, যদি আপনি 2 টি ধাপ এগিয়ে এবং 1 টি পদক্ষেপ পিছনে নিয়ে যান, তবে আপনি শেষ পর্যন্ত 1 ধাপ এগিয়ে চলেছেন। আপনি যদি এর পরিবর্তে এসজিডি সম্পাদন করেন তবে আপনি একের পর এক সমস্ত পদক্ষেপ গ্রহণ করেন, তবে আপনি যদি এখনও একক দিকে এগিয়ে চলেছেন তবে আপনি স্যাডল পয়েন্টে পৌঁছতে পারবেন এবং দেখতে পাবেন যে সমস্ত দিকের গ্রেডিয়েন্টটি বেশ সমতল এবং ধাপের আকারটি এই সমতল অংশটি যেতে খুব ছোট। এই না

এখানে ভিজ্যুয়ালাইজেশন একবার দেখুন । এমনকি এসজিডির সাথেও, যদি পদক্ষেপগুলি আরও ছোট এবং ছোট হয়ে যাওয়ার সাথে সাথে কেবলমাত্র একটি মাত্রার সাথে ওঠানামার ঘটনা ঘটে তবে তা স্যাডল পয়েন্টে রূপান্তরিত হয়। এই ক্ষেত্রে, মিনি ব্যাচ পদ্ধতিটি কেবল ওঠানামার পরিমাণ হ্রাস করে তবে গ্রেডিয়েন্টের দিক পরিবর্তন করতে সক্ষম হবে না।

SGD করতে মাঝে মাঝে সহজ জিন পয়েন্ট আউট বিরতি যদি ওঠানামা অন্যান্য দিকনির্দেশ বরাবর হয়, এবং যদি ধাপে আকার বৃহৎ যথেষ্ট এটা একঘেয়েমি উপর যেতে জন্য। তবে কখনও কখনও স্যাডল অঞ্চলগুলি মোটামুটি জটিল হতে পারে যেমন নীচের চিত্রটিতে।

জটিল কাঁচা অঞ্চল

গতিবেগ, অ্যাডগ্র্যাড, অ্যাডাম ইত্যাদি পদ্ধতিগুলি এর মধ্য থেকে বেরিয়ে আসতে সক্ষম হয়, এটি অতীতের গ্রেডিয়েন্টগুলি বিবেচনা করে। গতি বিবেচনা করুন,

vt=γvt1+ηthetaJ(θ)

যা শেষ গ্রেডিয়েন্টের একটি অংশ যোগ করে, । আপনি যদি কেবল এক দিক থেকে পিছনে পিছনে যাচ্ছেন, মূলত লক্ষণগুলি পরিবর্তন করছেন, এটি আপনার অগ্রগতিকে ম্লান করে দেবে। যদিও যদি এক দিক থেকে ধারাবাহিকভাবে ইতিবাচক অগ্রগতি ঘটে থাকে তবে এটি শেষ হয়ে যায় এবং সেই পথে নেমে যায়।vt1


ঠিক আছে, ঠিক না! অনুশীলনে একটি উত্তরের জন্য দেখুন: stats.stackexchange.com/a/284399/117305
আলিফোর্নিয়া

অলিআবাবাসিনাসাব আমার কাছে মনে হয় অ্যান্টিমি ভালোভাবে ব্যাখ্যা করেছে। অবশ্যই, একটি সাধারণ স্যাডল পয়েন্টে আটকে যাওয়া আপনার উত্তরটিতে উল্লেখ করার মতোই নয়, তবে তিনি কেবল এসজিডি ধরা পড়ার সম্ভাবনা দেখিয়েছিলেন। এবং আমার কাছে, তিনি কেবলমাত্র কিছু অস্বাভাবিক কাটল পয়েন্ট দেখিয়েছেন যা এসজিডি পালাতে পারে না।
কাজুয়া টোমিতা

2

এটা করা উচিত নয়।

[ 1 ] দেখিয়েছে যে এলোমেলো সূচনা এবং উপযুক্ত ধ্রুব ধাপের আকার সহ গ্রেডিয়েন্ট বংশোদ্ভূত একটি স্যাডল পয়েন্টে রূপান্তরিত করে না। এটি একটি দীর্ঘ আলোচনা তবে নীচের উদাহরণটি কেন দেখুন তা আপনাকে একটি ধারণা দেওয়ার জন্য:

f(x,y)=12x2+14y412y2

enter image description here

z1=[00],z2=[01],z3=[01]

z2z3z1

z0=[x0]z1z1xR2

2f(x,y)=[1003y21]

2f(z1)xxz1


আপনি খুব সহজেই একটি পাল্টা উদাহরণের ফাংশন বেছে নিতে পারেন যেখানে আপনি প্রতিবার একটি স্যাডল পয়েন্টে আটকে যাবেন ...
জান কুকাক্কা

1
আমি আপনার লিঙ্কে পৌঁছাতে অক্ষম হয়েছি [1] - আপনি কি একটি সম্পূর্ণ উদ্ধৃতি দিতে পারেন? ইতিমধ্যে, আপনার দাবির প্রতি পাল্টা নমুনা তৈরি করা সম্ভব, এটি ইঙ্গিত করে যে এটি অতিরিক্ত অনাস্থিত অনুমানের ভিত্তিতে হওয়া উচিত।
হোবার

@ আপনি সহজেই জবাবদিহি করতে পারেন। উদাহরণস্বরূপ যদি আপনার স্থান হিসাবে কেবল একটি লাইন থাকে। আমি কেবল একটি পয়েন্ট যুক্ত করার চেষ্টা করেছি যা অনেকের কাছেই সুস্পষ্ট নাও হতে পারে (কেন এটি প্রথমে আমার পক্ষে খুব স্পষ্ট ছিল না)। রেফারেন্স সম্পর্কে, আপনি কেন এটি পৌঁছাতে পারবেন না তা আমার কোনও ধারণা নেই। আমি ডাবল চেক করেছি, লিঙ্কটি বৈধ এবং পাশাপাশি আপডেট হবে। আপনি "গ্রেডিয়েন্ট ডিসেন্ট রূপান্তরকে মিনিমাইজার, জেসন ডি লি, ম্যাক্স সিমচোভিটস, মাইকেল আই জর্ডান †, এবং বেনজমিন রেচ্ট Electric Electric বৈদ্যুতিক প্রকৌশল ও কম্পিউটার বিজ্ঞান বিভাগ † ক্যালিফোর্নিয়া বিশ্ববিদ্যালয় স্ট্যাটিস্টিকস বিভাগ, বার্কলে, 19 এপ্রিল, 2019 "
অ্যালিফোর্নিয়া

রেফারেন্সের জন্য আপনাকে ধন্যবাদ। এটির তাত্পর্যপূর্ণ নজরে (লিঙ্কটি এখন কাজ করে) দেখায় যে বিশ্লেষণটি "কঠোর স্যাডলস" (যেখানে হেসিয়ানের ইতিবাচক এবং নেতিবাচক উভয়মূল্য রয়েছে) এর মধ্যে সীমাবদ্ধ রয়েছে, যা অনেকগুলি সম্ভাবনাকে বাদ দেয়। কাগজের চূড়ান্ত বিবৃতিগুলির মধ্যে রয়েছে "আমরা লক্ষ করি যে খুব কঠোর অনিয়ন্ত্রিত অপটিমাইজেশন সমস্যা রয়েছে যেখানে কঠোর জিনের শর্ত ব্যর্থ হয়" এবং তারা উদাহরণ হিসাবে কোয়ার্টিক হ্রাসকরণের প্রস্তাব দেয়।
whuber

0

আপনি যদি রেফারেন্সড পেপারে যান (তারা এও বলিষ্ঠভাবে দেখায় যে কীভাবে তাদের স্যাডল-মুক্ত পদ্ধতির প্রকৃতপক্ষে মিনি-ব্যাচের এসজিডি উন্নতি হয়) তারা লিখেছেন:

গ্রেডিয়েন্ট বংশোদ্ভূত পদ্ধতির একটি পদক্ষেপ সর্বদা একটি স্যাডল পয়েন্টের নিকটে সঠিক দিকের দিকে নির্দেশ করে ... এবং ক্ষুদ্র পরম মানের ইজেনভ্যালুগুলির সাথে সম্পর্কিত দিকগুলিতে এত ছোট পদক্ষেপ নেওয়া হয়।

তারা স্যাডল পয়েন্টগুলির নিকটে "প্লেটাসের" উপস্থিতিও লক্ষ করে (অন্য কথায়, জিন খাড়া নয়) - এই ক্ষেত্রে খুব ছোট পদক্ষেপ নেওয়া স্যাডল অঞ্চল থেকে পালিয়ে যাওয়ার আগে অকাল রূপান্তর ঘটতে পারে। যেহেতু এটি একটি উত্তোলন অপটিমাইজেশন, তাই শিক্ষার হারের একীকরণ এটি আরও খারাপ করে দেবে।

এটি সম্ভবত একটি পুনরাবৃত্ত পদ্ধতির চেষ্টা করতে পারে বলে মনে হচ্ছে, যেখানে কেউ মিনি ব্যাচের এসজিডিটি সম্পূর্ণ করার পরে (অর্থাৎ, শিক্ষার হারটি পুনরায় সেট করা) সমস্যাযুক্ত অঞ্চল থেকে পালাতে পারে কিনা তা দেখার জন্য পুনরায় চালু করে।


0

আমি মনে করি যে সমস্যাটি স্যাডল পয়েন্টের কাছে পৌঁছানোর সময় আপনি একটি মালভূমি প্রবেশ করেন, অর্থাত্ নিম্ন (নিখুঁত মান) গ্রেডিয়েন্ট সহ একটি অঞ্চল। বিশেষত যখন আপনি রিজ থেকে কাছে আসছেন। সুতরাং আপনার অ্যালগরিদম পদক্ষেপের আকার হ্রাস করে। কমে যাওয়া পদক্ষেপের আকারের সাথে এখন সমস্ত গ্রেডিয়েন্ট (সমস্ত দিকনির্দেশে) পরম মানতে ছোট। সুতরাং এটি সর্বনিম্ন ভেবে অ্যালগরিদম থামে।

আপনি যদি পদক্ষেপগুলি হ্রাস না করেন তবে আপনি সর্বনিম্নের উপর থেকে ঝাঁপিয়ে পড়বেন এবং সেগুলি অনেক মিস করবেন। আপনার অবশ্যই কোনও পদক্ষেপের আকার হ্রাস করতে হবে।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.