স্থানীয় মিনিমা বনাম স্যাডল পয়েন্টগুলি গভীর শিক্ষায়


18

আমি অ্যান্ড্রু এনজি (একটি ভিডিওতে দুর্ভাগ্যবশত আমি আর খুঁজে পাচ্ছি না) শুনেছি কীভাবে গভীর শিক্ষার সমস্যাগুলির মধ্যে স্থানীয় মিনিমার বোঝাপড়া এই অর্থে পরিবর্তিত হয়েছে যে তারা এখন কম সমস্যাযুক্ত হিসাবে বিবেচিত হয় কারণ উচ্চ মাত্রিক স্থানগুলিতে (এর মুখোমুখি হয়েছিল) গভীর শিক্ষণ) সমালোচনামূলক পয়েন্টগুলি স্থানীয় মিনিমার পরিবর্তে স্যাডল পয়েন্ট বা প্লাটিউস হওয়ার সম্ভাবনা বেশি।

আমি এমন কাগজপত্র দেখেছি (উদাহরণস্বরূপ এটি ) যা অনুমানগুলি নিয়ে আলোচনা করে যার অধীনে "প্রতিটি স্থানীয় সর্বনিম্ন একটি বিশ্ব সর্বনিম্ন" is এই অনুমানগুলি সমস্তই প্রযুক্তিগত, তবে আমি যা বুঝতে পারি সেগুলি থেকে তারা নিউরাল নেটওয়ার্কের উপর এমন একটি কাঠামো চাপিয়ে দেয় যা এটিকে কিছুটা রৈখিক করে তোলে।

এটি কী একটি বৈধ দাবি যে, গভীর শিক্ষায় (ননলাইনার আর্কিটেকশন সহ), স্থানীয় মিনিমার তুলনায় প্লেটাস বেশি সম্ভাবনা রয়েছে? এবং যদি তা হয় তবে এর পিছনে কোনও (সম্ভবত গাণিতিক) স্বজ্ঞাততা আছে?

গভীর শিক্ষা এবং স্যাডল পয়েন্ট সম্পর্কে বিশেষ কিছু আছে কি?


12
যখন স্থানীয় গাণিতিকের চেয়ে কেন জিনের পয়েন্ট বেশি হওয়ার সম্ভাবনা রয়েছে তখন गणিতের অন্তর্নিহিত্বে আমি বৈশিষ্ট্যগুলির ক্ষেত্রে এটি বিবেচনা করব। স্থানীয় ন্যূনতম হতে, এটি প্রতিটি দিকে স্থানীয় নূন্যতম হতে হবে। বিপরীতে, একটি স্যাডল পয়েন্টের জন্য, কেবলমাত্র 1 টি দিক অন্যের চেয়ে আলাদা হতে হবে। সমস্ত দিক থেকে একই আচরণের তুলনায় 1 বা একাধিকের অন্যের আচরণের সম্ভাবনা অনেক বেশি।
পল

3
ধন্যবাদ, এখন আপনি এটি বলছেন, এটি এক ধরণের সুস্পষ্ট ... এখানে বিষয়টির কিছু আকর্ষণীয় আলোচনা এখানে দেওয়া হয়েছে
oW_

4
অ্যান্ড্রু এনগের কোর্সেরা কোর্সের ২ য় সপ্তাহে "স্থানীয় মিনিমার সমস্যা" নিয়ে একটি ভিডিও আছে, "ডিপ নিউরাল নেটওয়ার্কগুলি উন্নত করা: হাইপারপ্যারামিটার টিউনিং, নিয়মিতকরণ এবং অনুকূলকরণ"। আপনি এটি খুঁজছেন হতে পারে।
mjul

উত্তর:


7

এটি কেবল আমার অন্তর্নিহিত বোঝাতে চেষ্টা করছে, অর্থাত কোনও কঠোরতা নয়। স্যাডল পয়েন্টগুলির সাথে জিনিসটি হ'ল এগুলি এক প্রকারের সর্বোত্তম যা মিলিমা এবং ম্যাক্সিমার সংমিশ্রণ করে। যেহেতু গভীর শিক্ষার সাথে মাত্রাগুলির সংখ্যা এত বড়, সম্ভাবনা যে সর্বোত্তম কেবল মিনিমার সংমিশ্রণ নিয়ে গঠিত খুব কম। এর অর্থ স্থানীয় ন্যূনতমটিতে 'আটকে যাওয়া' বিরল। ওভার সিম্প্লিফাইটিংয়ের ঝুঁকিতে, একটি স্যাডল পয়েন্টে 'আটকে থাকা' আরও শক্ত কারণ আপনি 'মাত্রার একটিকে স্লাইড করতে পারেন'। আমার মনে হয় আপনি যে অ্যান্ড্রু এনজি ভিডিওটি উল্লেখ করেছেন তা তাঁর দ্বারা ডিপ লার্নিংয়ের কোর্সেরা কোর্স থেকে এসেছে।


13

আমি মাল্টিভারিয়েট ক্যালকুলাসের উপর ভিত্তি করে একটি ব্যাখ্যা দিই। যদি আপনি একটি মাল্টিভারিয়েট কোর্স গ্রহণ করেন তবে আপনি শুনেছেন যে একটি সমালোচনামূলক বিন্দু (বিন্দু যেখানে গ্রেডিয়েন্টটি শূন্য), এই সমালোচনামূলক বিন্দুর ন্যূনতম হওয়ার শর্তটি হেসিয়ান ম্যাট্রিক্স ইতিবাচক সুনির্দিষ্ট। যেহেতু হেসিয়ান একটি প্রতিসম ম্যাট্রিক্স, তাই আমরা এটিটি তির্যক করতে পারি। যদি আমরা হেসিয়ানের সাথে সম্পর্কিত ত্রিভুজ ম্যাট্রিক্স হিসাবে লিখি: হেসিয়ান ইতিবাচক সুনির্দিষ্ট হওয়ার সাথে সাথেডি1>0,,ডিএন>0 এরসমান।

D=[d1dn]
d1>0,,dn>0

d1,,dndi1/2didj, হেসিয়ান ম্যাট্রিক্সের উচ্চ অ-লৈখিকতার কারণে, তাই আমরা স্বাধীন ইভেন্ট হিসাবে তাদের ইতিবাচক হওয়ার সম্ভাবনাগুলি নেব।

P(d1>0,,dn>0)=P(d1>0)P(dn>0)=12n

1081/2n

তবে ম্যাক্সিমার কী হবে?

1/2n

পি(গুলিএকটি)=1-পি(মিএকটিএক্সআমিমিতোমার দর্শন লগ করামি)-পি(মিআমিএনআমিমিতোমার দর্শন লগ করামি)=1-12এন-12এন=1-12এন-1

এন

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.