সাম্প্রতিক একটি কাগজ মাল্টিলেয়ার নেটওয়ার্কস এর লস সারফেসগুলি এর জন্য কিছু সম্ভাব্য ব্যাখ্যা দেয়। তাদের বিমূর্ত থেকে (সাহসী আমার)
"আমরা অনুমান করি যে সিমুলেটেড অ্যানিলিং এবং এসজিডি উভয়ই কম সমালোচনামূলক পয়েন্টগুলির ব্যান্ডে রূপান্তরিত করেছে এবং যে সমস্ত সমালোচনামূলক পয়েন্টগুলি পাওয়া গেছে সেখানে পরীক্ষার ত্রুটি দ্বারা উচ্চমানের স্থানীয় মিনিমা পরিমাপ করা হয় This এটি বৃহত এবং ছোট আকারের নেটওয়ার্কের মধ্যে একটি বড় পার্থক্যকে জোর দেয় izes যেখানে আধুনিক নিম্ন মানের স্থানীয় মিনিমার পুনরুদ্ধার হওয়ার শূন্যতার সম্ভাবনা নেই Finally পরিশেষে, আমরা প্রমাণ করি যে নেটওয়ার্কের আকার বাড়ার সাথে সাথে বিশ্বব্যাপী ন্যূনতম পুনরুদ্ধার আরও শক্ত হয়ে যায় এবং বৈশ্বিক ন্যূনতম সর্বনিম্ন ক্ষেত্রে এটি অপ্রাসঙ্গিক হয় কারণ এটি প্রায়শই অত্যধিক মানসিকতার দিকে পরিচালিত করে ।
গভীর জ্ঞানার্জনের অনেক প্রভাবশালী ব্যক্তি (কিছু নাম লেখানোর জন্য ইয়ান লেকান এবং যোশুয়া বেনজিও) এবং কিছু গবেষক গাণিতিক কোণ থেকে আরও আসছেন (রং জি এবং অন্যান্য সঞ্জীব অরোরা সহযোগী) এই ধারণাগুলি নিয়ে আলোচনা ও অন্বেষণ করেছেন।
উপরোক্ত রেফারেন্সড পেপারে চিত্র 3 দেখুন যা জালাগুলিতে আরও বেশি লুকানো ইউনিট থাকার কারণে স্থানীয় মিনিমা মানগুলির একটি ব্যান্ডিং / ঘনত্বের ঘটনাটি দেখায়। ব্যান্ডিং / ঘনত্ব কিছু অনুপ্রেরণামূলক প্রমাণ উপস্থাপন করে যে গভীর বা বৃহত্তর মডেলের জন্য একটি স্থানীয় মিনিমা "যথেষ্ট ভাল", কারণ তাদের লোকসানের মানগুলি প্রায় সমান similar এবং সবচেয়ে বড় কথা, তাদের একটি ক্ষতি হয়েছে যা মডেলটি আরও জটিল হয়ে উঠার সাথে সাথে বৈশ্বিক ন্যূনতমের কাছাকাছি হয় (এই ক্ষেত্রে আরও প্রশস্ত, তবে বাস্তবে আরও গভীরতর)।
তদতিরিক্ত, তারা একটি স্পিন-গ্লাসের মডেল ব্যবহার করে, যা তারা এমনকি একটি মডেল এবং এটি সত্য চিত্রের অগত্যা নির্দেশকও নয়, এটি দেখানোর জন্য যে কোনও স্থানীয় মিনিমা থেকে গ্লোবাল মিনিমাইজারে পৌঁছানো খুব বেশি সময় নিতে পারে:
"আরও নিচু ন্যূনতম সন্ধানের জন্য আমাদের অবশ্যই একটি স্যাডল পয়েন্টের মধ্য দিয়ে যেতে হবে Therefore সুতরাং আমাদের অবশ্যই কমপক্ষে এমন একটি স্তরে পৌঁছতে হবে যেখানে একটি সমান পরিমাণে জিন পয়েন্ট রয়েছে যেখানে একটি পথ খুঁজে পাওয়ার সম্ভাবনা রয়েছে যা সম্ভবত গ্রহণ করতে পারে cent আমাদের অন্য স্থানীয় সর্বনিম্নে। এই প্রক্রিয়াটি দ্রুততর দীর্ঘ সময় নেয় তাই অনুশীলনে বিশ্বব্যাপী সর্বনিম্ন সন্ধান করা সম্ভব নয়। "
রিং জি গবেষণা স্যাডল পয়েন্টগুলি ভেঙে প্রায় কেন্দ্রিক। যোশুয়া বেঙ্গিও এবং তার সহযোগীরা একটি দুর্দান্ত সাহসী স্যাডল পয়েন্ট হাইপোথিসিসের মুখোমুখি করেছেন:
এখানে আমরা স্ট্যাটিস্টিকাল পদার্থবিজ্ঞান, এলোমেলো ম্যাট্রিক্স তত্ত্ব, নিউরাল নেটওয়ার্ক তত্ত্ব এবং অভিজ্ঞতাবাদী প্রমাণের ফলাফলের উপর ভিত্তি করে যুক্তি দিয়েছি যে, একটি গভীর এবং আরও গভীর অসুবিধা স্থানীয় কিনিমা নয়, বিশেষত ব্যবহারিক আগ্রহের উচ্চ মাত্রিক সমস্যার ক্ষেত্রে স্যাডল পয়েন্টগুলির বিস্তার থেকে উদ্ভূত হয় । এই ধরনের স্যাডল পয়েন্টগুলি উচ্চ ত্রুটিযুক্ত মালভূমি দ্বারা বেষ্টিত যা নাটকীয়ভাবে শিখনকে কমিয়ে দিতে পারে এবং স্থানীয় সর্বনিম্নের অস্তিত্বের মায়াময় ধারণা দেয়।
উত্স এখানে: হাই-ডাইমেনশনাল অ-উত্তেজক অপ্টিমাইজেশনে স্যাডল পয়েন্ট সমস্যার সনাক্তকরণ এবং আক্রমণ করা।
কিছুটা হলেও, উপরোক্ত দুটি পদ্ধতির হুবহু মিল নেই (স্যাডল পয়েন্ট হাইপোথিসিস প্রশ্ন তুলতে পারে যে আসলেই একটি স্থানীয় মিনিমা কী এবং খুব দীর্ঘ মালভূমির অঞ্চলটির সাথে নিছক একটি খারাপ পরিস্থিতিযুক্ত স্যাডল পয়েন্ট কী?) স্যাডল পয়েন্ট হাইপোথিসিসের পেছনের ধারণাটি হ'ল স্যাডল পয়েন্টগুলি ভেঙে দেওয়ার জন্য অপ্টিমাইজেশন পদ্ধতিগুলি ডিজাইন করা সম্ভব, উদাহরণস্বরূপ বেঞ্জিও নিবন্ধ থেকে স্যাডল-ফ্রি নিউটন, সম্ভাব্যভাবে রূপান্তরকে গতিবদ্ধ করতে এবং এমনকি বৈশ্বিক সর্বোত্তমতায় পৌঁছাতেও। প্রথম মাল্টিলেয়ার লস সারফেস নিবন্ধটি বিশ্বব্যাপী সর্বোত্তম হয়ে ওঠার সাথে সত্যিই উদ্বিগ্ন নয় এবং এটি বিশ্বাস করে যে এটি কিছু দুর্বল অতিরিক্ত বৈশিষ্ট্য রয়েছে। কৌতূহলীভাবে, উভয় নিবন্ধ পরিসংখ্যান পদার্থবিজ্ঞান এবং স্পিন-গ্লাস মডেল থেকে ধারণা ব্যবহার করে।
তবে এগুলি উভয় প্রবন্ধেই বিশ্বাস করে যে বিশ্বব্যাপী মিনিমাইজারে পৌঁছানোর জন্য অবশ্যই জিন পয়েন্টগুলির অপ্টিমাইজেশন চ্যালেঞ্জকে কাটিয়ে উঠতে হবে। প্রথম নিবন্ধটি কেবল বিশ্বাস করে যে স্থানীয় মিনিমা যথেষ্ট ভাল।
গতিশীল পদ্ধতি এবং অন্যান্য নতুন অপ্টিমাইজেশন অ্যালগরিদমগুলি, যা 2 য় অর্ডার বক্রতার বৈশিষ্ট্যগুলি স্যাডল পয়েন্টগুলি থেকে বাঁচতে পারে তা অনুমান করতে পারে কিনা তা অবাক করে ফেলা উচিত। অ্যালেক Radford দ্বারা একটি বিখ্যাত অ্যানিমেশন এখানে ।
আপনার প্রশ্নের উত্তর দেওয়ার জন্য: "এই বিশ্বাসটি কোথা থেকে এসেছে" আমি ব্যক্তিগতভাবে মনে করি এটি বিভিন্ন ওজন শেখার জন্য বিভিন্ন এলোমেলো বীজ ব্যবহার করা সম্ভব এই সত্য থেকে এসেছে তবে সংশ্লিষ্ট জালের একই পরিমাণগত কর্মক্ষমতা রয়েছে। উদাহরণস্বরূপ, যদি আপনি গ্লোরোট ওজন সূচনা করার জন্য দুটি পৃথক এলোমেলো বীজ সেট করেন তবে আপনি সম্ভবত বিভিন্ন ওজন শিখবেন, তবে আপনি যদি অনুরূপ অপ্টিমাইজেশন পদ্ধতি ব্যবহার করে প্রশিক্ষণ দেন তবে জালগুলির অনুরূপ পারফরম্যান্স থাকবে। একটি সাধারণ লোককথার বিশ্বাস হ'ল অপটিমাইজেশন ল্যান্ডস্কেপ একটি ডিমের কার্টনের মতো, এখানে আরও একটি ভাল ব্লগ পোস্ট: আরও স্থানীয় মিনিমা নেই? ডিম-কার্টন উপমা দিয়ে with
সম্পাদনা: আমি কেবল পরিষ্কার করতে চেয়েছিলাম যে ডিমের কার্টনের সাদৃশ্যটি সত্য নয়, অন্যথায় গতি বা অন্যান্য আরও উন্নততর অপ্টিমাইজেশান কৌশলগুলির প্রয়োজন হবে না। তবে এটি জানা যায় যে এসজিডি এসজিডি + মোমেন্টাম বা আরও আধুনিক অপ্টিমাইজেশন অ্যালগরিদমগুলির পাশাপাশি সঞ্চালন করে না, সম্ভবত স্যাডল পয়েন্টের অস্তিত্বের কারণে।