জিরো দিয়ে ওজন সূচনা করা কেন বিপজ্জনক? এটির কোনও সাধারণ উদাহরণ যা তা দেখায়?
জিরো দিয়ে ওজন সূচনা করা কেন বিপজ্জনক? এটির কোনও সাধারণ উদাহরণ যা তা দেখায়?
উত্তর:
নীচে আলফা মন্তব্য দেখুন সম্পাদনা করুন। আমি নিউরাল নেট সম্পর্কে বিশেষজ্ঞ নই, তাই আমি তার কাছে পেছিয়ে দেব।
আমার বোধগম্যতা এখানে পোস্ট করা অন্যান্য উত্তরগুলির চেয়ে পৃথক।
আমি পুরোপুরি নিশ্চিত যে ব্যাকপ্রোপেশনটিতে বিদ্যমান ওজন যুক্ত করা , গুণক নয় not আপনি যে পরিমাণ যোগ করবেন সেটি ডেল্টা নিয়মের দ্বারা নির্দিষ্ট করা হয়েছে । নোট করুন যে উইজটি সমীকরণের ডানদিকে নেই।
আমার বোধগম্যতা হ'ল প্রাথমিক ওজন শূন্যে না সেট করার কমপক্ষে দুটি ভাল কারণ রয়েছে:
প্রথমত, স্নায়ুবহুল নেটওয়ার্কগুলি স্থানীয় মিনিমাতে আটকা পড়ার ঝোঁক থাকে, তাই তাদের অনেকগুলি ভিন্ন প্রারম্ভিক মান দেওয়া ভাল ধারণা। যদি তারা সব শূন্য থেকে শুরু করে তবে আপনি এটি করতে পারবেন না।
দ্বিতীয়ত, যদি নিউরনগুলি একই ওজন দিয়ে শুরু হয়, তবে সমস্ত নিউরন একই ধরণের অনুসরণ করবে এবং সর্বদা একে অপরের মতো একই কাজটি করবে doing
আপনি যদি বয়েসিয়ান নেটওয়ার্কের মতো ওজনকে প্রিয়ার হিসাবে ভাবেন, তবে আপনি যে কোনও সম্ভাবনা সম্ভবত সিস্টেমে প্রভাব ফেলতে পারবেন এমন কোনও সম্ভাবনা আপনি এড়িয়ে গেছেন। আরেকটি ব্যাখ্যা হ'ল ব্যাকপ্রোপেজেশন ওজনগুলির সেটটি সনাক্ত করে যা লক্ষ্য এবং পর্যবেক্ষণকৃত মান (E) এর মধ্যে ওজনযুক্ত বর্গক্ষেত্রের পার্থক্যকে হ্রাস করে। তাহলে সিস্টেমের দিক নির্ধারণের ক্ষেত্রে কোনও গ্রেডিয়েন্ট বংশোদ্ভূত অ্যালগরিদমকে কীভাবে অভিযুক্ত করা যেতে পারে? আপনি প্যারামিটার স্পেসের একটি স্যাডল পয়েন্টে নিজেকে স্থাপন করছেন।
আপনার ব্যাকপ্রোপেশন অ্যালগরিদমের প্রতিটি পুনরাবৃত্তিতে, আপনি ব্যাকপ্রসারণ দ্বারা নির্ধারিত একটি ব-দ্বীপ দ্বারা বিদ্যমান ওজনকে গুণিত করে ওজন আপডেট করবেন। প্রাথমিক ওজনের মান যদি 0 হয় তবে ডেল্টার জন্য এটি কোনও মান দিয়ে গুণ করলে ওজন পরিবর্তন হবে না যার অর্থ প্রতিটি পুনরাবৃত্তির আপনার ওজনকে অনুকূল করতে চেষ্টা করার ওজনে কোনও প্রভাব নেই has
এর উত্তর পুরোপুরি "লোকাল মিনিমা / ম্যাক্সিমা" নয়।
যখন আপনার 1 টিরও বেশি লুকানো স্তর রয়েছে এবং প্রতিটি ওজন 0 এর হয়, ওয়েট_আই-তে যত বড় / ছোট পরিবর্তন আসে না কেন আউটপুট পরিবর্তনের কারণ হবে না।
এটি হ'ল ডেল্টা ওয়েট_আই পরবর্তী হিডেন লেয়ার দ্বারা শোষিত হবে।
যখন আউটপুটে কোনও পরিবর্তন হয় না, তখন কোনও গ্রেডিয়েন্ট থাকে না এবং তাই কোনও দিকনির্দেশ হয় না।
এটি স্থানীয় মিনিমা / ম্যাক্সিমার মতো একই বৈশিষ্ট্যগুলি ভাগ করে, তবে এটি আসলে 0 এর কারণ যা প্রযুক্তিগতভাবে পৃথক
গাণিতিকভাবে সমস্ত ওজনের শুরুর প্রধান সমস্যাটি নিউরনের মানগুলি শূন্য (বহু স্তরগুলির জন্য) বা ব-দ্বীপটি শূন্যের দিকে নিয়ে যায়। উপরের উত্তরে @ আলফা দ্বারা দেওয়া মন্তব্যের একটিতে ইতিমধ্যে একটি ইঙ্গিত সরবরাহ করা হয়েছে, উল্লেখ করা হয়েছে যে ওজন এবং ব-দ্বীপের পণ্যটি শূন্য হওয়া দরকার। এটির মূলত অর্থ হবে যে গ্রেডিয়েন্ট বংশোদ্ভূত হওয়ার জন্য এটি তার শীর্ষে পাহাড়ের শীর্ষে এবং এটি প্রতিসাম্যতা ভাঙ্গতে অক্ষম। এলোমেলোভাবে এই প্রতিসাম্যতা ভঙ্গ করবে এবং এক স্থানীয় সর্বনিম্ন পৌঁছে যাবে। এমনকি যদি আমরা ওজনকে একটু চাপিয়ে দেই তবে আমরা ট্র্যাকের মধ্যে থাকব। তথ্যসূত্র: ডেটা লেকচার 10 থেকে শেখা ।
এটি 2 কারণে একটি খারাপ ধারণা:
আসুন এটি প্রদর্শিত হবে (সরলতার জন্য আমি 1 নিউরনের একটি চূড়ান্ত আউটপুট স্তর অনুমান করি):