ব্যাকপ্রসারণে সমস্ত প্রাথমিক ওজন শূন্যে সেট করার ঝুঁকি


30

জিরো দিয়ে ওজন সূচনা করা কেন বিপজ্জনক? এটির কোনও সাধারণ উদাহরণ যা তা দেখায়?


দেখে মনে হয় যে শাস্ত্রীয় এক্সওআর 2-1 নেট ভাল উদাহরণ, তবে আমি কিছু তাত্ত্বিক যুক্তিটির প্রশংসা করব।
ব্যবহারকারী 8078

1
একটি অত্যন্ত সাধারণ উত্তর, যা এখানে প্রযোজ্য বা নাও হতে পারে, তা হ'ল যখনই নতুন ওজন পুরানো ওজনের বহুগুণ হয় তখন শূন্য ওজন পরিবর্তন করা যায় না। এটি শেখার জন্য মারাত্মক।
নিক কক্স

ওজন শূন্য থেকে আরম্ভ করার জন্য ইতিমধ্যে এখানে ভাল উত্তর পাওয়া যায় answers নিম্নলিখিত লিঙ্কটি 'প্রাথমিক ওজন কীভাবে নির্বাচন করা উচিত?' এর উপর আরও কিছু আলোকপাত করে staff.itee.uq.edu.au/janetw/cmc/chapters/BackProp/index2.html আশা করি এটি অন্যান্য পাঠকদের সহায়তা করবে।
doer_uvc

@ নিককক্স এখানে ওজনগুলি পরবর্তী ওজনের পরবর্তী স্তরের গুণক এবং শেষ স্তরটি অন্য কোনও ওজনের একাধিক নয় - সুতরাং এটি এখানে প্রযোজ্য নয়।
ডেভিড রেফেলি

উত্তর:


21

নীচে আলফা মন্তব্য দেখুন সম্পাদনা করুন। আমি নিউরাল নেট সম্পর্কে বিশেষজ্ঞ নই, তাই আমি তার কাছে পেছিয়ে দেব।

আমার বোধগম্যতা এখানে পোস্ট করা অন্যান্য উত্তরগুলির চেয়ে পৃথক।

আমি পুরোপুরি নিশ্চিত যে ব্যাকপ্রোপেশনটিতে বিদ্যমান ওজন যুক্ত করা , গুণক নয় not আপনি যে পরিমাণ যোগ করবেন সেটি ডেল্টা নিয়মের দ্বারা নির্দিষ্ট করা হয়েছে । নোট করুন যে উইজটি সমীকরণের ডানদিকে নেই।

আমার বোধগম্যতা হ'ল প্রাথমিক ওজন শূন্যে না সেট করার কমপক্ষে দুটি ভাল কারণ রয়েছে:

  • প্রথমত, স্নায়ুবহুল নেটওয়ার্কগুলি স্থানীয় মিনিমাতে আটকা পড়ার ঝোঁক থাকে, তাই তাদের অনেকগুলি ভিন্ন প্রারম্ভিক মান দেওয়া ভাল ধারণা। যদি তারা সব শূন্য থেকে শুরু করে তবে আপনি এটি করতে পারবেন না।

  • দ্বিতীয়ত, যদি নিউরনগুলি একই ওজন দিয়ে শুরু হয়, তবে সমস্ত নিউরন একই ধরণের অনুসরণ করবে এবং সর্বদা একে অপরের মতো একই কাজটি করবে doing


6
"আপনি যে পরিমাণ যোগ করেছেন তা ব-দ্বীপ নিয়মের দ্বারা নির্দিষ্ট করা হয়েছে Note - এটি লুকানো স্তর ছাড়াই কেবল নিউরাল নেটওয়ার্কগুলির পক্ষে সত্য ! তবে আপনি অন্য দুটি পয়েন্ট উল্লেখ করেছেন, এটি সমান ওজনের সাথে একটি এএনএন শুরু করার বিরুদ্ধে ভাল যুক্তি ।
আলফা

1
আমি মনে করি এটি প্রাথমিকভাবে দ্বিতীয় কারণ - যেমন একটি মৌলিক সম্পূর্ণ সংযুক্ত, ফিড-ফরোয়ার্ড নেটওয়ার্কে, যদি প্রতিটি স্তর একই ওজন দিয়ে শুরু করা হয়, তবে আপনার পরামর্শ অনুসারে সমস্ত নোড একই পথ অনুসরণ করে এবং অপ্রয়োজনীয় হয়। আমার ছাপ বেশিরভাগ নেটওয়ার্কগুলিতে মুষ্টিমেয় বৈশিষ্ট্যযুক্ত স্থানীয় মিনিমার সাথে লড়াই করবে না। এছাড়াও, একা র‌্যান্ডম ইনিশিয়ালাইজেশন নেটওয়ার্কটিকে আটকা পড়তে বাধা দেয় না, তবে বারবার বিভিন্ন র্যান্ডম ইনিশিয়ালাইজেশন ব্যবহার করা আপনাকে কোনও নির্দিষ্ট পুনরাবৃত্তির স্থানীয় মিনিমা সমস্যা ছিল কিনা তা সম্পর্কে ধারণা দিবে (আমি মনে করি এটি নিহিত ছিল, তবে স্পষ্ট নয়)।
টহলর

২ য় কারণ মিথ্যা? open.wolframcloud.com/env/…
ব্যবহারকারী 3180

বিভিন্ন ইনপুটগুলি ওজনের প্রতিসাম্যতা
ভাঙায়

আপনি ডেরিভেটিভস যুক্ত করুন এবং ডেরাইভেটিভগুলি চেইন নিয়মের মাধ্যমে ব্যবহৃত গুণ lic
ডেভিড রেফেলি

7

আপনি যদি বয়েসিয়ান নেটওয়ার্কের মতো ওজনকে প্রিয়ার হিসাবে ভাবেন, তবে আপনি যে কোনও সম্ভাবনা সম্ভবত সিস্টেমে প্রভাব ফেলতে পারবেন এমন কোনও সম্ভাবনা আপনি এড়িয়ে গেছেন। আরেকটি ব্যাখ্যা হ'ল ব্যাকপ্রোপেজেশন ওজনগুলির সেটটি সনাক্ত করে যা লক্ষ্য এবং পর্যবেক্ষণকৃত মান (E) এর মধ্যে ওজনযুক্ত বর্গক্ষেত্রের পার্থক্যকে হ্রাস করে। তাহলে সিস্টেমের দিক নির্ধারণের ক্ষেত্রে কোনও গ্রেডিয়েন্ট বংশোদ্ভূত অ্যালগরিদমকে কীভাবে অভিযুক্ত করা যেতে পারে? আপনি প্যারামিটার স্পেসের একটি স্যাডল পয়েন্টে নিজেকে স্থাপন করছেন।


1
এটি সেরা উত্তর। এটি একটি স্যাডল পয়েন্ট। ব্যাকপ্রপাগেশন ভিত্তিক অপ্টিমাইজেশন অ্যালগরিদমগুলি সাধারণত তত্ক্ষণাত বন্ধ হয়ে যায়। গ্রেডিয়েন্ট গণনা করার জন্য আমরা ওজন দিয়ে ডেল্টা গুণ করি এবং ফলাফল সর্বদা শূন্য হয়।
আলফা

আমি মনে করি এটি কেন একটি নির্দিষ্ট উত্তর যে কোনও নির্দিষ্ট ওজন ০. থেকে শুরু করা উচিত নয় তবে ডেল্টাস সম্ভবত এখনও ফিরে প্রচার করবে - আউটপুট স্তরের ওজন ওজনের উপর নির্ভর করে না, সুতরাং আমাদের এখানে শূন্য-ওজন থাকবে প্রথম আপডেটের পরে। পরবর্তী আপডেটের পরে, এই পূর্ববর্তী স্তরের ওজনগুলি সামঞ্জস্য করতে ব-শূন্য ওজনগুলি একটি ব-দ্বীপের সাথে ব্যবহার করা হবে। আমি মনে করি যে সমস্ত 0 এর সাথে একটি নেটওয়ার্ক সূচনা করার সবচেয়ে বড় সমস্যাটি হ'ল তারা হ'ল একই ওজন, যা আপনার মৌলিকভাবে সম্পূর্ণ যুক্ত, ফিড-ফরোয়ার্ড নেটওয়ার্ক, প্রতি স্তর প্রতি 1 নোড থাকার সমান equivalent
টহলর

6

আপনার ব্যাকপ্রোপেশন অ্যালগরিদমের প্রতিটি পুনরাবৃত্তিতে, আপনি ব্যাকপ্রসারণ দ্বারা নির্ধারিত একটি ব-দ্বীপ দ্বারা বিদ্যমান ওজনকে গুণিত করে ওজন আপডেট করবেন। প্রাথমিক ওজনের মান যদি 0 হয় তবে ডেল্টার জন্য এটি কোনও মান দিয়ে গুণ করলে ওজন পরিবর্তন হবে না যার অর্থ প্রতিটি পুনরাবৃত্তির আপনার ওজনকে অনুকূল করতে চেষ্টা করার ওজনে কোনও প্রভাব নেই has


2
> আপনি ব্যাকপ্রেজিগেশন দ্বারা নির্ধারিত মান দ্বারা বিদ্যমান ওজনকে গুণিত করে ওজন আপডেট করবেন - আমার মনে হয় না, এটি কেবল গুণ নয়।
ব্যবহারকারী 8078

1
আমার সাধারণ বিষয়টি হল যে প্রাথমিক ওজন যদি শূন্য হয় তবে তারা পিছনের বংশবৃদ্ধির প্রতিটি পুনরাবৃত্তির পরে শূন্যে থাকবে।
ইদ্র

'ব্যাকপ্রপ্যাগেশন দ্বারা নির্ধারিত মান' একটি ব-দ্বীপ (উদাহরণস্বরূপ মূল পেপারটি দেখুন "ব্যাক-প্রোসপ্যাটিং ত্রুটির মাধ্যমে উপস্থাপনা শেখা", সমীকরণ ation)। উত্তরটি খারাপভাবে বর্ণিত তবে এটি সম্পূর্ণ ভুল নয়।
আলফা

1
এটি কেবল একটি ভুল উত্তর। ওজন পরিবর্তন হবে, তবে তারা একসাথে পরিবর্তিত হবে। এটি খারাপ কারণ সমস্ত লুকানো ইউনিট প্রশিক্ষণের সময় অভিন্ন হবে এবং কোন শিখন হতে পারে না।
আমিন সামারা

θ(0)=0.5

2

এটি আমার কাছে মনে হয় যে ওজনকে একই মানের (আর শূন্য নয়) আরম্ভ করার খারাপ কারণ হ'ল কারণ কোনও নির্দিষ্ট গোপন স্তরের জন্য এই স্তরের সমস্ত নোডের ঠিক একই রকম উপকরণ থাকবে এবং তাই প্রতিটি হিসাবে একই থাকবে অন্যান্য।


1

এর উত্তর পুরোপুরি "লোকাল মিনিমা / ম্যাক্সিমা" নয়।

যখন আপনার 1 টিরও বেশি লুকানো স্তর রয়েছে এবং প্রতিটি ওজন 0 এর হয়, ওয়েট_আই-তে যত বড় / ছোট পরিবর্তন আসে না কেন আউটপুট পরিবর্তনের কারণ হবে না।

এটি হ'ল ডেল্টা ওয়েট_আই পরবর্তী হিডেন লেয়ার দ্বারা শোষিত হবে।

যখন আউটপুটে কোনও পরিবর্তন হয় না, তখন কোনও গ্রেডিয়েন্ট থাকে না এবং তাই কোনও দিকনির্দেশ হয় না।

এটি স্থানীয় মিনিমা / ম্যাক্সিমার মতো একই বৈশিষ্ট্যগুলি ভাগ করে, তবে এটি আসলে 0 এর কারণ যা প্রযুক্তিগতভাবে পৃথক


0

গাণিতিকভাবে সমস্ত ওজনের শুরুর প্রধান সমস্যাটি নিউরনের মানগুলি শূন্য (বহু স্তরগুলির জন্য) বা ব-দ্বীপটি শূন্যের দিকে নিয়ে যায়। উপরের উত্তরে @ আলফা দ্বারা দেওয়া মন্তব্যের একটিতে ইতিমধ্যে একটি ইঙ্গিত সরবরাহ করা হয়েছে, উল্লেখ করা হয়েছে যে ওজন এবং ব-দ্বীপের পণ্যটি শূন্য হওয়া দরকার। এটির মূলত অর্থ হবে যে গ্রেডিয়েন্ট বংশোদ্ভূত হওয়ার জন্য এটি তার শীর্ষে পাহাড়ের শীর্ষে এবং এটি প্রতিসাম্যতা ভাঙ্গতে অক্ষম। এলোমেলোভাবে এই প্রতিসাম্যতা ভঙ্গ করবে এবং এক স্থানীয় সর্বনিম্ন পৌঁছে যাবে। এমনকি যদি আমরা ওজনকে একটু চাপিয়ে দেই তবে আমরা ট্র্যাকের মধ্যে থাকব। তথ্যসূত্র: ডেটা লেকচার 10 থেকে শেখা


0

এটি 2 কারণে একটি খারাপ ধারণা:

  1. (0)0

  2. TANH(0)=0

আসুন এটি প্রদর্শিত হবে (সরলতার জন্য আমি 1 নিউরনের একটি চূড়ান্ত আউটপুট স্তর অনুমান করি):

TANH

এলএকটিএলz- রএল=ওয়াটএলএকটিএল-1ওয়াটএল

ওয়াটএল: =এলওয়াটএল=এলএকটিএলএকটিএলz- রএলz- রএলওয়াটএল
এলএকটিএকটিz- রএলএকটিএকটিz- রz- রওয়াটএকটিএল-1ওয়াটএলওয়াটএল=ওয়াটএল-αওয়াটএল

একটিএল-1ওয়াটএল

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.