ওজন এবং পক্ষপাতের সূচনা কেন 0-এর কাছাকাছি বেছে নেওয়া উচিত?


13

আমি এটি পড়েছি:

আমাদের নিউরাল নেটওয়ার্কটি প্রশিক্ষণের জন্য, আমরা প্রতিটি প্যারামিটার ডাব্লু (এল) ইজভিজ (এল) এবং প্রতিটি খ (এল) আইবি (l) শূন্যের নিকটে একটি ছোট এলোমেলো মান থেকে শুরু করব (সাধারণ (0, ϵ2) অনুযায়ী স্বাভাবিক (0) , ϵ2) কিছু ছোট distribution এর জন্য বিতরণ, 0.01 বলুন)

ব্যাকপ্রপাগেশন অ্যালগরিদমের 7 ম অনুচ্ছেদে স্ট্যানফোর্ড ডিপ শেখার টিউটোরিয়ালগুলি থেকে

আমি যা বুঝতে পারি না তা হল ওজন বা পক্ষপাতিত্বের সূচনা কেন 0 এর কাছাকাছি হওয়া উচিত ?

উত্তর:


11

মোটামুটি যুক্তিসঙ্গত ডেটা স্বাভাবিককরণ ধরে নেওয়া, ওজনের প্রত্যাশা শূন্য বা এর কাছাকাছি হওয়া উচিত। তবে প্রাথমিক ওজনকে শূন্যতে নির্ধারণ করা যুক্তিসঙ্গত হতে পারে কারণ ইতিবাচক নেতিবাচক ওজন এবং ভিসার বিপরীত হওয়া উচিত যদি ইতিবাচক প্রাথমিক ওজন আরও যেতে হয়। এটি অবশ্য কাজ করে না। যদি সমস্ত ওজন একরকম হয় তবে তাদের সবার একই ত্রুটি থাকবে এবং মডেলটি কিছুই শিখবে না - নিউরনের মধ্যে অসামান্যতার কোনও উত্স নেই।

পরিবর্তে আমরা কী করতে পারি তা হ'ল ওজনকে শূন্যের খুব কাছাকাছি রাখা কিন্তু ছোট, শূন্য-সংখ্যায় প্রাথমিক করে তাদের আলাদা করা। আপনার লিঙ্কযুক্ত টিউটোরিয়ালে এটিই প্রস্তাবিত। এটি অল-শূন্য সূচনার একই সুবিধা রয়েছে যে এটি 'সেরা অনুমান' প্রত্যাশার মানের কাছাকাছি তবে অ্যালগরিদমটি কাজ করার জন্য প্রতিসাম্যতাও যথেষ্ট ভেঙে গেছে।

এই পদ্ধতির অতিরিক্ত সমস্যা রয়েছে। এটি অগত্যা সত্য নয় যে ছোট সংখ্যাগুলি আরও ভাল কাজ করবে, বিশেষত যদি নিউরাল নেটওয়ার্ক গভীর থাকে। ব্যাকপ্রোপেশনে গণনা করা গ্রেডিয়েন্টগুলি ওজনের সমানুপাতিক; খুব অল্প ওজন খুব সামান্য গ্রেডিয়েন্টে নিয়ে যায় এবং নেটওয়ার্ককে অনেক বেশি সময় নেয়, প্রশিক্ষণ দিতে বা কখনই না শেষ করতে পারে।

sqrt(d)d[1d,1d]


3

যদি আপনি এটি 0 হিসাবে সেট করেন তবে তাদের সবার ত্রুটি একই রকম হবে তাই ব্যাকপ্রপগুলি তাদের সকলকে সমান করে দেবে; অতএব, আপনার এলোমেলো সূচনা হওয়া উচিত।

কেন প্রায় 0? আমি মনে করি এই পোস্টটি এটির উত্তম উত্তর দিতে পারে: /stats/47590/ কি-are-good-initial-weights-in-a-neural-network

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.