মোটামুটি যুক্তিসঙ্গত ডেটা স্বাভাবিককরণ ধরে নেওয়া, ওজনের প্রত্যাশা শূন্য বা এর কাছাকাছি হওয়া উচিত। তবে প্রাথমিক ওজনকে শূন্যতে নির্ধারণ করা যুক্তিসঙ্গত হতে পারে কারণ ইতিবাচক নেতিবাচক ওজন এবং ভিসার বিপরীত হওয়া উচিত যদি ইতিবাচক প্রাথমিক ওজন আরও যেতে হয়। এটি অবশ্য কাজ করে না। যদি সমস্ত ওজন একরকম হয় তবে তাদের সবার একই ত্রুটি থাকবে এবং মডেলটি কিছুই শিখবে না - নিউরনের মধ্যে অসামান্যতার কোনও উত্স নেই।
পরিবর্তে আমরা কী করতে পারি তা হ'ল ওজনকে শূন্যের খুব কাছাকাছি রাখা কিন্তু ছোট, শূন্য-সংখ্যায় প্রাথমিক করে তাদের আলাদা করা। আপনার লিঙ্কযুক্ত টিউটোরিয়ালে এটিই প্রস্তাবিত। এটি অল-শূন্য সূচনার একই সুবিধা রয়েছে যে এটি 'সেরা অনুমান' প্রত্যাশার মানের কাছাকাছি তবে অ্যালগরিদমটি কাজ করার জন্য প্রতিসাম্যতাও যথেষ্ট ভেঙে গেছে।
এই পদ্ধতির অতিরিক্ত সমস্যা রয়েছে। এটি অগত্যা সত্য নয় যে ছোট সংখ্যাগুলি আরও ভাল কাজ করবে, বিশেষত যদি নিউরাল নেটওয়ার্ক গভীর থাকে। ব্যাকপ্রোপেশনে গণনা করা গ্রেডিয়েন্টগুলি ওজনের সমানুপাতিক; খুব অল্প ওজন খুব সামান্য গ্রেডিয়েন্টে নিয়ে যায় এবং নেটওয়ার্ককে অনেক বেশি সময় নেয়, প্রশিক্ষণ দিতে বা কখনই না শেষ করতে পারে।
sqrt(d)d[−1d√,1d√]