[1] প্রশ্নটি সম্বোধন করে:
প্রথমত, ব্যাকপ্রোগ্র্যাগেট করার সময় প্রতিসাম্যতা ভাঙার জন্য ওজনগুলি জিরোতে সেট করা উচিত নয়:
বায়াসগুলি সাধারণত শূন্যে শুরু করা যায় তবে একই স্তরের লুকানো ইউনিটের মধ্যে প্রতিসাম্যতা ভাঙতে ওজনকে সাবধানতার সাথে শুরু করা দরকার। যেহেতু বিভিন্ন আউটপুট ইউনিট বিভিন্ন গ্রেডিয়েন্ট সংকেত প্রাপ্ত করে, এই প্রতিসাম্যতা ব্রেকিং ইস্যু আউটপুট ওজনকে (আউটপুট ইউনিটগুলিতে) উদ্বেগ দেয় না, সুতরাং এটিও শূন্যে সেট করা যেতে পারে।
কিছু সূচনা কৌশল:
- [2] এবং [3] ফ্যান-ইন এর বর্গমূলের বিপরীত দ্বারা স্কেলিংয়ের পরামর্শ দেয়
- গ্লারোট এবং বেনজিও (২০১০) এবং ডিপ লার্নিং টিউটোরিয়ালগুলি ফ্যান-ইন এবং ফ্যান-আউটের সংমিশ্রণ ব্যবহার করে:
- r=6fan-in+fan-out−−−−−−−−−√
- r=46fan-in+fan-out−−−−−−−−−√
- আরবিএম-এর ক্ষেত্রে, 0.1 বা 0.01-এর কাছাকাছি একটি ছোট স্ট্যান্ডার্ড বিচ্যুততার সাথে শূন্য-গড় গাউসিয়ান ওজন শুরু করতে খুব ভাল (হিন্টন, ২০১০) কাজ করে।
- অরথোগোনাল এলোমেলো ম্যাট্রিক্স ইনিশিয়েশন, অর্থাৎ
W = np.random.randn(ndim, ndim); u, s, v = np.linalg.svd(W)
তারপরে u
আপনার আরম্ভের ম্যাট্রিক্স হিসাবে ব্যবহার করুন ।
এছাড়াও, নিরীক্ষণযোগ্য প্রাক-প্রশিক্ষণ কিছু পরিস্থিতিতে সহায়তা করতে পারে:
প্যারামিটারগুলি আরম্ভ করার জন্য কারও অব্যবহৃত প্রাক-প্রশিক্ষণ (এবং কোনটি নিখরচায় বৈশিষ্ট্য শেখার অ্যালগরিদম ব্যবহার করা উচিত) তা গুরুত্বপূর্ণ is বেশিরভাগ সেটিংসে আমরা সাহায্যের জন্য নিরীক্ষণমূলক প্রাক-প্রশিক্ষণ পেয়েছি এবং খুব কমই আঘাত লাগবে, তবে অবশ্যই এটি অতিরিক্ত প্রশিক্ষণের সময় এবং অতিরিক্ত হাইপার-পরামিতিগুলি বোঝায়।
কিছু এএনএন লাইব্রেরিতে কিছু আকর্ষণীয় তালিকা রয়েছে যেমন লাসাগন :
Constant([val]) Initialize weights with constant value.
Normal([std, mean]) Sample initial weights from the Gaussian distribution.
Uniform([range, std, mean]) Sample initial weights from the uniform distribution.
Glorot(initializer[, gain, c01b]) Glorot weight initialization.
GlorotNormal([gain, c01b]) Glorot with weights sampled from the Normal distribution.
GlorotUniform([gain, c01b]) Glorot with weights sampled from the Uniform distribution.
He(initializer[, gain, c01b]) He weight initialization.
HeNormal([gain, c01b]) He initializer with weights sampled from the Normal distribution.
HeUniform([gain, c01b]) He initializer with weights sampled from the Uniform distribution.
Orthogonal([gain]) Intialize weights as Orthogonal matrix.
Sparse([sparsity, std]) Initialize weights as sparse matrix.
[1] বেঞ্জিও, যোশুয়া। " গভীর আর্কিটেকচারের গ্রেডিয়েন্ট-ভিত্তিক প্রশিক্ষণের জন্য ব্যবহারিক প্রস্তাবনা " "নিউরাল নেটওয়ার্ক: ট্রেডের কৌশল। স্প্রিঞ্জার বার্লিন হাইডেলবার্গ, 2012. 437-478।
[2] লেকান, ওয়াই, বোটোউ, এল।, ওআর, জিবি, এবং মুলার, কে। (1998a)। দক্ষ ব্যাকপ্রপ নিউরাল নেটওয়ার্কগুলিতে, ব্যবসায়ের কৌশল ।
[3] গ্লোরোট, জাভিয়ার এবং ইওশুয়া বেনজিও। " গভীর ফিডফর্ডার নিউরাল নেটওয়ার্কগুলির প্রশিক্ষণের অসুবিধা বোঝা ।" কৃত্রিম বুদ্ধিমত্তা এবং পরিসংখ্যান সম্পর্কিত আন্তর্জাতিক সম্মেলন। 2010।