কীভাবে: ডিপ নিউরাল নেটওয়ার্ক ওজন সূচনা

প্রদত্ত কঠিন শেখার টাস্ক (যেমন উচ্চ মাত্রা, সহজাত তথ্য জটিলতা) ডীপ নিউরাল নেটওয়ার্ক ট্রেন কঠিন হয়ে পড়ে। সমস্যার সমাধান করতে পারে যে কেউ:

&& হ্যান্ডপিকের মানের ডেটা স্বাভাবিক করুন
একটি ভিন্ন প্রশিক্ষণ অ্যালগরিদম চয়ন করুন (যেমন গ্রেডিয়েন্ট বংশদ্ভুতের পরিবর্তে আরএমএসপ্রপ)
স্টিপার গ্রেডিয়েন্ট কস্ট ফাংশনটি বেছে নিন (যেমন এমএসইয়ের পরিবর্তে ক্রস এন্ট্রপি)
বিভিন্ন নেটওয়ার্ক কাঠামো ব্যবহার করুন (যেমন ফিডফোর্ডের পরিবর্তে কনভলিউশন স্তরগুলি)

আমি শুনেছি আরও ভাল ওজন শুরু করার চতুর উপায় আছে। উদাহরণস্বরূপ আপনি পরিধি আরও চয়ন করতে পারেন: গ্লোরোট এবং বেনজিও (২০১০)

সিগময়েড ইউনিটগুলির জন্য: সহ একটি ইউনিফর্ম (-r, r) নমুনা $r = \sqrt{\frac{6}{N_{in} + N_{out}}}$
বা হাইপারবোলিক ট্যানজেন্ট ইউনিট: একটি ইউনিফর্ম নমুনা (-r, আর) সঙ্গে $r =4 \sqrt{\frac{6}{N_{in} + N_{out}}}$

ওজন আরও ভালতর আরম্ভ করার কোন ধারাবাহিক উপায় আছে?

— জুনাটন স্যামুয়েল
সূত্র

যতদূর আমি জানি যে দুটি সূত্র আপনি দিয়েছেন সেটি হ'ল মানক সূচনা। আমি কিছুক্ষণ আগে সাহিত্য পর্যালোচনা করেছি , আগ্রহী হলে নীচে এটি অনুলিপি করেছি।

[1] প্রশ্নটি সম্বোধন করে:

প্রথমত, ব্যাকপ্রোগ্র্যাগেট করার সময় প্রতিসাম্যতা ভাঙার জন্য ওজনগুলি জিরোতে সেট করা উচিত নয়:

বায়াসগুলি সাধারণত শূন্যে আরম্ভ করা যায় তবে একই স্তরের লুকানো ইউনিটের মধ্যে প্রতিসাম্যতা ভাঙার জন্য ওজনগুলি সাবধানতার সাথে শুরু করা দরকার। যেহেতু বিভিন্ন আউটপুট ইউনিট বিভিন্ন গ্রেডিয়েন্ট সংকেত প্রাপ্ত করে, এই প্রতিসাম্যতা ব্রেকিং ইস্যু আউটপুট ওজনকে (আউটপুট ইউনিটগুলিতে) উদ্বেগ দেয় না, সুতরাং এটিও শূন্যে সেট করা যেতে পারে।

কিছু সূচনা কৌশল:

[2] এবং [3] ফ্যান-ইন এর বর্গমূলের বিপরীত দ্বারা স্কেলিংয়ের পরামর্শ দেয়
গ্লারোট এবং বেনজিও (২০১০) এবং ডিপ লার্নিং টিউটোরিয়ালগুলি ফ্যান-ইন এবং ফ্যান-আউটের সংমিশ্রণ ব্যবহার করে:
- সিগময়েড ইউনিটগুলির জন্য: সহ একটি ইউনিফর্ম (-r, r) নমুনা (ফ্যান-ইন সংখ্যাটি ইউনিটের ইনপুট)। $r=\sqrt{\frac{6}{\text{fan-in}+\text{fan-out}}}$
- হাইপারবোলিক ট্যানজেন্ট ইউনিটগুলির জন্য: (ফ্যান-ইনটি হ'ল ইউনিফর্ম (-r, আর) এর নমুনা ইউনিটের ইনপুট সংখ্যা)। $r=4 \sqrt{\frac{6}{\text{fan-in}+\text{fan-out}}}$
আরবিএম-এর ক্ষেত্রে, 0.1 বা 0.01-এর কাছাকাছি একটি ছোট স্ট্যান্ডার্ড বিচ্যুতি সম্পন্ন শূন্য-গড় গাউসিয়ান ওজন শুরু করার জন্য (হিন্টন, ২০১০) ভাল কাজ করে।
অর্থোগোনাল এলোমেলো ম্যাট্রিক্স ইনিশিয়েশন, অর্থাৎ W = np.random.randn(ndim, ndim); u, s, v = np.linalg.svd(W)তারপরে uআপনার আরম্ভের ম্যাট্রিক্স হিসাবে ব্যবহার করুন ।

এছাড়াও, নিরীক্ষণযোগ্য প্রাক-প্রশিক্ষণ কিছু পরিস্থিতিতে সহায়তা করতে পারে:

প্যারামিটারগুলি আরম্ভ করার জন্য কারও উচিত অপ্রচলিত প্রাক-প্রশিক্ষণ (এবং কোনটি নিরীক্ষণযোগ্য বৈশিষ্ট্য শেখার অ্যালগরিদম ব্যবহার করা উচিত) তা ব্যবহার করা উচিত। বেশিরভাগ সেটিংসে আমরা সাহায্যের জন্য নিরীক্ষণমূলক প্রাক-প্রশিক্ষণ পেয়েছি এবং খুব কমই আঘাত লাগবে, তবে অবশ্যই এটি অতিরিক্ত প্রশিক্ষণের সময় এবং অতিরিক্ত হাইপার-পরামিতিগুলি বোঝায়।

কিছু এএনএন গ্রন্থাগারের কিছু আকর্ষণীয় তালিকা রয়েছে যেমন লাসাগন :

Constant([val]) Initialize weights with constant value.
Normal([std, mean]) Sample initial weights from the Gaussian distribution.
Uniform([range, std, mean]) Sample initial weights from the uniform distribution.
Glorot(initializer[, gain, c01b])   Glorot weight initialization.
GlorotNormal([gain, c01b])  Glorot with weights sampled from the Normal distribution.
GlorotUniform([gain, c01b]) Glorot with weights sampled from the Uniform distribution.
He(initializer[, gain, c01b])   He weight initialization.
HeNormal([gain, c01b])  He initializer with weights sampled from the Normal distribution.
HeUniform([gain, c01b]) He initializer with weights sampled from the Uniform distribution.
Orthogonal([gain])  Intialize weights as Orthogonal matrix.
Sparse([sparsity, std]) Initialize weights as sparse matrix.

[1] বেঞ্জিও, যোশুয়া। " গভীর আর্কিটেকচারের গ্রেডিয়েন্ট ভিত্তিক প্রশিক্ষণের জন্য ব্যবহারিক প্রস্তাবনা " "নিউরাল নেটওয়ার্ক: ট্রেডের কৌশল ricks স্প্রিঞ্জার বার্লিন হাইডেলবার্গ, 2012. 437-478।

[2] লেকান, ওয়াই, বোটোউ, এল।, ওআর, জিবি, এবং মুলার, কে। (1998a)। দক্ষ ব্যাকপ্রপ নিউরাল নেটওয়ার্কগুলিতে, ব্যবসায়ের কৌশল ।

[3] গ্লোরোট, জাভিয়ার এবং ইওশুয়া বেনজিও। " গভীর ফিডফর্ডার নিউরাল নেটওয়ার্কগুলির প্রশিক্ষণের অসুবিধা বোঝা ।" কৃত্রিম বুদ্ধিমত্তা এবং পরিসংখ্যান সম্পর্কিত আন্তর্জাতিক সম্মেলন। 2010।

— ফ্রাঙ্ক ডারনকোর্ট
সূত্র

ব্যাচের নরমালাইজেশন হ'ল আপনি যা অনুভব করছেন বলে মনে হচ্ছে। এখানে বর্ণিত: arxiv.org/abs/1502.03167 কার্যকর হতে পারে।

— জুনাটন স্যামুয়েল

কাইমিং হি, জিয়ানজিউ জাং, শাওকিং রেন, জিয়ান সান একটি নতুন নিবন্ধ প্রকাশ করেছেন যার মধ্যে গ্লোরোট এবং বেঞ্জিওয়ের জাভিয়ার ওজন সূচনাকরণের একটি ভিন্নতা রয়েছে: " ডেলিভিং ডিপ ইন রেটিফায়ার্স: ইমেজনেট শ্রেণিবিন্যাসে মানব-স্তরের পারফরম্যান্সকে ছাড়িয়ে যাওয়া" ।

— mjul