নিউরাল নেটওয়ার্কের প্রাথমিক ওজন এলোমেলোভাবে কেন করা হয়?


10

নিউরাল নেটওয়ার্কগুলির সাথে প্রচুর অভিজ্ঞতা আছে এমন ব্যক্তির পক্ষে এটি নির্বোধ শোনায় তবে এটি আমাকে বিরক্ত করে ...

আমি বোঝাতে চাইছি প্রাথমিক ওজনকে এলোমেলো করে দেওয়া হতে পারে আপনাকে আরও ভাল ফলাফল দেওয়া যেতে পারে যা প্রশিক্ষিত নেটওয়ার্কের মতো দেখতে কিছুটা কাছাকাছি হতে পারে তবে এটি কী হওয়া উচিত তার ঠিক বিপরীত হতে পারে, যখন যুক্তিসঙ্গত ওজনের পরিসরের জন্য 0.5 বা অন্য কোনও গড় average মানটি একটি ভাল ডিফল্ট সেটিংয়ের মতো শোনাবে ...

কেন নিউরনের প্রাথমিক ওজনগুলি তাদের সকলের জন্য 0.5 টির পরিবর্তে এলোমেলো করা হচ্ছে?


আমার সম্পাদনায় সমস্যা কি ছিল? আপনার কি মনে হয় আপনার উন্নতি করা যায় না?
nbro

@ এনব্রো একাধিক প্রশ্ন যুক্ত করে, যা এটি খুব বিস্তৃত করে তোলে ...
মাতাস ভাইটকেভিচিয়াস

আমি কি প্রশ্ন যুক্ত করেছি যা আপনার পোস্টে উপস্থিত নেই? অনুমান হিসাবে আপনি যা বলেছিলেন তা আমি কেবল প্রশ্ন হিসাবে সংস্কার করেছি।
nbro

যাইহোক, আপনার কথাটি এমনকি সঠিক নয়। ওজনগুলি এলোমেলোভাবে করা হচ্ছে না, তবে এগুলি এলোমেলোভাবে শুরু করা হচ্ছে। এটি দুটি পৃথক ধারণা এবং আপনি দ্বিতীয়টি বোঝাতে চেয়েছিলেন। আমার সম্পাদনাটি শব্দটিও উন্নত করার উদ্দেশ্যে করা হয়েছিল।
nbro

@ এনব্রো হাই, দেখুন আমি আপত্তিজনক ছিলাম না এবং অবশ্যই আপনাকে আপত্তি জানাতে চাইনি। আমি খুব প্রশ্ন জিজ্ঞাসা, শব্দ এবং সব কিছুতে খারাপ। সুতরাং আমি দুঃখিত যদি আমি আপনাকে বিরক্তি প্রকাশ করি।
মাতাস ভাইটকিভিসিয়াস

উত্তর:


6

নিউরাল নেটওয়ার্কের প্রাথমিক ওজন এলোমেলোভাবে শুরু করা হয় কারণ নিউরাল নেটওয়ার্কগুলি প্রশিক্ষণের জন্য সাধারণত গ্রেডিয়েন্ট ভিত্তিক পদ্ধতিগুলি কার্যকর হয় না যখন সমস্ত ওজন একই মানের সাথে আরম্ভ হয়। যদিও নিউরাল নেটওয়ার্কগুলি প্রশিক্ষণ দেওয়ার সমস্ত পদ্ধতি গ্রেডিয়েন্ট ভিত্তিক নয় তবে বেশিরভাগ ক্ষেত্রে এটি প্রদর্শিত হয়েছে যে নিউরাল নেটওয়ার্কটিকে একই মান হিসাবে আরম্ভ করার ফলে নেটওয়ার্কটি একটি সর্বোত্তম সমাধানে রূপান্তর করতে অনেক বেশি সময় নেয়। এছাড়াও, আপনি যদি নিজের নিউরাল নেটওয়ার্কটি স্থানীয় মিনিমাতে আটকে গিয়েছিলেন বলে পুনরায় প্রশিক্ষণ চান তবে এটি একই স্থানীয় মিনিমে আটকে যাবে। উপরের কারণগুলির জন্য, আমরা প্রাথমিক ওজনকে ধ্রুবক মান হিসাবে সেট করি না।

তথ্যসূত্র: আপনি যখন ওজনের সমান মান শুরু করবেন তখন ব্যাকপ্রসারণ কাজ করবে না কেন?


আসলে, যদি সমস্ত ওজন একই থাকে তবে এগুলি ভেঙে যায়।
কুনাক্স

9

আপনার সব কিছু 0.5 তে অর্পণ করা উচিত নয় কারণ আপনার "ব্রেক সাম্যমিতি" সমস্যাটি ছিল।

http://www.deeplearningbook.org/contents/optimization.html

সম্ভবত সম্পূর্ণ দৃ with়তার সাথে পরিচিত একমাত্র সম্পত্তি হ'ল প্রাথমিক প্যারামিটারগুলির বিভিন্ন ইউনিটের মধ্যে " ব্রেক প্রতিসাম্য " হওয়া দরকার । যদি একই অ্যাক্টিভেশন ফাংশন সহ দুটি লুকানো ইউনিট একই ইনপুটগুলির সাথে সংযুক্ত থাকে, তবে এই ইউনিটগুলির অবশ্যই পৃথক প্রাথমিক পরামিতি থাকতে হবে। যদি তাদের একই প্রাথমিক প্যারামিটার থাকে, তবে একটি ডিস্ট্রিমেন্টিক লার্নিং অ্যালগরিদম একটি ডিটারমিনিস্টিক ব্যয় এবং মডেল প্রয়োগ করা হয় যা এই উভয় ইউনিটকে একইভাবে আপডেট করে। এমনকি মডেল বা প্রশিক্ষণ অ্যালগরিদম বিভিন্ন ইউনিটগুলির জন্য বিভিন্ন আপডেটের গণনা করতে স্টোকাস্টিস্টিটি ব্যবহার করতে সক্ষম হলেও (উদাহরণস্বরূপ, যদি ড্রপআউট সহ একটি ট্রেন) তবে অন্যান্য ইউনিটগুলির সমস্ত থেকে আলাদা ফাংশন গণনা করার জন্য প্রতিটি ইউনিটকে সাধারণত সূচনা করা ভাল best এটি নিশ্চিত করতে সাহায্য করতে পারে যে কোনও ইনপুট নিদর্শন অগ্রগতির শূন্য স্থানে হারিয়ে না যায় এবং পিছনে-প্রসারের শূন্য স্থানে কোনও গ্রেডিয়েন্ট নিদর্শন নষ্ট হয় না।


2

এটি একটি খুব গভীর প্রশ্ন। অতিমাত্রায় গভীর নেটওয়ার্কের জন্য গ্রেডিয়েন্ট বংশোদ্ভূত রূপান্তরিত হওয়ার প্রমাণ সহ সম্প্রতি কয়েকটি ধারাবাহিক কাগজপত্র ছিল (উদাহরণস্বরূপ, গ্রেডিয়েন্ট বংশোদ্ভূত ডিপ নিউরাল নেটওয়ার্কগুলির গ্লোবাল মিনিমা সন্ধান করে , ওভার-প্যারামিটারাইজেশন বা স্টোচাস্টিক গ্রেডিয়েন্ট বংশোদ্ভূত ডিপ অনুকূল করে তোলে রিলু নেটওয়ার্ক )। এগুলি সমস্ত ওজনের এলোমেলো গাউসীয় বিতরণের শর্ত প্রমাণ। প্রমাণের জন্য এটি দুটি কারণের উপর নির্ভর করে:

  1. এলোমেলো ওজনগুলি রিয়েলইউকে পরিসংখ্যানগতভাবে সংকোচন ম্যাপিং তৈরি করে (লিনিয়ার রূপান্তর পর্যন্ত)

  2. যেকোন ইনপুট বিতরণের জন্য এলোমেলো ওজনগুলি ইনপুটের পৃথকীকরণ সংরক্ষণ করে - এটি হ'ল যদি ইনপুট নমুনাগুলি পৃথকযোগ্য নেটওয়ার্ক প্রচারগুলি তাদের অবিচ্ছেদ্য করে তোলে না

এই বৈশিষ্ট্যগুলি ডিটারমিনিস্টিক ম্যাট্রিক্সের সাথে পুনরুত্পাদন করা খুব কঠিন এবং এমনকি তারা যদি ডিটারমিনিস্টিক ম্যাট্রিক্সের সাথে পুনরুত্পাদনযোগ্য হয় তবে নল-স্পেস (বিপরীতে উদাহরণগুলির ডোমেন) সম্ভবত পদ্ধতিটিকে অযৌক্তিক করে তুলবে এবং গ্রেডিয়েন্ট বংশদ্ভুত সময়ে এই সম্পত্তিগুলির আরও গুরুত্বপূর্ণ সংরক্ষণ সম্ভবত পদ্ধতিটিকে অযৌক্তিক করে তুলবে। তবে সামগ্রিকভাবে এটি অত্যন্ত কঠিন তবে অসম্ভব নয় এবং এটি কিছু দিকনির্দেশনার জন্য ওয়ারেন্ট দিতে পারে। অনুরূপ পরিস্থিতিতে, সেখানে কিছু ফলাফল ছিল নির্ণায়ক ম্যাট্রিক্স জন্য বিধিনিষেধযুক্ত Isometry প্রপার্টি মধ্যে সংকুচিত সেন্সিং

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.