কীভাবে সহজ পদক্ষেপে ড্রপআউট নিয়মিতকরণ ব্যাখ্যা করবেন?

17

ড্রপআউট ব্যাখ্যা করার জন্য যদি আপনার অর্ধেক পৃষ্ঠা থাকে তবে আপনি কীভাবে এগিয়ে যাবেন? এই কৌশলটির পিছনে যৌক্তিকতা কোনটি?

— ডেভিড সি
সূত্র

14

ড্রপআউট নিবন্ধটির বিমূর্ততা পুরোপুরি কার্যকর বলে মনে হচ্ছে।

নীতীশ শ্রীবাস্তব, জেফ্রি হিন্টন, অ্যালেক্স ক্রিজেভস্কি, ইলিয়া সুটস্কিভার, রাস্লান সালখুটদিনভ, " ড্রপআউট: ওভারফিটিং থেকে নিউরাল নেটওয়ার্ক রোধ করার একটি সহজ উপায় ", মেশিন লার্নিং রিসার্চ , 2014।

বিপুল সংখ্যক প্যারামিটার সহ গভীর নিউরাল নেটগুলি খুব শক্তিশালী মেশিন লার্নিং সিস্টেম। তবে এই জাতীয় নেটওয়ার্কগুলিতে ওভারফিটিং একটি গুরুতর সমস্যা। বড় নেটওয়ার্কগুলি ব্যবহারেও ধীর হয়, পরীক্ষার সময় বিভিন্ন বড় বড় নিউরাল জালগুলির ভবিষ্যদ্বাণীগুলির সংমিশ্রণ করে ওভারফিটিংয়ের সাথে মোকাবিলা করতে অসুবিধা হয়। ড্রপআউট এই সমস্যাটি সমাধানের একটি কৌশল। মূল ধারণাটি হ'ল প্রশিক্ষণের সময় নিউরাল নেটওয়ার্ক থেকে এলোমেলোভাবে ইউনিটগুলি (তাদের সংযোগগুলি সহ) বাদ দেওয়া। এটি ইউনিটকে বেশি পরিমাণে অভিযোজিত হতে বাধা দেয়। প্রশিক্ষণ চলাকালীন, বিভিন্ন "পাতলা" নেটওয়ার্কগুলির একটি ক্ষতিকারক সংখ্যার থেকে ছাড়ার নমুনা। পরীক্ষার সময়, কেবলমাত্র ছোট ওজন রয়েছে এমন একক অপ্রচলিত নেটওয়ার্ক ব্যবহার করে এই সমস্ত পাতলা নেটওয়ার্কগুলির পূর্বাভাসের গড় গড়ের প্রভাবটি অনুমান করা সহজ। এটি উল্লেখযোগ্যভাবে ওভারফিটকে হ্রাস করে এবং অন্যান্য নিয়মিতকরণ পদ্ধতির তুলনায় বড়ো উন্নতি দেয়। আমরা দেখাই যে ড্রপআউট অনেকগুলি মাপদণ্ডের ডেটা সেটগুলিতে অত্যাধুনিক ফলাফল প্রাপ্তিতে দৃষ্টি, বক্তৃতা স্বীকৃতি, ডকুমেন্টের শ্রেণিবিন্যাস এবং কম্পিউটেশনাল বায়োলজিতে তদারকি করা শেখার কাজগুলিতে স্নায়বিক নেটওয়ার্কগুলির কার্যকারিতা উন্নত করে।

আপনি যদি কাগজটি পড়ে থাকেন তবে আপনি ড্র-আউট প্রসঙ্গে সহ-অভিযোজিত আচরণের অর্থ কী তার একটি বর্ণনা পাবেন।

একটি স্ট্যান্ডার্ড নিউরাল নেটওয়ার্কে, প্রতিটি প্যারামিটারের দ্বারা প্রাপ্ত ডেরিভেটিভ এটিকে কীভাবে পরিবর্তন করা উচিত তা জানায় যাতে চূড়ান্ত ক্ষতির ক্রিয়াকলাপ হ্রাস হয়, অন্য সমস্ত ইউনিট কী করছে। সুতরাং, ইউনিটগুলি এমনভাবে পরিবর্তন করতে পারে যাতে তারা অন্যান্য ইউনিটের ভুলগুলি সংশোধন করে। এটি জটিল সহ-অভিযোজন হতে পারে। ফলস্বরূপ এটি অত্যধিক মানসিকতার দিকে পরিচালিত করে কারণ এই সহ-অভিযোজনগুলি অদেখা তথ্যগুলিতে সাধারণীকরণ করে না। আমরা অনুমান করি যে প্রতিটি লুকানো ইউনিটের জন্য, ড্রপআউট অন্যান্য লুকানো ইউনিটের উপস্থিতি অবিশ্বস্ত করে সহ-অভিযোজন রোধ করে। অতএব, একটি লুকানো ইউনিট তার ভুলগুলি সংশোধন করতে অন্যান্য নির্দিষ্ট ইউনিটের উপর নির্ভর করতে পারে না। এটি অবশ্যই অন্যান্য লুকানো ইউনিট দ্বারা সরবরাহিত বিভিন্ন প্রসঙ্গে বিভিন্ন প্রকারে ভাল পারফর্ম করতে হবে। এই প্রভাবটি সরাসরি পর্যবেক্ষণ করতে,

— সাইকোরাক্স মনিকাকে রিইনস্টেট বলে
সূত্র

8

এই উত্তরটি সাইকোরাক্সের দুর্দান্ত উত্তরের একটি ফলোআপ , যারা পাঠকরা কীভাবে ড্রপআউট বাস্তবায়ন হয় তা দেখতে চান।

কৃত্রিম নিউরাল নেটওয়ার্কগুলিতে ড্রপআউট প্রয়োগ করার সময়, একজনকে এই সত্যটি পূরণ করতে হবে যে প্রশিক্ষণের সময় নিউরনের একটি অংশ নিষ্ক্রিয় করা হয়েছিল। এটি করার জন্য, দুটি সাধারণ কৌশল বিদ্যমান:

প্রশিক্ষণ পর্বের সময় ড্রপআউটটি উল্টানো:

পরীক্ষার সময় অ্যাক্টিভেশন স্কেলিং:

/pঅনুমান কোড, যেখানে এটি হয়ে প্রশিক্ষণ থেকে সরানো হয় *p:

এই তিনটি স্লাইড স্ট্যান্ডফোর্ড সিএস 231 এন থেকে বক্তৃতা 6 থেকে এসেছে: ভিজ্যুয়াল স্বীকৃতির জন্য কনভোলিউশনাল নিউরাল নেটওয়ার্কগুলি ।

— ফ্রাঙ্ক ডারনকোর্ট
সূত্র

5

ক্ষণে ক্ষণে ড্রপআউট (ইনপুট ডেটার একটি ব্যাচে) কিছু স্তরকে কিছু স্তরে স্যুইচ করে যাতে তারা কোনও তথ্য অবদান রাখে না বা সেই আপডেটগুলির সময় কোনও তথ্য শিখতে না পারে এবং অনস আরও কঠোর শিখতে এবং ত্রুটি হ্রাস করতে অন্যান্য সক্রিয় নিউরনের উপর পড়ে।

যদি আমাকে year বছরের বৃদ্ধের কাছে ড্রপ আউটটি ব্যাখ্যা করতে হয় তবে এইভাবে: একটি দৃশ্যের কল্পনা করুন, শ্রেণিকক্ষে কোনও শিক্ষক কিছু প্রশ্ন জিজ্ঞাসা করেন তবে সবসময় একই দুটি বাচ্চা উত্তর দেয়, সঙ্গে সঙ্গে। এখন, শিক্ষক তাদের কিছু সময়ের জন্য চুপ থাকতে এবং অন্যান্য ছাত্রদের অংশ নিতে দিন। এইভাবে অন্যান্য শিক্ষার্থীরা আরও ভালভাবে শিখতে পারে। হতে পারে তারা ভুল উত্তর দেয়, তবে শিক্ষক সেগুলি সংশোধন করতে পারেন (ওজন আপডেট)। এইভাবে পুরো ক্লাস (স্তর) কোনও বিষয় সম্পর্কে আরও ভাল জানুন।

— শুভম অগ্রওয়াল
সূত্র

0

আপনি কোনও বৈশিষ্ট্য (বা কিছু মধ্যবর্তী স্তরের সুপ্ত বৈশিষ্ট্য) তাতে কিছু আসে যায় না - বা স্প্রাইক (শূন্যের পয়েন্ট ভর = বৈশিষ্ট্য কোনও বিষয় নয়) এবং স্ল্যাব (ফ্ল্যাট = অ-নিয়ন্ত্রিত) এর বিষয়ে পূর্বের সম্ভাবনা হিসাবে আপনি ড্রপ-আউটটিকে দেখতে পারেন পূর্বে পুরো প্যারামিটার স্থান জুড়ে)।

গুরুত্বপূর্ণভাবে, এটি আপনাকে কেবল মডেল ফিটিংগুলিকে নিয়মিত করার অনুমতি দেয় না, তবে অনুমান সম্পর্কে অনিশ্চয়তাও অর্জন করতে পারে। এই আলোচনা করা হয় গবেষণা প্রবন্ধে এবং কাগজপত্র (এছাড়াও এই Yarin গালা)।

— Björn
সূত্র