প্রচুর অভিজ্ঞতামূলক প্রমাণ রয়েছে যে গভীর পর্যাপ্ত নিউরাল নেটওয়ার্কগুলি বিশাল ডেটাসেটগুলিতে এলোমেলো লেবেল মুখস্থ করতে পারে (চিউয়ান জাং, সামি বেঞ্জিও, মরিটজ হার্ড্ট, বেনজমিন রেচ্ট, ওরিওল ভিনিয়ালস, "গভীর শিক্ষার বোঝার জন্য পুনরায় বিবেচনা করা সাধারণীকরণ প্রয়োজন")। সুতরাং নীতিগতভাবে একটি বৃহত পরিমাণে এনএন পেয়ে আমরা প্রশিক্ষণের ত্রুটিটিকে সর্বদা খুব ছোট মানগুলিতে হ্রাস করতে পারি , সংখ্যাগত নির্ভুলতার দ্বারা অনুশীলনে সীমাবদ্ধ, কাজটি যতই অর্থহীন হোক না কেন।
সাধারণকরণের ত্রুটির জন্য বিষয়গুলি একেবারেই আলাদা । আমরা নিশ্চিত হতে পারি না যে প্রতিটি শেখার সমস্যার জন্য, এমন একটি শিক্ষণযোগ্য এনএন মডেল উপস্থিত রয়েছে যা সাধারণীকরণের ত্রুটিটিকে যতটা ইচ্ছা তত কম উত্পাদন করতে পারে। এই কারণে প্রথম পদক্ষেপটি হয়
1. আপনার প্রত্যাশা সঠিকভাবে সেট করুন
একটি নামী রেফারেন্স সন্ধান করুন যা আপনাকে বলবে যে এমন একটি আর্কিটেকচার রয়েছে যা আপনার সন্ধানের সাধারণীকরণ ত্রুটিতে পৌঁছতে পারে, আপনার ডেটা সেটে বা সর্বাধিক অনুরূপ যার জন্য আপনি রেফারেন্সগুলি খুঁজে পেতে পারেন। উদাহরণস্বরূপ, এখানে দেখুন
বর্তমানের অত্যাধুনিক কনভ্যুশনাল নিউরাল নেটওয়ার্কগুলি কী কী?
সিএনএন-এর বিভিন্ন কাজের জন্য SOTA (স্টেট অফ দ্য আর্ট) পারফরম্যান্স সন্ধানের জন্য (উত্তরগুলির সময়) OT আপনার নিজের ডেটা সেটটিতে প্রশিক্ষণের আগে, আপনার সমস্ত অবকাঠামোগুলি যথাযথভাবে ঠিক আছে কিনা তা পরীক্ষা হিসাবে, এই তথ্যসূত্রের ডেটা সেটগুলিতে এই জাতীয় ফলাফলগুলি পুনঃপ্রবর্তনের চেষ্টা করা ভাল ধারণা।
২. নিশ্চিত করুন যে আপনার প্রশিক্ষণের পদ্ধতিটি ত্রুটিহীন
প্রশ্নের উত্তরে বর্ণিত সমস্ত চেক
আমার নিউরাল নেটওয়ার্কটি শিখতে না পারলে আমার কী করা উচিত?
আপনার প্রশিক্ষণের পদ্ধতিটি ঠিক আছে কিনা তা নিশ্চিত করার জন্য, সাধারণীকরণের ত্রুটি সফল হ্রাসের পূর্বশর্ত (যদি আপনার এনএন শিখছে না, তবে এটি সাধারণকরণ শিখতে পারে না)। এই চেকগুলিতে অন্যান্য স্টাফগুলির মধ্যে রয়েছে:
- ইউনিট পরীক্ষা
- ডেটাসেট চেক (প্রশিক্ষণ সেট এবং পরীক্ষা সেট উভয়ের জন্য কয়েকটি এলোমেলো ইনপুট / লেবেলের নমুনাগুলি একবার দেখুন এবং লেবেলগুলি সঠিক কিনা তা পরীক্ষা করুন; ইনপুট চিত্রগুলির প্রস্থ এবং আকার চেক করুন; প্রশিক্ষণ / পরীক্ষার সেটে নমুনাগুলি পরিবর্তন করুন এবং দেখুন এটি প্রভাবিত করে কিনা ফলাফল; ইত্যাদি)
- র্যান্ডমাইজেশন পরীক্ষা
- আপনার প্রিপ্রোসেসিং এবং প্যাকেজ সংস্করণগুলিকে মানিক করুন
- সংখ্যাগত পরীক্ষাগুলির একটি লগবুক রাখুন
৩. সুপার কনভার্জেন্সি পাওয়ার চেষ্টা করুন
লেসেলি এন। স্মিথ এবং নিকোলে টোপিনের "সুপার- কনভার্জেন্স: নিউ লার্নিং রেটগুলি ব্যবহার করে নিউরাল নেটওয়ার্কগুলির খুব দ্রুত প্রশিক্ষণ" দেখায় যে কিছু ক্ষেত্রে লেসেলি এন স্মিথের চক্রীয় শিক্ষার হার পদ্ধতির সাথে বড় শিক্ষার হারের সংমিশ্রণ নিয়মিত হিসাবে কাজ করে , আকারের ক্রম দ্বারা অভিব্যক্তিকে ত্বরান্বিত করা এবং ব্যাপক নিয়ন্ত্রণের প্রয়োজনীয়তা হ্রাস করা। সুতরাং এটি আগে চেষ্টা করা ভাল জিনিস
৪) আপনার নিয়মিতকরণকে ম্যাক্সএক্সএক্সএক্স সেট করা হচ্ছে
নিয়মিতকরণ প্রায়শই প্রশিক্ষণের সময় বাড়ায় (খারাপ), প্রশিক্ষণের ত্রুটি বৃদ্ধি করে এবং সাধারণীকরণের ত্রুটি (ভাল) হ্রাস করে, তবে খুব বেশি নিয়মিতকরণ আসলে উভয় ত্রুটি (আন্ডারফিটিং) বাড়িয়ে তুলতে পারে। এই কারণে, এবং প্রশিক্ষণের সময় বৃদ্ধির কারণে, আপনি প্রশিক্ষণের সেটটি সাফল্যের সাথে সফলভাবে পরিচালিত করার পরে একবারে একবারে বিভিন্ন নিয়মিতকরণ কৌশল চালু করা ভাল । নোট করুন যে নিজেই নিয়মিতকরণটি অগত্যা বোঝায় না যে আপনার সাধারণীকরণ ত্রুটি আরও কমবে: ভাল জেনারালাইজেশন বৈশিষ্ট্য অর্জনের জন্য মডেলের অবশ্যই যথেষ্ট পরিমাণে ক্ষমতা থাকতে হবে। এর প্রায়শই অর্থ হ'ল নিয়মিতকরণের সুবিধাগুলি দেখার আগে আপনার পর্যাপ্ত গভীর নেটওয়ার্কের প্রয়োজন।
প্রাচীনতম নিয়মিতকরণ পদ্ধতিগুলি সম্ভবত তাড়াতাড়ি থামানো এবং ওজন ক্ষয়। অন্যদের মধ্যে কিছু:
- ব্যাচের আকার হ্রাস করুন: ছোট ব্যাচের আকারগুলি সাধারণত ছোট সাধারণীকরণের ত্রুটির সাথে যুক্ত হয়, তাই এটি চেষ্টা করার মতো something যাইহোক, লক্ষ্য করুন যে কিছু মিনিবিচের ব্যবহারিকতার বিষয়ে বিতর্ক করে: আমার অভিজ্ঞতায় তারা সহায়তা করে (যতক্ষণ না আপনাকে মতো ক্ষুদ্র ক্ষুদ্র আকারের ব্যবহার করতে হবে ) তবে এলাদ হফফার, ইতায়ে হুবার, ড্যানিয়েল সৌদ্রি ট্রেন দীর্ঘতর, আরও সাধারণকরণ: নিউরাল নেটওয়ার্কগুলির বৃহত ব্যাচের প্রশিক্ষণে সাধারণীকরণের ব্যবধানটি বন্ধ করে দেওয়া একমত নয়। মনে রাখবেন যে আপনি যদি ব্যাচের আদর্শ ব্যবহার করেন (নীচে দেখুন), খুব ছোট মিনিব্যাচগুলি বেশ ক্ষতিকারক হবে।m=16
- অভিযোজক অপ্টিমাইজারগুলির চেয়ে এসজিডি ব্যবহার করুন: এটি ইতিমধ্যে @ শিমাও দ্বারা আচ্ছাদন করা হয়েছে, সুতরাং আমি কেবল এটি সম্পূর্ণতার জন্যই উল্লেখ করেছি
- ড্রপআউট ব্যবহার করুন: আপনি যদি LSTM ব্যবহার করেন তবে কেবলমাত্র LSTM স্তরটির ইনপুট এবং আউটপুট ইউনিটের জন্য স্ট্যান্ডার্ড ড্রপআউট ব্যবহার করুন। পুনরাবৃত্ত ইউনিটগুলির জন্য (গেটগুলি) পুনরাবৃত্ত ড্রপআউট ব্যবহার করুন, যেমন প্রথম তার পিএইচডি তে ইয়ারিন গাল দেখিয়েছেন as থিসিস । তবে আপনি যদি সিএনএন ব্যবহার করেন তবে ড্রপআউট এখন কম ঘন ঘন ব্যবহৃত হয়। পরিবর্তে, আপনি ঝোঁক ...
- ... ব্যাচের নরমালাইজেশন ব্যবহার করুন: সর্বাধিক সাম্প্রতিক সিএনএন আর্কিটেকচারগুলি ব্যাচের সাধারণীকরণের পক্ষে ড্রপআউটকে এড়িয়ে চলে। এটি কেবল একটি অভিনব হতে পারে, বা এটি সম্ভবত স্পষ্টতই ড্রপআউট এবং ব্যাচের স্বাভাবিককরণ একসাথে ভাল খেলতে না পারার কারণে হতে পারে (জিয়াং লি, শুও চেন, জিয়াওলিন হু, জিয়াং ইয়াং, ভেরিয়েন্সের মাধ্যমে ড্রপআউট এবং ব্যাচের সাধারণকরণের মধ্যে বৈষম্য বোঝা শিফট )। আপনার কাছে বিশাল ডেটা সেট থাকাকালীন ব্যাচের আদর্শ ড্রপআউটের চেয়ে কার্যকর কারণ এটি সিএনএন আর্কিটেকচারের পক্ষে ড্রপআউটকে কমে যাওয়ার কারণ হতে পারে। আপনি যদি ব্যাচের সাধারণকরণ ব্যবহার করেন তবে যাচাই করুন যে প্রতিটি স্তরের জন্য ওজন এবং বায়াসগুলির বিতরণ প্রায় সাধারণ দেখতে সাধারণ দেখাচ্ছে। আরএনএনগুলির জন্য, ব্যাচের আদর্শ বাস্তবায়ন জটিল: ওজন স্বাভাবিককরণ (টিম সালিমানস, ডিয়েডেরিক পি। কিংমা,ওজন সাধারণকরণ: গভীর স্নায়ুবিক নেটওয়ার্কগুলির প্রশিক্ষণ ত্বরান্বিত করার জন্য একটি সহজ পুনঃনির্ধারণ ) একটি কার্যকর বিকল্প।
- ডেটা বৃদ্ধির ব্যবহার করুন: এটিরও নিয়মিত প্রভাব রয়েছে।
5. হাইপারপ্যারমিটার / আর্কিটেকচার অনুসন্ধান
অন্য কিছু যদি সহায়তা না করে তবে আপনাকে একাধিক বিভিন্ন হাইপারপ্যারামিটার সেটিংস পরীক্ষা করতে হবে (বায়সিয়ান অপ্টিমাইজেশান এখানে সহায়তা করতে পারে) বা একাধিক বিভিন্ন স্থাপত্য পরিবর্তন (যেমন সম্ভবত আপনার GAN আর্কিটেকচারে এবং আপনি যে ডেটা সেটটিতে কাজ করছেন তার জন্য, ব্যাচের আদর্শটি কেবলমাত্র কাজ করে জেনারেটর, তবে যখন বৈষম্যমূলককে যুক্ত করা হয় তখন এটি আরও খারাপ করে তোলে)। এই দীর্ঘ এবং বিরক্তিকর পরীক্ষাগুলির ফলাফলগুলি একটি ভাল অর্ডারযুক্ত লগবুকটিতে রাখার বিষয়ে নিশ্চিত হন।
জনগণের পক্ষে পিএস জেনারালাইজেশন ত্রুটি সম্পর্কে কথা বলার মতো তাত্পর্যপূর্ণ নয়: উপরের উদাহরণটি কেবলমাত্র একটি ইঙ্গিত হিসাবে বোঝানো হয়েছিল যে ডিপ লার্নিংয়ে এখনও প্রচুর রসায়ন রয়েছে, এবং যে জিনিসগুলি আপনি সূক্ষ্মভাবে কাজ করার আশা করবেন, কখনও কখনও ডন 'টি, বা বিপরীতে এমন কিছু যা বেশ কয়েকবার ঠিকঠাক কাজ করেছিল, হঠাৎ করে আপনাকে নতুন ডেটা সেটের জন্য ক্রেপ দেয়।