আমি আশা করি যে নিম্নলিখিত প্রশ্নাগুলি আমার প্রশ্নটি কী হবে তা অন্তর্দৃষ্টি প্রদান করবে। এগুলি হ'ল http://neuranetworksandDPlearning.com/chap3.html থেকে
পড়াশোনা তখন ধীরে ধীরে ধীর হয়ে যায়। শেষ অবধি, প্রায় 280 এর প্রায় ক্লাসিফিকেশন যথার্থতা প্রায় উন্নতি বন্ধ করে। পরবর্তী যুগের যুগে যুগে যুগে যুগে যুগে যথার্থতার মানের নিকটে কেবল ছোট স্টোকাস্টিকের ওঠানামা দেখা যায়। প্রশিক্ষণের ডেটার সাথে যুক্ত ব্যয়টি সহজেই হ্রাস পেতে অবিরত পূর্বের গ্রাফের সাথে এটির বিপরীতে তুলনা করুন। আমরা যদি কেবল সেই ব্যয়ের দিকে নজর রাখি তবে দেখা যাচ্ছে যে আমাদের মডেলটি এখনও "আরও ভাল" পাচ্ছে। তবে পরীক্ষার নির্ভুলতার ফলাফলগুলি দেখায় উন্নতি একটি মায়া। যেমন ফার্মি অপছন্দ করেছিলেন সেই মডেলের মতো, আমাদের নেটওয়ার্ক 280 যুগের পরে যা শিখবে তা পরীক্ষার ডেটাগুলিতে আর সাধারণীকরণ করে না। এবং তাই এটি দরকারী শেখার নয়। আমরা বলছি যে মহাকাশটি 280 এরও বেশি ছাড়িয়ে গেছে বা অতিমাত্রায় চালিত হচ্ছে।
আমরা একটি নিউরাল নেটওয়ার্ক প্রশিক্ষণ দিচ্ছি এবং ব্যয় (প্রশিক্ষণের ডেটাতে) প্রায় 400 অবধি নেমে যাচ্ছে তবে শ্রেণিবিন্যাসের নির্ভুলতা স্থির হয়ে উঠছে (কয়েকটি স্টোকাস্টিক ওঠানামা বাদে) যুগের পরে 280 সুতরাং আমরা উপসংহারে পৌঁছেছি যে মডেল প্রশিক্ষণের পরে পোস্টের যুগের উপরে 280 ছাড়িয়ে যাচ্ছে।
আমরা দেখতে পারি যে পরীক্ষার ডেটাতে ব্যয় আরও প্রায় 15 পর্ব পর্যন্ত উন্নত হয়, তবে এর পরে এটি প্রকৃতপক্ষে আরও খারাপ হতে শুরু করে, যদিও প্রশিক্ষণের ডেটাতে ব্যয় আরও ভাল হতে থাকে। এটি অন্য একটি চিহ্ন যা আমাদের মডেলটি অত্যধিক মানানসই। এটি একটি ধাঁধা বহন করে, যদিও, আমাদের পর্বকে 15 বা মহাকাব্যকে বিবেচনা করা উচিত 288 বা মহাকাব্যকে যে পয়েন্টে ওভারফিটিং শেখার উপর প্রভাব ফেলতে চলেছে? ব্যবহারিক দৃষ্টিকোণ থেকে, আমরা সত্যই যা যত্ন করি তা হ'ল পরীক্ষার ডেটাগুলিতে শ্রেণিবিন্যাসের নির্ভুলতা উন্নত করা হয়, যখন পরীক্ষার ডেটাতে ব্যয় শ্রেণিবিন্যাসের নির্ভুলতার জন্য প্রক্সি ছাড়া আর কিছু নয়। এবং তাই এটি মহাকাব্যকে 280 পয়েন্ট হিসাবে বিবেচনা করে বিবেচ্য করে তোলে যা আমাদের স্নায়বিক নেটওয়ার্কগুলিতে অধিকতর দক্ষতা অর্জন করে learning
আগে প্রশিক্ষণের ব্যয়ের তুলনায় পরীক্ষার ডেটাতে শ্রেণিবদ্ধকরণের নির্ভুলতার বিপরীতে আমরা এখন প্রশিক্ষণের ব্যয়ের তুলনায় পরীক্ষার ডেটাতে ব্যয় রাখছি।
তারপরে বইটি ব্যাখ্যা করল যে কেন 280 হ'ল সঠিক যুগটি যেখানে ওভারফিট করা শুরু হয়েছিল। এটাই আমার একটা সমস্যা আছে। আমি এদিকে মাথা গুটিয়ে রাখতে পারি না।
আমরা মডেলকে ব্যয়কে হ্রাস করতে বলছি এবং এইভাবে খরচটি মেট্রিক এটি সঠিকভাবে শ্রেণিবদ্ধকরণের জন্য নিজের শক্তির পরিমাপ হিসাবে ব্যবহার করে। যদি আমরা ২৮০ জনকে যথাযথ যুগ হিসাবে বিবেচনা করি যেখানে ওভারফিটিং শুরু হয়েছে, আমরা কি কোনও উপায়ে মডেল তৈরি করি নি যে নির্দিষ্ট পরীক্ষার তথ্যের জন্য আরও ভাল শ্রেণিবদ্ধকারী তবে তবুও কম আত্মবিশ্বাসের সাথে সিদ্ধান্ত নিচ্ছে এবং তাই বিচ্যুত হওয়ার প্রবণতা আরও বেশি পরীক্ষার তথ্য দেখানো ফলাফল থেকে?