আমি অনুমান করি যে সবচেয়ে গুরুত্বপূর্ণ বিষয়টি হ'ল আপনার ডেটাতে থাকা নমুনাগুলি ভালভাবে ছড়িয়ে পড়েছে, কারণ আপনার যতই ডেটা থাকুক না কেন, আরও ডেটা সবসময়ই ভাল। সর্বোপরি, আপনি যদি বিড়াল এবং কুকুরের ছবিগুলির মধ্যে পার্থক্য জানার চেষ্টা করেন, তবে আপনি কেবল এটি বিড়ালের চিত্রগুলি খাওয়াতে পারলে আপনার মডেলটি ভাল পারফর্ম করতে পারে না expect
কেভিন এল এর উত্তরে যেমন পরামর্শ দেওয়া হয়েছে , প্রশিক্ষণ ত্রুটি এবং পরীক্ষার ত্রুটির মধ্যে পার্থক্য বিবেচনা করা বোধগম্য। যদি আপনার পরীক্ষার ডেটা আপনার প্রশিক্ষণ ডেটা থেকে স্বতন্ত্র থাকে, এটি আপনার মডেলটি অনুপলব্ধভাবে ডেটাতে কতটা ভাল জেনারেলাইজ করে তা একটি ইঙ্গিত দেয়। আমি এর সাথে যুক্ত করতে চাই এমন একটি বিষয় হ'ল প্রশিক্ষণ এবং পরীক্ষার ত্রুটির মধ্যে একটি বিরাট পার্থক্য কেবল আপনাকেই বলে দেয় যে আপনার মডেলটি ভাল জেনারেট করে না, অর্থাৎ আপনি প্রশিক্ষণের ডেটাতে বেশি মানিয়ে নিচ্ছেন। আরও ডেটা সম্ভবত সাহায্য করবে, কারণ এখন নেটওয়ার্ককে অতিরিক্ত ডেটা পয়েন্টের মডেল করা প্রয়োজন, অতএব এখন আর এটিকে বেশি মানিয়ে নিতে পারে না। তবে এটি আপনার মডেলটিকে আরও ভালভাবে উন্নত করার জন্য এটি আরও সার্থক হতে পারে। একটি দুর্দান্ত বই থেকে এই অধ্যায় আরও সাধারণীকরণ পেতে কী ধরণের নিয়মিতকরণ বিদ্যমান এবং কীভাবে নেটওয়ার্কগুলিতে সেগুলি প্রয়োগ করা যেতে পারে তা ব্যাখ্যা করে।
আপনি যদি আরও পরিমাণের পরিমাপ খুঁজছেন, আমি সম্প্রতি কোরাসায় এই প্রশ্নটি পেয়েছি। এটি একটি অটো-এনকোডার সম্পর্কিত, তবে আমার ধারণা এটিও আপনার উদাহরণের জন্য প্রযোজ্য। এটি সঠিক কিনা আমার কোনও ধারণা নেই (দয়া করে আমাকে জানান) তবে আমি যুক্তি দেব যে উদাহরণস্বরূপ এমএনআইএসটির জন্য, কেউ যুক্তি দিতে পারে যে আপনি সর্বোচ্চ 28 * 28 * 8 * 10 000 = 62 720 000 দিয়ে চিত্রগুলি হ্রাস করার চেষ্টা করছেন 10-10 * 10 000 = 1 000 000 এন্ট্রপির বিট সহ এক-হট এনকোডিংয়ে দশ ক্লাসে এনট্রপি বিট। যেহেতু আমরা আউটপুটে কেবলমাত্র ইন্ট্রপির 1 000 000 বিটগুলিতে আগ্রহী তাই আমরা বলতে পারি যে 1 000 000 পরামিতিগুলির সাথে প্রতিটি পরামিতি একক বিট উপস্থাপন করে যা প্রতি নমুনায় 1e-4 বিট হয় is এর অর্থ আপনার আরও ডেটা লাগবে। অথবা আপনার কাছে খুব বেশি পরামিতি রয়েছে, কারণ 100 পরামিতি সহ, আপনার প্রতি প্যারামিটারে 10 000 বিট রয়েছে এবং তাই প্রতি নমুনায় 1 বিট। যাহোক,