সংক্ষেপে: আপনার মডেলটি যাচাই করে। বৈধতার মূল কারণটি হ'ল কোনও ওভারফিট হয় না এবং সাধারণীকরণ করা মডেলটির কার্যকারিতা অনুমান করা।
Overfit
প্রথমে আসুন ওভারফিটিং আসলে কী তা দেখি। মডেলগুলি সাধারণত একটি প্রশিক্ষণ সংস্থায় কিছু ক্ষতির ফাংশন হ্রাস করে একটি ডেটাসেট ফিট করার জন্য প্রশিক্ষিত হয়। তবে এখানে একটি সীমা রয়েছে যেখানে এই প্রশিক্ষণের ত্রুটিটি হ্রাস করার ফলে মডেলগুলির সত্যিকারের পারফরম্যান্সের পক্ষে আর সুবিধা হবে না, তবে কেবলমাত্র ডেটার নির্দিষ্ট সেটটিতে ত্রুটিটি হ্রাস করুন। এর মূল অর্থ হ'ল মডেলটি কোলাহল থেকে উত্পন্ন ডেটাগুলিতে নিদর্শনগুলি মডেল করার চেষ্টা করে প্রশিক্ষণ সংস্থায় নির্দিষ্ট ডেটা পয়েন্টগুলিতে খুব দৃly়ভাবে ফিট হয়ে গেছে। এই ধারণাকে বলা হয় ওভারফিট । ওভারফিটের একটি উদাহরণ নীচে প্রদর্শিত হবে যেখানে আপনি কালোতে প্রশিক্ষণ সেট এবং পটভূমিতে প্রকৃত জনসংখ্যার থেকে বড় সেট দেখেন। এই চিত্রটিতে আপনি দেখতে পাচ্ছেন যে নীল রঙের মডেলটি ট্রেনিং সেটে খুব শক্ত করে ফিট করে, অন্তর্নিহিত শব্দের মডেলিং করে।
কোনও মডেলকে অত্যধিক উপযোগী করা হয়েছে কি না তা বিচার করার জন্য, আমাদের ভবিষ্যতের ডেটাতে মডেলটির যে সাধারণ ত্রুটি রয়েছে (বা পারফরম্যান্স) তা অনুমান করতে হবে এবং প্রশিক্ষণের সেটটিতে এটি আমাদের পারফরম্যান্সের সাথে তুলনা করে। এই ত্রুটিটি অনুমান করা বিভিন্নভাবে করা যেতে পারে।
ডেটাসেট বিভক্ত
সাধারণীকরণের পারফরম্যান্স অনুমানের সবচেয়ে সহজ পদ্ধিতি হ'ল ডেটাसेटকে তিন ভাগে বিভক্ত করা, একটি প্রশিক্ষণ সেট, একটি বৈধতা সেট এবং একটি পরীক্ষা সেট। মডেলটিকে ডেটা ফিট করার জন্য প্রশিক্ষণের জন্য ব্যবহার করা হয়, সেরাটি নির্বাচন করার জন্য মডেলগুলির মধ্যে পারফরম্যান্সের পার্থক্য পরিমাপের জন্য বৈধতা সেটটি ব্যবহার করা হয় এবং পরীক্ষার সেটটি মডেল নির্বাচন প্রক্রিয়াটি প্রথমটির চেয়ে বেশি মানায় না বলে জোর দেয় দুই সেট.
ওভারফিটের পরিমাণ অনুমান করার জন্য পরীক্ষা সেটটিতে আপনার আগ্রহের মেট্রিকগুলি কেবলমাত্র একটি শেষ পদক্ষেপ হিসাবে মূল্যায়ন করুন এবং প্রশিক্ষণ সেটে আপনার পারফরম্যান্সের সাথে এটি তুলনা করুন। আপনি আরওসি-র উল্লেখ করেছেন তবে আমার মতে আপনার অন্যান্য মেট্রিকের দিকেও নজর দেওয়া উচিত যেমন উদাহরণস্বরূপ বরিয়ার স্কোর বা মডেলটির কার্যকারিতা নিশ্চিত করার জন্য একটি ক্রমাঙ্কন প্লট। এটি অবশ্যই আপনার সমস্যার উপর নির্ভর করে। অনেকগুলি মেট্রিক রয়েছে তবে এটি এখানে বিন্দু ছাড়াও রয়েছে।
এই পদ্ধতিটি খুব সাধারণ এবং সম্মানিত তবে এটি ডেটা প্রাপ্যতার উপর একটি বড় চাহিদা রাখে। যদি আপনার ডেটাসেট খুব ছোট হয় তবে আপনি সম্ভবত প্রচুর কর্মক্ষমতা হারাবেন এবং আপনার ফলাফলগুলি বিভাজনে পক্ষপাতদুষ্ট হবে।
ক্রস বৈধতা
বৈধতা এবং পরীক্ষার জন্য ডেটার একটি বড় অংশকে নষ্ট করার এক উপায় হ'ল ক্রস-ভ্যালিডেশন (সিভি) ব্যবহার করা যা মডেলটিকে প্রশিক্ষণের জন্য ব্যবহৃত একই ডেটা ব্যবহার করে সাধারণ সম্পাদনাকে নির্ধারণ করে। ক্রস-বৈধকরণের পিছনে ধারণাটি হ'ল ডেটাসেটকে নির্দিষ্ট সংখ্যক সাবটেটে বিভক্ত করা, এবং তারপরে মডেলটিকে প্রশিক্ষণ দেওয়ার জন্য বাকী ডেটা ব্যবহার করার সময় এই সাবসেটগুলির প্রতিটি পরিবর্তে পরীক্ষার সেটগুলি হিসাবে ব্যবহার করুন। সমস্ত ভাঁজ ধরে মেট্রিকের গড় গড়ে তোলা আপনাকে মডেলটির পারফরম্যান্সের একটি অনুমান দেবে। চূড়ান্ত মডেলটি সাধারণত সমস্ত ডেটা ব্যবহার করে প্রশিক্ষিত হয়।
তবে সিভি অনুমানটি পক্ষপাতহীন নয়। তবে যত বেশি ভাঁজ আপনি তত ছোট পক্ষপাত ব্যবহার করেন তবে তার পরিবর্তে আপনি আরও বৃহত্তর বৈকল্পিক পান।
ডেটাসেট বিভাজনের মতো আমরা মডেল পারফরম্যান্সের একটি অনুমান পাই এবং আপনার প্রশিক্ষণের সেটটিতে মেট্রিকগুলি মূল্যায়ন করা থেকে আপনার সিভি থেকে মেট্রিকগুলি তুলনা করে আপনি কেবলমাত্র আপনার সিভি থেকে মেট্রিকগুলি তুলনা করুন।
বুটস্ট্র্যাপ
বুটস্ট্র্যাপের পিছনে ধারণাটি সিভির অনুরূপ তবে ডেটাসেটটি অংশগুলিতে বিভক্ত করার পরিবর্তে আমরা পুরো ডেটাসেট থেকে বারবার প্রতিস্থাপনের সাথে প্রশিক্ষণ সেটগুলি আঁকিয়ে এবং এই প্রতিটি বুটস্ট্র্যাপের নমুনায় পূর্ণ প্রশিক্ষণ পর্ব সম্পাদন করে প্রশিক্ষণে এলোমেলোতা উপস্থাপন করি।
বুটস্ট্র্যাপ বৈধতার সহজতম রূপটি কেবল প্রশিক্ষণ সংস্থায় পাওয়া নমুনাগুলির মেট্রিকগুলি (যেমন বাদ পড়েছে) এবং সমস্ত পুনরাবৃত্তির গড় গড়ে মূল্যায়ন করে।
এই পদ্ধতিটি আপনাকে মডেল পারফরম্যান্সের একটি প্রাক্কলন দেবে যা বেশিরভাগ ক্ষেত্রে সিভির চেয়ে কম পক্ষপাতদুষ্ট। আবার এটিকে আপনার প্রশিক্ষণের সেট পারফরম্যান্সের সাথে তুলনা করুন এবং আপনি ওভারফিট পাবেন।
বুটস্ট্র্যাপ বৈধতা উন্নত করার উপায় আছে। .632+ পদ্ধতিটি সাধারণ বিবেচিত মডেলের কর্মক্ষমতা সম্পর্কে আরও ভাল, আরও দৃ estima় প্রাক্কলন জানায়, ওভারফিটটিকে বিবেচনায় রাখে। (আপনি যদি আগ্রহী হন তবে মূল নিবন্ধটি ভালভাবে পড়া: ক্রস-বৈধকরণের উন্নতি: 63৩২+ বুটস্ট্র্যাপ পদ্ধতি )
আমি আশা করি এটি আপনার প্রশ্নের উত্তর দেয়। আপনি যদি মডেল বৈধকরণে আগ্রহী হন তবে আমি বইটিতে বৈধতার অংশটি পড়ার পরামর্শ দিচ্ছি পরিসংখ্যানগত শিক্ষার উপাদানগুলি: ডেটা মাইনিং, অনুমান এবং ভবিষ্যদ্বাণী যা অবাধে অনলাইনে উপলব্ধ available