কেন প্রশিক্ষণ এবং পরীক্ষার সেটে ডেটা বিভক্ত করা যথেষ্ট নয়


18

আমি জানি যে শ্রেণিবদ্ধের কর্মক্ষমতা অ্যাক্সেস করতে আমাকে ডেটা প্রশিক্ষণ / পরীক্ষার সেটে বিভক্ত করতে হবে। তবে এটি পড়া :

অনুমানকারীদের জন্য আলাদা আলাদা সেটিংস ("হাইপারপ্যারামিটার") মূল্যায়ন করার সময়, যেমন সি সেটিং যা ম্যানুয়ালি একটি এসভিএমের জন্য সেট করা উচিত, পরীক্ষার সেটটিতে ওভারফিট করার ঝুঁকি এখনও থাকে কারণ অনুমানকারী অনুকূলভাবে সম্পাদন না করা পর্যন্ত পরামিতিগুলি টুইট করা যায়। এইভাবে, পরীক্ষার সেট সম্পর্কে জ্ঞান মডেলটিতে "ফাঁস" করতে পারে এবং মূল্যায়ন মেট্রিকগুলি সাধারণীকরণের কর্মক্ষমতা সম্পর্কে আর রিপোর্ট করে না। এই সমস্যাটি সমাধান করার জন্য, ডেটাসেটের আরও একটি অংশ তথাকথিত "বৈধতা সেট" হিসাবে ধরা যেতে পারে: প্রশিক্ষণ সেটটিতে প্রশিক্ষণ এগিয়ে যায়, যার পরে বৈধতা সেটটিতে মূল্যায়ন হয় এবং যখন পরীক্ষাটি সফল বলে মনে হয় চূড়ান্ত মূল্যায়ন পরীক্ষা সেটে করা যেতে পারে।

আমি দেখতে পাচ্ছি যে অন্য একটি (তৃতীয়) বৈধতা সেট চালু করা হয়েছে যা হাইপারপ্যারামিটারে টিউন করার সময় পরীক্ষার সেটকে ওভারফিট করে ন্যায়সঙ্গত।

সমস্যাটি হ'ল আমি বুঝতে পারি না যে এই ওভারফিটিংটি কীভাবে উপস্থিত হতে পারে এবং তাই তৃতীয় সেটটির ন্যায়সঙ্গততা বুঝতে পারি না।


2
আমি মনে করি এখানে প্রচুর বিভ্রান্তি "বৈধতা" শব্দটির ভিন্ন অর্থ বা 2 থেকে 3 থেকে এসেছে। ক্রস-বৈধকরণের বৈধতা সাধারণত কোনও বিভাজন ছাড়াই-প্রতিস্থাপন পদ্ধতির জন্য একটি নাম। উদ্ধৃত পাঠ্যে "বৈধকরণ" সেটটি "টিউনিং" বা "অপ্টিমাইজেশন সেট" হিসাবে IMHO কে আরও ভাল বোঝা যাবে। যেখানে "বৈধতা" যেমন ইঞ্জিনিয়ারিং বা বিশ্লেষণী রসায়ন বলতে বোঝানো হয় যে প্রদত্ত চূড়ান্ত পদ্ধতিটি তার উদ্দেশ্যে উপযুক্ত - যা "পরীক্ষার" সেট দ্বারা সম্পন্ন (সিমুলেটেড, আনুমানিক) হয়। (আমার কাছে, টেস্টিং যাচাইয়ের চেয়ে অনেক কম চূড়ান্ত বলে মনে হচ্ছে ...)
সিবিলেটগুলি মনিকা

উত্তর:


17

যদিও আপনি প্রশিক্ষণের ডেটাতে একচেটিয়াভাবে মডেলগুলি প্রশিক্ষণ দিচ্ছেন, আপনি পরীক্ষার সেটটির উপর ভিত্তি করে হাইপারপ্যারামিটারগুলি (উদাহরণস্বরূপ একটি এসভিএমের জন্য ) অনুকূল করছেন। যেমন, আপনার পারফরম্যান্সের প্রাক্কলন আশাবাদী হতে পারে, কারণ আপনি মূলত সেরা-কেস ফলাফলের প্রতিবেদন করছেন। এই সাইটের কেউ কেউ ইতিমধ্যে উল্লেখ করেছেন যে, পরিসংখ্যানের মধ্যে সমস্ত অপকর্মের মূলে অপ্টিমাইজেশনসি

পারফরম্যান্সের প্রাক্কলন সর্বদা সম্পূর্ণ স্বাধীন ডেটাতে করা উচিত। আপনি যদি পরীক্ষার ডেটার ভিত্তিতে কিছু দিক অপ্টিমাইজ করে থাকেন তবে আপনার পরীক্ষার ডেটা আর স্বাধীন নয় এবং আপনার একটি বৈধকরণ সেটটি লাগবে।

এর সাথে মোকাবিলা করার আরেকটি উপায় হ'ল নেস্টেড ক্রস-বৈধকরণ , যা প্রতিটিের চারপাশে মোড়ানো দুটি ক্রস-বৈধকরণ পদ্ধতি নিয়ে গঠিত। অভ্যন্তরীণ ক্রস-বৈধকরণ টিউনিংয়ে ব্যবহৃত হয় (হাইপারপ্যারামিটারগুলির একটি নির্দিষ্ট সেটটির কার্যকারিতা অনুমানের জন্য, যা অনুকূলিত হয়) এবং বাইরের ক্রস-বৈধকরণটি পুরো মেশিন লার্নিং পাইপলাইনের সাধারণীকরণের পারফরম্যান্সটি অনুমান করে (যেমন, হাইপারপ্যারামিটারগুলি + চূড়ান্ত মডেলটিকে প্রশিক্ষণ দেয় )।


আমি ভুল হতে পারি তবে পরীক্ষার সেটটি হাইপারপ্যারামিটারগুলি সুর করার জন্যই নয় বিভিন্ন ধরণের কৌশলগুলির সাথে তুলনা করার জন্য যেমন এলডিএ বা এলোমেলো বনের তুলনায় যেমন এসভিএমের পারফরম্যান্স আমি আমার উত্তরে উল্লেখ করেছি।

@fcoppens হ্যাঁ, অবশ্যই। আমি স্পষ্টভাবে এটি উল্লেখ করিনি, তবে এটি অবশ্যই সেই পদক্ষেপের সাথে খাপ খায়।
মার্ক ক্লেসেন

1
আরও সাধারণভাবে, এখানে সুর বা অপ্টিমাইজেশন হ'ল ধরণের ডেটা-চালিত (অভ্যন্তরীণ ক্রস-বৈধকরণের মাধ্যমে) প্রক্রিয়া।
ক্যাবিলাইটস

@ মার্কক্লেসেন আমার একটি প্রশ্ন আছে। আমার যদি হাইপারপ্যারামিটারের 2 টি পৃথক মান থাকে এবং আমি এই 2 টি মডেলকে প্রশিক্ষণ সংস্থায় ফিট করি, তবে সেগুলি পরীক্ষার সেটটিতে প্রয়োগ করি, তবে পরীক্ষার সেটে আমার প্রাপ্ত ত্রুটি হারটি কি সত্য ভবিষ্যদ্বাণী ত্রুটির হারের নিরপেক্ষ অনুমানক হওয়া উচিত? এই 2 মডেল? কারণ আপনি যদি এখন আমাকে অন্য একটি স্বতন্ত্র পরীক্ষার ডেটা সেট দেন তবে এই নতুন পরীক্ষার ডেটা সেটটি মূলত পূর্ববর্তী পরীক্ষার সেটের মতো। সুতরাং কোনও মডেলের যদি আরও ভাল পরীক্ষার স্কোর থাকে তবে এটি একটি নতুন পরীক্ষার ডেটা সেটটিতে অন্য মডেলকেও ছাড়িয়ে যায়। কেন আমাদের বৈধতা সেট প্রয়োজন?
কেভিনকিম

"আপনি যদি পরীক্ষার ডেটার ভিত্তিতে কিছু দিক অপ্টিমাইজ করে থাকেন তবে আপনার পরীক্ষার ডেটা আর স্বতন্ত্র নয় এবং আপনার একটি বৈধতা সেট দরকার হবে।" এটি অন্তর্দৃষ্টিপূর্ণ
সুদীপ ভান্ডারী

11

আমি মনে করি বিষয়গুলি এভাবে চিন্তা করা সবচেয়ে সহজ। একটি মডেল / অ্যালগরিদমের হাইপার প্যারামিটারগুলি টিউন করা এবং কোনও মডেল / অ্যালগরিদমের কার্যকারিতা মূল্যায়ন করার জন্য ক্রস বৈধকরণের জন্য দুটি জিনিস ব্যবহার করা হয়।

অ্যালগরিদমের আসল প্রশিক্ষণের অংশ হিসাবে প্রথম ব্যবহারটি বিবেচনা করুন। উদাহরণস্বরূপ, জিএলএমের জন্য নিয়মিতকরণ শক্তি নির্ধারণের জন্য ক্রস যাচাইকরণ হ'ল জিএলএমের চূড়ান্ত ফলাফল স্থাপনের অংশ। এই ব্যবহারটিকে সাধারণত অভ্যন্তরীণ ক্রস বৈধতা বলে । কারণ (হাইপার) প্যারামিটারগুলি এখনও সেট করা হচ্ছে, টিউনিং সেট হ্রাস প্রকৃত অ্যালগরিদম পারফরম্যান্সের দুর্দান্ত মাপকাঠি নয়।

ক্রস বৈধকরণের দ্বিতীয় ব্যবহারটি তার ভবিষ্যদ্বাণীক শক্তি পরীক্ষা করার জন্য, মডেলটি উত্পাদনকারী পুরো প্রক্রিয়া থেকে বাইরে থাকা ডেটা ব্যবহার করে। এই প্রক্রিয়াটিকে বাহ্যিক ক্রস বৈধতা বলা হয় ।

নোট করুন যে অভ্যন্তরীণ বৈধতা প্রক্রিয়াটির অংশ হতে পারে যা মডেল তৈরি করেছিল তাই অনেক ক্ষেত্রে অভ্যন্তরীণ এবং বাহ্যিক ক্রস বৈধকরণ প্রয়োজন।


ব্যক্তিগতভাবে, আমি "বাহ্যিক ক্রস বৈধকরণ" বাক্যাংশটি ব্যবহার করব না, কারণ আমি মডেল নির্বাচন এবং টিউনিংয়ের উদ্দেশ্যে প্রশিক্ষণের সেট থেকে বিভিন্ন বৈধতা সেটগুলির পুনরাবৃত্তি বিভক্ত হিসাবে ক্রস বৈধতা দেখতে পাব । আপনি চূড়ান্ত মডেলটির পারফরম্যান্স বিচার করার জন্য ভবিষ্যতের হিসাবে এখনও-অজানা তথ্য হিসাবে এক-অফ প্রক্সি হিসাবে এটি পরীক্ষার সেট দিয়ে অর্থপূর্ণভাবে বার বার করতে পারবেন না।
হেনরি

3
হেনরি, আমি মনে করি না আপনি বাহ্যিক ক্রস বৈধতা বুঝতে পেরেছেন। আপনি "পরীক্ষার সেটটি দিয়ে বারবার এটি করতে পারেন", বারবার আপনার সম্পূর্ণ প্রশিক্ষণের প্রক্রিয়া চালিয়ে যাওয়ার সময় পরীক্ষার উদ্দেশ্যে আপনার পুরো ডেটার কিছু অংশ বারবার ধরে রাখার (যার মধ্যে অভ্যন্তরীণ ক্রস বৈধতা থাকতে পারে)। বাহ্যিক ক্রস বৈধকরণ এখনও সাধারণত ভাঁজগুলিতে সম্পন্ন হয় এবং মূল ডেটাগুলির জন্য কোনও কোনও সময় টেস্ট সেটে থাকতে দেয়।
jlimahaverford

αα

2

মডেল বিল্ডিংয়ের সময় আপনি আপনার মডেলগুলিকে প্রশিক্ষণের নমুনায় প্রশিক্ষণ দিন । মনে রাখবেন যে আপনি বিভিন্ন মডেল (যেমন এসভিএম, এলডিএ, র‌্যান্ডম ফরেস্টের মতো বিভিন্ন কৌশল ... বা টিউনিং প্যারামিটারগুলির বিভিন্ন মান, বা একটি মিশ্রণ সহ একই কৌশল) প্রশিক্ষণ দিতে পারেন ।

আপনি প্রশিক্ষিত সমস্ত ভিন্ন মডেলের মধ্যে আপনার একটি বেছে নিতে হবে এবং তাই পরীক্ষার নমুনায় ক্ষুদ্রতম ত্রুটিযুক্ত একটি আবিষ্কার করতে আপনি বৈধতা নমুনাটি ব্যবহার করেন ।

এই 'চূড়ান্ত' মডেলের জন্য আমাদের ত্রুটিটি এখনও অনুমান করতে হবে এবং তাই আমরা পরীক্ষার নমুনাটি ব্যবহার করি ।


1
আমি আপনার দ্বিতীয় এবং তৃতীয় অনুচ্ছেদে শব্দটি বিপরীত করব: আমি সর্বোত্তম মডেলটি সন্ধানের জন্য বৈধতা সেটটি ব্যবহার করব এবং এর হাইপারপ্যারামিটারগুলি টিউন করব (প্রশিক্ষণের সেটটি যে পার্টিশনটি এই ক্রসকে বৈধতা দেয় এমন একাধিক বৈধতা সেট সহ এটি করা ) এবং, একবার মডেলটি হয়ে গেলে চূড়ান্ত করা হয়েছে, তারপরে মডেলটির বহিরাগত নমুনা কর্মক্ষেত্রের উদাহরণ দেখতে পরীক্ষার সেটটিতে এটি প্রয়োগ করুন।
হেনরি

@ হেনরি: ওকে হেনরি, আমি মনে করি পর্যায়ক্রমের লেবেলগুলি তার অনুক্রম / বিষয়বস্তুর চেয়ে কম গুরুত্বপূর্ণ তবে আপনার মন্তব্যটি আমার কাছে বোধগম্য হয়েছে, আমি পাঠ্যটি সম্পাদনা করব, ধন্যবাদ (+1)

1

মডেল নির্বাচনের ক্রস-বৈধকরণ ওভার-ফিটিং সমস্যাটিকে পুরোপুরি কাটিয়ে উঠেনি, এটি কেবল এটি হ্রাস করে। ক্রস বৈধতা ত্রুটি আপনার ব্যবহার করা ডেটা সেটের উপর নির্ভর করে। যত ছোট ডেটা সেট করা হবে তত বেশি ক্রস বৈধতা ত্রুটি।

অতিরিক্তভাবে, যদি আপনার কাছে মডেল নির্বাচনের উচ্চ ডিগ্রি থাকে তবে ক্রস বৈধকরণের মানদণ্ডটি সজ্জিত হওয়ার সাথে সাথে মডেলটি খারাপভাবে পারফর্ম করার সম্ভাবনা রয়েছে।

সুতরাং, যখন ডেটাটি 2 সেটগুলিতে বিভক্ত হয়, প্রশিক্ষণ ও পরীক্ষার সেটগুলি, তখন বিভাজনটি স্থিরভাবে করা হয়। সুতরাং, প্রশিক্ষণের সেটটি ওভারফিট করার সুযোগ রয়েছে। তবে ক্রস বৈধকরণ সেটগুলি বিভিন্ন পদ্ধতির মাধ্যমে তৈরি করা হয় , যেমন কে-ফোল্ড ক্রস বৈধকরণ, লেভ-আউট-ওয়ান-ক্রস-বৈধকরণ (এলইউসিভি), ইত্যাদি যা 2-সেট বিভক্তির যথাযথ ফিট পুরষ্কারকে নির্মূল করা হয়েছে তা নিশ্চিত করতে সহায়তা করে এবং এইভাবে ওভার ফিটের সম্ভাবনা হ্রাস পায়।

এগুলি এমন কিছু সংস্থান যা আপনাকে আরও ভালভাবে বুঝতে সহায়তা করবে।

সুতরাং, ক্রস বৈধকরণ আপনাকে আরও সাহায্য করবে যখন আপনার চেয়ে একটি ছোট ডেটার চেয়ে বেশি ডেটা সেট থাকে।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.