কেন কেবল তিনটি পার্টিশন? (প্রশিক্ষণ, বৈধতা, পরীক্ষা)


61

আপনি যখন একটি বড় ডেটাসেটে মডেলগুলি ফিট করার চেষ্টা করছেন, তখন সাধারণ পরামর্শটি হ'ল ডেটাটিকে তিন ভাগে বিভক্ত করা: প্রশিক্ষণ, বৈধতা এবং পরীক্ষা ডেটাসেট।

এটি কারণ মডেলগুলির সাধারণত প্যারামিটারগুলির তিনটি "স্তর" থাকে: প্রথম "পরামিতি" হ'ল মডেল বর্গ (যেমন এসভিএম, নিউরাল নেটওয়ার্ক, এলোমেলো বন), পরামিতিগুলির দ্বিতীয় সেট হ'ল "নিয়মিতকরণ" পরামিতি বা "হাইপারপ্যারামিটার" ( যেমন লাসো পেনাল্টি সহগ, কর্নেলের পছন্দ, নিউরাল নেটওয়ার্ক কাঠামো) এবং তৃতীয় সেটটি সাধারণত "প্যারামিটার" হিসাবে বিবেচিত হয় (যেমন কোভেরিয়েটের জন্য সহগ))

একটি মডেল শ্রেণি এবং হাইপারপ্যারামিটারের পছন্দ দেওয়া, প্রশিক্ষণ সংস্থায় ত্রুটি হ্রাসকারী পরামিতিগুলি বেছে নিয়ে পরামিতিগুলি বেছে নেওয়া হয়। একটি মডেল শ্রেণি দেওয়া হয়েছে, কেউ বৈধতা সেটটিতে ত্রুটি হ্রাস করে হাইপারপ্রেমিটারগুলিকে সুর দেয়। একটি পরীক্ষা সেটে পারফরম্যান্সের মাধ্যমে মডেল শ্রেণি নির্বাচন করে।

তবে কেন আরও পার্টিশন নেই? প্রায়শই একজন হাইপারপ্যারামিটারগুলিকে দুটি গ্রুপে বিভক্ত করতে পারে এবং প্রথমটির জন্য "বৈধকরণ 1" এবং দ্বিতীয়টির সাথে ফিট করার জন্য "বৈধতা 2" ব্যবহার করতে পারে। বা এমন কেউ প্রশিক্ষণের ডেটা / বৈধতা ডেটা বিভক্ত করার আকারকে হাইপারপ্যারামিটার হিসাবে সুর করতে পারে।

এটি ইতিমধ্যে কিছু অ্যাপ্লিকেশনগুলিতে একটি সাধারণ অভ্যাস? তথ্যের অনুকূল বিভাজন নিয়ে কি কোনও তাত্ত্বিক কাজ রয়েছে?

উত্তর:


79

প্রথমত, আমি মনে করি আপনি তিনটি পার্টিশন কী করেন সে সম্পর্কে ভুল করে বসেছেন। আপনি পরীক্ষার ডেটার ভিত্তিতে কোনও পছন্দ করেন না। আপনার অ্যালগরিদমগুলি প্রশিক্ষণের ডেটার ভিত্তিতে তাদের পরামিতিগুলি সামঞ্জস্য করে। তারপরে আপনি আপনার অ্যালগোরিদমগুলি (এবং তাদের প্রশিক্ষিত প্যারামিটারগুলি) তুলনা করতে এবং কোনও বিজয়ীর বিষয়ে সিদ্ধান্ত নেওয়ার জন্য বৈধতা ডেটাতে এগুলি চালান। তারপরে আপনি আসল বিশ্বে এটি কতটা ভাল করবে তার পূর্বাভাস দেওয়ার জন্য আপনি নিজের পরীক্ষার ডেটাতে বিজয়ীকে চালান।

আপনি প্রশিক্ষণ ডেটাতে বৈধতা দেয় না কারণ এটি আপনার মডেলগুলির চেয়ে বেশি মানাবে। আপনি বৈধতা পদক্ষেপের বিজয়ীর স্কোর এ থামবেন না কারণ আপনি বৈধতা পদক্ষেপে বিজয়ী হওয়ার জন্য পুনরাবৃত্তভাবে জিনিসগুলি সামঞ্জস্য করে চলেছেন এবং তাই আপনাকে একটি স্বাধীন পরীক্ষা দেওয়ার প্রয়োজন (যা আপনি নির্দিষ্টভাবে সামঞ্জস্য করেননি) আপনাকে একটি উপহার দেওয়ার জন্য আপনি বর্তমান অঙ্গনের বাইরে কতটা ভাল করবেন তার ধারণা।

দ্বিতীয়ত, আমি ভাবব যে এখানে একটি সীমাবদ্ধ ফ্যাক্টর হ'ল আপনার কাছে কতটা ডেটা রয়েছে। বেশিরভাগ সময়, আমরা এমনকি ডেটা কোনও স্থির পার্টিশনে বিভক্ত করতে চাই না, তাই সিভি।


2
আমার কাছে ধারণাগত সমস্যাটি হ'ল আপনি যদি পর্যাপ্ত মডেলগুলির সাথে তুলনা করছেন, আপনি বৈধতা ডেটা ব্যবহার করে "বিজয়ীর বিষয়ে সিদ্ধান্ত নেবেন" যখন আপনি কার্যকরভাবে বৈধতার ডেটাতে ফিট করছেন। সুতরাং এখনও বৈধতা ডেটা বিভাজন একটি পয়েন্ট হতে পারে।
Charles.y.zheng

আমি মনে করি প্রশিক্ষণ-বৈধকরণ স্তর এবং বৈধতা-পরীক্ষার স্তরটি কিছুটা অর্থে বিভিন্ন উদ্দেশ্যে পরিবেশন করে এবং আপনি যদি বিজয়ী ঘোষনা করতে যাচ্ছেন তবে আপনাকে শেষ পর্যন্ত একটি সাধারণ বৈধতা সেটগুলিতে মডেলগুলির তুলনা করতে হবে। সুতরাং আমি নিশ্চিত নই যে অতিরিক্ত স্তরগুলি সহায়তা করে। (যদিও আমার জ্ঞানটি সত্যই জানার মতো গভীর নয়)) আপনার পরামর্শের সাথে আমি সবচেয়ে কাছের জিনিসটি ভাবতে পারি যে নেটফ্লিক্স প্রতিযোগিতাটি কীভাবে চালানো হয়েছিল। আমি বিশ্বাস করি যে তারা দলগুলিকে পরীক্ষার সেট গ্রেডিয়েন্টে উঠতে না দেওয়ার জন্য আংশিক পরীক্ষা সেট ব্যবহার করেছিল, তবে আমি মনে করি এটি অন্যরকম।
ওয়েইন

2
@ ব্যবহারকারী ১০৮৮২, আপনার মন্তব্য সঠিক নয়, ফায়ারব্যাগও নয়। উভয় (1) মডেল প্যারামিটার (ওজন, প্রান্তিক ক্ষেত্র) এবং (2) তথাকথিত "হাইপার" পরামিতি (লুকানো স্তরগুলির সংখ্যা, সিদ্ধান্ত গাছের সংখ্যা) হতে পারে, এর বিস্তর ব্যাখ্যা এবং অনুভূতি থাকতে পারে, তবে সবগুলিই কেবলমাত্র পরামিতিগুলির মধ্যে আলাদা হয় মডেল । তাদের সকলের অনুকূলকরণের জন্য প্রশিক্ষণ ডেটা ব্যবহার করুন, অতিরিক্ত-ফিটিং এড়াতে বৈধতা ডেটা ব্যবহার করুন এবং আপনার ফলাফল স্থিতিশীল রয়েছে তা নিশ্চিত করতে ক্রস বৈধকরণ ব্যবহার করুন। পরীক্ষার ডেটা কেবলমাত্র আপনার মডেলের প্রত্যাশিত কর্মক্ষমতা নির্দিষ্ট করে দেয়, এটি গ্রহণ / প্রত্যাখ্যান করার জন্য এটি ব্যবহার করবেন না।
Ytsen de Boer

1
@ রুবেনভেনবার্গেন: আপনি কী বলছেন তা আমি বুঝতে পেরেছি এবং এটি ব্যবহারকারীর কাছে উল্লেখ করা ভাল এবং দরকারী 10 তবে আমি এখনও যুক্তি দিচ্ছি যে এটি শেষ পর্যন্ত একটি প্রযুক্তিত্ব। বলুন যে আপনি গ্রেডিয়েন্ট বংশোদ্ভূত অ্যালগরিদম ব্যবহার করেন যা ধাপের দিকটি নির্ধারণ করতে প্রশিক্ষণের ডেটা ব্যবহার করে (বহুভুজ ডিগ্রি সহ ) একটি বৈধকরণ প্রক্রিয়া যা গ্রেডিয়েন্ট বংশোদ্ভূত অ্যালগরিদমের প্রতিটি ধাপে প্রশিক্ষণের ক্ষতিতে বৈধতা হ্রাস যুক্ত করে (প্রথমটির মতো) বাঁধন)। এখন "স্বাভাবিক" বা "হাইপার" এর মধ্যে পার্থক্যটি আর প্রাসঙ্গিক নয়: এটি পদ্ধতির উপর নির্ভর করে। n
Ytsen de Boer

1
@ ইয়াস্তেবোয়ের: যথেষ্ট ভাল - আপনি যদি বৈধতা ভিত্তিক প্রাথমিক স্টেপ ব্যবহারের মতো ব্যবহার করেন তবে আমি অন্তত অপ্টিমাইজেশান পদ্ধতির ক্ষেত্রে সীমানাগুলি ঝাপসা হয়ে যাওয়ার বিষয়ে সম্মত। আমার মতে এটি যদিও নিয়মিত একটির সাথে "হাইপারপ্যারামিটার" ধারণাটিকে পুরোপুরি একীভূত করে না। এখনও অনেক পরিস্থিতি রয়েছে যেখানে তাদের সাথে আলাদা আচরণ করা হয়, এবং আমি তাদের সম্পর্কে একটি মডেল সংজ্ঞায়িত করার ক্ষেত্রে তাদের ভূমিকার ক্ষেত্রে আলাদাভাবে চিন্তা করি। যাইহোক, আমি আশা করি যে এই আলোচনাগুলি এই ধারণাগুলির মধ্যে (সূক্ষ্ম) পার্থক্য এবং সাদৃশ্যগুলি বর্ণনা করার জন্য অন্যদের পক্ষে কার্যকর হয়েছে)
রুবেন ভ্যান বার্গেন

0

এটি আকর্ষণীয় প্রশ্ন, এবং আমি এটি @ ওয়াইন এর উত্তর দিয়ে সহায়ক বলে মনে করেছি।

আমার উপলব্ধি থেকে, ডেটাসেটকে বিভিন্ন বিভাগে ভাগ করা লেখকের উদ্দেশ্য এবং বাস্তব বিশ্বের প্রয়োগে মডেলের প্রয়োজনীয়তার উপর নির্ভর করে।

সাধারণত আমাদের দুটি ডাটসেট থাকে: প্রশিক্ষণ এবং পরীক্ষা। মডেলগুলির পরামিতিগুলি অনুসন্ধান করতে, বা মডেলগুলির সাথে ফিট করার জন্য প্রশিক্ষণটি ব্যবহার করা হয়। অপরিবর্তিত তথ্য (বা আসল ওয়ার্ল্ড ডেটা) এর মাধ্যমে মডেলটির পারফরম্যান্স মূল্যায়নের জন্য পরীক্ষারটি ব্যবহৃত হয়।

আমরা যদি প্রশিক্ষণের জন্য কেবল একটি পদক্ষেপ করি, তবে এটি স্পষ্ট যে একটি প্রশিক্ষণ এবং একটি পরীক্ষা (বা যাচাইকরণ) প্রক্রিয়া রয়েছে।

যাইহোক, এই পদ্ধতিতে করা, মডেলটি যখন একটি ডেটাসেট, ওয়ানটাইম সহ প্রশিক্ষিত হয় তখন এটি ওভার-ফিটিং সমস্যা বাড়িয়ে তুলতে পারে। এটি বাস্তব বিশ্বের সমস্যার মধ্যে মডেলটির অস্থিরতা হতে পারে। এই সমস্যাটি সমাধান করার একটি উপায় হ'ল প্রশিক্ষণ ডেটাসেটের মডেলটি ক্রস-ভ্যালিডেট (সিভি) করা। এর অর্থ, আমরা প্রশিক্ষণ ডেটা সেটকে বিভিন্ন ভাঁজগুলিতে বিভক্ত করি, অন্য ভাঁজগুলির সাথে প্রশিক্ষিত মডেলটির পরীক্ষার জন্য একটি ভাঁজ রাখি। বিজয়ী এখন সেই ব্যক্তি যা পুরো সিভি প্রক্রিয়াতে ন্যূনতম ক্ষতি (আমাদের নিজস্ব উদ্দেশ্য ফাংশনের ভিত্তিতে) দেয় give এইভাবে করে, আমরা নিশ্চিত করতে পারি যে প্রশিক্ষণ প্রক্রিয়ায় আমরা ওভার ফিটের সম্ভাবনা হ্রাস করব এবং সঠিক বিজয়ী নির্বাচন করব। অদৃশ্য তথ্যগুলিতে বিজয়ীর মূল্যায়ন করতে আবার পরীক্ষা সেট ব্যবহার করা হয়।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.