চূড়ান্ত (উত্পাদনের জন্য প্রস্তুত) মডেলকে সম্পূর্ণ ডেটা বা কেবল প্রশিক্ষণের সেটে প্রশিক্ষিত করা উচিত?


23

ধরুন আমি প্রশিক্ষণ সংস্থায় বেশ কয়েকটি মডেলকে প্রশিক্ষিত করেছি, ক্রস বৈধতা সেট এবং পরীক্ষার সেটে পরিমাপকৃত পারফরম্যান্স ব্যবহার করে সেরাটি বেছে নিন। সুতরাং এখন আমি একটি চূড়ান্ত সেরা মডেল আছে। আমি কি কেবলমাত্র প্রশিক্ষণ সংস্থায় প্রশিক্ষিত আমার উপলব্ধ সমস্ত ডেটা বা শিপ সমাধানগুলিতে পুনরায় প্রশিক্ষণ করব? যদি পরে, তবে কেন?

আপডেট: @ পি। উইন্ড্রিজে যেমন উল্লেখ করা হয়েছে, পুনরায় প্রশিক্ষিত মডেলটি শিপিংয়ের অর্থ বৈধতা ছাড়াই কোনও মডেল শিপিং। তবে আমরা টেস্ট সেট পারফরম্যান্সের প্রতিবেদন করতে পারি এবং এর পরে পুরো ডেটাগুলিতে মডেলটিকে পুনরায় প্রশিক্ষণ দিতে পারফরম্যান্স আরও ভাল হবে আশা করে - কারণ আমরা আমাদের সেরা মডেল প্লাস আরও ডেটা ব্যবহার করি। এই ধরনের পদ্ধতি থেকে কী সমস্যা দেখা দিতে পারে?


আপনি কি বাহ্যিক নিয়ন্ত্রিত পরিবেশে কাজ করছেন? (অর্থাৎ সম্ভবত আপনাকে অবশ্যই বৈধতাযুক্ত মডেলটি পাঠাতে হবে এবং আপনার প্রশ্নটি কেবল অনুমানমূলক তবে এটি যেভাবেই হোক আলোচনা করার মতো :))। সম্পাদনা: ঠিক আছে আমি আপনার পোস্ট সম্পাদিত দেখতে পাচ্ছি।
পি। উইন্ড্রিজ

আপনি কি বিশ্বাস করেন যে আপনার পরীক্ষার ডেটা জনসংখ্যার প্রতিনিধি / জনসংখ্যার একটি অংশকে দেব নমুনায় নয়? আপনার মূল বিকাশের নমুনার কি কোনওভাবে ঘাটতি রয়েছে?
পি। উইন্ড্রিজ

@ পি। উইন্ড্রিজ ভাল, আমার প্রশ্নটি কেবল অনুমানমূলক। আপনার দ্বিতীয় মন্তব্য সম্পর্কে আমি বিশ্বাস করি যে কোনও ইঞ্জিনিয়ারকে অপ্রত্যাশিত তথ্য দেওয়ার সময় কোনও ভাল মডেলকে প্রশিক্ষণ দেওয়ার আশা করা উচিত নয়।
ইউরি

1
আমি এমন অনেকগুলি পরিস্থিতি কল্পনা করতে পারি না যেখানে আপনি বৈধতা ছাড়াই কোনও মডেল পাঠাবেন। আমি বরং পরীক্ষার নমুনার আকার হ্রাস করতে চাই (এটি এখনও বৈধতার পক্ষে যথেষ্ট বড় হওয়ার কারণে!)। সম্ভবত আরও আকর্ষণীয় আলোচনা হ'ল / সমস্ত / ডেটা ভিত্তিক মডেলটির পক্ষে / বেছে নেওয়া / বেছে নেওয়া / এবং তারপরে একটি উপ-নমুনা ব্যবহার করে প্রশিক্ষণ দেওয়া এবং তারপরে বাকী অংশগুলিকে বৈধতা প্রদান করা।
পি। উইন্ড্রিজ

1
অনুরূপ প্রশ্ন = stats.stackexchange.com/questions/174026/… , যদিও আমি মনে করি এটি আরও আলোচনার ব্যবহার করতে পারে
P.Windridge

উত্তর:


15

পুরো নমুনায় রিফিট করার পরে আপনি প্রায় সর্বদা আরও ভাল মডেল পাবেন। তবে অন্যরা যেমন বলেছে আপনার কোনও বৈধতা নেই। এটি ডেটা বিভাজনের পদ্ধতির একটি মৌলিক ত্রুটি। সামগ্রিক মডেলটিতে সরাসরি নমুনার পার্থক্যের মডেল করার হারানো সুযোগকে কেবলমাত্র ডেটা বিভক্ত করেই নয়, তবে আপনার পুরো নমুনাটি সম্ভবত 15,000 বিষয়গুলির চেয়ে বড় না হলে এটি অস্থির। এই কারণেই নির্ভুলতা এবং স্থায়িত্ব অর্জনের জন্য 10-ভাঁজ ক্রস-বৈধকরণের 100 পুনরাবৃত্তি প্রয়োজনীয় (নমুনা আকারের উপর নির্ভর করে) এবং কেন শক্তিশালী অভ্যন্তরীণ বৈধতার জন্য বুটস্ট্র্যাপটি আরও ভাল। বুটস্ট্র্যাপ বৈশিষ্ট্য বাছাইয়ের কাজটি কতটা কঠিন এবং স্বেচ্ছাসেবী তা প্রকাশ করে।

বায়োমেডিকাল রিসার্চ সেকশন 10.11 বিভাগে বায়োস্ট্যাটাস্টিকসে আরও বিস্তারিতভাবে আমি 'বাহ্যিক' বৈধতার সমস্যাগুলি বর্ণনা করেছি ।


আমার ক্ষেত্রের পরিভাষা (বিশ্লেষণাত্মক রসায়ন) আপনি প্রশিক্ষণের শুরু করার আগে (এর আগে) কোনও অভ্যন্তরীণ বৈধতা যাচাই করার সময় যে কোনও ডেটা বিভক্ত করার বিষয়টি বিবেচনা করবেন । একটি নিবেদিত বৈধতা অধ্যয়ন এবং রিং পরীক্ষার মধ্যে কোথাও বাহ্যিক বৈধতা শুরু হবে।
মনিকাকে সমর্থন করে সিবেলাইটস

0

আপনাকে আবার প্রশিক্ষণের দরকার নেই। আপনি যখন আপনার ফলাফলগুলি প্রতিবেদন করেন, আপনি সর্বদা পরীক্ষার ডেটা ফলাফলের প্রতিবেদন করেন কারণ তারা আরও ভাল বোঝাপড়া দেয়। পরীক্ষার ডেটা সেট করে আমরা আরও সঠিকভাবে দেখতে পারি যে কোনও মডেল কীভাবে নমুনা ছাড়াই ডেটাতে সম্পাদন করতে পারে।


4
আমরা টেস্ট সেট পারফরম্যান্সের প্রতিবেদন করতে পারি এবং এর পরে পুরো ডেটাতে মডেলটিকে পুনরায় প্রশিক্ষণ দিতে পারফরম্যান্সটি আরও ভাল হওয়ার প্রত্যাশা করে - কারণ আমরা সেরা মোড প্লাস আরও ডেটা ব্যবহার করি। আমার যুক্তিতে কোনও ত্রুটি আছে কি?
ইউুরি

ঠিক আছে যদি পরীক্ষার পরে আপনি আরও ডেটা সংগ্রহ করেন তবে আপনি তথ্যটি পুনরায় বিভক্ত করতে পারেন, এটিকে আবার প্রশিক্ষণ দিতে পারেন, তারপরে পুনরায় পরীক্ষা করুন এবং তারপরে পুনরায় পরীক্ষা থেকে পরীক্ষার ফলাফলের প্রতিবেদন করতে পারেন।
উমর

6
পুরো নমুনাটি অনুমান না করে আপনি উচ্চ দক্ষতার সুযোগটি পূর্বে রেখেছেন। এটি ন্যায়সঙ্গত নয়। আমি উপরের ইউরির মন্তব্যের সাথেও একমত।
রিচার্ড হার্ডি

@ রিচার্ড হার্দি, আমার মন্তব্যে কী ভুল?
উমার

এটি আমার শেষ মন্তব্যে বানান। মডেলটি অনুমান করার জন্য সমস্ত ডেটা ব্যবহার না করে আপনি সর্বোচ্চ উপলব্ধ দক্ষতার অগ্রগতি করছেন fore কেন যে?
রিচার্ড হার্ডি
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.