কেন বৈধতা সেট এবং পরীক্ষা সেট উভয় ব্যবহার?


17

একটি নিউরাল নেটওয়ার্ক বিবেচনা করুন:

প্রদত্ত ডেটা সেট করার জন্য, আমরা এটিকে প্রশিক্ষণ, বৈধতা এবং পরীক্ষার সেটগুলিতে ভাগ করি। ধরুন আমরা এটি ক্লাসিক :20০:২০:২০ অনুপাতে করি, তারপরে আমরা নেটওয়ার্কটিকে বৈধতা সেটটিতে যাচাই করে ওভারফিটিং আটকাতে পারি। তাহলে এর কার্যকারিতা যাচাই করতে পরীক্ষার সেটটিতে এটি পরীক্ষা করার দরকার কী?

নেটওয়ার্কের জন্য যেমন টেস্ট সেটের ত্রুটিটি বৈধতা সেট হিসাবে কিছুটা একই হবে না এটি বৈধতা সেটগুলির মতোই একটি অদেখা ডেটা এবং সেগুলি উভয়ই সংখ্যায় একই?

পরিবর্তে আমরা কী এটিতে পরীক্ষার সেটটি মার্জ করে প্রশিক্ষণ সেটটি বাড়িয়ে তুলতে পারি না যাতে আমাদের আরও প্রশিক্ষণের ডেটা থাকে এবং নেটওয়ার্ক ট্রেনগুলি আরও ভাল হয় এবং তারপরে ওভারফিটিং প্রতিরোধের জন্য বৈধতা সেটটি ব্যবহার করে? আমরা কেন এটি করি না?


4
আপনি এটির মতো হতে চাই তবে আপনি নিশ্চিত হতে পারবেন না কারণ আপনি হাইপারপ্যারামিটার অপ্টিমাইজেশান এবং তাড়াতাড়ি থামার জন্য এটি স্পর্শ করেছেন, সুতরাং আপনার ভার্জিন পরীক্ষার সেট দরকার।
এমেরে

@ এমরে তবে ওজন ট্রেনিং সেটের উপর ভিত্তি করে সামঞ্জস্য হবে এবং বৈধতা সেটের ভিত্তিতে নয়, সুতরাং পরীক্ষার এবং বৈধতার সেটগুলির ফলাফল আলাদা হওয়ার উপায় নয়।
ব্যবহারকারী 1825567

না, তারা না (প্রশিক্ষণের সেট অনুসারে সমন্বয় পেতে)। এটি নিয়মিত পরামিতিগুলির জন্য।
এমেরে

উত্তর:


23

ধরে নেওয়া যাক আপনি এমন একটি মডেলকে প্রশিক্ষণ দিচ্ছেন যার পারফরম্যান্স হাইপারপ্যারামিটারগুলির একটি সেটের উপর নির্ভর করে। নিউরাল নেটওয়ার্কের ক্ষেত্রে, এই পরামিতিগুলি উদাহরণস্বরূপ শেখার হার বা প্রশিক্ষণের পুনরাবৃত্তির সংখ্যা হতে পারে।

হাইপারপ্যারামিটার মানগুলির একটি পছন্দ দেওয়া, আপনি মডেলটিকে প্রশিক্ষণের জন্য প্রশিক্ষণ সেটটি ব্যবহার করুন । তবে, হাইপারপ্যারামিটারগুলির জন্য আপনি মানগুলি কীভাবে সেট করবেন? যে কি বৈধতা সেট জন্য। হাইপারপ্যারমিটার মানগুলির বিভিন্ন সংমিশ্রণের জন্য (যেমন গ্রিড অনুসন্ধান প্রক্রিয়াটির মাধ্যমে) আপনার সেরা মডেলটির মডেলটির কার্যকারিতা মূল্যায়নের জন্য আপনি এটি ব্যবহার করতে পারেন এবং সেরা প্রশিক্ষিত মডেল রাখতে পারেন।

তবে, আপনার নির্বাচিত মডেলটি অন্য বিভিন্ন মডেলের সাথে কীভাবে তুলনা করে? আপনার নিউরাল নেটওয়ার্কটি কি প্রশিক্ষণের / পরীক্ষার ডেটার একই সংমিশ্রণে প্রশিক্ষিত একটি এলোমেলো বন জোরের চেয়ে ভাল পারফর্ম করছে? আপনি বৈধতা সেট এর উপর ভিত্তি করে তুলনা করতে পারবেন না, কারণ সেই বৈধতা সেটটি আপনার মডেলের ফিটিংয়ের অংশ ছিল। আপনি এটি হাইপারপ্যারমিটার মান নির্বাচন করতে ব্যবহার করেছেন!

পরীক্ষা সেট আপনি একটি পক্ষপাতিত্বহীন ভাবে বিভিন্ন মডেলের তুলনা করতে, ডেটা আছে যা প্রশিক্ষণ / hyperparameter নির্বাচন প্রক্রিয়া কোন অংশ ব্যবহার করা হয় নি আপনার তুলনা ভিত্তিবিন্দু দ্বারা পারবেন।


11

পরীক্ষা সেট এবং ক্রস বৈধকরণ সেট বিভিন্ন উদ্দেশ্য রয়েছে। আপনি যদি কোনও একটি বাদ দেন তবে আপনি এর সুবিধাগুলি হারাবেন:

  • ক্রস বৈধতা সেট ওভার-ফিটিং সনাক্ত করতে এবং হাইপার-প্যারামিটার অনুসন্ধানে সহায়তা করতে ব্যবহৃত হয়।

  • মডেলটির পারফরম্যান্স পরিমাপ করতে পরীক্ষার সেট ব্যবহার করা হয়।

আপনি আপনার মডেলের পারফরম্যান্স নির্ভুলভাবে পরিমাপ করতে ক্রস বৈধকরণ সেটটি ব্যবহার করতে পারবেন না, কারণ আপনার পরামিতিগুলির শত শত বৈচিত্রের উপর আপনি সর্বোত্তম সম্ভাব্য মেট্রিক পেতে ইচ্ছাকৃতভাবে আপনার ফলাফলগুলি টিউন করবেন । ক্রস বৈধতা ফলাফল খুব আশাবাদী হতে পারে।

একই কারণে, আপনি ক্রস বৈধকরণ সেটটি ফেলে দিতে পারবেন না এবং হাইপার প্যারামিটারগুলি নির্বাচনের জন্য পরীক্ষার সেটটি ব্যবহার করতে পারবেন না, কারণ তখন আপনার মডেলটি কতটা দুর্দান্ত তা নিশ্চিত করার জন্য আপনি যথেষ্ট গ্যারান্টিযুক্ত। আদর্শ বিশ্বে আপনি পরীক্ষার সেটটি মাত্র একবার ব্যবহার করেন বা বিভিন্ন পরীক্ষার তুলনা করতে এটি "নিরপেক্ষ" ফ্যাশনে ব্যবহার করেন।

যদি আপনি বৈধতা অতিক্রম করেন তবে সেরা মডেলটি সন্ধান করুন, তারপরে প্রশিক্ষণের জন্য পরীক্ষার ডেটা যুক্ত করুন, এটি সম্ভব (এবং কিছু পরিস্থিতিতে সম্ভবত বেশ সম্ভবত) আপনার মডেলটি উন্নত হবে। তবে, এটি আসলে ঘটেছে কিনা তা নিশ্চিত হওয়ার কোনও উপায় আপনার নেই, এবং তা থাকলেও নতুন পারফরম্যান্সটি কী তা নিয়ে আপনার কোনও পক্ষপাতদুষ্ট অনুমান নেই।

অনেকগুলি কাগল প্রতিযোগিতা প্রত্যক্ষ করা থেকে আমার অভিজ্ঞতা হ'ল অতিরিক্ত পরীক্ষা করে এটি নির্ধারিত পরীক্ষায় আসাটি একটি আসল জিনিস এবং এটি সেই প্রতিযোগিতাগুলিকে ব্যাপকভাবে প্রভাবিত করে। তাদের প্রতিদ্বন্দ্বীদের একটি দল রয়েছে যারা পাবলিক লিডারবোর্ডে উঠেছেন এবং পরীক্ষায় তাদের সেরা মডেলটি নির্বাচন করেছেন (পাবলিক লিডারবোর্ড কার্যকরভাবে একটি পরীক্ষার সেট), যদিও তাদের ক্রস বৈধকরণের বিষয়ে এতটা পুরোপুরি না হয়। । । এই প্রতিযোগীরা একটি নতুন পরীক্ষার শেষে প্রবর্তিত হলে লিডারবোর্ডটি নামিয়ে দেয়।

যুক্তিযুক্ত যে এক পদ্ধতির হ'ল পরীক্ষার আগে আপনার পাওয়া হাইপার-প্যারামগুলি ব্যবহার করে পুনরায় প্রশিক্ষণের জন্য ডেটা পুনরায় ব্যবহার (ট্রেন + সিভি) করা। এইভাবে আপনি আরও ডেটা প্রশিক্ষণ পাবেন এবং আপনি এখনও শেষে একটি স্বাধীন পরিমাপ কর্মক্ষমতা পাবেন।

আপনি যদি ক্রস বৈধকরণের আরও বেশি পেতে চান তবে সাধারণ পদ্ধতির নামটি হল -ফোল্ড ক্রস বৈধতা । কেগল প্রতিযোগিতাগুলির একটি সাধারণ কৌশল হ'ল কে-ফোল্ড ক্রস বৈধতা ব্যবহার করা, এবং কোনও বৃহত (ট্রেন + সিভি) প্রশিক্ষণ সংকলনে ডেটা পুনরায় সংমিশ্রণের পরিবর্তে সিভি ফলাফলকে মেটা-মডেল হিসাবে সজ্জিত করা বা স্ট্যাক করা।

সবশেষে, সর্বদা পরীক্ষা করে দেখুন যে বৈধতা এবং পরীক্ষার জন্য আপনার বিভাজনগুলি আপনার ডেটা সেটের মধ্যে সম্ভাব্য পারস্পরিক সম্পর্কের বিরুদ্ধে শক্ত ust


1
"আপনার ডেটা সেটের মধ্যে সম্ভাব্য পারস্পরিক সম্পর্কের বিরুদ্ধে শক্তিশালী" বলতে কী বোঝ?
ব্যবহারকারী 6903745
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.