কীভাবে কোনও ডেটাসেটকে প্রশিক্ষণ এবং বৈধতা সেটগুলিতে বিভক্ত করবেন তার কোনও নিয়ম-আঙ্গুল আছে?


194

কীভাবে ডেটা প্রশিক্ষণ এবং বৈধতা সেটগুলিতে সর্বোত্তমভাবে বিভক্ত করা যায় তার কোনও নিয়ম-আঙ্গুল রয়েছে? এমনকি একটি 50/50 বিভক্ত পরামর্শ দেওয়া? বা বৈধতা ডেটা (বা বিপরীতে) এর সাথে সম্পর্কিত আরও প্রশিক্ষণের ডেটা থাকার স্পষ্ট সুবিধা রয়েছে? বা এই পছন্দটি কি বেশিরভাগ প্রয়োগ নির্ভর?

আমি বেশিরভাগই যথাক্রমে একটি 80% / 20% প্রশিক্ষণ এবং বৈধতা ডেটা ব্যবহার করে আসছি, তবে আমি মূলত কোনও কারণ ছাড়াই এই বিভাগটি বেছে নিয়েছি। যিনি মেশিন লার্নিংয়ে বেশি অভিজ্ঞ তিনি আমাকে পরামর্শ দিতে পারেন?


আপনি উপলব্ধ অত্যধিক তথ্য না থাকে তাহলে, বিবেচনা en.wikipedia.org/wiki/Resampling_(statistics)#Jackknife
nair.ashvin

উত্তর:


221

দুটি প্রতিযোগিতামূলক উদ্বেগ রয়েছে: কম প্রশিক্ষণের ডেটা সহ, আপনার প্যারামিটারের অনুমানগুলিতে আরও বেশি পার্থক্য রয়েছে। কম পরীক্ষার ডেটা সহ, আপনার পারফরম্যান্সের পরিসংখ্যানের আরও বৈচিত্র্য থাকবে। মোটা কথা বলতে গেলে আপনার এমন ডেটা ভাগ করার বিষয়ে উদ্বিগ্ন হওয়া উচিত যে বৈকল্পিকতাও খুব বেশি নয়, যা প্রতিটি বিভাগে শতাংশের চেয়ে প্রকৃত সংখ্যার সাথে করণীয়।

আপনার যদি মোট 100 টি উদাহরণ রয়েছে তবে আপনি সম্ভবত ক্রস বৈধতার সাথে আটকে যাচ্ছেন কারণ কোনও একক বিভাজন আপনার অনুমানের ক্ষেত্রে সন্তোষজনক বৈকল্পিকতা দেয় না। আপনার যদি ১০,০০,০০০ উদাহরণ রয়েছে তবে আপনি ৮০:২০ বিভাজন বা ৯০:১০ বিভাজন চয়ন করেছেন কিনা তা আসলেই গুরুত্বপূর্ণ নয় (যদি আপনার পদ্ধতিটি বিশেষত সংখ্যায় নিবিড় থাকে তবে আপনি কম প্রশিক্ষণের ডেটা ব্যবহার করতে পারেন)।

ধরে নিলাম আপনার কাছে যথাযথ হোল্ড-আউট টেস্ট ডেটা করার জন্য পর্যাপ্ত ডেটা রয়েছে (ক্রস-বৈধকরণের চেয়ে), ভেরিয়েন্সগুলিতে হ্যান্ডেল পাওয়ার জন্য নিম্নলিখিতটি একটি শিক্ষামূলক উপায়:

  1. আপনার ডেটা প্রশিক্ষণ এবং পরীক্ষায় বিভক্ত করুন (৮০/২০২০ সত্যই একটি ভাল সূচনা পয়েন্ট)
  2. বিভক্ত প্রশিক্ষণ প্রশিক্ষণ ও বৈধতা মধ্যে তথ্য (আবার, 80/20 একটি ন্যায্য বিভক্ত করা)।
  3. আপনার প্রশিক্ষণ ডেটা সাবম্যামেল এলোমেলো নির্বাচন, এটি দিয়ে শ্রেণিবদ্ধকে প্রশিক্ষণ দিন এবং বৈধতা সেটটিতে পারফরম্যান্স রেকর্ড করুন
  4. বিভিন্ন পরিমাণ প্রশিক্ষণের ডেটা সহ একাধিক রানের চেষ্টা করুন: এলোমেলোভাবে এর 20% নমুনা করুন, 10 বার বলুন এবং বৈধতার ডেটাতে পারফরম্যান্স পর্যবেক্ষণ করুন, তারপরে 40%, 60%, 80% দিয়ে একই করুন। আপনার আরও দুটি ডেটা আরও ডেটা দিয়ে দেখতে হবে, তবে বিভিন্ন এলোমেলো নমুনাগুলির মধ্যেও নিম্নতম বৈকল্পিক
  5. পরীক্ষার ডেটার আকারের কারণে বৈকল্পিকতায় কোনও হ্যান্ডেল পেতে, বিপরীতে একই পদ্ধতিটি সম্পাদন করুন। আপনার সমস্ত প্রশিক্ষণের ডেটাতে প্রশিক্ষণ দিন, তারপরে এলোমেলোভাবে আপনার বৈধতা ডেটার শতকরা কয়েক ভাগ নমুনা করুন এবং কার্য সম্পাদন করুন। আপনার এখন খুঁজে পাওয়া উচিত যে আপনার বৈধতা ডেটার ক্ষুদ্র নমুনাগুলির গড় পারফরম্যান্স মোটামুটি সমস্ত বৈধতা ডেটাতে পারফরম্যান্সের সমান, তবে পরীক্ষার নমুনাগুলির সংখ্যার সাথে তারতম্য অনেক বেশি

ধন্যবাদ, এটিও খুব সহায়ক! আমি একবার চেষ্টা করবো। এফওয়াইআই, আমার কাছে প্রশিক্ষণের ডেটা প্রায় 6000 উদাহরণ রয়েছে। আমি এসভিএম ব্যবহার করছি, সুতরাং পারফরম্যান্স কিছুটা সমস্যা।
রবগুইননেস

1
এফডাব্লুআইডাব্লু, পারফরম্যান্সের তারতম্যটি একবারে সমস্ত দৃষ্টান্তকে শ্রেণিবদ্ধ করে, সিদ্ধান্তগুলি সঠিক কিনা তা চিহ্নিত করে স্কোর করে এবং তারপরে বিভিন্ন পরীক্ষার সেট মাপের ব্যবহারের প্রভাব তৈরি করার জন্য পরীক্ষার উদাহরণগুলির পরিবর্তে এই সিদ্ধান্তগুলির নমুনা নির্ধারণ করে গণনা করা যেতে পারে
বেন অ্যালিসন

এবং 6000 উদাহরণগুলি পর্যাপ্ত হওয়া উচিত যে পরীক্ষার জন্য 10% বা 20% ব্যবহারের মধ্যে পার্থক্যগুলি এত বড় হবে না (আমার বর্ণিত পদ্ধতিটি ব্যবহার করে আপনি এটি নিশ্চিত করতে পারবেন)
বেন অ্যালিসন

1
আবার হাই। # 5 পয়েন্টে আমি কিছুটা বিভ্রান্ত। আপনি বলেছিলেন "তারপরে এলোমেলোভাবে আপনার বৈধতা ডেটার শতকরা কয়েক ভাগ নমুনা করুন " " আপনি কি পরিবর্তে পরীক্ষার ডেটা দেখতে চেয়েছিলেন? আমি যদি সঠিকভাবে বুঝতে পারি তবে আমার ডেটাটিকে প্রথমে প্রশিক্ষণ এবং টেস্ট ডেটাসেটগুলিতে ভাগ করা উচিত, তারপরে আমার প্রশিক্ষণ ডেটাসেটের কিছু অংশ বৈধকরণের ডেটাসেটে ছেড়ে দেওয়া উচিত। ৫ ম পদক্ষেপে, আমি যদি আমার পরীক্ষার ডেটাতে বৈচিত্রটি পরিমাপ করছি তবে আমার পরীক্ষার ডেটা থেকে এলোমেলোভাবে জনসংখ্যার নমুনা করা উচিত নয়? নাকি আমি কিছু মিস করছি?
রোবগুইনেস

2
মুল বক্তব্যটি হ'ল আপনি যখন পরামিতিগুলি নিয়ে খেলা করছেন, পরিবর্তিত জিনিসের প্রভাবগুলি পর্যবেক্ষণ করছেন তখন পরীক্ষা করার জন্য আপনার বৈধতা ডেটা ব্যবহার করা উচিত । আপনি যদি নিজের পরীক্ষার ডেটাটি অনুসন্ধান করা শুরু করেন এবং তার উপর ভিত্তি করে কৌশলগুলি বেছে নেওয়া আপনার পক্ষে সর্বোচ্চ স্কোর দেয় তবে আপনি আপনার পদ্ধতির পারফরম্যান্স সম্পর্কে একটি স্ফীত বোধ পাবেন। যখন আপনার সমস্ত পরামিতি সেট করা হয় এবং সিদ্ধান্ত নেওয়া হয়, তারপরে আপনার পরীক্ষার ডেটা চালান। এটি আপনাকে সত্যিকারের নতুন, অনাবৃত ডেটাতে কী ধরণের পারফরম্যান্স দেবে তা জানতে দেয় (যা সম্ভবত আপনার আগ্রহী!)
বেন অ্যালিসন

54

আপনি জানতে পেরে অবাক হবেন যে 80/20 হ'ল বেশিরভাগ ক্ষেত্রে অনুপাত, যা প্রায়শই পেরিটো নীতি হিসাবে পরিচিত । আপনি যদি অনুপাতটি ব্যবহার করেন তবে এটি সাধারণত একটি নিরাপদ বাজি

তবে, আপনি নিযুক্ত প্রশিক্ষণ / বৈধতা পদ্ধতির উপর নির্ভর করে অনুপাত পরিবর্তন হতে পারে। উদাহরণস্বরূপ: আপনি যদি 10-ভাঁজ ক্রস বৈধতা ব্যবহার করেন, তবে আপনি প্রতিটি ভাগে 10% এর বৈধতা সেট দিয়ে শেষ করবেন।

প্রশিক্ষণ সেট এবং বৈধতা সেট মধ্যে সঠিক অনুপাত কি তা নিয়ে কিছু গবেষণা হয়েছে :

বৈধতা সেট জন্য সংরক্ষিত নিদর্শনগুলির ভগ্নাংশটি নিখরচায় সামঞ্জস্যযোগ্য প্যারামিটারের সংখ্যার বর্গমূলের সাথে বিপরীতভাবে সমানুপাতিক হওয়া উচিত।

তাদের উপসংহারে তারা একটি সূত্র নির্দিষ্ট করে:

বৈধতা প্রশিক্ষণ সেট (টি) আকারের অনুপাত, v / টি, এলএন (এন / এইচ-ম্যাক্স) এর মতো স্কেলগুলিতে বৈধকরণ সেট, যেখানে এন সনাক্তকারীদের পরিবারের সংখ্যা এবং এইচ-ম্যাক্স সেই পরিবারগুলির বৃহত্তম জটিলতা।

জটিলতার দ্বারা তারা যা বোঝায় তা হ'ল:

সনাক্তকারী প্রতিটি পরিবার এর জটিলতা দ্বারা চিহ্নিত করা হয়, যা ভিসি-মাত্রা , বর্ণনার দৈর্ঘ্য, সামঞ্জস্যযোগ্য পরামিতির সংখ্যা বা জটিলতার অন্যান্য পদক্ষেপগুলির সাথে সম্পর্কিত হতে পারে বা নাও হতে পারে ।

থাম্বের প্রথম নিয়মটি গ্রহণ (যেমন বৈধকরণ সেটটি নিখরচায় সামঞ্জস্যযোগ্য প্যারামিটারের সংখ্যার বর্গমূলের সাথে আনুপাতিক সমানুপাতিক হওয়া উচিত), আপনি এই সিদ্ধান্তে পৌঁছাতে পারবেন যে আপনার যদি 32 অ্যাডজেটেবল প্যারামিটার থাকে তবে 32 এর বর্গমূলটি 5 5 5.65 হয়, ভগ্নাংশটি হওয়া উচিত 1 / 5.65 বা 0.177 (ভি / টি)। মোটামুটিভাবে 17.7% বৈধতার জন্য এবং 82.3% প্রশিক্ষণের জন্য সংরক্ষণ করা উচিত।


2
এই কাগজটি যাদের নিজের মতো করে লোড করতে সমস্যা হতে পারে (কেন তা নিশ্চিত নয়) হ'ল: "বৈধতা-সেট প্রশিক্ষণ-সেট অনুপাতের আকারের জন্য একটি স্কেলিং আইন" (আই। গায়ন, 1996, অপ্রকাশিত প্রযুক্তি প্রতিবেদন, এটিএন্ডটি বেল ল্যাবরেটরিজ) )।

2
থাম্বের নিয়মটি কি কোনও অর্থবোধ করে? আপনার যদি দুটি সমন্বয়যোগ্য প্যারামিটার থাকে তবে অনুপাতটি 0.77, এর অর্থ হল আপনি বৈধতার জন্য 77% ব্যবহার করবেন। ইমো সমস্যা হ'ল ফ্রি প্যারামিটার সংজ্ঞা। লিনিয়ার এসভিএমের জন্য আপনি ত্রুটি শর্তের জন্য পেনাল্টি প্যারামিটার সি সেট করতে পারেন যা একটি পরামিতি, তবে জটিলতাটি এসভিএমের জন্য উচ্চতর মাত্রা + 1।
রিড রিচার্ডস

4
তাহলে আমার নিউরাল নেটওয়ার্ক থাকলে আমার টেস্টের আকার 1 হওয়া উচিত ..?
ইয়েলোপিলো

51

গত বছর, আমি প্রফেসর: অ্যান্ড্রু এনগির অনলাইন মেশিন লার্নিং কোর্স নিয়েছি। তাঁর সুপারিশটি ছিল:

প্রশিক্ষণ : 60%

ক্রস বৈধতা : 20%

পরীক্ষা : 20%


20
কোর্স.আর.আর. / হালনাগ / প্রদীপ-ননাল-নেটওয়ার্ক / ইলেক্টের / সিএক্সজি 1 এস .২ in the modern big data era, where, for example, you might have a million examples in total, then the trend is that your dev (cross validation) and test sets have been becoming a much smaller percentage of the total. সে পরামর্শ দেয় এটি 99.5: 0.25: 0.25 হতে পারে।
Nobu

9

আচ্ছা আপনার আরও একটি জিনিস নিয়ে ভাবা উচিত।

আপনার যদি 1,000,000 উদাহরণের মতো সত্যই বড় ডেটাসেট থাকে তবে 80/10/10 বিভক্ত হওয়া অপ্রয়োজনীয় হতে পারে, কারণ 10% = 100,000 উদাহরণগুলি মডেলটি ঠিকঠাক কাজ করে তা জানানোর দরকার নেই।

হতে পারে 99 / 0.5 / 0.5 যথেষ্ট, কারণ 5,000 টি উদাহরণ ডেটাতে বৈকল্পিকতার বেশিরভাগ অংশ উপস্থাপন করতে পারে এবং আপনি সহজেই বলতে পারবেন যে পরীক্ষা এবং দেবের এই 5000 টি উদাহরণের ভিত্তিতে মডেলটি ভাল কাজ করে।


বৈধতা সেটটিতে 0.5% যথেষ্ট হতে পারে তবে আমি যুক্তি দিয়ে বলছি যে আপনি একটি বড় এবং অপ্রয়োজনীয় ঝুঁকি নিচ্ছেন যেহেতু আপনি জানেন না যথেষ্ট বা না। আপনি যদি খুব ছোট বৈধতা সেট ব্যবহার করেন তবে আপনার প্রশিক্ষণটি সহজেই ভুল হতে পারে তবে বড় বৈধতা যাচাইকরণ সেটটি ব্যবহার করে এটির পক্ষে ভুল হওয়া প্রায় অসম্ভব।
বিজন লিন্ডকভিস্ট

2

ধরুন আপনার কাছে কম ডেটা রয়েছে, আমি 70%, 80% এবং 90% চেষ্টা করার পরামর্শ দিচ্ছি যা ভাল ফলাফল দিচ্ছে। 90% ক্ষেত্রে সম্ভাবনা আছে যে 10% পরীক্ষার জন্য আপনি সঠিক নির্ভুলতা পাবেন।


1

সম্ভবত একটি 63.2% / 36.8% একটি যুক্তিসঙ্গত পছন্দ। কারণটি হ'ল যদি আপনার মোট নমুনা আকারের এন থাকে এবং প্রাথমিক এন এর বাইরে প্রতিস্থাপনের সাথে (এফ পুনরায় নমুনা, যেমন পরিসংখ্যান বুটস্ট্র্যাপ হিসাবে) এন ক্ষেত্রে , একটি পৃথক মামলার সম্ভাব্যতা বেছে নেওয়া হত তবে পুনরায় নমুনাটি প্রায় 0.632 হতে পারে, তবে এখানে বর্ণিত যে এন খুব ছোট নয়: https://stats.stackexchange.com/a/88993/16263

একটি নমুনা জন্য এন = 250, একজন ব্যক্তি মামলার সম্ভাব্যতা 4 সংখ্যা করার জন্য একটি পুনরায় নমুনা জন্য নির্বাচিত হওয়ার 0,6329 হয়। এন = 20000 এর নমুনার জন্য , সম্ভাব্যতা 0.6321।


1

এটি সমস্ত হাতে থাকা ডেটার উপর নির্ভর করে। আপনার যদি যথেষ্ট পরিমাণে ডেটা থাকে তবে 80/20 টি উপরে উল্লিখিত হিসাবে ভাল পছন্দ। তবে আপনি যদি 50/50 বিভক্তের সাথে ক্রস-বৈধকরণ না করেন তবে আপনাকে আরও অনেক বেশি সহায়তা করতে পারে এবং আপনার প্রশিক্ষণের ডেটা অতিরিক্ত-ফিট করার থেকে আপনাকে মডেল তৈরি করতে বাধা দিতে পারে।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.