প্রশিক্ষণ পদক্ষেপ এবং মূল্যায়ন পদক্ষেপের মধ্যে কেন একটি অসামঞ্জস্যতা আছে?


27

এটি সুপরিচিত, বিশেষত প্রাকৃতিক ভাষা প্রক্রিয়াকরণে, মেশিন লার্নিংয়ের দুটি ধাপে এগিয়ে যাওয়া উচিত, একটি প্রশিক্ষণের পদক্ষেপ এবং একটি মূল্যায়নের পদক্ষেপ এবং তাদের আলাদা আলাদা ডেটা ব্যবহার করা উচিত। কেন? স্বজ্ঞাতভাবে, এই প্রক্রিয়াটি উপাত্তগুলিকে অত্যধিক মান্যতা এড়াতে সহায়তা করে, তবে আমি কোনও (তথ্য-তাত্ত্বিক) দেখতে ব্যর্থ হলাম কারণ এটি ক্ষেত্রে।

সম্পর্কিত, আমি প্রশিক্ষণের জন্য কতটা ডেটা সেট ব্যবহার করতে হবে এবং যথাক্রমে 2/3 এবং 1/3 এর মতো মূল্যায়নের জন্য কতগুলি নম্বরের চারপাশে ফেলে দেওয়া দেখেছি। নির্দিষ্ট বন্টন বেছে নেওয়ার জন্য কি কোনও তাত্ত্বিক ভিত্তি রয়েছে?

উত্তর:


15

এটি মজার বিষয় যে সর্বাধিক উত্সাহিত উত্তরটি সত্যই প্রশ্নের উত্তর দেয় না :) তাই আমি ভেবেছিলাম এটিকে আরও কিছু তত্ত্ব দিয়ে ব্যাক করা ভাল হবে - বেশিরভাগই "ডেটা মাইনিং: প্রাকটিকাল মেশিন লার্নিং সরঞ্জামসমূহ এবং কৌশলগুলি" এবং টম মিশেল থেকে নেওয়া "মেশিন লার্নিং"


ভূমিকা।

সুতরাং আমাদের একটি শ্রেণিবদ্ধ এবং একটি সীমিত ডেটাসেট রয়েছে এবং নির্দিষ্ট পরিমাণে ডেটা অবশ্যই প্রশিক্ষণ সংস্থায় যেতে হবে এবং বাকীটি পরীক্ষার জন্য ব্যবহৃত হয় (যদি প্রয়োজন হয় তবে বৈধতার জন্য তৃতীয় সাবসেট ব্যবহার করা হয়)।

দ্বিধাটি আমাদের মুখোমুখি হ'ল: একটি ভাল শ্রেণিবদ্ধ খুঁজে পেতে, "প্রশিক্ষণ উপসেট "টি যতটা সম্ভব বড় হওয়া উচিত, তবে একটি ভাল ত্রুটির অনুমান করার জন্য" পরীক্ষার উপসেট "যথাসম্ভব বড় হওয়া উচিত - তবে উভয় উপসর্গটি নেওয়া হয়েছে একই পুল

এটা সুস্পষ্ট যে প্রশিক্ষণের সেটটি পরীক্ষার সেটের চেয়ে বড় হওয়া উচিত - অর্থাত্ বিভাজনটি 1: 1 হওয়া উচিত নয় (মূল লক্ষ্য প্রশিক্ষণ দেওয়া , পরীক্ষা করা নয় ) - তবে স্পষ্টটি কোথায় হওয়া উচিত তা পরিষ্কার নয়।

হোল্ডআউট পদ্ধতি

"সুপারসেট" সাবটেটে বিভক্ত করার পদ্ধতিটিকে হোল্ডআউট পদ্ধতি বলে । দ্রষ্টব্য যে আপনি সহজেই দুর্ভাগ্যজনক হতে পারেন এবং একটি নির্দিষ্ট শ্রেণীর উদাহরণগুলি যে কোনও উপ-অনুচ্ছেদে হারিয়ে যেতে পারে (বা উপস্থাপিত) হতে পারে, যার মাধ্যমে সম্বোধন করা যেতে পারে

  • এলোমেলো নমুনা, যা গ্যারান্টি দেয় যে প্রতিটি বর্গ সমস্ত ডেটা উপগ্রহে যথাযথভাবে উপস্থাপিত হয় - পদ্ধতিটিকে স্ট্রেটি-এড হোল্ডআউট বলে
  • এর উপরে পুনরাবৃত্তি প্রশিক্ষণ-পরীক্ষার-বৈধতা প্রক্রিয়া সহ এলোমেলো নমুনা - যাকে পুনরাবৃত্তি স্তরিত হোল্ডআউট বলে

একটি একক (অপরিবর্তিত) হোল্ডআউট পদ্ধতিতে, আপনি টেস্টিং এবং প্রশিক্ষণের ডেটাগুলির ভূমিকা অদলবদল করতে এবং দুটি ফলাফলের গড় বিবেচনা করতে পারেন তবে প্রশিক্ষণ এবং পরীক্ষার সেটগুলির মধ্যে 1: 1 বিভাজকটি কেবল এটি গ্রহণযোগ্য (যা ভূমিকা দেখুন) )। তবে এটি একটি ধারণা দেয় এবং একটি উন্নত পদ্ধতি ( ক্রস-বৈধকরণ পরিবর্তে ব্যবহৃত হয়) - নীচে দেখুন!

ক্রস বৈধতা.

ক্রস-বৈধকরণের ক্ষেত্রে, আপনি একটি ed xed সংখ্যক ভাঁজ (ডেটার পার্টিশন) সম্পর্কে সিদ্ধান্ত নেন। যদি আমরা তিনটি ভাঁজ ব্যবহার করি তবে ডেটাটি তিনটি সমান পার্টিশনে বিভক্ত হয় এবং

  • আমরা প্রশিক্ষণের জন্য 2/3 এবং পরীক্ষার জন্য 1/3 ব্যবহার করি
  • এবং প্রক্রিয়াটি তিনবার পুনরাবৃত্তি করুন যাতে শেষ পর্যন্ত, প্রতিটি উদাহরণ পরীক্ষার জন্য ঠিক একবার ব্যবহার করা হয়েছে।

এটিকে থ্রিফোল্ড ক্রস-বৈধকরণ বলা হয় , এবং যদি স্ট্র্যাটিসেশনটি পাশাপাশি গ্রহণ করা হয় (যা এটি প্রায়শই সত্য হয়) তবে এটি স্ট্রেটেড থ্রিফোল্ড ক্রস-বৈধতা বলে

কিন্তু, নিম্ন এবং দেখ দেখ, মানক উপায় না 1/3 বিভক্ত: 2/3। "ডেটা মাইনিং: প্রাকটিক্যাল মেশিন লার্নিং সরঞ্জাম এবং কৌশল" উদ্ধৃত করে ,

মানক উপায় [...] স্ট্রেটি এড 10-ভাঁজ ক্রস-বৈধকরণ use ডেটাটি এলোমেলোভাবে 10 অংশে বিভক্ত করা হয়েছে যেখানে ক্লাসটি পুরো ডেটাসেটের মতো প্রায় একই অনুপাতে উপস্থাপিত হয়। প্রতিটি অংশ পরিবর্তে অনুষ্ঠিত হয় এবং শিখা পরিকল্পনাটি নয়-দশমাংশে প্রশিক্ষিত হয়; তারপরে তার ত্রুটির হারটি হোল্ডআউট সেটটিতে গণনা করা হয়। সুতরাং শেখার পদ্ধতিটি বিভিন্ন প্রশিক্ষণ সেটগুলিতে মোট 10 বার কার্যকর করা হয় (যার প্রত্যেকটিতে প্রচলিত রয়েছে)। পরিশেষে, সামগ্রিক ত্রুটির অনুমানের জন্য 10 টি ত্রুটি অনুমানের গড় হয়।

কেন 10? কারণ "বিভিন্ন শিক্ষা প্রণালীর সাথে অসংখ্য ডেটাসেট, উপর ..Extensive পরীক্ষা দেখানো হয়েছে 10 ভাঁজ সঠিক সংখ্যার ত্রুটির সেরা অনুমান পেতে সম্পর্কে, এবং কিছু তাত্ত্বিক প্রমাণ যে পিঠের এই পর্যন্ত .." আমি আশ্রয়স্থল কোন বিস্তৃত পরীক্ষা এবং তাত্ত্বিক প্রমাণ তারা বোঝাতে পারেন নি তবে এটি আরও খনন করার জন্য একটি ভাল সূচনা বলে মনে হচ্ছে - আপনি যদি চান -

তারা মূলত শুধু বলে

যদিও এই যুক্তিগুলি কোনওভাবেই চূড়ান্ত নয়, এবং মেশিন লার্নিং এবং ডেটা মাইনিংয়ের চেনাশোনাগুলিতে মূল্যায়নের জন্য সর্বোত্তম স্কিম কী তা নিয়ে তর্ক বিতর্ক অব্যাহত রয়েছে, তবে 10 গুণ দ্বিগুণ ক্রস-বৈধতা ব্যবহারিক দিক থেকে মানক পদ্ধতিতে পরিণত হয়েছে। [...] তদ্ব্যতীত, সঠিক সংখ্যা 10: 5-ভাঁজ বা 20-গুণ ক্রস-বৈধকরণ প্রায় ভাল হওয়ার সম্ভাবনা সম্পর্কে কোনও জাদু নেই।

বুটস্ট্র্যাপ, এবং - অবশেষে! - মূল প্রশ্নের উত্তর।

তবে আমরা এখনও 2/3: 1/3 কেন প্রায়শই সুপারিশ করা হয় তা সম্পর্কে উত্তরে পৌঁছায়নি। আমার গ্রহণযোগ্যতা হ'ল এটি বুটস্ট্র্যাপ পদ্ধতি থেকে উত্তরাধিকার সূত্রে প্রাপ্ত ।

এটি প্রতিস্থাপনের সাথে স্যাম্পলিংয়ের উপর ভিত্তি করে। পূর্বে, আমরা "গ্র্যান্ড সেট" থেকে নমুনাটি সাবসেটগুলির মধ্যে একটিতে রেখেছিলাম। বুটস্ট্র্যাপিং আলাদা এবং একটি নমুনা সহজেই উভয় প্রশিক্ষণ এবং পরীক্ষার সেটগুলিতে উপস্থিত হতে পারে।

আসুন আমরা একটি নির্দিষ্ট দৃশ্যের দিকে নজর রাখি যেখানে আমরা এন এর উদাহরণগুলির সাথে একটি ডেটাসেট ডি 1 নিই এবং প্রতিস্থাপনের সাথে এন বার এটি নমুনা করি যাতে এন দৃষ্টান্তের অন্য একটি ডেটাসেট ডি 2 পাওয়া যায় ।

এখন সরুভাবে দেখুন।

যেহেতু ডি 2-তে কিছু উপাদান (প্রায় অবশ্যই) পুনরাবৃত্তি হবে, মূল ডেটাসেটে কিছু উদাহরণ থাকতে হবে যা চয়ন করা হয়নি: আমরা এগুলি পরীক্ষার দৃষ্টান্ত হিসাবে ব্যবহার করব।

কোন সুযোগটি কী যে কোনও নির্দিষ্ট উদাহরণটি ডি 2-তে নেওয়া হয়নি ? প্রতিটি গ্রহণের বাছাইয়ের সম্ভাবনাটি 1 / n তাই বিপরীত (1 - 1 / n)

যখন আমরা এই সম্ভাবনাগুলি একসাথে গুণ করি তখন এটি (1 - 1 / n) ^ n যা ই ^ -1 যা প্রায় 0.3। এর অর্থ আমাদের পরীক্ষার সেটটি প্রায় ২/৩ হবে এবং প্রশিক্ষণের সেটটি প্রায় ২/৩ অংশ হবে।

আমার ধারণা, এই কারণেই এটি 1/3: 2/3 বিভাজনটি ব্যবহার করার পরামর্শ দেওয়া হয়েছে: এই অনুপাতটি বুটস্ট্র্যাপিং অনুমান পদ্ধতি থেকে নেওয়া হয়েছে।

এটিকে গুটিয়ে রাখা।

আমি ডেটা মাইনিং বইয়ের একটি উদ্ধৃতি দিয়ে শেষ করতে চাই (যা আমি প্রমাণ করতে পারি না তবে সঠিক অনুমান করতে পারি না) যেখানে তারা সাধারণত 10-গুণ ক্রস-বৈধতা পছন্দ করার পরামর্শ দেয়:

বুটস্ট্র্যাপ পদ্ধতি খুব ছোট ডেটাসেটের জন্য ত্রুটি অনুমানের সর্বোত্তম উপায় হতে পারে। তবে, লেভ-ওয়ান-আউট ক্রস-বৈধকরণের মতো, এর অসুবিধাগুলি রয়েছে যা একটি বিশেষ, আর্টিকাল-সিয়াল পরিস্থিতি বিবেচনা করে উদাহরণস্বরূপ বলা যেতে পারে [...] পুরোপুরি দুটি বর্গ সহ একটি এলোমেলো ডেটাসেট। যেকোন ভবিষ্যদ্বাণীমূলক নিয়মের জন্য সত্য ত্রুটির হার 50% ut তবে প্রশিক্ষণ সেটটি মুখস্থ করে এমন একটি স্কিম 100% এর নিখুঁত পুনর্নির্মাণের স্কোর দেবে যাতে ইন্ট্রেনিং উদাহরণগুলি = 0 হয় এবং 0.632 বুটস্ট্র্যাপ এটিকে 0.368 থেকে ওজনের সাথে মিশিয়ে দেয় will কেবলমাত্র 31.6% (0.632 ¥ 50% + 0.368 ¥ 0%) এর সামগ্রিক ত্রুটি হার দিন, যা বিভ্রান্তিকরভাবে আশাবাদী।


13

মি রেকর্ডের একটি সীমাবদ্ধ সেট বিবেচনা করুন। আপনি যদি প্রশিক্ষণ সেট হিসাবে সমস্ত রেকর্ড ব্যবহার করেন তবে নীচের বহুবর্ষের সাথে আপনি সমস্ত পয়েন্ট পুরোপুরি ফিট করতে পারেন:

y = a0 + a1 * এক্স + a2 * এক্স ^ 2 + ... + an * এক্স ^ মি

এখন আপনার যদি কিছু নতুন রেকর্ড থাকে, প্রশিক্ষণ সংকলনে ব্যবহৃত হয় না এবং একটি ইনপুট ভেক্টর এক্স এর মানগুলি কোনও ভেক্টর এক্স থেকে আলাদা হয়, প্রশিক্ষণ সেটে ব্যবহৃত হয়, তবে ভবিষ্যদ্বাণী ওয়াইয়ের যথার্থতা সম্পর্কে আপনি কী বলতে পারবেন?

আমি আপনাকে এমন একটি উদাহরণ দিয়ে যেতে পরামর্শ দিচ্ছি যেখানে আপনার 1 বা 2-মাত্রিক ইনপুট ভেক্টর এক্স রয়েছে (অতিমাত্রায় বহুবর্ষটি কল্পনা করার জন্য) এবং কোনও জোড়া (এক্স, ওয়াই) এর পূর্বাভাস ত্রুটি কত বড় তা পরীক্ষা করুন যা এক্স মানগুলি কেবলমাত্র একটি প্রশিক্ষণ সেট থেকে মান থেকে সামান্য পৃথক।

আমি জানি না এই ব্যাখ্যাটি যথেষ্ট তাত্ত্বিক কিনা, তবে আশা করি এটি সাহায্য করবে। আমি অন্যদের (এসভিএম, নিউরাল নেটওয়ার্কস ...) এর চেয়ে স্বজ্ঞাতভাবে বিবেচনাযোগ্য হিসাবে বিবেচনা করার কারণে আমি রিগ্রেশন মডেলটিতে সমস্যাটি ব্যাখ্যা করার চেষ্টা করেছি।

আপনি যখন একটি মডেল তৈরি করেন, আপনার ডেটাটি কমপক্ষে প্রশিক্ষণ সেট এবং পরীক্ষার সেটে বিভক্ত করা উচিত (কিছু কিছু প্রশিক্ষণ, মূল্যায়ন এবং ক্রস বৈধকরণ সেটগুলিতে ডেটা বিভক্ত করে)। সাধারণত 70% ডেটা প্রশিক্ষণের জন্য ব্যবহৃত হয় এবং 30% মূল্যায়নের জন্য এবং তারপরে, আপনি যখন মডেলটি তৈরি করেন, আপনাকে প্রশিক্ষণের ত্রুটি এবং পরীক্ষার ত্রুটিটি পরীক্ষা করতে হবে। যদি উভয় ত্রুটি বড় হয় তবে এর অর্থ হল আপনার মডেলটি খুব সহজ (মডেলের উচ্চ পক্ষপাত রয়েছে)। অন্যদিকে যদি আপনার প্রশিক্ষণের ত্রুটিটি খুব অল্প হয় তবে প্রশিক্ষণ এবং পরীক্ষার ত্রুটির মধ্যে একটি বড় পার্থক্য রয়েছে, এর অর্থ আপনার মডেলটি খুব জটিল (মডেলের উচ্চতম বৈচিত্র রয়েছে)।

সঠিক আপস বাছাই করার সর্বোত্তম উপায় হ'ল বিভিন্ন জটিলতার মডেলগুলির প্রশিক্ষণ এবং পরীক্ষার ত্রুটিগুলি প্লট করা এবং তারপরে পরীক্ষার ত্রুটিটি ন্যূনতম যেখানে একটি বেছে নিন (নীচের চিত্রটি দেখুন)। এখানে চিত্র বর্ণনা লিখুন


5
এটি কীভাবে এতটা নয় - এটির জন্য এটি একটি দুর্দান্ত উত্তর। তবে এটি কেবল একটি ভুল প্রশ্ন - আমরা যা সত্যই যত্নবান তা হ'ল যা অভিজ্ঞতাবাদী কাজ করে, তত্ত্বটি নয়।
তামজিন ব্লেক

@ থম: সুতরাং সত্যই আপনার প্রশ্নটি দ্বিতীয় অনুচ্ছেদে এবং প্রথমটির সমাপ্তি নয় ("কেন তা দেখতে ব্যর্থ হন") কারণ যা বুদ্ধিমানভাবে কাজ করে তা হ'ল আপনি অতিরিক্ত ফিট পান: আপনার মডেল আপনার মধ্যে ছোটখাটো কিরককে পরিচালনা করার জন্য দুর্দান্ত কাজ করে প্রশিক্ষণের তথ্য যা সাধারণ ক্ষেত্রে উপস্থিত নেই।
7'12

1
@ উইন্ডোয়েড প্রশ্নগুলি "কেন সেখানে ...?", "এটি কেন?", এবং "এখানে কিছু আছে ...?", প্রশ্নগুলি পরিষ্কারভাবে চিহ্নিত করা হয়েছে। আমি ঘটনাটির সাথে পরিচিত, এবং আমি এটি স্বজ্ঞাত বলে মনে করি এবং আমি অভিজ্ঞতাবাদী উদাহরণগুলির সাথে পরিচিত, তবে কেন এটি ঘটেনি তা আমি জানি না এবং তথ্য তত্ত্বের কাছে আমার উত্তর হওয়া উচিত বলে মনে হয়। উপরের মন্তব্যটি কেবল প্রতিচ্ছবি ছিল যে একবার আপনি বোধগম্যভাবে যাচাই করা নিয়মিততাগুলি শোষণ করতে পারলে সম্ভবত "কেন" প্রশ্নগুলি বিশেষভাবে প্রাসঙ্গিক নয়।
তামজিন ব্লেক

7

এটি সাধারণীকরণের সমস্যা — এটি হ'ল আমাদের অনুমান সঠিকভাবে ভবিষ্যতের উদাহরণগুলিকে সঠিকভাবে শ্রেণিবদ্ধ করবে যা প্রশিক্ষণের সংস্থার অংশ নয় are দয়া করে এই চমত্কার উদাহরণটি দেখুন, আপনার মডেলটি কেবল আপনার যে ডেটা রয়েছে এবং কোনও নতুন নয়, তার ক্ষেত্রে কী ঘটেছে: টিটিয়াস-বোড আইন


একটি ভাল উদাহরণ - এটি বৈজ্ঞানিক অনুমানের সাথে অনেকটা একই। আমরা এখনও মডেলগুলি নিয়ে কথা বলছি তারা স্ট্যাটিস্টিকাল এমএল মডেল বা মহাবিশ্বের মডেল কিনা।
উইন্ডো হয়েছে

1

এখনও অবধি @ এন্ড্রেইজার প্রশিক্ষণ / পরীক্ষার তথ্য বিভাজন সম্পর্কিত ওপির প্রশ্নের দ্বিতীয় অংশটির একটি উজ্জ্বল জবাব দিয়েছিলেন, এবং @ নাইকো কীভাবে অতিরিক্ত সাফল্য এড়ানো যায় তা ব্যাখ্যা করেছিলেন, কিন্তু কেউই প্রশ্নের যোগ্যতা অর্জন করতে পারেনি: প্রশিক্ষণ এবং মূল্যায়নের জন্য কেন বিভিন্ন ডেটা ব্যবহার করা হচ্ছে? আমাদেরকে অতিরিক্ত সাজাতে এড়াতে সহায়তা করে।


আমাদের ডেটা এতে বিভক্ত:

  1. প্রশিক্ষণের উদাহরণ
  2. বৈধতা উদাহরণ
  3. পরীক্ষা (মূল্যায়ন) উদাহরণ

এখন আমরা একটি মডেল আছে, এর কল এটি দিন । আমরা প্রশিক্ষণের উদাহরণগুলি ব্যবহার করে এটি ফিট করি এবং বৈধতা উদাহরণগুলি ব্যবহার করে এর যথার্থতা পরীক্ষা করি। এমনকি আমরা ক্রস বৈধতাও করতে পারি। তবে পৃথিবীতে কেন আমরা পরীক্ষার উদাহরণগুলি ব্যবহার করে এটি আবার পরীক্ষা করব?M

সমস্যাটি হ'ল , আমরা বিভিন্ন পরামিতিগুলির সাথে বিভিন্ন । এখানেই ওভারফিটিং হয়। আমরা বাছাই করে এমন মডেলটি চয়ন করি যা বৈধতার উদাহরণগুলিতে সর্বোত্তম অভিনয় করে per তবে আমাদের লক্ষ্য এমন একটি মডেল রাখা যা সাধারণভাবে ভাল পারফর্ম করে। এ কারণেই আমাদের পরীক্ষার দৃষ্টান্ত রয়েছে - বৈধতার উদাহরণগুলির তুলনায়, পরীক্ষার উদাহরণগুলি মডেলটি বেছে নেওয়ার সাথে জড়িত নয়।M1,...,Mn

বৈধকরণ এবং পরীক্ষার উদাহরণগুলির বিভিন্ন ভূমিকা কী তা উপলব্ধি করা গুরুত্বপূর্ণ important

  1. প্রশিক্ষণ উদাহরণ - মডেল ফিট করতে ব্যবহৃত।
  2. বৈধতা দৃষ্টান্ত - একটি মডেল চয়ন করতে ব্যবহৃত
  3. পরীক্ষা (মূল্যায়ন) উদাহরণগুলি - নতুন ডেটাতে কোনও মডেলের যথার্থতা পরিমাপ করতে ব্যবহৃত হয়

পরিসংখ্যানগত শিক্ষার উপাদানগুলির 222 পৃষ্ঠা দেখুন : ডেটা মাইনিং, অনুমান এবং আরও তথ্যের জন্য ভবিষ্যদ্বাণী

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.