প্রশিক্ষণের ডেটা বৃদ্ধির সামগ্রিক সিস্টেমের নির্ভুলতার উপর কী প্রভাব ফেলে?


16

কেউ কি আমার জন্য সম্ভাব্য উদাহরণগুলির সংক্ষিপ্তসার জানাতে পারে, কোন পরিস্থিতিতে প্রশিক্ষণের ডেটা বৃদ্ধি করা সামগ্রিক ব্যবস্থার উন্নতি করে? আমরা কখন সনাক্ত করি যে আরও প্রশিক্ষণের ডেটা যুক্ত করা সম্ভব ডেটাগুলি বেশি পরিমাণে ফিট করে এবং পরীক্ষার ডেটাগুলিতে ভাল যথার্থতা দিতে পারে না?

এটি একটি খুব অ-নির্দিষ্ট প্রশ্ন, তবে আপনি যদি কোনও নির্দিষ্ট পরিস্থিতির সাথে নির্দিষ্ট করে উত্তর দিতে চান তবে দয়া করে এটি করুন do


শুধু ভাবছি - এই সম্পর্কে কি 50-50 ট্রেন / পরীক্ষায় বিভক্ত 75-25 বলার চেয়ে ভাল?
সম্ভাব্যতাব্লোগিক

উত্তর:


22

বেশিরভাগ পরিস্থিতিতে সাধারণত আরও ডেটা আরও ভাল । ওভারফিটিং মূলত আপনার প্রশিক্ষণের ডেটাতে ঘটে এমন তাত্পর্যপূর্ণ সম্পর্কগুলি শিখছে, তবে আসল বিশ্বে নয়। উদাহরণস্বরূপ, আপনি যদি কেবলমাত্র আমার সহকর্মী হিসাবে বিবেচনা করেন, আপনি "দাড়ি রেখেছেন" "ম্যাট" নামে "যুক্ত" করতে শিখতে পারেন। এটি 100% বৈধ (এন=4

এটি বলেছিল, এমন একটি পরিস্থিতি যেখানে আরও ডেটা সাহায্য করে না --- এবং এমনকি আঘাত করতে পারে --- তা হল যদি আপনার অতিরিক্ত প্রশিক্ষণের ডেটা গোলমাল হয় বা আপনি ভবিষ্যদ্বাণী করতে যা চেষ্টা করছেন তার সাথে মেলে না। আমি একবার এমন একটি পরীক্ষা করেছি যেখানে আমি বিভিন্ন ভাষার মডেলগুলি [*] একটি ভয়েস-সক্রিয় রেস্তোরাঁ রিজার্ভেশন সিস্টেমে প্লাগ করেছিলাম। আমি প্রশিক্ষণের ডেটার পরিমাণের পাশাপাশি এর প্রাসঙ্গিকতাও বৈচিত্র্যময় করেছি: এক পর্যায়ে আমার কাছে টেবিল বুকিংয়ের লোকদের একটি ছোট, সাবধানে সংশ্লেষিত সংগ্রহ ছিল, আমার আবেদনের জন্য একটি নিখুঁত মিল match অন্যদিকে, আমার কাছে ক্লাসিক সাহিত্যের বিশাল সংগ্রহ থেকে অনুমান করা একটি মডেল ছিল , আরও নির্ভুল ভাষার একটি মডেল, তবে অ্যাপ্লিকেশনটির সাথে আরও খারাপ ম্যাচ। আমি অবাক করে দিয়েছি, ছোট-তবে-প্রাসঙ্গিক মডেলটি বড়-তবে-কম-প্রাসঙ্গিক মডেলটিকে ব্যাপকভাবে ছাপিয়েছে।


অবাক করা পরিস্থিতি, বলা হয় ডাবল-ডেসেন্ট , যখন প্রশিক্ষণ সংস্থার আকার মডেল পরামিতিগুলির সংখ্যার কাছাকাছি হয় also এই ক্ষেত্রে, প্রশিক্ষণের সেটটির আকার বাড়ার সাথে সাথে পরীক্ষার ঝুঁকিটি হ্রাস পায়, যখন আরও কিছু প্রশিক্ষণের ডেটা যুক্ত করা হয় তখন অস্থায়ীভাবে বৃদ্ধি পায় এবং প্রশিক্ষণ সেটটি বাড়তে থাকায় অবশেষে আবার হ্রাস শুরু হয়। এই ঘটনাটি নিউরাল নেটওয়ার্ক সাহিত্যে 25 বছর আগে প্রকাশিত হয়েছিল (দেখুন ওপার, 1995 দেখুন) তবে আধুনিক নেটওয়ার্কগুলিতেও এটি ঘটে ( অ্যাডওয়ানি এবং স্যাক্সে, 2017 )। মজার ব্যাপার হচ্ছে, এসজিডি দ্বারা উপযুক্ত এক হলেও এটি লিনিয়ার রিগ্রেশনের জন্য ঘটে ( নাকিরণ, 2019))। এই ঘটনাটি এখনও পুরোপুরি বোঝা যায় নি এবং মূলত তাত্ত্বিক আগ্রহের বিষয়: আমি অবশ্যই এটি আরও বেশি তথ্য সংগ্রহ না করার কারণ হিসাবে ব্যবহার করব না (যদিও আমি ট্রেনিং সেট আকারের সাথে ঝাঁকুনি দিতে পারি যদি এন == পি এবং পারফরম্যান্স অপ্রত্যাশিতভাবে খারাপ হয় )।


পি(Wএন=সাধারণ ভাষায় 'Quick', Wএন+ +1='বাদামী', Wএন+ +2='শিয়াল')



12

একটি নোট: অতিরিক্ত ডেটা যুক্ত করে (সারি বা উদাহরণগুলি, কলাম বা বৈশিষ্ট্য নয়) আপনার অত্যধিক মানানসইয়ের সম্ভাবনা হ্রাস পাবে বাড়ার পরিবর্তে পাবে।

দুটি অনুচ্ছেদের সংক্ষিপ্তসারটি এরকম হয়:

  • আরও উদাহরণ যুক্ত করা, বৈচিত্র্য যোগ করে। এটি সাধারণীকরণের ত্রুটি হ্রাস করে কারণ আরও উদাহরণের উপর প্রশিক্ষিত হওয়ার কারণে আপনার মডেল আরও সাধারণ হয়ে ওঠে।
  • আরও ইনপুট বৈশিষ্ট্য, বা কলামগুলি (একটি নির্দিষ্ট সংখ্যার উদাহরণে) যুক্ত করা অত্যধিক ফিটনেস বাড়িয়ে তুলতে পারে কারণ আরও বৈশিষ্ট্যগুলি হয় অপ্রাসঙ্গিক বা অপ্রয়োজনীয় হতে পারে এবং উদাহরণগুলিতে হাত দেওয়ার জন্য মডেলটিকে জটিল করার আরও সুযোগ রয়েছে।

মডেলগুলির মানের তুলনা করার জন্য কিছু সরল মানদণ্ড রয়েছে। উদাহরণস্বরূপ এআইসিতে বা এটিকে দেখুন বিআইসিতে দেখুন

তারা উভয়ই দেখায় যে আরও ডেটা যুক্ত করা সর্বদা মডেলগুলিকে আরও উন্নত করে, যখন সর্বোত্তমতার বাইরে প্যারামিটার জটিলতা যুক্ত করে, মডেলের গুণমান হ্রাস করে।


1

প্রশিক্ষণের ডেটা বৃদ্ধি করা সর্বদা তথ্য যোগ করে এবং ফিটের উন্নতি করা উচিত। অসুবিধা তখনই আসে যদি আপনি কেবল ফিটের জন্য ব্যবহৃত প্রশিক্ষণ ডেটার উপর শ্রেণিবদ্ধের পারফরম্যান্সটি মূল্যায়ন করেন। এটি আশাবাদী পক্ষপাতদুষ্ট মূল্যায়ন তৈরি করে এবং এর পরিবর্তে লিভ-ওয়ান-আউট ক্রস বৈধতা বা বুটস্ট্র্যাপ ব্যবহার করার কারণ।


1

আদর্শভাবে, একবার যদি আপনার আরও প্রশিক্ষণের উদাহরণ পাওয়া যায় তবে আপনি কম পরীক্ষা-ত্রুটি হবেন (মডেলের বিভিন্নতা হ্রাস পাবে, যার অর্থ আমরা কম বেশি মানিয়ে নেব), তবে তাত্ত্বিকভাবে, আরও ডেটা বরাবরই বোঝায় না যে উচ্চ বায়াস মডেলগুলি থেকে আপনার আরও সঠিক মডেল থাকবেন আরও প্রশিক্ষণের উদাহরণ থেকে উপকৃত হবে না

এখানে দেখুন: মেশিন লার্নিংয়ে আরও ভাল: আরও ডেটা বা আরও ভাল অ্যালগরিদম

উচ্চ-বৈকল্পিক - এমন একটি মডেল যা প্রশিক্ষণকে ভালভাবে উপস্থাপন করে তবে শোরগোল বা অনুচ্চারিত প্রশিক্ষণের ডেটা থেকে বেশি চাপ দেওয়ার ঝুঁকিতে।

উচ্চ পক্ষপাত - একটি সহজ মডেল যা অত্যধিক মানায় না ঝোঁক, তবে প্রশিক্ষণের ডেটা অধীনে ফেলতে পারে, গুরুত্বপূর্ণ নিয়মিততাগুলি ক্যাপচার করতে ব্যর্থ হয়।


-1

বর্ণালী বিশ্লেষণ নমুনার বৈচিত্র্য বিশ্লেষণে সহায়তা করবে, আসলে, "সত্য-নমুনা" যুক্ত না করা হলে মডেলিংয়ে মিথ্যা তথ্য শিখবে, যা সাধারণত ওভার-ফিটিং বলে। সাধারণত, যদি নমুনা দ্বারা সরবরাহিত তথ্য কম হয়, পরীক্ষার ক্ষেত্রে দরকারী তথ্য ব্যবহার করা যায় তা নিশ্চিত করার জন্য আরও প্রকৃত নমুনা সরবরাহ করতে উত্সাহিত করা হয়। শুভকামনা!


3
এই উত্তরের কোনও ধারণা করা কঠিন। এটি সম্ভবত অন্য কোনও ভাষা থেকে মেশিন-অনুবাদিত ছিল? আপনি কি আমাদের সাথে এটি ভাগ করতে চান এমন ধারণাগুলি পৌঁছে দেওয়ার কোনও উপায় রয়েছে যা আপনি এটি পর্যালোচনা করে সম্পাদনা করতে পারেন?
whuber

আপনার প্রতিক্রিয়া কি আমি বুঝতে পারছি না।
ব্যবহারকারী 162580

3
দেখে মনে হচ্ছে আমাদের একটি ভাষার সমস্যা আছে: আপনি যে শব্দগুলি পোস্ট করেছেন সেগুলি ইংরাজীতে বোঝা যায় না। আপনি কি তাদের পরিবর্তন করতে পারেন যাতে তারা বুঝতে পারে?
হোবার
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.