ওভারফিটিং / ডেটা সেট আকারের সাথে আন্ডারফিটিং


11

নীচের গ্রাফে,

  • x- অক্ষ => ডেটা সেট আকার
  • y- অক্ষ => ক্রস বৈধতা স্কোর

এখানে চিত্র বর্ণনা লিখুন

  • লাল লাইন প্রশিক্ষণ ডেটা জন্য

  • সবুজ রেখাটি ডেটা পরীক্ষার জন্য

আমি যে টিউটোরিয়ালটিতে উল্লেখ করছি, লেখক বলেছেন যে বিন্দু যেখানে লাল রেখা এবং সবুজ রেখা ওভারল্যাপের অর্থ,

আরও ডেটা সংগ্রহের ফলে সাধারণীকরণের কার্যকারিতা বাড়ার সম্ভাবনা নেই এবং আমরা এমন একটি অঞ্চলে থাকি যা সম্ভবত আমরা ডেটাটিকে কম সাফল্যযুক্ত করব। অতএব আরও ক্ষমতা সহ একটি মডেল দিয়ে চেষ্টা করার জন্য এটি বোধগম্য

আমি সাহসী বাক্যাংশটির অর্থ এবং এটি কীভাবে ঘটে তা বেশ বুঝতে পারি না ।

কোন সাহায্যের প্রশংসা করুন।


লাল এবং সবুজ রেখা কি?
কসরা মনশায়ে

1
@ কসরমনশয়েই: আমি প্রশ্নটি আপডেট করেছি।
থারিন্ডু_ডিজি

1
যদি সম্ভব হয় তবে টিউটোরিয়ালে লিঙ্ক যুক্ত করুন। উত্তর এবং প্রসঙ্গটি আরও ভালভাবে বুঝতে আমাদের সহায়তা করবে :)
ডওয়ানি 33

@ ডাউনি 33: এটি একটি ভিডিও টিউটোরিয়াল এবং এটি আপলোড করা আমার ধারণা কপিরাইটের বিষয়গুলি লঙ্ঘন করবে। :)
থারিন্ডু_ডিজি

উত্তর:


6

সুতরাং, আন্ডারফিটিংয়ের অর্থ হ'ল আপনার শেখার উন্নতি করার দক্ষতা এখনও রয়েছে তবে অতিপরিচ্ছন্নতার অর্থ আপনি শেখার জন্য প্রয়োজনের চেয়ে বেশি ক্ষমতা ব্যবহার করেছেন।

সবুজ অঞ্চলটি যেখানে পরীক্ষার ত্রুটি বাড়ছে অর্থাৎ উন্নততর ফলাফল অর্জন করার জন্য আপনার দক্ষতা সরবরাহ করা (ডেটা পয়েন্ট বা মডেল জটিলতা) চালিয়ে যাওয়া উচিত। আরও সবুজ লাইন যায়, এটি আরও সমতল হয় অর্থাত্ আপনি সেই পর্যায়ে পৌঁছাচ্ছেন যেখানে প্রদত্ত ক্ষমতা (যা ডেটা) যথেষ্ট এবং আরও ভাল যা অন্য ধরণের ক্ষমতা প্রদানের চেষ্টা করে যা মডেল জটিলতা।

যদি এটি আপনার পরীক্ষার স্কোরটিকে উন্নত করে না বা এটিকে হ্রাস করে তবে এর অর্থ হ'ল ডেটা-জটিলতার সংমিশ্রণটি কোনওভাবে অনুকূল ছিল এবং আপনি প্রশিক্ষণ বন্ধ করতে পারেন।


উত্তরের জন্য ধন্যবাদ. আমার কিছু অস্পষ্টতা আছে। - গ্রাফের শেষে, সবুজ রেখা এবং লাল রেখা রূপান্তরিত। এর অর্থ কি এই নয় যে আমাদের কাছে আমাদের মডেলের জন্য পর্যাপ্ত ডেটা রয়েছে? - প্রশিক্ষণ সংস্থার চেয়ে পরীক্ষার সেট থেকে আরও ভাল নির্ভুলতা পাওয়া সম্ভব? - বলুন যে আমরা একটি আরও ভাল মডেল পেয়েছি এবং সেই গ্রাফটি কেমন দেখাচ্ছে?
থারিন্ডু_ডিজি 13'1

1
"এর অর্থ এই নয় যে আমাদের কাছে আমাদের মডেলের জন্য পর্যাপ্ত ডেটা রয়েছে?" ঠিক এটাই আমি লিখেছিলাম। হ্যাঁ, আপনার পর্যাপ্ত ডেটা রয়েছে তাই আপনি যদি উন্নতি করতে চান তবে আরও জটিলতার চেষ্টা করা উচিত। ডেটা যথেষ্ট। "প্রশিক্ষণের সেটের চেয়ে পরীক্ষার সেট থেকে আরও ভাল নির্ভুলতা পাওয়া সম্ভব?" এরকম জিনিস আমি কখনও দেখিনি। এটি একক পরীক্ষায় ঘটতে পারে তবে সাধারণভাবে নয়। এই প্রশ্নের অনুবাদ করা যেতে পারে "আমি যা জানি তার চেয়ে আরও বেশি জানতে পারি?" এবং উত্তর "অবশ্যই না!"
কসরা মনশায়ে

1
"বলুন যে আমরা একটি আরও ভাল মডেল পেয়েছি এবং সেই গ্রাফটি কেমন দেখাচ্ছে?" আমি ধরে নিলাম (আপনি চেষ্টা করুন এবং আমি ঠিক থাকলে তা আমাকে জানান :)) যে প্রশিক্ষণ এবং পরীক্ষা উভয়ই উন্নত হয় বা সেগুলির মধ্যে নয়। এটি সম্ভব যে প্রশিক্ষণের উন্নতি হয় এবং পরীক্ষার পতন ঘটে তবে তদ্বিপরীত হয় না এবং এটিও সম্ভব যে উভয় কিছু সময়ের জন্য উন্নতি করে তবে পরীক্ষা নেমে আসে যার নাম ওভারফিটিং। আপনার পয়েন্ট পরীক্ষা লাইনে প্রশিক্ষণ বন্ধ হওয়া উচিত
কসরা মনশায়ে

5

যদিও কসরা মানশায়েই একটি ভাল সাধারণ উত্তর দেয় (+1), আমি উদাহরণটি বোঝার জন্য একটি সহজ দিতে চাই।

খুব সাধারণ সমস্যাটি ভাবুন: কোনও ফাংশন ফিটিং f:[0,1]R। এটি করার জন্য, আপনি বহুবর্ষীয় শ্রেণীর বাইরে থেকে একটি মডেল নেন। তর্কের খাতিরে, আসুন আমরা मानনা করি যে আপনি 0 ডিগ্রি একটি বহুপদী নেন This এই মডেলগুলির ক্ষমতাটি খুব সীমিত কারণ এটি কেবল ধ্রুবকগুলিকে ফিট করতে পারে। এটি মূলত গড় মানটি অনুমান করবে (ত্রুটি ফাংশনের উপর অবশ্যই নির্ভর করে তবে এটি সহজ রাখবে)। তুলনামূলকভাবে দ্রুত আপনার কাছে এই ধরণের মডেলটির সেরা পরামিতিগুলি কী তা সম্পর্কে একটি দুর্দান্ত ধারণা তৈরি হবে। আপনার পরীক্ষা- এবং প্রশিক্ষণের ত্রুটিটি প্রায় অভিন্ন হবে, আপনি যতগুলি উদাহরণ যুক্ত করেন তা বিবেচনা করেই। সমস্যাটি এমন নয় যে আপনার পর্যাপ্ত ডেটা নেই, সমস্যাটি হ'ল আপনার মডেলটি যথেষ্ট শক্তিশালী নয়: আপনি অন্তর্বাস

সুতরাং অন্য পথে যেতে দিন: বলুন আপনার কাছে 1000 ডেটা পয়েন্ট রয়েছে। কিছুটা গণিত জানা, আপনি 999 ডিগ্রির বহুবচন বেছে নিয়েছেন Now এখন আপনি প্রশিক্ষণের ডেটা পুরোপুরি ফিট করতে পারেন। তবে আপনার ডেটা কেবলমাত্র খুব সঠিকভাবে ডেটা ফিট করতে পারে। উদাহরণস্বরূপ, দেখুন ( আমার ব্লগ থেকে )

এখানে চিত্র বর্ণনা লিখুন

এই ক্ষেত্রে, আপনার কাছে অন্যান্য মডেল রয়েছে যা পুরোপুরি ডেটাও ফিট করে। স্পষ্টতই, নীল মডেলটি ডেটাপয়েন্টগুলির মধ্যে একধরনের অপ্রাকৃত বলে মনে হয়। মডেল নিজেই প্রকারের বিতরণটি ভালভাবে ক্যাপচার করতে সক্ষম না হতে পারে, তাই মডেলটিকে আরও সহজ কিছুতে সীমাবদ্ধ করা আসলে এটি সহায়তা করতে পারে। এটি ওভারফিটের উদাহরণ হতে পারে ।


1
খুব সুন্দর @ মুস! (+1) ব্যাখ্যাটি বোঝার জন্য
কসরা মনশায়ে

0

আপনার ক্ষেত্রে আপনার আছে - ট্রেন এবং পরীক্ষা বক্ররেখার মধ্যে একটি খুব সামান্য (বা না) ব্যবধান যা ইঙ্গিত দেয় যে মডেলটির উচ্চ পক্ষপাত / আন্ডারফিট রয়েছে, সমাধান: আরও জটিল মডেল বেছে নেওয়া প্রয়োজন; - সমাপ্তির স্বার্থে, যখন ট্রেন এবং পরীক্ষা বক্ররেখার মধ্যে ব্যবধানটি খুব বেশি হয় যা একটি উচ্চতর বৈকল্পিকতা / অতিপরিচ্ছন্নতা, সমাধানগুলি নির্দেশ করে: একটি বিপরীত কেস যুক্ত করা দরকার: ক) ডেটা সেট আকার বাড়ানো অবিরত; খ) কম জটিল মডেল চয়ন করুন, গ) নিয়মিতকরণ করুন।


0

আপনি নিম্নলিখিত / সমস্ত কিছু করতে পারেন:

1) আপনি যে বৈশিষ্ট্যগুলি মডেলটিতে খাওয়ান তা পরিবর্তন করুন

2) সাথে কাজ করার জন্য একটি ভিন্ন মডেল চয়ন করুন

3) মডেলটিতে আরও ডেটা লোড করুন (আপনার পক্ষে কোনও বিকল্প নাও হতে পারে, তবে সাধারণত এটি একটি বিকল্প)

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.