ওভারফিটিং কেন মেশিন লার্নিংয়ে খারাপ?


49

যুক্তি প্রায়শই বলে যে কোনও মডেলকে বাছাইয়ের মাধ্যমে, এর সাধারণকরণের ক্ষমতা সীমিত হয়, যদিও এর অর্থ কেবলমাত্র কোনও নির্দিষ্ট জটিলতার পরে ওভারফিটিং কোনও মডেলকে উন্নতি করতে থামিয়ে দেয়। ওভারফিটিংয়ের ফলে কি ডেটাগুলির জটিলতা নির্বিশেষে মডেলগুলি আরও খারাপ হয়ে যায় এবং যদি তাই হয় তবে কেন এটি ঘটছে?


সম্পর্কিত: উপরের প্রশ্নের অনুসরণ, " কখন একটি মডেল আন্ডারফিট হয়? "


1
আপনার প্রশ্নটি কি আসলে এমন কোনও মামলা রয়েছে যেখানে অতিরিক্ত সাফল্য পাওয়া অসম্ভব?
শন

@ সীনওউইন: না, কীভাবে অতিরিক্ত মানা করা অসম্ভব?
ভুল 13

সম্মতি জানুন, আপনি যেমন জিজ্ঞাসা করেছিলেন ঠিক ততটাই পরীক্ষা করে দেখছেন যে অতিরিক্ত মানানসই মডেলগুলি ডেটা নির্বিশেষে আরও খারাপ করে তুলেছে
সান ওওন

1
সংজ্ঞা অনুযায়ী ওভারফিটিং খারাপ bad এটি না হলে এটি ওভার- ফিটিং না হত।
গালা

1
আমি আপনাকে "মডেল জটিলতা যোগ করার" বিষয়ে উদ্ধৃতি দেওয়ার অর্থ চাইনি - আমি কেবল এই বাক্যাংশটি হাইলাইট করছি। যাইহোক আমি অনুমান করি যে আমার সমস্যাটি মূলত @ গালার মতোই, যা হ'ল ওভারফিটিং মানে খুব বেশি ফিট করা। সুতরাং মনে হচ্ছে আপনি আমাদেরকে টাউটোলজি নিশ্চিত করতে বলছেন। সুতরাং, আমি ভাবতে চাই যে আপনি আসলে একটি ভিন্ন প্রশ্ন জিজ্ঞাসা করেছেন। উদাহরণস্বরূপ, ক্রমবর্ধমান মডেল জটিলতাগুলি কি মডেলগুলি আরও খারাপের কারণ হতে পারে? বা, কীভাবে উপাত্তের জটিলতা কোনও মডেলের প্রবণতা বাড়ানোর প্রবণতার সাথে সম্পর্কিত?
নাথান গোল্ড

উত্তর:


44

ওভারফিট করা অভিজ্ঞতাগতভাবে খারাপ। ধরুন আপনার কাছে এমন একটি ডেটা সেট রয়েছে যা আপনি দুটি, পরীক্ষা এবং প্রশিক্ষণে ভাগ করেছেন। একটি ওভারফিটেড মডেল এমন একটি যা প্রশিক্ষণ ডেটাসেটের চেয়ে টেস্ট ডেটাसेटে আরও খারাপ কাজ করে। এটি প্রায়শই দেখা যায় যে এর মতো মডেলগুলি সাধারণভাবে অতিরিক্ত (নতুন) পরীক্ষার ডেটাসেটগুলির তুলনায় আরও খারাপ দেখায় যা মডেলগুলির চেয়ে বেশি নয়।

স্বজ্ঞাতভাবে বোঝার একটি উপায় হ'ল কোনও মডেল তথ্য সম্পর্কিত কিছু প্রাসঙ্গিক অংশ (সংকেত) এবং কিছু অপ্রাসঙ্গিক অংশ (শব্দ) ব্যবহার করতে পারে। একটি ওভারফিটেড মডেল আরও বেশি শব্দ ব্যবহার করে, যা জ্ঞাত গোলমালের (প্রশিক্ষণ ডেটা) ক্ষেত্রে এর কার্যকারিতা বৃদ্ধি করে এবং উপন্যাসের গোলমালের (পরীক্ষার ডেটা) ক্ষেত্রে এর কার্যকারিতা হ্রাস করে। প্রশিক্ষণ এবং পরীক্ষার ডেটাগুলির মধ্যে পারফরম্যান্সের পার্থক্য ইঙ্গিত দেয় যে মডেল কতটা শব্দ নিয়ে যায়; এবং শব্দ উত্থাপন সরাসরি পরীক্ষার ডেটা (ভবিষ্যতের ডেটা সহ) এর খারাপ কার্য সম্পাদনে অনুবাদ করে।

সংক্ষিপ্তসার: সংজ্ঞা অনুসারে ওভারফিট করা খারাপ, এটি জটিলতা বা সাধারণীকরণের দক্ষতার সাথে খুব বেশি কিছু করতে পারে না, বরং সংকেতের জন্য ভুলভ্রান্ত শব্দটি ব্যবহার করে।

পিএস প্রশ্নের "সাধারণীকরণের ক্ষমতা" বিষয়ে, এমন একটি মডেল পাওয়া খুব সম্ভব যা মডেলটির কাঠামোর কারণে উদাহরণস্বরূপ সীমিত দক্ষতা রয়েছে (উদাহরণস্বরূপ লিনিয়ার এসভিএম, ...) তবে এখনও ঝুঁকির মধ্যে রয়েছে overfitting। এক অর্থে ওভারফিটিং হ'ল এক উপায় যা সাধারণীকরণ ব্যর্থ হতে পারে।


17

সংক্ষেপে ওভারফিটিংয়ের অর্থ আপনার ডেটা এবং / বা পূর্ববর্তী জ্ঞান থেকে অত্যধিক তথ্য গ্রহণ করা এবং এটি একটি মডেলে ব্যবহার করুন। এটিকে আরও সোজা করার জন্য, নিম্নলিখিত উদাহরণটি বিবেচনা করুন: আপনি কিছু বিজ্ঞানীর দ্বারা নিয়োগ পেয়েছেন যাতে কোনও ধরণের গাছের বৃদ্ধি অনুমান করার জন্য তাদের একটি মডেল সরবরাহ করা হয়। বিজ্ঞানীরা পুরো বছর জুড়ে এই জাতীয় উদ্ভিদগুলির সাথে তাদের কাজ থেকে সংগৃহীত তথ্য আপনাকে দিয়েছেন এবং তারা তাদের বৃক্ষরোপণের ভবিষ্যতের বিকাশের বিষয়ে অবিরত আপনাকে তথ্য দেবে।

সুতরাং, আপনি প্রাপ্ত ডেটাটি চালিয়ে যান এবং এটি থেকে একটি মডেল তৈরি করেন। এখন ধরা যাক, আপনার মডেলটিতে, আপনি প্রাথমিক ডেটাসেটে যে গাছগুলি দেখেছেন তার সঠিক আচরণ সন্ধান করার জন্য আপনি যতটা সম্ভব বৈশিষ্ট্য হিসাবে বিবেচনা করেছেন। এখন, উত্পাদন যেমন চলছে, আপনি সর্বদা সেই বৈশিষ্ট্যগুলিকে বিবেচনা করবেন এবং খুব সূক্ষ্ম ফলাফল পাবেন produce যাইহোক, যদি অবশেষে বৃক্ষরোপণ কিছু মৌসুমী পরিবর্তনের ফলে ভোগে তবে আপনি যে ফলাফলগুলি পাবেন তা আপনার মডেলটিকে এমনভাবে ফিট করতে পারে যে আপনার ভবিষ্যদ্বাণীগুলি ব্যর্থ হতে শুরু করবে (হয় বলছে যে বৃদ্ধিটি ধীর হয়ে যাবে, যখন এটি আসলে গতিবেগ হবে, বা বিপরীত)।

এই জাতীয় ছোট প্রকরণগুলি সনাক্ত করতে অক্ষম হওয়া এবং সাধারণত আপনার এন্ট্রিগুলিকে ভুলভাবে শ্রেণিবদ্ধকরণ করা ছাড়াও মডেলের সূক্ষ্ম দানা অর্থাৎ প্রচুর পরিমাণে ভেরিয়েবল প্রসেসিংটি খুব ব্যয়বহুল হতে পারে। এখন, ধারণা করুন যে আপনার ডেটা ইতিমধ্যে জটিল। ডেটাতে আপনার মডেলকে সাফাই না দেওয়া কেবল শ্রেণিবদ্ধকরণ / মূল্যায়নকে খুব জটিল করে তুলবে না, তবে সম্ভবত আপনি ইনপুটটিতে থাকা সামান্যতম প্রকরণের তুলনায় ভবিষ্যদ্বাণীকে ত্রুটি করে দেবেন।

সম্পাদনা : এটি পাশাপাশি কিছুটা কার্যকর হতে পারে, সম্ভবত উপরের ব্যাখ্যাটিতে গতিশীলতা যুক্ত হবে: ডি


14

মোটামুটিভাবে বলতে গেলে, ওভার-ফিটিং সাধারণত যখন অনুপাত হয় occurs

এখানে চিত্র বর্ণনা লিখুন

খুব বেশি।

অতিরিক্ত মানানসই হিসাবে এমন পরিস্থিতি হিসাবে ভাবুন যেখানে আপনার মডেলটি বড় বড় ছবিগুলি শেখার পরিবর্তে হৃদয় দিয়ে প্রশিক্ষণ ডেটা শিখেন যা পরীক্ষার ডেটাগুলিতে সাধারণীকরণে সক্ষম হতে বাধা দেয়: মডেলটির আকারের ক্ষেত্রে মডেল খুব জটিল হলে এটি ঘটে happens প্রশিক্ষণের ডেটা, মডেল জটিলতার সাথে তুলনায় যখন প্রশিক্ষণের ডেটা আকার ছোট হয় তা বলতে হয়।

উদাহরণ:

  • যদি আপনার ডেটা দ্বিমাত্রিক হয় তবে আপনার প্রশিক্ষণ সংস্থায় 10000 পয়েন্ট রয়েছে এবং মডেলটি একটি লাইন, আপনি কম-বেশি ফিট হতে পারেন।
  • যদি আপনার ডেটা দ্বিমাত্রিক হয় তবে প্রশিক্ষণ সেটে আপনার 10 পয়েন্ট রয়েছে এবং মডেলটি 100-ডিগ্রি বহুবর্ষীয়, আপনি সম্ভবত অতিরিক্ত- ফিট হবেন।

এখানে চিত্র বর্ণনা লিখুন

একটি তাত্ত্বিক দিক থেকে, আপনার মডেলকে সঠিকভাবে প্রশিক্ষণের জন্য আপনার প্রয়োজনীয় পরিমাণের ডেটা মেশিন লার্নিংয়ের একটি গুরুত্বপূর্ণ তবে সুদূর-উত্তর-উত্তর হওয়া প্রশ্ন। এই প্রশ্নের উত্তর দেওয়ার জন্য এরকম একটি পদ্ধতির নাম ভিসি ডাইমেনশন । আর একটি হ'ল বায়াস-ভেরিয়েন্স ট্রেড অফ

একটি অভিজ্ঞতাগত দৃষ্টিকোণ থেকে, লোকেরা সাধারণত প্রশিক্ষণ ত্রুটি এবং পরীক্ষার ত্রুটি একই প্লটে প্লট করে এবং নিশ্চিত করে যে তারা পরীক্ষার ত্রুটির ব্যয় করে প্রশিক্ষণের ত্রুটি হ্রাস করবেন না:

এখানে চিত্র বর্ণনা লিখুন

আমি কর্সেরার মেশিন লার্নিং কোর্স , বিভাগ "10: মেশিন লার্নিং প্রয়োগের জন্য পরামর্শ" দেখার পরামর্শ দেব ।

(পিএস: দয়া করে এখানে এই এসই তে টেক্স সহায়তার জন্য জিজ্ঞাসা করুন))



5

এর কারণ কিছু পক্ষপাত-বৈকল্পিক দ্বিধা বলে । ওভারফিটেড মডেলটির অর্থ হ'ল আমরা যদি মডেলটির প্রতি আরও বৈচিত্র্য দেব তবে আমাদের আরও জটিল সিদ্ধান্তের সীমানা থাকবে। জিনিসটি হ'ল, কেবল খুব সাধারণ মডেলই নয় জটিল মডেলগুলির অদেখা তথ্যের উপর ডিস-শ্রেণিবদ্ধ ফলাফল সম্ভবত রয়েছে। ফলস্বরূপ, অতিরিক্ত-ফিটিত মডেল আন্ডার-ফিটিত মডেল হিসাবে ভাল নয়। এ কারণেই ওভারফিটিং খারাপ এবং আমাদের মাঝখানে কোথাও মডেলটি ফিট করা দরকার।


+1 ধন্যবাদ, আপনার উত্তরের ফলস্বরূপ, আমি উপরের প্রশ্নটিতে একটি ফলোআপ পোস্ট করেছি, " কখন একটি মডেলকে আন্ডারফিট করা হয়? "
ভুল

4

ওভারফিটিংয়ের সমস্যাটি আমাকে কী বুঝতে পেরেছিল তা হল সর্বাধিক ওভারফিট মডেল কী হতে পারে তা কল্পনা করে। মূলত, এটি একটি সাধারণ চেহারা-সারণী হবে।

আপনি প্রতিটি মডেলের ডেটার প্রতিটি অংশের কী কী বৈশিষ্ট্য রয়েছে তা মডেলকে জানান এবং এটি কেবল এটির স্মরণ করে এবং এর সাথে আরও কিছু করে না। আপনি যদি এটি এর আগে দেখা একটি টুকরো তথ্য দেন তবে এটি এটির সন্ধান করে এবং আপনি আগে যা বলেছিলেন তা কেবল পুনঃস্থাপন করে। আপনি যদি এটি ডেটা দেন তবে এটি আগে দেখা যায় নি, ফলাফলটি অনাকাঙ্ক্ষিত বা এলোমেলো। তবে মেশিন লার্নিংয়ের বিন্দুটি আপনাকে কী বলা হয়েছে তা নয়, এটি নিদর্শনগুলি বোঝার জন্য এবং কী চলছে তা অনুমান করার জন্য সেই নিদর্শনগুলি ব্যবহার করতে হবে use

সুতরাং একটি সিদ্ধান্ত গাছ মনে। যদি আপনি নিজের সিদ্ধান্তের গাছটিকে আরও বড় এবং বড় করে চালিয়ে যান তবে অবশেষে আপনি এমন একটি গাছের সাথে বাড়াতে পারবেন যেখানে প্রতিটি পাতার নোড হুবহু একটি ডেটার পয়েন্টের উপর ভিত্তি করে থাকে। আপনি সন্ধানের সারণী তৈরির পিছনের দিকটি খুঁজে পেয়েছেন।

ভবিষ্যতে কী ঘটতে পারে তা নির্ধারণ করার জন্য আপনার ফলাফলগুলি সাধারণীকরণের জন্য আপনাকে অবশ্যই এমন একটি মডেল তৈরি করতে হবে যা আপনার প্রশিক্ষণ সেটে কী চলছে তা সাধারণীকরণ করবে। ওভারফিট মডেলগুলি আপনার কাছে ইতিমধ্যে থাকা ডেটাগুলি বর্ণনা করার জন্য দুর্দান্ত কাজ করে তবে বর্ণনামূলক মডেলগুলি অবশ্যই ভবিষ্যদ্বাণীপূর্ণ মডেল নয়।

নো ফ্রি লাঞ্চ থিওরেম বলছে যে কোনও মডেল সম্ভাব্য সমস্ত দৃষ্টান্তের সেটগুলিতে অন্য কোনও মডেলকে ছাড়িয়ে যেতে পারে না । "2, 4, 16, 32" সংখ্যার অনুক্রমের পরে কী হবে তা আপনি যদি ভবিষ্যদ্বাণী করতে চান তবে অন্তর্নিহিত প্যাটার্ন রয়েছে এমন অনুমানটি তৈরি না করে আপনি অন্য কোনওটির চেয়ে বেশি নির্ভুল মডেল তৈরি করতে পারবেন না। অতিমাত্রায় এমন একটি মডেল যা নিদর্শনগুলি মূল্যায়ন করে না - এটি কেবল যা সম্ভব তা মডেলিং করছে এবং আপনাকে পর্যবেক্ষণ দিচ্ছে। আপনি অনুমান করে এই শক্তি ধরে নিয়েছেন যে এখানে কিছু অন্তর্নিহিত ফাংশন রয়েছে এবং আপনি যদি সেই ফাংশনটি কী তা নির্ধারণ করতে পারেন তবে আপনি ঘটনার ফলাফল সম্পর্কে ভবিষ্যদ্বাণী করতে পারেন। তবে যদি সত্যিই কোনও প্যাটার্ন না থাকে, তবে আপনি ভাগ্য থেকে দূরে রয়েছেন এবং আপনি যা জানেন তা কী সম্ভব তা আপনাকে জানানোর জন্য একটি সারণী হ'ল।


1

আপনি ভুলভাবে দুটি পৃথক সত্তাকে বিবাদ দিচ্ছেন: (1) পক্ষপাত-বৈচিত্র এবং (2) মডেল জটিলতা।

(1) ওভার-ফিটিং মেশিন লার্নিংয়ে খারাপ কারণ কোনও তথ্য জনসংখ্যার সত্যিকারের নিরপেক্ষ নমুনা সংগ্রহ করা অসম্ভব । ওভার-ফিটযুক্ত মডেলের ফলাফলগুলি পুরো জনগণের জন্য পরামিতিগুলির সঠিকভাবে অনুমান করার পরিবর্তে পরামিতিগুলিতে ফলাফল দেয় the এর মানে হল আনুমানিক পরামিতি মধ্যে একটি পার্থক্য অবশিষ্ট থাকবে এবং অনুকূল পরামিতি , প্রশিক্ষণ সংখ্যা নির্বিশেষে সময়কাল । φ*এনϕ^ϕn

ϕ ϕ|ϕϕ^|eϕ as n , যেখানে some কিছু সীমাবদ্ধ মানeϕ

(২) মডেল জটিলতা সরলতার সাথে পরামিতির সংখ্যা । তাহলে মডেল জটিলতা কম, তারপর সেখানে একটি রিগ্রেশন ত্রুটি নির্বিশেষে প্রশিক্ষণ সময়কাল সংখ্যা, এমনকি যখন থাকবে প্রায় সমান । সবচেয়ে সহজ উদাহরণটি কোনও রেখার (y = mx + c) ফিট করতে শিখবে, যেখানে একটি বক্ররেখার ডেটাতে (চতুর্ভুজ বহুভুজ)φ φ φ * φ = { মি , }ϕϕ^ϕϕ={m,c}

এমE[|yM(ϕ^)|]eM as n , যেখানে কিছু রিগ্রেশন ফিট ত্রুটি বাউন্ডিং মানeM

সংক্ষিপ্তসার: হ্যাঁ, নমুনা পক্ষপাত এবং মডেল জটিলতা উভয়ই শেখা মডেলের 'মানের' অবদান রাখে, তবে তারা সরাসরি একে অপরকে প্রভাবিত করে না। আপনার যদি পক্ষপাতদুষ্ট ডেটা থাকে তবে সঠিক সংখ্যার প্যারামিটার এবং অসীম প্রশিক্ষণ নির্বিশেষে, চূড়ান্ত শেখা মডেলটিতে ত্রুটি থাকবে। একইভাবে, আপনার যদি প্রয়োজনীয় প্যারামিটারগুলির চেয়ে কম পরিমাণ থাকে, তবে নিখুঁত নিরপেক্ষ নমুনা এবং অসীম প্রশিক্ষণ নির্বিশেষে, চূড়ান্ত শেখা মডেলটিতে ত্রুটি থাকবে।


0

ওভার ফিটিং সম্পর্কে অনেক ভাল ব্যাখ্যা রয়েছে। এখানে আমার চিন্তা। যখন আপনার বৈকল্পিক খুব বেশি হয় এবং পক্ষপাত খুব কম হয় তখন ওভারফিট করা হয়।

ধরা যাক আপনার কাছে প্রশিক্ষণ ডেটা রয়েছে যা আপনি এন অংশে বিভক্ত করেছেন। এখন, আপনি যদি প্রতিটি ডেটাসেটের কোনও মডেলকে প্রশিক্ষণ দেন তবে আপনার কাছে এন মডেল থাকবে। এখন গড় মডেলটি সন্ধান করুন এবং তারপরে প্রতিটি মডেল গড় থেকে কতটা পৃথক হয় তা গণনা করতে ভেরিয়েন্স সূত্রটি ব্যবহার করুন। ওভারফিটেড মডেলগুলির জন্য, এই বৈকল্পিকটি সত্যই উচ্চতর হবে। এটি কারণ, প্রতিটি মডেলের অনুমানের পরামিতিগুলি থাকে যা আমরা এটি খাওয়াত সেই ছোট ডেটাসেটের সাথে খুব নির্দিষ্ট। একইভাবে, আপনি যদি গড় মডেলটি নেন এবং তারপরে এটির সুনির্দিষ্ট নির্ভুলতা দেবে যে মূল মডেল থেকে এটি কতটা পৃথক, এটি একেবারেই আলাদা হবে না। এটি নিম্ন পক্ষপাতের ইঙ্গিত দেয়।

আপনার মডেলটি অত্যধিক উপকারে আছে কি না তা সন্ধান করতে আপনি আগের পোস্টগুলিতে উল্লিখিত প্লটগুলি নির্মাণ করতে পারেন।

পরিশেষে, অতিরিক্ত মানসিক চাপ এড়াতে আপনি মডেলটিকে নিয়মিত করতে বা ক্রস বৈধতা ব্যবহার করতে পারেন।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.