একটি overfitted মডেল প্রয়োজনীয়ভাবে অকেজো?


25

ধরুন যে কোনও মডেলের প্রশিক্ষণের ডেটাতে 100% নির্ভুলতা রয়েছে তবে পরীক্ষার ডেটাতে 70% নির্ভুলতা রয়েছে। এই মডেল সম্পর্কে নিম্নলিখিত যুক্তি সত্য?

এটি সুস্পষ্ট যে এটি একটি অত্যুজ্জিত মডেল। ওভারফিটিং হ্রাস করে পরীক্ষার নির্ভুলতা বাড়ানো যেতে পারে। তবে, এই মডেলটি এখনও একটি দরকারী মডেল হতে পারে, যেহেতু এটি পরীক্ষার তথ্যের জন্য গ্রহণযোগ্য নির্ভুলতা রয়েছে।


17
যদি 70% নির্দিষ্ট অ্যাপ্লিকেশনগুলিতে গ্রহণযোগ্য হয় তবে আমি আপনার সাথে একমত হই।
রিচার্ড হার্ডি

6
আমি @ রিচার্ড হার্ডির সাথে পুরোপুরি একমত হই। উদাহরণস্বরূপ, একটি এলোমেলো বন গ্রহণ করুন: প্রায়শই, নির্মাণের মাধ্যমে, নিদর্শন কার্যকারিতা (ব্যাগের বাইরে থাকা পারফরম্যান্স নয়) 100% এর কাছাকাছি থাকে, তাই চূড়ান্তভাবে উপকারী। তবে তবুও, ব্যাগের বাইরে পরীক্ষা বা বৈধতা যাচাইকরণের সেটগুলি কম মূল্যায়নকে এটিকে একটি দরকারী মডেল হিসাবে গড়ে তুলতে যথেষ্ট উচ্চ হতে পারে।
মাইকেল এম

1
@ মেটেরিয়াত কেন নয়? এই নির্ভুলতা পরীক্ষা সেটে প্রাপ্ত যা প্রশিক্ষণ পর্বে ব্যবহৃত হয় না।
হোসেইন

3
@Metariat, যেমন একটি যুক্তি নিচে পরিসংখ্যানগত অনুশীলন বেশিরভাগ সাধারন রৈখিক মডেল, মধ্যে যেমন OLS ঔজ্জ্বল্যের প্রেক্ষাপটে মূল্নির্ধারক নিতে পারেন -test একটি ভাবা মান একটি নমুনা গড় সমতার জন্য, এবং যা। মজার বিষয়টি হ'ল যুক্তিটি প্রশিক্ষণের নমুনার উপরের মডেলগুলির উপর নির্ভর করে না। এটি আন্ডারফিট মডেলগুলির জন্য এবং সাধারণভাবে যে কোনও মডেলকে ধরে রাখে। এটা কি সঠিক নয়? t
রিচার্ড হার্ডি

4
আমি সেই মডেলটিকে ওভারফিটেড বলব না। পারফরম্যান্স পরীক্ষার সাথে বৈধতা কর্মের তুলনা করে একটি ওভারফিটেড মডেল প্রতিষ্ঠিত হয়। তারপরেও, কেবলমাত্র পরীক্ষার পারফরম্যান্স গ্রহণযোগ্যের চেয়ে যথেষ্ট কম ছিল, সম্ভবত বিপর্যয়করভাবে। প্রশিক্ষণের পারফরম্যান্স মানে কিছুই নয়।
ফায়ারব্যাগ

উত্তর:


32

আমি মনে করি তর্কটি সঠিক। তাহলে 70% বিশেষ অ্যাপ্লিকেশনের মধ্যে গ্রহণযোগ্য হয়, তাহলে মডেল দরকারী যদিও এটা overfitted হয় (আরো সাধারণভাবে, কিনা নির্বিশেষে এটা overfitted হয় বা নয়)।

Underfitting উদ্বেগ বিরুদ্ধে overfitting ভারসাম্য যদিও optimality (একটি সন্তোষজনক সমাধান খুঁজছেন) সন্তোষজনক পারফরম্যান্স থাকার সম্পর্কে পর্যাপ্ততা (মডেল কাজের জন্য যথেষ্ট ভাল অভিনয় করছেন?)। একটি মডেল অনুকূল না হয়ে যথেষ্ট ভাল হতে পারে।

সম্পাদনা করুন: ওপি-র অধীনে ফায়ারব্যাগ এবং ম্যাথিউ ড্রুরির মন্তব্যের পরে, আমি যুক্ত করব যে বৈধতা কর্মক্ষমতা না জেনে মডেলটি বেশি সাজিয়েছে কিনা তা সমস্যাযুক্ত হতে পারে judge ফায়ারবাগ ওভারফিটিংয়ের পরিমাণ পরিমাপের জন্য পরীক্ষার কার্যকারিতা বনাম বৈধতার তুলনা করার পরামর্শ দেয়। তবুও, যখন মডেল পরীক্ষার সেটটিতে 100% যথার্থতা সরবরাহ না করে প্রশিক্ষণ সেটটিতে 100% নির্ভুলতা সরবরাহ করে, তখন এটি সম্ভাব্য ওভারফিটিংয়ের একটি সূচক (বিশেষত তাই প্রতিরোধের ক্ষেত্রে তবে শ্রেণিবিন্যাসের ক্ষেত্রে প্রয়োজনীয় নয়)।


আপনি একটি উদাহরণ চেয়েছিলেন: stats.stackexchange.com/a/273930/2958আইরিস ডেটাসেটের নিউরাল নেট এর কোড নিন এবং তারপরে set.seed(100)এখানে বর্ণিত ঘটনাটির মতো চিত্রের জন্য চেষ্টা করুন এবং set.seed(15)তার বিপরীতে করুন। সম্ভবত " সম্ভাব্য ওভারফিটিংয়ের একটি সূচক" বলা ভাল
হেনরি

কোনও মডেল পক্ষে ট্রেন এবং পরীক্ষা উভয় ক্ষেত্রেই 100% নির্ভুলতা অর্জন করা কি সম্ভব এবং এর কোন অতিরিক্তরূপিতা করা হয়নি?
রিকা

1
@ ব্রিজ, আমি মনে করি আপনি এটি আলাদা থ্রেডে জিজ্ঞাসা করতে পারেন (এবং প্রয়োজনে প্রসঙ্গের জন্য এটির সাথে লিঙ্ক করুন)।
রিচার্ড হার্ডি


25

ক্রেডিট কার্ড জালিয়াতি সনাক্তকরণ সহ আমার অতীতের প্রকল্পে, আমরা জালিয়াতির মামলাগুলি মনে রাখার জন্য ইচ্ছাকৃতভাবে ডেটা / হার্ড কোডডের চেয়ে বেশি ফিট করতে চাই। (দ্রষ্টব্য, এক শ্রেণীর উপরে ওফিট করা সাধারণ ওভারফিটিং সমস্যা হ'ল ওপি যে কথা বলেছিল)) এ জাতীয় সিস্টেমে তুলনামূলকভাবে কম মিথ্যা ইতিবাচকতা রয়েছে এবং আমাদের চাহিদা পূরণ করে।

সুতরাং, আমি বলব, ওভারফিটেড মডেল কিছু ক্ষেত্রে কার্যকর হতে পারে।


5
এই উত্তরটি বেশ আকর্ষণীয় কারণ এটি ব্যবহারের ক্ষেত্রে উপস্থাপন করে। আমি মনে করি "হার্ড-কোডেড মনে রাখতে হবে" @ hxd1011 এর অর্থ হল যে মডেলটি নিশ্চিত করেছে যে প্রতিবেদিত জালিয়াতির প্রতিটি মামলা "জালিয়াতির পতাকা" হিসাবে নিয়েছে এবং এগুলি একটি, উহম, বলুন, ফিটিত ফাংশন দ্বারা তাদের গলা ফেলা বা বিভক্ত করা হয়নি that । ঠিক তেমন কিছু?
ইকননটফিক্স এই

নিবন্ধন করুন আসলে, আমরা মিথ্যা ইতিবাচক নিয়ন্ত্রণের জন্য আরও অনেকগুলি উপায় চেষ্টা করেছি। তবে জালিয়াতির মামলাগুলিকে উপেক্ষা করার চেষ্টা করা, পাগলভাবে ভালভাবে কাজ করেছে।
হাইটাও ডু

3
ββ

3
এটি বিরক্তিকর হতে পারে, তবে এটি আপনার আর্থিক ক্ষতিগ্রস্থ হওয়ার চেয়ে কয়েক হাজার গুণ কম বিরক্তিকর কারণ খারাপ কেউ আপনার কার্ডের তথ্য পেয়েছে।
ম্যাথু

12

হতে পারে: সাবধান আপনি যখন বলছেন যে 70% নির্ভুলতা (তবে আপনি এটি পরিমাপ করেন) আপনার পক্ষে যথেষ্ট ভাল, আপনি মনে করেন যে আপনি মনে করছেন যে ত্রুটিগুলি এলোমেলোভাবে বা সমানভাবে বিতরণ করা হয়েছে।

তবে ওভারফিটিংয়ের দিকে তাকানোর একটি উপায় হ'ল ট্রেনিং সেটে যখন কোন মডেল কৌশলটি খুব বেশি মনোযোগ দেয় তখন (এবং এর প্রশিক্ষণ প্রক্রিয়াটি উত্সাহ দেয়) এমনটি ঘটে। সাধারণ জনগণের যে বিষয়গুলিতে এই তিরস্কারগুলি ভাগ হয় তাদের উচ্চ-ভারসাম্যহীন ফলাফল থাকতে পারে।

সুতরাং সম্ভবত আপনি এমন একটি মডেল নিয়ে এসেছেন যা বলেছে যে সমস্ত লাল কুকুরের ক্যান্সার রয়েছে - কারণ আপনার প্রশিক্ষণের ডেটাতে সেই নির্দিষ্ট গণ্ডগোল। অথবা 24 থেকে 26 বছর বয়সের মধ্যে বিবাহিত ব্যক্তিরা প্রতারণামূলক বীমা দাবির প্রায় গ্যারান্টিযুক্ত। আপনার %০% নির্ভুলতা সাবজেক্টের পকেটগুলির জন্য 100% ভুল হতে প্রচুর জায়গা ছেড়ে দেয় কারণ আপনার মডেলটি বেশ উপযুক্ত।

(অতিরিক্ত পোশাক না হওয়াই গ্যারান্টি নয় যে আপনার কাছে ভুল পূর্বাভাসের পকেট নেই। বাস্তবে একটি আন্ডার-ফিট মডেলটিতে খারাপ ভবিষ্যদ্বাণী রয়েছে over তবে আপনি কী জানেন যে আপনি আপনার প্রশিক্ষণের ডেটাতে কোয়ার্কের প্রভাবটি বাড়িয়ে তুলছেন) ।)


ধন্যবাদ। আপনি কি বোঝাতে চেয়েছেন যে এই 70% নির্ভুলতা পরীক্ষার ডেটাতে পাওয়া যায় এমন প্রশিক্ষণের ডেটাগুলিতে প্রশ্নগুলি পাওয়া যায়? আমরা পরীক্ষার তথ্যের নির্ভুলতার ভিত্তিতে বিচার করতে পারি না? আমি মনে করি যে পরীক্ষার তথ্যগুলিতে যে প্রশিক্ষণের তথ্য পাওয়া যায় সেগুলিতে কোয়ার্কগুলি প্রশিক্ষণের সময় শিখতে হবে।
হোসেইন

1
যদি আমি আপনাকে বুঝতে পারি, তবে এটির বিপরীত হবে: স্নিগ্ধর চেয়ে বেশি মানসিক চাপ আপনাকে প্রশিক্ষণের ক্ষেত্রে আপনার উচ্চ নির্ভুলতা দিয়েছে। আপনি পরীক্ষায় কম নির্ভুলতা পাওয়ার কারণটি হ'ল সেই তিরস্কারগুলি আপনার সামগ্রিক ডেটাসেটে প্রযোজ্য নয়। তবে অবশ্যই আপনার প্রশিক্ষণ এবং পরীক্ষার সেটগুলি - এমনকি যদি আপনি ক্রস-বৈধকরণ করেন যা সহায়তা করে - আপনার জনসংখ্যার সাথে সম্পর্কিত হতে পারে উদ্বিগ্ন। এক্ষেত্রে আপনার পরীক্ষার / বৈধতার ফলাফলগুলি আপনি কীভাবে বাস্তবে সম্পাদন করেন তা ভালভাবে পূর্বাভাস দেয় না।
ওয়েইন

আপনি ঠিক বলেছেন যে টেস্টিং সেটটি জনসংখ্যার সাথে সম্পর্কিত হয়ে উঠতে পারে তবে এটি অতিমাত্রায়িত মডেলগুলির সাথে সুনির্দিষ্ট নয়। আমাদের সমস্ত মূল্যায়ন এটি থেকে ভোগে এবং সত্য জনসংখ্যার জন্য প্রক্সি হিসাবে পরীক্ষার সেটটিতে নির্ভর করা ছাড়া আমাদের আর কোনও উপায় নেই।
হোসেইন

সত্য, এটি ওভারফিটেড মডেলগুলির পক্ষে অনন্য নয়, তবে এটি একটি ওভারফিট মডেলটিতে প্রশস্ত করা হয়েছে। আমি সংজ্ঞা দিয়ে বলতে চাই মডেলটি অতিরিক্ত পোশাক কারণ এটি স্পষ্টতই দুর্বলতাগুলিকে ভুগছে।
ওয়েইন

7

না তারা কার্যকর হতে পারে, তবে এটি আপনার উদ্দেশ্যের উপর নির্ভর করে। মনে রাখা বিভিন্ন বিষয়:

  1. Fββ1

  2. এই জাতীয় শ্রেণীবদ্ধকারী একটি নকশার জন্য সত্যিই দরকারী হতে পারে । আমাদের সাধারণ ওজন সহ একটি শ্রেণিবদ্ধ থাকতে পারে, একটি টিপিআরকে ওভারইয়েট করে, এফএনআরকে ওভারওয়েট করে। তারপরেও তিনটি সাধারণ রুল অফ-থ্রি ভোটদান, বা গড়, কোনও একক সেরা শ্রেণিবদ্ধের চেয়ে ভাল এওসি দেবে। যদি প্রতিটি মডেল বিভিন্ন হাইপারপ্যারামিটারগুলি (বা সাব-স্যাম্পেলড ট্রেনিং-সেটস, বা মডেল আর্কিটেকচার) ব্যবহার করে, তবে এটি পোশাকের তুলনায় অতিমাত্রায় কিছুটা অনাক্রম্যতা কিনে।

  3. একইভাবে, রিয়েল-টাইম অ্যান্টি-স্প্যাম, অ্যান্টি-জালিয়াতি বা ক্রেডিট-স্কোরিংয়ের জন্য, শ্রেণিবদ্ধদের শ্রেণিবিন্যাস ব্যবহার করা ঠিক এবং পছন্দসই স্তর -১ শ্রেণিবদ্ধকারীদের সত্যই দ্রুত (এমএস) মূল্যায়ন করা উচিত এবং উচ্চ এফপিআর থাকা ঠিক আছে ; তারা যে কোনও ভুল করে তা আরও নির্ভুল, সম্পূর্ণ বৈশিষ্ট্যযুক্ত, ধীর উচ্চতর স্তরের শ্রেণিবদ্ধ বা শেষ পর্যন্ত মানব পর্যালোচকদের দ্বারা ধরা পড়বে। সুস্পষ্ট উদাহরণ: ২০১৩ "হোয়াইট হাউস বোমা হামলায় তিনজন নিহত" এর মতো টুইটার অ্যাকাউন্ট থেকে নকল-নিউজ শিরোনামগুলি প্রতিরোধের পোস্টের এমএসের মধ্যে $ বিলিয়ন ডলার ব্যবসায়ের উপর প্রভাব ফেলতে পারে। স্তরের -১ শ্রেণিবদ্ধকারীটিকে স্প্যামের জন্য এটি ইতিবাচক হিসাবে পতাকাঙ্কিত করা ঠিক আছে; আসুন (স্বয়ংক্রিয়ভাবে) চাঞ্চল্যকর-তবে-যাচাই করা হয়নি এমন খবরের কাগজগুলির সত্য / মিথ্যা নির্ধারণ করতে এটি কিছুটা সময় নেয় let's


2

আমি অস্বীকার করছি না যে একটি উত্সাহী মডেল এখনও কার্যকর হতে পারে। তবে কেবল মনে রাখবেন যে এই 70% একটি বিভ্রান্তিকর তথ্য হতে পারে। আপনি কি বিচারক করার জন্য প্রয়োজন হলে একটি মডেল দরকারী বা না আউট-অফ-নমুনা ত্রুটি , না পরীক্ষামূলক ত্রুটি , (আউট-অফ-নমুনা ত্রুটি জানা যায় না তাই আমরা একটি অন্ধ পরীক্ষা সেট ব্যবহার করে অবস্থান নির্ণয় করতে হবে ), এবং 70০% সবেমাত্র ভাল আনুমানিক হয়।

@ রিচার্ড হার্ডির মন্তব্যের পরে আমরা এই শব্দটির পরিভাষায় একই পৃষ্ঠায় এসেছি তা নিশ্চিত করার জন্য, আসুন অন্ধ পরীক্ষার সেটটিতে মডেল প্রয়োগ করার সময় প্রাপ্ত ত্রুটি হিসাবে টেস্টিং ত্রুটিটিকে সংজ্ঞায়িত করি। এবং পুরো জনসংখ্যায় মডেল প্রয়োগ করার সময় সীমাবদ্ধ ত্রুটিটি ত্রুটি।

নমুনা ছাড়াই ত্রুটিটির আনুমানিকতা দুটি বিষয়ের উপর নির্ভর করে: নিজেই এবং মডেল।

  • একটি "সর্বোত্তম" মডেল একটি (পরীক্ষার) নির্ভুলতার জন্য ফল দেয় যা খুব কমই ডেটার উপর নির্ভর করে, এক্ষেত্রে এটি একটি ভাল আনুমানিকতা হবে। ডেটা "নির্বিশেষে", পূর্বাভাস ত্রুটি স্থিতিশীল হবে।

  • তবে, একটি ওভারফিটেড মডেলের যথার্থতা ডেটাগুলির উপর নির্ভরশীল (যেমন আপনি প্রশিক্ষণের সেটটিতে 100% এবং অন্য সেটটিতে 70% উল্লেখ করেছেন)। সুতরাং এটি হতে পারে যে অন্য ডেটা সেটটিতে প্রয়োগ করার সময় নির্ভুলতা কোথাও 70০% (বা তার চেয়েও বেশি) এর চেয়ে কম হতে পারে এবং আমাদের খারাপ আশ্চর্য হতে পারে। অন্য কথায়, 70০% আপনাকে বলে দিচ্ছে আপনি এটি কী হিসাবে বিশ্বাস করেন তবে তা তা নয়।


1
যেহেতু test০% নির্ভুলতা প্রাপ্ত ব্যবহৃত পরীক্ষার সেটটি প্রশিক্ষণ পর্বে দেখা যায় না, তেমনি নমুনা ছাড়াই ত্রুটিটি কি ভাল অনুমান করা যায় না? আমি মনে করি প্রশিক্ষণ ত্রুটি (100%) এবং পরীক্ষার ত্রুটি (70%) -র বাইরে-নমুনা ত্রুটি এবং পরীক্ষার ত্রুটির মধ্যে পার্থক্যের একটি ভাল ইঙ্গিত নয়। এটি সম্ভবত সম্ভব যে ওভারফিটেড মডেল বাস্তব বিশ্বে 70% নির্ভুল সম্পাদন করে, যখন প্রশিক্ষণের ডেটার জন্য এটি 100% নির্ভুল। আমি প্রশিক্ষণের ত্রুটি পরীক্ষার ত্রুটির চেয়ে কম হবে বলে আশা করি, যেহেতু প্রশিক্ষণের ডেটা মডেল তৈরি করতে ব্যবহৃত হয়, তবে প্রশিক্ষণের সময় পরীক্ষার ডেটা দেখা যায় না।
হোসেইন

5
আমি মনে করি আপনি বৈধতা সেট এবং পরীক্ষার সেট এবং তাদের সম্পর্কিত ত্রুটি গুলিয়ে ফেলেছেন। পরীক্ষা ত্রুটি হয় আউট-অফ-নমুনা ত্রুটি। যদিও বৈধতা ত্রুটি একটি নির্বাচিত মডেলের একটি আশাবাদী পরিমাপ, পরীক্ষা ত্রুটি নয়। পরীক্ষা ত্রুটি কিভাবে আদর্শ একই জনসংখ্যা থেকে একটি নতুন নমুনার উপর সঞ্চালন করা হবে একজন নিরপেক্ষ অনুমান। আমরা পরীক্ষার ত্রুটির প্রকরণটি অনুমান করতে পারি, সুতরাং যতক্ষণ পরীক্ষার সেট খুব ছোট না হয় কেবলমাত্র পরীক্ষার ত্রুটিটি জেনে আমরা বেশ ভাল । @ হোসেইন
রিচার্ড হার্ডি

3
আপনি কী নমুনা ছাড়াই ত্রুটি এবং পরীক্ষার ত্রুটির মধ্যে পার্থক্যটি ব্যাখ্যা করতে পারেন? আমার বোঝা থেকে, মডেলটি প্রশিক্ষণের জন্য ব্যবহৃত না হওয়া নমুনায় মডেল প্রয়োগ করার সময় উভয়ই ত্রুটি। আমি কেবলমাত্র সম্ভাব্য পার্থক্যটি দেখতে পাচ্ছি সময়-সিরিজ ডেটা ব্যবহার করার সময়, নমুনা ছাড়াই থাকা ডেটা পরবর্তী সময়ের পয়েন্টগুলি থেকে হওয়া উচিত, তবে এই প্রশ্নগুলি সেটির কোনও উল্লেখ করে না।
পারমাণবিক ওয়াং

1
আমার দৃষ্টিকোণ থেকে, পরীক্ষার ত্রুটি হ'ল মডেলটিকে অন্ধ সেটে প্রয়োগ করার সময় প্রাপ্ত ত্রুটি, এটি বহির্মুখী নমুনা ত্রুটির একটি অনুমান যা পুরো জনসংখ্যায় মডেল প্রয়োগ করার সময় প্রাপ্ত ত্রুটি। এবং এটি একই নয়, মূল্যবান তথ্য হ'ল নমুনা ছাড়াই ত্রুটি। এবং যখন মডেলটি অতিমাত্রায় ছড়িয়ে পড়ে, তখন পরীক্ষার ত্রুটি স্থিতিশীল হয় না এবং অন্যান্য ডেটা সেটগুলিতে খারাপ সাপ্লাই হয়।
মেটেরিয়াত

4
@ মিটারিয়েট, আপনি ঠিক বলেছেন যে পরীক্ষার ত্রুটিটি একটি অনুমান এবং এটি একটি পরীক্ষার থেকে অন্য পরীক্ষায় সেট থেকে আলাদা হতে পারে। তবে, যেমনটি আমি আগেই বলেছি, আশা করার কোনও কারণ নেই যে পরীক্ষার ত্রুটিটি সত্য ত্রুটিটিকে কম বলে বিবেচনা করে (এটি গড়ে গড়ে না)। সুতরাং একটি বৃহত পর্যাপ্ত পরীক্ষার নমুনা গ্রহণ করে, আমরা পরীক্ষার ত্রুটিটিকে একটি কাঙ্ক্ষিত পরিসরে আকাঙ্ক্ষার একটি পছন্দসই স্তরের সাথে আবদ্ধ করতে পারি। এখন আরও ব্যবহারিকভাবে, সম্ভবত আপনার উত্তরটি সম্পাদনা করে পরীক্ষার ত্রুটিটি সংজ্ঞায়িত করা উচিত যাতে পরীক্ষা-নিরীক্ষার ত্রুটির সাথে পরীক্ষা-নিরীক্ষার ত্রুটিটির বিপরীতে বৈঠক করার সময় আপনার অর্থের কোনও ভুল বোঝাবুঝি হয় না তা নিশ্চিত করে।
রিচার্ড হার্ডি
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.