লিনিয়ার ক্লাসিফায়ারদের সাথে ওভারফিটিং


10

আজ আমাদের অধ্যাপক ক্লাসে বলেছিলেন যে "লিনিয়ার ক্লাসিফায়ারগুলির সাথে ওভারফিট করা সম্ভব নয়"। আমি এটাকে ভুল বলে ধরেছি, যেহেতু লিনিয়ার শ্রেণিবদ্ধীরা প্রশিক্ষণ সংস্থায় আউটলিয়ারদের কাছে সংবেদনশীল হতে পারে - উদাহরণস্বরূপ একটি কঠোর মার্জিন সমর্থন করুন ভেক্টর মেশিন: একটি একক কোলাহলী ডেটাপয়েন্টটি পরিবর্তন করতে পারে কোন হাইপারপ্লেনটি ডেটাসেটগুলি পৃথক করতে ব্যবহৃত হবে। নাকি আমি ভুল করছি? স্পষ্টতই, রৈখিকতা সম্ভবত কম মডেলের জটিলতার কারণে অতিরিক্ত ফিট করা থেকে রোধ করবে, তবুও আমি কেন দেখছি না যে কেন অতিরিক্ত ফিটিং অসম্ভব হওয়া উচিত। একটি অতিরিক্ত বিষয় হ'ল আমি যখন এই সমস্যাটি নিয়ে ভাবতে চেষ্টা করেছি তখন বুঝতে পেরেছিলাম যে "ওভারফিটিং" আনুষ্ঠানিকভাবে সংজ্ঞায়িত করা বলে মনে হয় না। কেন এমন? প্রশিক্ষণ এবং পরীক্ষার সেট পারফরম্যান্সের মধ্যে কিছু দূরত্ব পরিমাপ কি এ জাতীয় আনুষ্ঠানিককরণের অনুমতি দেয় না? ধন্যবাদ


4
আপনি কেন লিনিয়ার শ্রেণিবদ্ধ বলছেন? বেশিরভাগ লিনিয়ার মডেলগুলি পূর্বাভাসের জন্য, শ্রেণিবিন্যাসের জন্য নয়। এবং আপনি ঠিক বলেছেন - লিনিয়ার মডেলগুলি অত্যধিক ফিটনেসের জন্য খুব প্রবণ হতে পারে। মেশিন লার্নিং পদ্ধতির মতো নয়, তবুও ওভারফিট করা সমস্যা হতে পারে।
ফ্র্যাঙ্ক হ্যারেল

5
রৈখিক শ্রেণিবদ্ধের চেয়ে বেশি মানিয়ে নেওয়া খুব সহজ। কেবলমাত্র কিছু ডেটাসেটে (শোরগোলের, বাস্তব-জগতে) মডেলটিকে ফিট করুন এবং কোনও নিয়মিতকরণ ব্যবহার করবেন না।
ভ্লাদিস্লাভস ডভগ্যালিক্স

2
শ্রেণিবিন্যাস থেকে সাবধান থাকুন - সাধারণত আপনার দর্শনীয় স্থানগুলি কম রাখার প্রয়োজন হয় না।
ফ্র্যাঙ্ক হ্যারেল

2
@ ফ্র্যাঙ্কহারেল ... এবং কেন?
Pugl

1
হ্যাঁ, যদি মূলত বাইনারি হয়। যদি ওয়াই মূলত অবিচ্ছিন্ন ছিল তবে শ্রেণিবিন্যাস আরও বেশি সমস্যাযুক্ত। YY
ফ্র্যাঙ্ক হ্যারেল

উত্তর:


12

যথাযথ যত্ন ব্যতীত যদি লিনিয়ার রিগ্রেশন / ক্লাসিফায়ার হ'ল একেবারে ওভারফিট হতে পারে।

এখানে একটি ছোট উদাহরণ। আসুন দুটি ভেক্টর তৈরি করুন, প্রথমটি হ'ল এলোমেলো মুদ্রা উল্টে:5000

set.seed(154)
N <- 5000
y <- rbinom(N, 1, .5)

দ্বিতীয় ভেক্টরটি পর্যবেক্ষণ, প্রতিটি এলোমেলোভাবে 500 এলোমেলো ক্লাসের মধ্যে একটিতে নির্ধারিত :5000500

N.classes <- 500
rand.class <- factor(sample(1:N.classes, N, replace=TRUE))

আমাদের ফ্লিপ yএবং আমাদের এলোমেলো শ্রেণীর মধ্যে কোনও সম্পর্ক থাকতে হবে না rand.class, তারা সম্পূর্ণ স্বাধীনভাবে নির্ধারিত হয়েছিল।

তবুও, যদি আমরা লজিস্টিক রিগ্রেশন (একটি লিনিয়ার শ্রেণিবদ্ধ) ব্যবহার করে এলোমেলো শ্রেণীর সাথে র্যান্ডম ফ্লিপটি পূর্বাভাস দেওয়ার চেষ্টা করি তবে এটি নিশ্চিতভাবে মনে করে যে একটি সম্পর্ক আছে

M <- glm(y ~ rand.class, family="binomial")
hist(coef(M), breaks=50)

এখানে চিত্র বর্ণনা লিখুন

এই সহগের প্রত্যেকটির প্রকৃত মান শূন্য। তবে আপনি দেখতে পাচ্ছেন, আমাদের বেশ বিস্তার রয়েছে। এই লিনিয়ার শ্রেণিবদ্ধকারী নিশ্চিত ওভারফিটের জন্য।

1515y == 1y == 015

"overfitting" আনুষ্ঠানিকভাবে সংজ্ঞায়িত করা বলে মনে হয় না। কেন এমন?

Overfitting সেরা একটি প্রসঙ্গের মধ্যে বোঝা যেতে পারে বর্গ মডেলের কিছু জটিলতা প্যারামিটার রয়েছে। এই ক্ষেত্রে, জটিলতা কিছুটা কমলে নমুনার কর্মক্ষমতা থেকে ভাল প্রত্যাশার ফলস্বরূপ কোনও মডেলকে ওভারফিট বলা যেতে পারে।

একটি মডেল স্বাধীন উপায়ে ধারণাটির সঠিকভাবে সংজ্ঞা দেওয়া খুব কঠিন হবে। একটি একক মডেল কেবল ফিট, আপনার এটি ফিট করার জন্য বা এর চেয়ে কম তুলনা করার জন্য কিছু দরকার। আমার উদাহরণে এই তুলনাটি সত্যের সাথে ছিল, তবে আপনি সাধারণত সত্যটি জানেন না, তাই মডেল!

প্রশিক্ষণ এবং পরীক্ষার সেট পারফরম্যান্সের মধ্যে কিছু দূরত্ব পরিমাপ কি এ জাতীয় আনুষ্ঠানিককরণের অনুমতি দেয় না?

এমন ধারণা আছে, একে বলে আশাবাদ। এটি দ্বারা সংজ্ঞায়িত:

ω=EtestEtrain

E

যদিও এটি অত্যধিক ফিটনেসের সংমিশ্রণে আসে না, কারণ একটি পরীক্ষার সেটটিতে পারফরম্যান্স ট্রেনের চেয়ে কিছুটা খারাপ হতে পারে, যদিও উচ্চতর জটিলতার একটি মডেল উভয় হ্রাস পায় ।


বাহ, কি ভাল উত্তর, অনেক ধন্যবাদ। একটি প্রশ্ন: লিনিয়ার এসভিএমগুলি যেমন লগের তুলনায় অতিপরিচ্ছন্নতার প্রবণতা কম। রিগ্রেশন আপনি উল্লেখ করেছেন (রৈখিক সিদ্ধান্তের সীমানার জন্য অনুকূলকরণের বিভিন্ন পদ্ধতির কারণে)?
Pugl

1
আমাকে অবশ্যই স্বীকার করতে হবে, আমি এসভিএমগুলিতে কোনও বিশেষজ্ঞ নই এবং তাদের ব্যবহারে ব্যবহারিক অভিজ্ঞতার অভাব রয়েছে। আমি সত্যিই কোনও উত্তর চাই এবং খুব ভুল হওয়ার ঝুঁকি নিতে চাই না। আপনি যদি এটিকে সূক্ষ্মভাবে সূচনা করতে পারেন তবে এটি সম্ভবত এটির নিজের একটি প্রশ্নের মূল্য।
ম্যাথু ড্র্যারি

এসভিএমগুলি নিয়মিত করা হয় এবং অতএব অতিরিক্ত পোশাকের ঝুঁকির পরিমাণও কম। আপনি যে ফাংশনটি কম করছেন তা কেবল আপনাকে দেখতে হবে: এটির জন্য ওজনের l1 আদর্শ বা l2 আদর্শ অন্তর্ভুক্ত রয়েছে, সেগুলি অপ্টিমাইজেশনে সঙ্কুচিত করা এবং অতএব "জটিল" মডেলগুলিতে "সরল" মডেলগুলির প্রিফারিং রয়েছে। এটি নিয়ন্ত্রণকারী প্যারামিটার হ'ল সি হাইপার প্যারামিটার। সীমাবদ্ধ ক্ষেত্রে (সি = ইনফিনিটি), এসভিএম প্রশিক্ষণ সেটটিকে "পুরোপুরি" ফিট করে এবং সম্ভবত এটি খুব উপযোগী (নোট যে আমি সম্ভবত বলেছি, নিশ্চিত হওয়ার জন্য আপনার একটি পরীক্ষার সেট প্রয়োজন!)। এছাড়াও লক্ষ করুন যে আমি প্রচুর উদ্ধৃতি ব্যবহার করেছি তবে এটি সঠিকভাবে সংজ্ঞায়িত করা যেতে পারে।
skd

2

70-টি বন্ধনে, বড় ডেটাসেটগুলিতে প্যাটার্ন রিকগনিশন আলগোরিদিমগুলির পরীক্ষাগুলি প্রকাশ পেয়েছিল যে অতিরিক্ত কিছু বৈশিষ্ট্য যুক্ত করা কিছু ক্ষেত্রে পরীক্ষা-সেট ত্রুটির হার বাড়িয়ে তোলে। এটি পাল্টা স্বজ্ঞাত যেহেতু কেউ আশা করে যে কোনও অতিরিক্ত বৈশিষ্ট্য যুক্ত করা সর্বদা শ্রেণিবদ্ধের কর্মক্ষমতা বৃদ্ধি করে, বা যুক্ত বৈশিষ্ট্যটি 'সাদা শব্দ' এর ক্ষেত্রে এর সংযোজন মোটেও শ্রেণিবদ্ধের কার্যকারিতাকে প্রভাবিত করে না। শ্রেণিবদ্ধে আরও অতিরিক্ত বৈশিষ্ট্য যুক্ত করার প্রভাব শেষ পর্যন্ত পরীক্ষা-সেট কর্মক্ষমতা হ্রাসের কারণ হিসাবে পিকিং প্রপঞ্চ হিসাবে পরিচিতি লাভ করে [1]।

বৈশিষ্ট্য পিকিং শেখার সময় অতিরিক্ত-সাধারণকরণের কারণে ঘটে। অতিরিক্ত বৈশিষ্ট্যগুলি এতগুলি অতিরিক্ত পরামিতিগুলিকে অন্তর্ভুক্তির কারণ করে যে শ্রেণিবদ্ধকারী ডেটাটিকে উপভোগ করতে শুরু করে। অতএব, পিকিং পয়েন্টটি পাস হয়েছে।

শ্রেণিবদ্ধদের প্রশিক্ষণ দেওয়ার সময় সাধারণভাবে আমরা পক্ষপাত-বৈচিত্র্য বাণিজ্য বন্ধের মুখোমুখি হই। আমরা যত বেশি বৈশিষ্ট্য-ভেরিয়েবল ব্যবহার করি তত ভাল ( অজানা ) অন্তর্নিহিত শ্রেণিবদ্ধ ব্যবস্থাকে সম্ভবত আমাদের শ্রেণিবদ্ধ দ্বারা মডেল করা হবে। সুতরাং, লাগানো মডেল এবং 'সত্য' এর মধ্যে পদ্ধতিগত বিচ্যুতি হ্রাস পাবে, অর্থাত্ একটি ছোট পক্ষপাতের ফলাফল। অন্যদিকে, শ্রেণিবদ্ধের বৈশিষ্ট্য স্পেস বাড়ানো অগত্যা পরামিতিগুলির সংযোজনকে বোঝায় (অতিরিক্ত বৈশিষ্ট্যগুলির সাথে এটি উপযুক্ত)। সুতরাং, লাগানো শ্রেণিবদ্ধের বৈকল্পিকতাও বৃদ্ধি পায়।

সুতরাং শ্রেণীবদ্ধকারী পিকিং পয়েন্টকে ছাড়িয়ে যাওয়ার একটি উচ্চ-মাত্রিক শ্রেণিবিন্যাস সমস্যাটির কেবলমাত্র একটি স্টোকাস্টিক উপলব্ধি এবং একটি নতুন ফিটের ফলে খুব পৃথক প্যারামিটার ভেক্টর দেখা দেয়। এই বাস্তবতা বর্ধিত বৈচিত্র প্রতিফলিত করে।

[1। প্যাটার্ন অ্যানালাইসিস এবং মেশিন ইন্টেলিজেন্স সম্পর্কিত আইইইই লেনদেনগুলিতে জিভি ট্রাঙ্ক, "মাত্রার একটি সমস্যা: একটি সাধারণ উদাহরণ"। পামি -১, না। 3, পৃষ্ঠা 306-307, জুলাই 1979]


1

আমি মনে করি যে ওভারফিটিং সাধারণকরণের দক্ষতার চেয়ে মডেল জটিলতা বোঝায়। এর জটিলতা ছোট হওয়ায় "একটি লিনিয়ার শ্রেণিবদ্ধকারীকে বেশি উপস্থাপন করা যায় না" এই উক্তিটি আমি বুঝতে পারি এবং এর চেয়ে আরও ভাল কোনও পারফরম্যান্স সরবরাহকারী আর কোনও সহজ শ্রেণিবদ্ধ নেই।

উদাহরণটি লিনিয়ার ক্লাসিফায়ারগুলির (এবং জটিল) সাধারণকরণের দক্ষতার সাথে যুক্ত। এমনকি এই দ্বিতীয় অংশে, লিনিয়ার শ্রেণিবদ্ধীরা সাধারণত জটিলগুলির তুলনায় কম বৈকল্পিকতা সরবরাহ করে, সুতরাং এই ধারণাটি অনুসরণ করে লিনিয়ার শ্রেণিবদ্ধকারীদের জন্য "ওভারফিটিং" মানটিও ছোট (যদিও তাদের অভিজ্ঞতাগত ঝুঁকি এত বড় হতে পারে)। ATB


0

মত @ ম্যাচ-নির্মাতা-ই বলেছেন, লিনিয়ার শ্রেণিবদ্ধীরা ইনপুট বৈশিষ্ট্যের উপর নির্ভর করে ওভার-ফিট করতে পারে।

নীচের মডেল চ এর , বি এবং সি পরামিতিগুলিতে রৈখিক , তবে এক্স এর বৈশিষ্ট্য স্পেসে চতুর্ভুজ বক্ররেখা লাগানো যেতে পারে :

(এক্স)=একটিএক্স2+ +এক্স+ +

এসভিএম এর জন্য অতিরিক্ত-ফিটও হতে পারে, উদাহরণস্বরূপ যখন তারা কার্নেল ট্রিক ব্যবহার করেন, মূলত একটি বর্ধিত বৈশিষ্ট্য জায়গাতে লিনিয়ার মডেল হওয়া সত্ত্বেও।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.