এসভিএম, ওভারফিটিং, মাত্রিকতার অভিশাপ


37

আমার ডেটাসেটটি ছোট (120 টি নমুনা) তবে বৈশিষ্ট্যের সংখ্যাটি (1000-200,000) থেকে পৃথক। যদিও আমি বৈশিষ্ট্যগুলির একটি উপসেট বাছাই করতে বৈশিষ্ট্য নির্বাচন করছি, এটি এখনও বেশি মানিয়ে যাবে।

আমার প্রথম প্রশ্নটি হল, কীভাবে এসভিএম ওভারফিটিং পরিচালনা করে না।

দ্বিতীয়ত, শ্রেণিবিন্যাসের ক্ষেত্রে আমি যখন ওভারফিটিংয়ের বিষয়ে আরও অধ্যয়ন করি তখন আমি এই সিদ্ধান্তে পৌঁছে যে এমনকি সংখ্যক বৈশিষ্ট্যযুক্ত ডেটাসেটগুলিও ফিট করতে পারে। ক্লাস লেবেলের সাথে সম্পর্কিত বৈশিষ্ট্যগুলি যদি আমাদের না থাকে তবে ওভারফিটিং কোনওভাবেই হয়। সুতরাং আমি এখন ভাবছি যদি কোনও শ্রেণিবদ্ধের জন্য সঠিক বৈশিষ্ট্য আমরা খুঁজে না পাই তবে স্বয়ংক্রিয় শ্রেণিবিন্যাসের মূল বিষয়টি কী। নথির শ্রেণিবদ্ধকরণের ক্ষেত্রে এর অর্থ হ'ল লেবেলের সাথে সম্পর্কিত শব্দের একটি থিসেরাস ম্যানুয়ালি তৈরি করা হবে যা খুব সময়সাপেক্ষ। আমি অনুমান করি আমি যা বলতে চাইছি তা হল, সঠিক বৈশিষ্ট্যগুলি হাতে না নিয়ে কোনও সাধারণীকরণ করা মডেল তৈরি করা খুব কঠিন?

এছাড়াও, যদি পরীক্ষামূলক ফলাফলগুলি ফলাফলগুলি কম / বেশি পরিমাণে কম না দেখায় তা অর্থহীন হয়ে যায়। এটি পরিমাপ করার কোন উপায় আছে?

উত্তর:


41

অনুশীলনে, যে কারণে এসভিএমগুলি অতিরিক্ত-ফিটের বিরুদ্ধে প্রতিরোধী হওয়ার ঝোঁক, এমনকি এমন ক্ষেত্রে যেখানে বৈশিষ্ট্যের সংখ্যা পর্যবেক্ষণের সংখ্যার চেয়ে বেশি, এমনকি এটি নিয়মিতকরণ ব্যবহার করে। তারা নিয়মিতকরণ প্যারামিটার, , এবং অ-লিনিয়ার এসভিএমগুলির ক্ষেত্রে, কার্নেলের সতর্কতা অবলম্বন এবং কার্নেল প্যারামিটারগুলির সুরক্ষার ক্ষেত্রে ওভার-ফিটিং এড়াতে পারে ।C

এসভিএম হ'ল সাধারণীকরণের ত্রুটির উপর ভিত্তি করে একটি আনুমানিক বাস্তবায়ন, যা মার্জিনের উপর নির্ভর করে (মূলত সিদ্ধান্তের সীমানা থেকে প্রতিটি শ্রেণীর নিকটতম প্যাটার্নের দূরত্ব), তবে বৈশিষ্ট্য স্থানের মাত্রিকতার থেকে পৃথক (যার কারণেই) খুব উচ্চ মাত্রিক জায়গাতে ডেটা ম্যাপ করার জন্য কার্নেল ট্রিকটি ব্যবহার করা খারাপ ধারণা নয় বলে মনে হচ্ছে)। সুতরাং নীতিগতভাবে SVMs অত্যন্ত ওভার ঝুলানো প্রতিরোধী হওয়া উচিত, কিন্তু বাস্তবে এই সতর্কতা অবলম্বন পছন্দমত উপর নির্ভর করে ও কার্নেল প্যারামিটার। দুঃখের বিষয়, হাইপার-প্যারামিটারগুলিও সুর করার সময় ওভার-ফিটিংগুলি খুব সহজেই ঘটতে পারে যা আমার মূল গবেষণা ক্ষেত্র, দেখুনC

জিসি কাওলি এবং এনএলসি টালবোট, হাইপার-প্যারামিটারগুলি বায়সিয়ান নিয়মিতকরণের মাধ্যমে মডেল নির্বাচনের ক্ষেত্রে অতিরিক্ত-ফিটিং প্রতিরোধ করা, মেশিন লার্নিং রিসার্চ জার্নাল, খণ্ড 8, পৃষ্ঠা 841-861, এপ্রিল 2007. ( www )

এবং

জিসি কাওলি এবং এনএলসি টালবট, মডেল নির্বাচনের ক্ষেত্রে ওভার-ফিটিং এবং পারফরম্যান্স মূল্যায়নে পরবর্তী নির্বাচনের পক্ষপাতিত্ব, মেশিন লার্নিং রিসার্চ জার্নাল, ২০১০। গবেষণা, খন্ড 11, পৃষ্ঠা 2079-2107, জুলাই 2010. ( www )

এই দুটি কাগজই এসভিএমের পরিবর্তে কার্নেল রিজ রিগ্রেশন ব্যবহার করে, তবে একই সমস্যাটি খুব সহজেই এসভিএমগুলির সাথে উত্থিত হয় (একই ধরণের সীমানা কেআরআরের ক্ষেত্রেও প্রযোজ্য, সুতরাং অনুশীলনে তাদের মধ্যে পছন্দ করার মতো তেমন কিছুই নেই)। সুতরাং এক উপায়ে, এসভিএমগুলি সত্যিই অতিরিক্ত ওষুধের সমস্যা সমাধান করে না, তারা কেবল মডেল ফিটিং থেকে মডেল নির্বাচনের দিকে সমস্যাটি স্থানান্তর করে।

এটি প্রথমে কিছু ধরণের বৈশিষ্ট্য নির্বাচন করে প্রথমে এসভিএমের জন্য জীবনকে কিছুটা সহজ করার লোভ হয়। এটি সাধারণত বিষয়গুলিকে আরও খারাপ করে তোলে, এসভিএমের মতো নয়, বৈশিষ্ট্য নির্বাচনের অ্যালগরিদমগুলি বৈশিষ্ট্যের সংখ্যা বৃদ্ধি পাওয়ায় আরও বেশি-ফিটনেস প্রদর্শন করে। তথ্যবহুল বৈশিষ্ট্যগুলি কোনটি জানতে না চাইলে বৈশিষ্ট্য নির্বাচনের পদক্ষেপটি এড়িয়ে যাওয়া এবং ডাটার অতিরিক্ত-ফিট করা এড়াতে কেবল নিয়মিতকরণ ব্যবহার করা ভাল।

সংক্ষেপে, 120 টি পর্যবেক্ষণ এবং হাজারো বৈশিষ্ট্যযুক্ত সমস্যা নিয়ে কোনও এসভিএম (বা অন্যান্য নিয়মিত মডেল যেমন রিজ রিগ্রেশন, এলএআরএস, লাসো, ইলাস্টিক নেট ইত্যাদি) ব্যবহার করার ক্ষেত্রে কোনও অন্তর্নিহিত সমস্যা নেই, যদি নিয়মিতকরণের পরামিতিগুলি সঠিকভাবে সুর করা হয়


তথ্য গেইন ভিত্তিক র‌্যাঙ্কিংয়ের মতো বৈশিষ্ট্য নির্বাচনের পদ্ধতিগুলি দেখানো এমন কোনও কাগজপত্র কি বেশি পরিমাণে ফিট হওয়ার সম্ভাবনা রয়েছে?
ব্যবহারকারী 13420

1
আমি জানি না, মূল কথাটি ছিল যে এসভিএমের কিছু তাত্ত্বিক ফলাফল রয়েছে যা সুপারিশ করে যে তারা গুণাবলীর সংখ্যার কারণে ওভার-ফিটিং প্রতিরোধী, তবে বৈশিষ্ট্য নির্বাচন পদ্ধতিতেও এটি নেই। এফডব্লিউআইডাব্লু, "রিগ্রেশন সাবসেট সিলেকশন" এর উপর মিলার দ্বারা লেখা মনোগ্রাফটি ভবিষ্যদ্বাণীমূলক পারফরম্যান্সের জন্য প্রয়োজনীয় সমস্ত কিছু নিয়মিতকরণ পদ্ধতি ব্যবহার করার পরামর্শ দেয়। সেখানে বৈশিষ্ট্য নির্বাচনের উপর কিছু খোলা চ্যালেঞ্জ, যা প্রমাণ করে যে নিয়মিতকরণ সুখ্যাতি বৈশিষ্ট্য নির্বাচন (দেখুন থাকে হয়েছে nipsfsc.ecs.soton.ac.uk এবং causality.inf.ethz.ch/challenge.php )।
ডিকরান মার্শুপিয়াল

প্রথম অনুচ্ছেদে যেমন বলা হয়েছে, এসভিএমগুলি ওভার-ফিটিংয়ের বিরুদ্ধে প্রতিরোধী থাকে, এটি কি নিয়মিতকরণ (প্যারামিটার সি) ব্যবহার করে , তাই ডিফল্টরূপে, svmএই নিয়মিতকরণের পরামিতিগুলি কি সি ? এবং আমি নিশ্চিত নই যে এই ভেরিয়েবলগুলি এই সি দ্বারা নিয়ন্ত্রিত হয় , আপনি সেই স্ল্যাক ভেরিয়েবল বলতে চান ?
অ্যাভোকাডো

10

আমি দ্বিতীয় এবং শেষ প্রশ্ন দিয়ে শুরু করব।

জেনারালাইজেশনের সমস্যাটি স্পষ্টতই গুরুত্বপূর্ণ, কারণ যদি মেশিন লার্নিংয়ের ফলাফলগুলি সাধারণীকরণ করা না যায় তবে তারা সম্পূর্ণ অকেজো।

সাধারণীকরণ নিশ্চিত করার পদ্ধতিগুলি পরিসংখ্যান থেকে আসে from আমরা সাধারণত ধরে নিই, সেই ডেটাটি এমন কিছু সম্ভাবনা বিতরণ থেকে উত্পন্ন হয় যা বাস্তবে উদ্ভূত হয়। উদাহরণস্বরূপ, যদি আপনি 2000 সালে জন্মগ্রহণ করেন, তবে আপনার ওজন / উচ্চতা / চোখের রঙ 10 এর মধ্যে পৌঁছানোর সম্ভাবনা বন্টন হয়, যা 2000 সালে উপলব্ধ জিন পুল থেকে পাওয়া যায়, সম্ভাব্য পরিবেশগত কারণ ইত্যাদি If আমাদের প্রচুর ডেটা রয়েছে, আমরা অন্তর্নিহিত বিতরণগুলি সম্পর্কে কিছু বলতে পারি, উদাহরণস্বরূপ যে উচ্চ সম্ভাবনার সাথে তারা গাউসিয়ান বা বহুজাতিক হয়। আমাদের যদি বিতরণের সঠিক চিত্র থাকে তবে তারপরে 2010 সালে 10 বছরের বাচ্চাটির উচ্চতা, ওজন এবং চোখের রঙ দেওয়া থাকলে আমরা বাচ্চাটির পুরুষ হওয়ার সম্ভাবনা সম্পর্কে একটি ভাল অনুমান পেতে পারি। এবং সম্ভাবনা যদি 0 বা 1 এর কাছাকাছি হয় তবে বাচ্চাদের সেক্স আসলে কী তা আমরা একটি ভাল শট পেতে পারি।

আরও আনুষ্ঠানিকভাবে, আমরা সাধারণত বলার চেষ্টা করি যে প্রশিক্ষণের ত্রুটিটি যদি উচ্চ সম্ভাবনার ( ) দিয়ে থাকে তবে একই বিতরণ থেকে উত্পন্ন কিছু ডেটাতে ত্রুটিটি চেয়ে কম হবে । প্রশিক্ষণ সেট, অ্যাপসিলনের আকার এবং ছাড়িয়ে পরীক্ষার ত্রুটির সম্ভাবনার মধ্যে পরিচিত সম্পর্ক রয়েছে । আমি এখানে যে পদ্ধতির পরিচয় করিয়ে দিয়েছিলাম তা সম্ভবত প্রায় সঠিক শিক্ষণ হিসাবে পরিচিত, এবং এটি কম্পিউটেশনাল লার্নিং তত্ত্বের একটি গুরুত্বপূর্ণ অংশ যা অ্যালগরিদম শেখার সাধারণীকরণের সমস্যা নিয়ে কাজ করে। এছাড়াও অন্যান্য অনেকগুলি কারণ রয়েছে যা অ্যাপসিলন হ্রাস করতে পারে এবং এই সীমানায় ডেল্টা বাড়িয়ে দিতে পারে, যেমন। অনুমানের জায়গার জটিলতা।kδk+ϵk+ϵ

এখন এসভিএম-এ ফিরে আসুন। আপনি যদি কার্নেলগুলি ব্যবহার না করেন বা সীমাবদ্ধ মাত্রাযুক্ত স্থানগুলিতে মানচিত্রের শাঁস ব্যবহার না করেন, তথাকথিত ভ্যাপনিক-চেরভোনেনকিস মাত্রা যা অনুমানের স্থান জটিলতার একটি পরিমাপ, সীমাবদ্ধ, এবং তার এবং পর্যাপ্ত প্রশিক্ষণের উদাহরণ সহ আপনি এটি উচ্চের সাথে পেতে পারেন সম্ভাব্যতা পরীক্ষা সেটে ত্রুটি প্রশিক্ষণ সংস্থার ত্রুটির চেয়ে বেশি বড় হবে না। যদি আপনি সেই মানচিত্রটিকে অসীম-মাত্রিক বৈশিষ্ট্যযুক্ত জায়গাগুলিতে ব্যবহার করেন তবে ভ্যাপনিক-চেরভোনেনকিসের মাত্রাটিও অসীম এবং এর চেয়ে খারাপ যে প্রশিক্ষণের নমুনাগুলি একা ভাল জেনারালাইজেশনের গ্যারান্টি দিতে পারে না, তাদের সংখ্যা নির্বিশেষে। ভাগ্যক্রমে, কোনও এসভিএমের মার্জিনের আকারটি সাধারণীকরণ নিশ্চিতকরণের জন্য ভাল পরামিতি হিসাবে পরিণত হয়। বড় মার্জিন এবং প্রশিক্ষণ সেট সহ, আপনি গ্যারান্টি দিতে পারেন যে পরীক্ষার ত্রুটি প্রশিক্ষণের ত্রুটির চেয়েও বড় হবে না।


7

আপনি বিবেচনা করতে ইচ্ছুক ওভারফিটের জন্য কমপক্ষে দুটি বড় উত্স রয়েছে।

  1. অ্যালগরিদম থেকে ওভারফিট করা যা উপলব্ধ প্রশিক্ষণের নমুনাগুলি থেকে খুব বেশি অনুমান করে। মডেলটির সাধারণীকরণের দক্ষতার একটি পরিমাপ ব্যবহার করে এটি অভিজ্ঞতার বিরুদ্ধে সবচেয়ে ভাল রক্ষিত। ক্রস বৈধকরণ একটি জনপ্রিয় পদ্ধতি such

  2. ওভারফিটিং কারণ অন্তর্নিহিত বিতরণ নিম্নচাপযুক্ত led সাধারণত আপনি খুব বেশি তথ্য সংগ্রহ করতে বা আপনার মডেলটিতে সমস্যা সম্পর্কে ডোমেন জ্ঞান যোগ না করতে পারলে এ বিষয়ে খুব কম কিছু করা যায়।

১২০ টি নমুনা এবং প্রচুর সংখ্যক বৈশিষ্ট্য সহ আপনি খুব সম্ভবত দুর্বল হয়ে পড়তে পারেন এবং এটির প্রবণতাও 1 হতে পারে।

আপনি পরীক্ষা এবং প্রশিক্ষণের ত্রুটির ক্ষেত্রে মডেল জটিলতার প্রভাবের যত্ন সহকারে পর্যবেক্ষণ করে 1 টি সম্পর্কে কিছু করতে পারেন।


তবে, আমরা কীভাবে সনাক্ত করব যে আমরা অতিরিক্ত ফিট করছি? যদি মডেলগুলি ক্রস-বৈধকরণে বেশ ভাল করে, তারা আসলে এটি ভাল কারণ বা 1 বা 2 এর কারণে ওভারফিটিংয়ের কারণে এটি করছে? হাজার হাজার বৈশিষ্ট্য সহ, প্রতিটি বৈশিষ্ট্য হাতে হাতে বিশ্লেষণ করা জটিল would যদি অতিপরিচয়টি সনাক্ত করা সম্ভব না হয় তবে আমরা কোনও ক্রস-বৈধকরণের ফলাফলকে কীভাবে বিশ্বাস করতে পারি?
ব্যবহারকারী 13420

1
অতিরিক্ত ডেটা ছাড়াই আপনি জেনে রাখা খুব কঠিন যে আপনি একটি নিম্নমানের জনসংখ্যার তুলনায় অতিমাত্রায় উপযুক্ত। আপনি মডেল টিউন করতে এএ বৈধতা সেট এবং তারপরে এটির পরীক্ষা করার জন্য একটি পৃথক পরীক্ষার সেট ব্যবহার করে ডেটাটি তিনটি সেটে বিভক্ত করতে পারেন। আর একটি পদ্ধতি হ'ল মডেল জটিলতা সংশোধন করা এবং প্রশিক্ষণ এবং পরীক্ষার সেটগুলির যথাযথতা কীভাবে পৃথক হয় তা দেখুন। পরীক্ষার সেট ত্রুটির একটি লিফ্ট ডেটা থেকে কিছুটা মডেল ওভারফিটকে নির্দেশ করবে।
চিত্র_ডোকার

প্রশিক্ষণ এবং পরীক্ষার সেটগুলি ভারসাম্যপূর্ণ হলে বারবার 50/50 হোল্ডআউট ট্রায়াল প্রয়োগ করা আপনাকে কিছুটা অনুভূতি দেয়। তারা সম্ভবত হবে না। কিছু মডেল, যেমন কেএনএন প্রশিক্ষণ সংস্থায় নিখুঁত নির্ভুলতা অর্জন করবে তাই কিছুটা অর্থে সহজাতভাবে বেশি সাজানো। তবে তারা এখনও পরীক্ষার সেটটিতে গ্রহণযোগ্য পারফরম্যান্স অর্জন করতে পারে। মেশিন লার্নিংয়ের ক্ষেত্রে যেমন শেষ পর্যন্ত এটি সমস্ত তথ্যের সুনির্দিষ্ট নির্দিষ্টকরণের উপর নির্ভর করে।
চিত্র_ডোকার

@ আইমেজ_ডোক্টর আপনি কি "মডেল জটিলতা সংশোধন" করতে পারেন?
কিথ হুগিট
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.