এসভিএমের উপর সাধারণীকরণের সীমাবদ্ধতা


11

আমি সমর্থন ভেক্টর মেশিনগুলির সাধারণীকরণের দক্ষতার জন্য তাত্ত্বিক ফলাফলগুলিতে আগ্রহী, যেমন শ্রেণিবদ্ধকরণ ত্রুটির সম্ভাবনা এবং এই মেশিনগুলির ভ্যাপনিক-চেরভোনেনকিস (ভিসি) মাত্রা সম্পর্কে সীমাবদ্ধ। যাইহোক, সাহিত্যের মাধ্যমে আমার অনুভূতিটি অনুভূত হয়েছিল যে কিছু অনুরূপ পুনরাবৃত্তি ফলাফল লেখক থেকে লেখক থেকে কিছুটা আলাদা হতে থাকে, বিশেষত একটি নির্দিষ্ট সময় ধরে রাখার জন্য আবশ্যক প্রযুক্তিগত শর্তাদি সম্পর্কে।

নিম্নলিখিতটিতে আমি এসভিএম সমস্যার কাঠামো এবং মূল জেনারালাইজের ফলাফলের 3 অবস্থাটি স্মরণ করবো যা আমি প্রায়শই এক ফর্ম বা অন্যটিতে খুঁজে পেয়েছি আমি পুরো প্রদর্শনীতে 3 টি প্রধান রেফারেন্স দিই।

সমস্যা সেটিং :

ধরে আমরা স্বাধীন ও অভিন্নরুপে বিতরণ (IID) যুগলের একটি ডাটা নমুনা আছে (xi,yi)1in যেখানে সবার জন্য i , xiRp এবং yi{1,1} । আমরা একটি সমর্থন ভেক্টর মেশিন (এসভিএম) তৈরি করি যা { x : w x + b = 0 দ্বারা সংজ্ঞায়িত পৃথক হাইপারপ্লেনের মধ্যে সর্বনিম্ন মার্জিন সর্বাধিক করে তোলেm{x:wx+b=0} ,wRp এবংbR এবং মধ্যে নিকটতম বিন্দুx1,,xnযাতেy=1 এবং দ্বারা সংজ্ঞায়িত দুটি শ্রেণি পৃথক করতে পারেy=1। স্ল্যাক ভেরিয়েবলগুলি প্রবর্তন করে আমরা SVM কে একটি নরম মার্জিনের মাধ্যমে কিছু ত্রুটি স্বীকার করতে দিয়েছিξ1,,ξn তবে উল্লেখযোগ্য সরলতার জন্য আমরা কার্নেলের সম্ভাবনাটিকে উপেক্ষা করি। সমাধানের পরামিতিগুলিw এবংb নিম্নলিখিত উত্তল চতুর্ভুজ অপ্টিমাইজেশন প্রোগ্রাম সমাধান করে প্রাপ্ত করা হয়:

minw,b,ξ1,,ξn12w2+Ci=1nξis.t.:yi(wxi+b)1ξi,i{1,,n}ξi0,i{1,,n}

আমরা এই মেশিনের সাধারণীকরণের দক্ষতায় আগ্রহী।

ভ্যাপনিক-চেরভোনেনকিস মাত্রা VC :

প্রথম ফলাফলটি (ভ্যাপনিক, ২০০০) কারণে রয়েছে, যেখানে তিনি পৃথক পৃথক হাইপারপ্লেনের উপাচার 5,1 এর ভিসি মাত্রাকে সীমাবদ্ধ করেন। আর = \ সর্বোচ্চ_{ x_i} \ | x_i \ | লেট করা হচ্ছে R=maxxixi, আমাদের আছে:

VCmin((Rm)2,p)+1

এই ফলাফলটি আবার (বার্জেস, ১৯৯৯), উপপাদ্য 6 এ পাওয়া যাবে তবে মনে হয় যে, বুপেসের উপপাদ্যটি ভ্যাপনিকের একই ফলাফলের চেয়ে আরও সীমাবদ্ধ, কারণ তাকে একটি বিশেষ শ্রেণির শ্রেণিবদ্ধের সংজ্ঞা দেওয়া দরকার, যা ফাঁক-সহনশীল শ্রেণিবদ্ধ হিসাবে পরিচিত known যার সাথে এসভিএম অন্তর্ভুক্ত , উপপাদ্যটি বর্ণনা করুন।

ত্রুটি হওয়ার সম্ভাবনা সম্পর্কে সীমাবদ্ধ :

(ভ্যাপনিক, ২০০০) এ, পৃষ্ঠা ১৩৯-এর উপপাদ্য 5.২ এসভিএম সাধারণীকরণের যোগ্যতার উপর নিম্নলিখিত আবদ্ধতা দেয়:

E[Perror]1nE[min(p,nSV,(Rw)2)]

যেখানে হ'ল সমর্থন ভেক্টরের সংখ্যা। এই ফলাফলগুলি যথাক্রমে (বার্জেস, 1998), সমীকরণ (86) এবং (93) এ আবার পাওয়া গেছে বলে মনে হচ্ছে। তবে আবার, বার্জগুলি ভ্যাপনিক থেকে পৃথক বলে মনে হচ্ছে কারণ তিনি বিভিন্ন অবস্থার সাথে বিভিন্ন উপপাদিতে উপরের ন্যূনতম কার্যের মধ্যে উপাদানগুলি পৃথক করে দেন।nSV

(ভ্যাপনিক, ২০০০), পি .১৩৩৩ এ প্রদর্শিত আরও একটি ফলাফল নিম্নলিখিত। আবার ধরে নিই যে, সবার জন্য , এবং এবং আমরা সমান হতে সংজ্ঞায়িত করেছি :x i 2R 2 h V C ϵ [ 0 , 1 ] ζ ζixi2R2hVCϵ[0,1]ζ

ζ=4h(ln2nh+1)lnϵ4n

আমরা এসভিএম দ্বারা ভুল শ্রেণিবদ্ধ প্রশিক্ষণের উদাহরণ হতে সংজ্ঞায়িত করি । তারপর সম্ভাব্যতা সঙ্গে আমরা জাহির করতে পারে সম্ভাব্যতা যে একটি পরীক্ষা উদাহরণ দ্বারা সঠিকভাবে পৃথক করা হবে না -margin hyperplane অর্থাত SVM সঙ্গে মার্জিন আবদ্ধ করেছেন: 1 - ϵ m - m -nerror1ϵmm

Perrornerrorn+ζ2(1+1+4nerrornζ)

যাইহোক, (হাসিটি, তিবশিরানী এবং ফ্রেডম্যান, ২০০৯), পৃষ্ঠা ৪৪৩-এ খুব অনুরূপ ফলাফল পাওয়া গেছে:

ErrorTestζ

উপসংহার :

আমার কাছে মনে হয় যে এই ফলাফলগুলির মধ্যে একটি নির্দিষ্ট ডিগ্রি বিরোধ রয়েছে। অন্যদিকে, এসভিএম সাহিত্যে প্রচলিত যদিও এই দুটি উল্লেখ উল্লেখযোগ্যভাবে কিছুটা পুরানো হতে শুরু করে (1998 এবং 2000), বিশেষত যদি আমরা বিবেচনা করি যে এসভিএম অ্যালগরিদমের গবেষণা নব্বইয়ের দশকের মাঝামাঝি থেকে শুরু হয়েছিল।

আমার প্রশ্নগুলি হ'ল:

  • এই ফলাফলগুলি আজও বৈধ, বা সেগুলি ভুল প্রমাণিত হয়েছে?
  • তখন থেকে তুলনামূলকভাবে শিথিল অবস্থার সাথে আরও কঠোর সীমারেখা নেওয়া হয়েছে? যদি তা হয় তবে কারা এবং কোথায় আমি তাদের সন্ধান করতে পারি?
  • অবশেষে, এমন কোনও রেফারেন্স উপাদান রয়েছে যা এসভিএম সম্পর্কে প্রধান সাধারণীকরণের ফলাফলকে সংশ্লেষ করে?

তথ্যসূত্র :

বার্জেস, জেসি (1998)। "প্যাটার্ন সনাক্তকরণের জন্য সহায়তা ভেক্টর মেশিনগুলির উপর একটি টিউটোরিয়াল", ডেটা মাইনিং এবং নলেজ আবিষ্কার , 2: 121-167

হাসিটি, টি।, তিবশিরানী, আর। এবং ফ্রেডম্যান, জে। (২০০৯)। পরিসংখ্যান শিক্ষার উপাদানসমূহ , ২ য় সংস্করণ, স্প্রঞ্জার

ভ্যাপনিক, ভিএন (1998)। স্ট্যাটিস্টিকাল লার্নিং থিয়োরি , প্রথম সংস্করণ, জন উইলি অ্যান্ড সন্স

ভ্যাপনিক, ভিএন (1999)। "স্ট্যাটিস্টিকাল লার্নিং থিয়োরির একটি ওভারভিউ", নিউরাল নেটওয়ার্কগুলিতে আইইইই লেনদেন , 10 (5): 988-999

ভ্যাপনিক, ভিএন (2000)। স্ট্যাটিস্টিকাল লার্নিং থিওরির প্রকৃতি , ২ য় সংস্করণ, স্প্রঞ্জার


স্টেট অফ দ্য আর্টের সংক্ষিপ্তসার হিসাবে একটি রেফারেন্স (২০০৮ হিসাবে) এসভিএমগুলির জন্য ঝুঁকির সীমা: "সাপোর্ট ভেক্টর মেশিনস" (ইনগো স্টেইনওয়ার্ট, আন্দ্রেস ক্রিস্টম্যান, স্প্রিংগার ২০০৮)
নিবন্ধন করুন

উত্তর:


3

আপনি যে সাহিত্যের বিষয়ে বিস্তারিতভাবে উল্লেখ করছেন তা আমি জানি না, তবে আমি মনে করি সাধারণীকরণের সীমাগুলির একটি বিস্তৃত সংক্ষিপ্তসার যা যুগোপযোগী হওয়া উচিত বাউচারন এট আল-তে পাওয়া যেতে পারে। (2004) (লিঙ্ক: https://www.researchgate.net/profile/Olivier_Bousquet/publication/238718428_Advanced_Lectures_on_Machine_Learning_ML_Summer_Schools_2003_Canberra_Australia_February_2-14_2003_Tubingen_Germany_August_4-16_2003_Revised_Lectures/links/02e7e52c5870850311000000/Advanced-Lectures-on-Machine-Learning-ML-Summer-Schools-2003- ক্যানবেরা-অস্ট্রেলিয়া-ফেব্রুয়ারি-2-14-2003-Tuebingen-জার্মানি-আগস্ট-4-16-2003-সংশোধিত-বক্তৃতা.পিডিএফ # পৃষ্ঠা = 176 )

আমি নীচে আবদ্ধ এসভিএমের অংশটি স্কেচ করব, বিশদটি রেখে এবং প্রমাণ করব।

এসভিএম বাউন্ড সম্পর্কে সুনির্দিষ্টভাবে বর্ণনা করার আগে আমাদের বুঝতে হবে যে সাধারণীকরণের সীমাগুলি কী অর্জন করতে চাইছে।

প্রথমে ধরে নেওয়া যাক সত্য সম্ভাবনা জানা থাকলে সর্বোত্তম সম্ভাব্য শ্রেণিবদ্ধ হবে বেইস শ্রেণিবদ্ধকারী, অর্থাৎ ie জি = { + 1 আই এফ পি ( ওয়াই = 1 | এক্স = এক্স ) > 0.5 - 1 টি এইচ আর ডব্লু আই এস P(Y=+1|X=x)

g={+1  ifP(Y=1|X=x)>0.51  otherwise

স্ট্যাটিস্টিকাল লার্নিং থিয়োরির লক্ষ্য এখন এর ক্লাস (যেমন SVM) এর একটি শ্রেণিবদ্ধের মধ্যে পার্থক্য খুঁজে পাওয়া eg এবং বেইস শ্রেণিবদ্ধ, অর্থাৎ লক্ষ্য করুন হয় প্রত্যাশিত হ্রাস দেওয়া তথ্য এবং মডেল ক্লাসে সম্ভাব্য সর্বোত্তম ক্লাসিফায়ার হয় । শব্দটি কে অনুমানের ত্রুটি এবং প্রায়শই ফোকাস বলা হয় কারণ এটি আনুমানিক ত্রুটির (অন্য পদ) এর চেয়ে অনেক সহজ করে আবদ্ধ হতে পারে। আমি এখানেও আনুমানিক ত্রুটি বাদ দেব।জি এন = একটি মিনিট সি এল এন ( ) এল ( এন ) - এলC

g^n=argmingCLn(g)
L(g^n)L(g)=L(g^n)L(gc)+L(gc)L(g).
L(g)=El(g(X),Y)gcCZ=:L(g)L(g^n)

অনুমানের ত্রুটি আরও omp সাথে আরও পচে যেতে পারে এখন এটি দুটি ধাপে আবদ্ধ হতে পারে:Z

Z=ZEZ+EZ.
  1. ম্যাকডিয়ারমিড অসমতা ব্যবহার করে বাউন্ডZEZ

  2. বাউন্ড Rademacher জটিলতা সঙ্গেEZRn(C)=EsupgC|1/ni=1nl(g(Xi),Yi)|

ম্যাকডিয়ারমিডস অসমতা ব্যবহার করে দেখাতে পারে যে ক্ষতির ফাংশন যদি চেয়ে বেশি বিরতিতে থাকে তবে এক ধাপে যেখানে আত্মবিশ্বাসের স্তর। দ্বিতীয় পদক্ষেপের জন্য আমরা দেখাতে পারি যে যদি আপনার একটি বিচ্ছিন্ন ক্ষতি-ফাংশন থাকে, যেমন- লিপচিৎস যেমন 0-1 তবুও, র‌্যাডম্যাচার জটিলতার আরও বাউন্ডিংয়ের জন্য আপনার ভিসি-ডাইমেনশন প্রয়োজন। তবে, এল-লিপসিটজ ফাংশনগুলির জন্য যেমন হিঞ্জ-লোকসানের জন্য এটি আরও পরে যেখানে আবদ্ধ হতে পারে B

ZEZ2Bln(1/δ)2n,
δ
EZ2Rn(C),
λL
Rn(C)λLR/n,

λনিয়ন্ত্রককে বোঝায়। যেহেতু কব্জি-ক্ষতি এবং (গাউচি-শোয়ার্টজ বৈষম্যের সাথে প্রমাণ করুন) এটি আরও সরল করে। অবশেষে সমস্ত ফলাফল একসাথে রেখে আমরা L=1B=1+λR
L(g^n)L(gc)2(1+λR)ln(1/δ)2n+4λLR/n
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.