একটি সাপোর্ট ভেক্টর মেশিন (এসভিএম) কীভাবে কাজ করে?


108

সাপোর্ট ভেক্টর মেশিন (এসভিএম) কীভাবে কাজ করে এবং লিনিয়ার পারসেপ্ট্রন , লিনিয়ার ডিসক্রিমেন্ট্যান্ট অ্যানালাইসিস বা লজিস্টিক রিগ্রেশন এর মতো অন্যান্য রৈখিক শ্রেণিবদ্ধদের থেকে কী আলাদা হয় ? *

(* আমি অ্যালগরিদম, অপ্টিমাইজেশান কৌশল, সাধারণীকরণের ক্ষমতা এবং রান-টাইম জটিলতার জন্য অন্তর্নিহিত প্রেরণাগুলি বিবেচনা করছি )


4
আরও দেখুন: stats.stackexchange.com/questions/3947/…

এছাড়াও দেখুন stats.stackexchange.com

উত্তর:


126

সমর্থন ভেক্টর মেশিনগুলি কেবলমাত্র সেই পয়েন্টগুলিতে ফোকাস করে যা পৃথকভাবে বলা মুশকিল, অন্য শ্রেণিবদ্ধরা সমস্ত পয়েন্টের প্রতি মনোযোগ দেয়।

সমর্থন ভেক্টর মেশিনের পদ্ধতির পিছনে অন্তর্নিহিততাটি হ'ল যদি কোনও শ্রেণিবদ্ধকারী সবচেয়ে চ্যালেঞ্জিং তুলনা (চিত্র 2 এ একে অপরের নিকটবর্তী বি এবং এ এর ​​পয়েন্টগুলি) ভাল হয়, তবে শ্রেণিবদ্ধকারী সহজ তুলনাতে আরও ভাল হবে ( একে অপরের থেকে অনেক দূরে বি এবং এ পয়েন্টের তুলনা করে)।

পারসেপটরন এবং অন্যান্য শ্রেণিবদ্ধকারী:

পারসেপ্ট্রনগুলি একবারে একটি পয়েন্ট নিয়ে এবং সে অনুযায়ী বিভাজক রেখাটি সামঞ্জস্য করে তৈরি করা হয়। সমস্ত পয়েন্ট পৃথক হওয়ার সাথে সাথে পার্সেপেট্রন অ্যালগরিদম বন্ধ হয়ে যায়। তবে এটি যে কোনও জায়গায় থামতে পারে। চিত্র 1 দেখায় যে বিভিন্ন বিভাজক রেখার একটি গোছা রয়েছে যা ডেটা পৃথক করে। পারসেপ্ট্রনের থামার মানদণ্ডটি সহজ: "পয়েন্টগুলি আলাদা করুন এবং আপনি যখন 100% বিচ্ছেদ পান তখন লাইনের উন্নতি বন্ধ করুন"। পার্সেপেট্রনকে স্পষ্টভাবে সেরা বিভাজনকারী রেখাটি খুঁজে পাওয়ার জন্য বলা হয় না। লজিস্টিক রিগ্রেশন এবং লিনিয়ার বৈষম্যমূলক মডেলগুলি পারসেপ্টরনের মতো একইভাবে নির্মিত।

সেরা বিভাজক রেখাটি A এর নিকটতম বি পয়েন্ট এবং বি এর নিকটতম A পয়েন্টগুলির মধ্যে দূরত্ব সর্বাধিক করে তোলে এটি করার জন্য সমস্ত পয়েন্টের দিকে তাকাতে হবে না। প্রকৃতপক্ষে, পয়েন্টগুলি থেকে দূরে থাকা প্রতিক্রিয়াগুলি অন্তর্ভুক্ত করা নীচে দেখানো হিসাবে লাইনটিকে কিছুটা দূরে ঠাপ দিতে পারে।

এখানে চিত্র বর্ণনা লিখুন

সমর্থন ভেক্টর মেশিন:

অন্যান্য শ্রেণিবদ্ধকারীদের মতো নয়, সমর্থনকারী ভেক্টর মেশিনকে স্পষ্টভাবে সেরা বিভাজনকারী লাইনটি খুঁজতে বলা হয়েছে। কিভাবে? সমর্থন ভেক্টর মেশিনটি নিকটতম পয়েন্টগুলির জন্য অনুসন্ধান করে (চিত্র 2), এটি "সমর্থন ভেক্টর" বলে ডাকে (নাম "সাপোর্ট ভেক্টর মেশিন" এই কারণে যে পয়েন্টগুলি ভেক্টরগুলির মতো এবং সর্বোত্তম লাইনটি "উপর নির্ভর করে" বা কারণ নিকটতম পয়েন্টগুলি "সমর্থিত")।

এটি নিকটতম পয়েন্টগুলি সন্ধান করার পরে, এসভিএম তাদের সংযোগকারী একটি লাইন আঁকবে (চিত্র 2-এ 'ডাব্লু' লেবেলযুক্ত লাইনটি দেখুন)। এটি ভেক্টর বিয়োগফল (পয়েন্ট এ - পয়েন্ট বি) করে এই সংযোগকারী রেখাটি আঁকবে। সমর্থন ভেক্টর মেশিনটি তখন সেরা বিভাজনকারী রেখাটিকে দ্বিখণ্ডিত রেখা হিসাবে ঘোষণা করে - এবং সংযোগকারী লাইনটির জন্য লম্ব হয়।

সমর্থন ভেক্টর মেশিনটি আরও ভাল কারণ আপনি যখন একটি নতুন নমুনা (নতুন পয়েন্ট) পাবেন, আপনি ইতিমধ্যে একটি লাইন তৈরি করেছেন যা বি এবং এটিকে একে অপরের থেকে যতটা সম্ভব দূরে রাখে, এবং তাই সম্ভবত এটির কমই সম্ভাবনা কম one অন্যের অঞ্চলে লাইন।

এখানে চিত্র বর্ণনা লিখুন

আমি নিজেকে ভিজ্যুয়াল লার্নার হিসাবে বিবেচনা করি এবং আমি দীর্ঘদিন ধরে সমর্থন ভেক্টর মেশিনের পিছনে অন্তর্দৃষ্টি দিয়ে লড়াই করেছি। এসভিএম ক্লাসিফায়ারগুলিতে ডুয়ালিটি এবং জ্যামিতি নামক কাগজটি শেষ পর্যন্ত আমাকে আলো দেখতে সহায়তা করেছিল; সেখান থেকেই আমি ছবিগুলি পেয়েছি।


4
অন্য ভিজ্যুয়াল লার্নার থেকে +1! পাঠকের জন্য, আমি লক্ষ করতে চাই যে উপরের চিত্রটিতে এই সীমানাগুলি স্পষ্টভাবে প্রমাণিত হয়েছে এমন একটি ডেটা সেটের উপর ভিত্তি করে যা ইতিমধ্যে রূপান্তরিত হয়েছে। কাঁচা ডেটা সেট নয়।
কিংজ

আরও দু'বছর ধরে এসএমএম পড়া, আজ বুঝতে পেরেছিল যে কীভাবে পৃথকীকরণের রেখা চিহ্নিত করা হয় এবং আরও কয়েকটি জিনিস। পরিষ্কার উত্তরের জন্য ধন্যবাদ।
ব্যবহারকারী 123

53

রায়ান জোটির উত্তর সিদ্ধান্তের সীমানা সর্বাধিককরণের পিছনে অনুপ্রেরণা ব্যাখ্যা করে, কার্লোসডিসির উত্তরটি অন্যান্য শ্রেণিবদ্ধদের সাথে কিছু মিল এবং পার্থক্য দেয়। এসভিএমগুলি কীভাবে প্রশিক্ষিত এবং ব্যবহৃত হয় তার একটি সংক্ষিপ্ত গাণিতিক ওভারভিউ আমি এই উত্তরে দেব give

স্বরলিপি

নীচে, স্কেলারগুলিকে ইটালিক লোয়ারকেসগুলি (উদাহরণস্বরূপ, ), বোল্ডার লোয়ারকেসেস (যেমন, ) সহ ভেক্টর এবং ইটালিক বড় হাতের অক্ষর (যেমন, ) হ'ল , এবং স্থানান্তর ।y,bw,xWwTww=wTw

দিন:

  • x একটি বৈশিষ্ট্য ভেক্টর (অর্থাত্, এসভিএমের ইনপুট)। , যেখানে বৈশিষ্ট্য ভেক্টরের মাত্রা।xRnn
  • y শ্রেণি হতে হবে (অর্থাত্, এসভিএমের আউটপুট)। , অর্থাত শ্রেণিবদ্ধকরণ কার্য বাইনারি।y{1,1}
  • w এবং এসভিএমের প্যারামিটার হ'ল: প্রশিক্ষণ সেটটি ব্যবহার করে আমাদের সেগুলি শিখতে হবে।b
  • (x(i),y(i)) the ডেটাসেটের নমুনা হোন। ধরে নেওয়া যাক আমাদের প্রশিক্ষণ সেটে নমুনা রয়েছে।ithN

সঙ্গে , এক SVM সিদ্ধান্তের গণ্ডি নিম্নরূপ উপস্থাপন করতে পারেন:n=2

এখানে চিত্র বর্ণনা লিখুন

বর্গটি নিম্নলিখিত হিসাবে নির্ধারিত হয়:y

y(i)={1 if wTx(i)+b11 if wTx(i)+b1

যা হিসাবে আরও সংক্ষিপ্তভাবে লেখা যেতে পারে ।y(i)(wTx(i)+b)1

লক্ষ্য

এসভিএমের দুটি প্রয়োজনীয়তা সন্তুষ্ট করার লক্ষ্য:

  1. এসভিএমের দুটি সিদ্ধান্তের সীমানার মধ্যে সর্বাধিক দূরত্ব হওয়া উচিত। গাণিতিকভাবে, এর অর্থ আমরা হাইপারপ্লেনের মধ্যে by দ্বারা সংজ্ঞায়িত হাইপারপ্লেন এবং দ্বারা সংজ্ঞায়িত করতে চাই । এই দূরত্ব সমান । এর মানে হল আমরা সমাধান চাই । সমতুল্যভাবে আমরা চাই ।wTx+b=1wTx+b=1 22wmaxw2wminww2

  2. এসভিএমকে সমস্ত correctly এর সঠিকভাবে শ্রেণিবদ্ধকরণ করা উচিত , যার অর্থx(i)y(i)(wTx(i)+b)1,i{1,,N}

যা আমাদের নিম্নলিখিত চতুষ্কোণ অপ্টিমাইজেশান সমস্যার দিকে নিয়ে যায়:

minw,bw2,s.t.y(i)(wTx(i)+b)1i{1,,N}

এটি হার্ড-মার্জিন এসভিএম , কারণ এই চতুর্ভুজটি অপ্টিমাইজেশান সমস্যাটি যদি কোনও সমাধানকে পৃথকভাবে পৃথক করা যায় তবে একটি সমাধান স্বীকার করে।

এক তথাকথিত প্রবর্তনের দ্বারা সীমাবদ্ধতার শিথিল করতে পারেন ঢিলা ভেরিয়েবল । নোট করুন যে প্রশিক্ষণ সেটের প্রতিটি নমুনার নিজস্ব স্ল্যাক ভেরিয়েবল রয়েছে। এটি আমাদের নিম্নলিখিত চতুষ্কোণ অপ্টিমাইজেশন সমস্যা দেয়:ξ(i)

minw,bw2+Ci=1Nξ(i),s.t.y(i)(wTx(i)+b)1ξ(i),i{1,,N}ξ(i)0,i{1,,N}

এটি নরম-মার্জিন এসভিএম । একটি হাইপারপ্রেমিটার যা ত্রুটি শর্তের পেনাল্টি বলে । ( লিনিয়ার কার্নেল সহ এসভিএমগুলিতে সি এর প্রভাব কী? এবং এসভিএম অনুকূল পরামিতি নির্ধারণের জন্য কোন অনুসন্ধানের সীমা? )।C

উচ্চতর মাত্রিক বৈশিষ্ট্য স্থানটিতে মূল বৈশিষ্ট্য স্থানটিকে ম্যাপ করে এমন একটি ফাংশন- প্রবর্তনের মাধ্যমে কেউ আরও নমনীয়তা যুক্ত করতে পারে । এটি অ-রৈখিক সিদ্ধান্তের সীমানাকে মঞ্জুরি দেয়। চতুর্ভুজ অপ্টিমাইজেশান সমস্যাটি হয়ে ওঠে:ϕ

minw,bw2+Ci=1Nξ(i),s.t.y(i)(wTϕ(x(i))+b)1ξ(i),i{1,,N}ξ(i)0,i{1,,N}

অপ্টিমাইজেশান

চতুর্ভুজ অপ্টিমাইজেশান সমস্যাটি ল্যাঙ্গরজিয়ান দ্বৈত সমস্যা (আগের সমস্যাটিকে প্রিমাল বলা হয় ) নামে আরও একটি অপ্টিমাইজেশান সমস্যায় রূপান্তরিত করা যেতে পারে :

maxαminw,bw2+Ci=1Nα(i)(1wTϕ(x(i))+b)),s.t.0α(i)C,i{1,,N}

এই অপ্টিমাইজেশান সমস্যাটি সরল করা যায় (কিছুতে গ্রেডিয়েন্ট সেট করে ):0

maxαi=1Nα(i)i=1Nj=1N(y(i)α(i)ϕ(x(i))Tϕ(x(j))y(j)α(j)),s.t.0α(i)C,i{1,,N}

w যেমন মনে হচ্ছে না ( উপস্থাপক উপপাদ্য দ্বারা বর্ণিত )।w=i=1Nα(i)y(i)ϕ(x(i))

তাই আমরা প্রশিক্ষণের সেটটির ব্যবহার করে learn শিখি ।α(i)(x(i),y(i))

(এফওয়াইআই: এসভিএম লাগানোর সময় দ্বৈত সমস্যা নিয়ে কেন বিরক্ত হবেন? সংক্ষিপ্ত উত্তর: দ্রুত গণনা + কার্নেল ট্রিক ব্যবহার করতে দেয় যদিও প্রাইমেলে এসভিএমকে প্রশিক্ষণের জন্য কিছু ভাল পদ্ধতি রয়েছে যেমন eg 1} দেখুন)

ভবিষ্যদ্বাণী করা

একবার learned শিখলে, কেউ নীচের মতো বৈশিষ্ট্য ভেক্টর with দিয়ে একটি নতুন নমুনার শ্রেণীর পূর্বাভাস দিতে পারে :α(i)xtest

ytest=sign(wTϕ(xtest)+b)=sign(i=1Nα(i)y(i)ϕ(x(i))Tϕ(xtest)+b)

সঙ্কলন , অপ্রতিরোধ্য মনে হতে পারে এটা মানে যেহেতু এক সব প্রশিক্ষণ নমুনার উপর যোগফল করতে আছে, কিন্তু বেশীরভাগ হয় (দেখুন কেন ল্যাঞ্জরেঞ্জ গুণকগুলি এসভিএমগুলির জন্য স্পার হয়? ) তাই বাস্তবে এটি কোনও সমস্যা নয়। (নোট যে এক যেখানে সব বিশেষ ক্ষেত্রে গঠন করা যেতে পারে ।) iff একটি হল সমর্থন ভেক্টর । উপরের চিত্রটিতে 3 টি সমর্থনকারী ভেক্টর রয়েছে।i=1Nα(i)0α(i)>0α(i)=0x(i)

কার্নেল কৌশল

কেউ পর্যবেক্ষণ করতে পারেন যে অপ্টিমাইজেশান সমস্যাটি কেবলমাত্র অভ্যন্তরীণ পণ্য in in । The অভ্যন্তরীণ পণ্য হয় নামক একটি কার্নেল , ওরফে কার্নেল ফাংশন, প্রায়ই দ্বারা চিহ্নিত ।ϕ(x(i))ϕ(x(i))Tϕ(x(j))(x(i),x(j))ϕ(x(i))Tϕ(x(j))k

বেছে নিতে পারে যাতে অভ্যন্তরীণ পণ্য গণনা করতে দক্ষ হয়। এটি স্বল্প গণনা ব্যয়ে একটি সম্ভাব্য উচ্চ বৈশিষ্ট্য স্থান ব্যবহার করতে দেয় allows এটিকে কর্নেল ট্রিক বলে । কার্নেল ফাংশনটি বৈধ হওয়ার জন্য , যেমন কার্নেল ট্রিকের সাথে ব্যবহারযোগ্য, এটি দুটি মূল বৈশিষ্ট্য সন্তুষ্ট করা উচিত । নির্বাচনের জন্য অনেকগুলি কার্নেল ফাংশন রয়েছে । পার্শ্ব নোট হিসাবে, কার্নেল ট্রিকটি অন্য মেশিন লার্নিং মডেলগুলিতে প্রয়োগ করা যেতে পারে , সেই ক্ষেত্রে এগুলি কার্নেলাইজড হিসাবে উল্লেখ করা হয়k

সামনে যাচ্ছি

এসভিএমগুলিতে কিছু আকর্ষণীয় কিউএ:

অন্যান্য লিঙ্ক:


তথ্যসূত্র:


2
হাই ফ্রাঙ্ক, আপনার উত্তরের জন্য অনেক ধন্যবাদ। ভেক্টর কেন এসভিএম উত্পন্ন হাইপারপ্লেনের সাথে অরথোগোনাল তা বোঝাতে আপনার আপত্তি হবে ? এবং twow2w
tosik

3
এই দুর্দান্ত উত্তরের পাশাপাশি, আমি এই ভিডিওটি সুপারিশ করতে চাই যা এসভিএম এর পিছনে গণিতের মধ্যে চলে এবং বিশেষত প্রশ্নটি স্পষ্ট করে যে @ টসিক মন্তব্য করেছেন youtube.com/watch?v=_PwhiWxHK8o
নিকোলাস রিবেল

খুব সুন্দর উত্তর। এই অংশ হিসাবে কেবল একটি মন্তব্য: iff একটি সমর্থন ভেক্টর । শ্রেণিবিন্যাসের জন্য, সংমিশ্রণটি কার্যকরভাবে সমর্থনকারী ভেক্টরদের (যেমন, ) এর উপর কার্যকরভাবে হয় । α(i)=0x(i)α(i)0
989

13

আমি অন্যান্য শ্রেণিবদ্ধদের থেকে এটির মিল এবং পার্থক্যগুলিতে মনোনিবেশ করতে চলেছি:

  • একটি পেরসেপট্রন থেকে: এসভিএম হিঞ্জ লস এবং এল 2 নিয়মিতকরণ ব্যবহার করে, পার্সেপট্রন পারসসেপ্ট্রন ক্ষতি ব্যবহার করে এবং নিয়মিতকরণের জন্য প্রারম্ভিক স্টপিং (বা অন্যান্য কৌশলগুলির মধ্যে) ব্যবহার করতে পারত, পারসেপ্ট্রনে কোনও নিয়মিত পদ নেই। যেহেতু এটির একটি নিয়মিতকরণের মেয়াদ নেই, পার্সেপট্রন অত্যধিক প্রশিক্ষিত হতে বাধ্য, সুতরাং সাধারণীকরণের ক্ষমতাগুলি নির্বিচারে খারাপ হতে পারে। অপ্টিমাইজেশন স্টোকাস্টিক গ্রেডিয়েন্ট বংশোদ্ভুত ব্যবহার করে করা হয় এবং তাই খুব দ্রুত। ইতিবাচক দিক থেকে এই কাগজটি দেখায় যে সামান্য পরিবর্তিত ক্ষতির ফাংশন দিয়ে তাড়াতাড়ি থামিয়ে পারফরম্যান্সটি কোনও এসভিএমের সাথে সমান হতে পারে।

  • লজিস্টিক রিগ্রেশন থেকে: লজিস্টিক রিগ্রেশন লজিস্টিক লস শব্দটি ব্যবহার করে এবং L1 বা L2 নিয়মিতকরণ ব্যবহার করতে পারে। আপনি যৌক্তিক নিষ্পাপ-বেয়েসের বৈষম্যমূলক ভাই হিসাবে লজিস্টিক রিগ্রেশনকে ভাবতে পারেন।

  • এলডিএ থেকে: এলডিএকে জেনারেটরি অ্যালগরিদম হিসাবেও দেখা যেতে পারে, এটি ধরে নেওয়া হয় যে সম্ভাব্যতা ঘনত্ব ফাংশন (পি (x | y = 0) এবং পি (x | y = 1) সাধারণত বিতরণ করা হয় This তথ্যটি যখন থাকে তখন এটি আদর্শ তবে সাধারণভাবে বিতরণ করা হয় It তবে এটির দিকটি যে "প্রশিক্ষণ" ম্যাট্রিক্সের বিবর্তন প্রয়োজন যা বড় হতে পারে (যখন আপনার অনেকগুলি বৈশিষ্ট্য থাকে) omoকেন্দ্রিকতার অধীনে এলডিএ হয় কুইডিএ যা সাধারণত বিতরণ করা তথ্যের জন্য বেয়েস অনুকূল Meaning অনুমানগুলি সন্তুষ্ট আপনি এর চেয়ে ভাল আর করতে পারবেন না।

রানটাইম (পরীক্ষার সময়) এ, একবার মডেলটি প্রশিক্ষিত হয়ে গেলে, এই সমস্ত পদ্ধতির জটিলতা একই, এটি প্রাপ্ত হাইপারপ্লেনের প্রশিক্ষণ পদ্ধতি এবং ডেটাপয়েন্টের মধ্যে কেবল একটি বিন্দুর পণ্য।


1
যেহেতু আপনি এসভিএম-তে আপনাকে বেশ দক্ষ বলে মনে করছেন, আমার সন্দেহটি পরিষ্কার করতে বলি: একবার যখন আমরা সেরাটি পৃথককারী হাইপারপ্লেন পেয়েছি, তখন আমরা এটি কীসের জন্য ব্যবহার করব? আমরা এসভিএমকে এমন একটি পদ্ধতি হিসাবে সংজ্ঞায়িত করতে পারি যা প্রথমত, ডেটা পয়েন্টগুলি সঠিকভাবে শ্রেণিবদ্ধ করার জন্য সেরা হাইপারপ্লেন বেছে নেয় এবং দ্বিতীয়ত, দুটি শ্রেণিতে নতুন ডেটা পয়েন্ট ছিন্ন করতে এটি এই হাইপারপ্লেনটি ব্যবহার করে। রাইট? (আমার দ্বিতীয় ভাগে কিছু সন্দেহ আছে)
ডেভিডচিকো.ইট

1
@ ডেভিডচিকো.ইট হ্যাঁ, আমরা নতুন ডেটা শ্রেণিবদ্ধ করার জন্য সূচক ফাংশনটি ব্যবহার করতে পারি, যা প্রায়শই শ্রেণিবদ্ধের মূল উদ্দেশ্য। (যদিও এর কোনওটির জন্য আমার শব্দটি গ্রহণ করবেন না, আমি এটির সবকটিতে নতুন)।
কীজার

12

সম্ভাব্য প্রথম ধনাত্মক এবং নেতিবাচক উদাহরণগুলিতে যথেষ্ট পরিমাণের মার্জিন রেখে সিদ্ধান্তের সীমানা রেখা অঙ্কনের উপর কৌশলটি পূর্বাভাস দেওয়া হয়েছে:

এখানে চিত্র বর্ণনা লিখুন

উপরের চিত্রের মতো, আমরা যদি একটি ভেক্টরকে বেছে যেমন আমরা কোনও অজানা উদাহরণের জন্য সিদ্ধান্তের মানদণ্ড স্থাপন করতে পারি কে ফর্মের ইতিবাচক হিসাবে চিহ্নিত করা যেতে পারে:w=1u

wuC

রাস্তার মাঝখানে সিদ্ধান্ত লাইনের বাইরে প্রক্ষেপণ স্থাপন করবে এমন একটি মানের সাথে সম্পর্কিত। লক্ষ্য করুন যে ।wu=uw

ধনাত্মক নমুনার জন্য সমতুল্য শর্তটি হ'ল:

(1)wu+b0

সঙ্গেC=b.

আমরা প্রয়োজন এবং একটি সিদ্ধান্ত নিয়ম আছে, এবং আমরা প্রয়োজন পেতে সীমাবদ্ধতারbw

প্রথম সীমাবদ্ধতা আমরা চাপিয়ে যাচ্ছি যে কোনও ধনাত্মক নমুনার জন্য sample ,, ; ও নেতিবাচক নমুনার জন্য, । বিভাগের সীমানা বা হাইপারপ্লেনের ( মিডিয়ান ) মান , তবে জলের ক্ষেত্রে মানগুলি এবং :x+,wx++b1wx+b1011

এখানে চিত্র বর্ণনা লিখুন

ভেক্টর হয় ওজন ভেক্টর যেহেতু, হয় পক্ষপাতwb


এই দুটি অসমতা একসাথে আনতে, আমরা পরিবর্তনশীলটি চালু করতে পারি যাতে ইতিবাচক উদাহরণগুলির জন্য এবং উদাহরণগুলি নেতিবাচক হলে হয় এবং উপসংহারে পৌঁছে যেতে পারিyiyi=+1yi=1

yi(xiw+b)10.

সুতরাং আমরা প্রতিষ্ঠিত করেছি যে এটি শূন্যের চেয়ে বড় হতে হবে, তবে উদাহরণটি যদি হাইপারপ্লেনের ("গটার") হয় যা সিদ্ধান্ত হাইপারপ্লেন এবং সমর্থন ভেক্টরগুলির টিপসের মধ্যে বিচ্ছেদের মার্জিনকে সর্বাধিক করে তোলে, এই ক্ষেত্রে লাইনগুলিতে), তারপর:

(2)yi(xiw+b)1=0

লক্ষ্য করুন যে এটি প্রয়োজনের সমানyi(xiw+b)=1.

এখানে চিত্র বর্ণনা লিখুন


দ্বিতীয় সীমাবদ্ধতা : সমর্থন ভেক্টরদের পরামর্শের সিদ্ধান্তের হাইপারপ্লেনের দূরত্ব সর্বাধিক করা হবে। অন্য কথায় বিচ্ছেদের মার্জিন ("রাস্তার") সর্বাধিক করা হবে:

এখানে চিত্র বর্ণনা লিখুন

সিদ্ধান্তের সীমানায় একটি ইউনিট ভেক্টর লম্বকে ধরে , , দুটি "বর্ডারিং" প্লাস এবং বিয়োগ উদাহরণগুলির মধ্যে পার্থক্য সহ ডট পণ্যটি "রাস্তার" প্রশস্ততা :w

width=(x+x)ww

উপরে সমীকরণ উপর এবং হয় (বিচ্ছেদ পূর্ণবিস্তার hyperplanes দিকে) নর্দমা হবে। সুতরাং, ইতিবাচক উদাহরণের জন্য: , বা ; ; এবং নেতিবাচক উদাহরণের জন্য: । সুতরাং, রাস্তার প্রস্থকে সংশোধন করে:x+x (xiw+b)1=0x+w=1bxw=1b

width=(x+x)ww=x+wxww=1b(1b)w(3)=2w

সুতরাং এখন আমাদের কেবলমাত্র রাস্তার প্রস্থকে সর্বোচ্চ করতে হবে - যেমন ছোট করে বা ছোট করুন:2w,w

(4)12w2

যা গাণিতিকভাবে সুবিধাজনক।


সুতরাং আমরা চাই:

  1. ছোট করুন বাধ্যতা সঙ্গেx2

  2. yi(wxi+b)1=0


যেহেতু আমরা কিছু বাধার উপর নির্ভর করে এই অভিব্যক্তিটি হ্রাস করতে চাই, তাই আমাদের একটি ল্যাঞ্জরেজ গুণক প্রয়োজন (2 এবং 4 সমীকরণে ফিরে যাওয়া):

(5)L=12w2λi[yi(xiw+b)1]

পার্থক্য,

Lw=wλiyixi=0

অতএব,

(6)w=λiyixi

এবং সাথে পৃথক করেb:

Lb=λiyi=0,

যার অর্থ আমাদের কাছে গুণক এবং লেবেলের শূন্য যোগফল রয়েছে:

(7)λiyi=0

Eq (6) সমীকরণটি Eq (5) এ ফিরে যান,

L=12(λiyixi)(λjyjxj)(λiyixi)(λjyjxj)λiyib+λi

সমীকরণ Eq (7) অনুসারে পেনাল্টিমেট শব্দটি শূন্য।

অতএব,

(8)L=λi12ijλiλjyiyjxixj

Eq (8) চূড়ান্ত লাগরঙ্গিয়ান হয়।

অতএব, অপ্টিমাইজেশান উদাহরণগুলির জোড়াগুলির বিন্দু পণ্যটির উপর নির্ভর করে।

উপরের EQ (1) এ "সিদ্ধান্তের নিয়মে" ফিরে যেতে এবং EQ (6) ব্যবহার করে:

(9)λiyixiu+b0

নতুন ভেক্টর এর চূড়ান্ত সিদ্ধান্তের নিয়ম হবেu.


আসল কিছুই নয় ... আরও এন্ট্রি স্তরে কেবল আমার নিজের নোট। মূলত আমার নিজের চিত্র সহ এমআইটি থেকে এই ভিডিওটি । ত্রুটিগুলির জন্য, দয়া করে আমাকে জানান। অন্তর্দৃষ্টিপূর্ণ উত্তরগুলির জন্য, এবং আরও বিশদ বিশেষজ্ঞের স্তরে যান (ফ্রাঙ্কের পোস্ট এবং অন্যান্য)।
আন্তনি পরল্লদা

এবং আমি কীভাবে গণনা করব ?
মাইক

1
@ মাইক সহ সমর্থন ভেক্টরের সূচকের সেট হিসাবেআপনি এটি এখানে খুঁজে পেতে পারেন । b=ysmSαmymxmxsS(αi>0).
আন্তনি পরল্লদা

@ আন্তনিপরেল্লদা আশ্চর্যজনক উত্তর আন্তনি অনেক ধন্যবাদ - তবে আপনি কি দ্বৈত সমস্যা এবং কেটিটি শর্তের কোনও অংশ মিস করছেন না?
জাভিয়ের বুরেট সিকোট

@ জাভেয়ারবারিটসাইকোটে আমি কিছুক্ষণের জন্য এটিতে কাজ করতে সক্ষম হবো না। দয়া করে এই বিষয়গুলিকে স্পর্শ করে একটি বিকল্প উত্তর লেখার বিষয়ে বিবেচনা করুন এবং আপনি যদি তা করেন তবে দয়া করে আমাকে জানান যাতে আমি এটি সম্পর্কে অবহিত, এবং এটির উচ্চারণ করতে পারি।
আন্তনি পরল্লদা

3

দ্বৈততা এবং কেটিটি শর্তাবলী সম্পর্কে কিছু মন্তব্য

প্রাথমিক সমস্যা problem

সমীকরণ এবং এর মধ্যে @ অ্যান্টোনির পোস্টটি থেকে উঠে আসা স্মরণ করুন যে আমাদের মূল বা প্রাথমিক , অপ্টিমাইজেশান সমস্যাটি ফর্মটির:(4)(5)

minw,bf(w,b)=minw,b 12||w||2s.t.  gi(w,b)=y(i)(wTx(i)+b)+1=0

লাগরেঞ্জ পদ্ধতি

ল্যাংরেঞ্জ মাল্টিপ্লায়ার্সের পদ্ধতিটি আমাদের সীমাবদ্ধ অপ্টিমাইজেশান সমস্যাটিকে ফর্মের একটিকে নিয়ন্ত্রণহীনভাবে পরিণত করতে দেয়:

L(w,b,α)=12||w||2imαi[y(i)(wTx(i)+b)1]

কোথায় বলা হয় ল্যাগরান্গিয়ান এবং বলা হয় ল্যাগরান্গিয়ান multipliersL(w,b,α)αi

ল্যাঙ্গরজিয়ামের সাথে আমাদের প্রাথমিক অপ্টিমাইজেশান সমস্যাটি নিম্নলিখিত হয়ে যায়: (নোট করুন যে, , ব্যবহার কঠোর নয় কারণ আমাদের এখানে এবং ব্যবহার করা উচিত ...)minmaxinfsup

minw,b(maxαL(w,b,α))

দ্বৈত সমস্যা

@ অ্যান্টনি এবং প্রফেসর প্যাট্রিক উইনস্টন তাদের অনুকরণে যা করেছেন তা অনুমান করা যায় যে অনুকূলিতকরণ কার্য এবং সীমাবদ্ধতাগুলি কিছু প্রযুক্তিগত শর্ত পূরণ করে যেমন আমরা নিম্নলিখিতটি করতে পারি:

minw,b(maxαL(w,b,α))=maxα(minw,bL(w,b,α))

এটা আমাদের আংশিক ডেরাইভেটিভস নিতে পারবেন থেকে সম্মান সঙ্গে এবং , শূন্য সমার্থক এবং তারপর ফলাফল ল্যাগরান্গিয়ান মূল সমীকরণ ফিরে চলা, অত একটি সমতুল্য উৎপাদিত ফর্মটির দ্বৈত অপ্টিমাইজেশান সমস্যাL(w,b,α)wb

maxαminw,bL(w,b,α)maxαimαi12i,jmy(i)y(j)αiαj<x(i)x(j)>s.t. αi0s.t. imαiy(i)=0

দ্বৈততা এবং কেটিটি

অতিরিক্ত গাণিতিক প্রযুক্তি না নিয়েই এই শর্তগুলি দ্বৈততা এবং কারুশ কুহন টিকার (কেটিটি) শর্তের সংমিশ্রণ এবং সর্বোত্তম সমাধানটি একইরূপে নিশ্চিত করার সময় আমাদের প্রাথমিকের পরিবর্তে দ্বৈত সমস্যা সমাধানের অনুমতি দেয় । আমাদের ক্ষেত্রে শর্তগুলি নিম্নলিখিত:

  • প্রাথমিক উদ্দেশ্য এবং অসমতার সীমাবদ্ধ ফাংশনগুলি উত্তল হতে হবে
  • সমতা সীমাবদ্ধতা ফাংশন অবশ্যই affine হতে হবে
  • সীমাবদ্ধতা অবশ্যই কঠোরভাবে व्यवहार्य হতে হবে

তারপরে যা প্রাথমিক এবং দ্বৈত সমস্যার সমাধান। তদতিরিক্ত, ডাব্লু প্যারামিটারগুলি নীচে কেটিটি শর্ত পূরণ করে:w,αw,α

wiL(w,α,β)=0(A)βiL(w,α,β)=0(B)αigi(w)=0(C)gi(w)0(D)αi0(E)

তদুপরি, যদি কিছু কেটিটি সমাধানগুলি সন্তুষ্ট করে তবে সেগুলিও প্রাথমিক এবং দ্বৈত সমস্যার সমাধান।w,α

উপরের সমীকরণ এর বিশেষ গুরুত্ব রয়েছে এবং একে দ্বৈত পরিপূরক শর্ত বলে । এর থেকে বোঝা যায় যে যদি তবে যার অর্থ এই সীমাবদ্ধতা সক্রিয়, অর্থাত্ এটি অসমতার চেয়ে সাম্যের অধিকারী with অ্যান্টোনির উত্পন্নকরণের সমীকরণের এর পিছনে এটি ব্যাখ্যা যেখানে অসমতার প্রতিবন্ধকতাটিকে সমতার সীমাবদ্ধতায় পরিণত করা হয়েছে।α i > 0 গ্রাম আই ( ডাব্লু ) = 0 গ্রাম আই ( ডাব্লু ) 0 ( 2 )(C)αi>0gi(w)=0gi(w)0(2)

একটি স্বজ্ঞাত কিন্তু অনানুষ্ঠানিক চিত্র

এখানে চিত্র বর্ণনা লিখুন

সোর্স


2
আপনাকে অনেক ধন্যবাদ. আমি এটি দ্রুত পড়ি, এবং আরও সময় নিয়ে এটিতে আবার ফিরে আসি, তবে এটি দুর্দান্ত শোনায় এবং আমার উত্তরের অনুপস্থিত বিষয়গুলিকে স্পর্শ করে।
আন্তনি পরল্লদা
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.