কার্নেল এসভিএম: আমি একটি উচ্চ-মাত্রিক বৈশিষ্ট্য স্পেসে ম্যাপিংয়ের একটি স্বজ্ঞাত ধারণা চাই এবং এটি কীভাবে লিনিয়ার পৃথকীকরণকে সম্ভব করে তোলে


15

আমি কার্নেল এসভিএম এর অন্তর্নিহিত বোঝার চেষ্টা করছি। এখন, আমি বুঝতে পারি কিভাবে লিনিয়ার এসভিএমের কাজ, এর মাধ্যমে সিদ্ধান্তের লাইন তৈরি করা হয় যা ডেটাটিকে যথাসম্ভব বিভক্ত করে তোলে। আমি একটি উচ্চ-মাত্রিক স্থানে ডেটা পোর্ট করার পিছনের নীতিটিও বুঝতে পারি এবং এটি কীভাবে এই নতুন স্থানটিতে লিনিয়ার সিদ্ধান্তের লাইন খুঁজে পাওয়া সহজ করে তুলবে। আমি যা বুঝতে পারি না তা হল এই নতুন স্থানটিতে ডেটা নির্দেশ করার জন্য কার্নেলটি কীভাবে ব্যবহৃত হয়।

আমি কার্নেল সম্পর্কে যা জানি তা হ'ল এটি কার্যকরভাবে দুটি ডেটা পয়েন্টের মধ্যে "মিল" উপস্থাপন করে। তবে কীভাবে এটি প্রক্ষেপণের সাথে সম্পর্কিত?


3
আপনি যদি একটি উচ্চ পর্যাপ্ত মাত্রিক স্থান যান, সমস্ত প্রশিক্ষণ ডেটা পয়েন্ট পুরোপুরি একটি বিমান দ্বারা পৃথক করা যেতে পারে। এর অর্থ এই নয় যে এর কোনও ভবিষ্যদ্বাণীপূর্ণ শক্তি থাকবে। আমি মনে করি খুব উচ্চ মাত্রার স্থানে যাওয়া হ'ল ওভারফিটিংয়ের নৈতিক সমতুল্য (এক রূপ)।
মার্ক এল। স্টোন

@ মার্ক এল স্টোন: এটি সঠিক (+1) তবে কার্নেল কীভাবে অসীম মাত্রিক স্থানে মানচিত্র বানাতে পারে তা জিজ্ঞাসা করা এখনও একটি ভাল প্রশ্ন হতে পারে? ওটা কিভাবে কাজ করে? আমি চেষ্টা করেছি, আমার উত্তরটি দেখুন

আমি বৈশিষ্ট্যটির ম্যাপিংকে "প্রজেকশন" বলার বিষয়ে সতর্ক থাকব। বৈশিষ্ট্য ম্যাপিং সাধারণত ননলাইনার রূপান্তর হয়।
পল

কার্নেল ট্রিকের একটি খুব সহায়ক পোস্ট কর্নেলের অভ্যন্তরীণ পণ্য স্থানটিকে কল্পনা করে
জেএসট্রাল

উত্তর:


6

যাক h(x) উচ্চ মাত্রা স্থান থেকে অভিক্ষেপ হতে F । মূলত কার্নেল ফাংশন K(x1,x2)=h(x1),h(x2) , যা ভেতরের-পণ্য। সুতরাং এটি ডেটা পয়েন্টগুলি প্রজেক্ট করতে ব্যবহার করা হয়নি, বরং প্রক্ষেপণের একটি ফলাফল। এটি সাদৃশ্য একটি পরিমাপ হিসাবে বিবেচনা করা যেতে পারে, কিন্তু একটি এসভিএম মধ্যে এটি এর চেয়ে বেশি more

মধ্যে পৃথক পৃথক পৃথক হাইপারপ্লেন সন্ধানের জন্য অপ্টিমাইজেশনে কেবলমাত্র অভ্যন্তরীণ-পণ্য ফর্মের মাধ্যমে h ( x )F জড়িত । এটি বলার অপেক্ষা রাখে না, যদি আপনি কে ( , ) জানেন তবে আপনাকে h ( x ) এর সঠিক ফর্মটি জানতে হবে না যা অপ্টিমাইজেশনকে সহজ করে তোলে।h(x)K(,)h(x)

প্রতিটি কার্নেল K(,) এর সাথে একইভাবে h(x) থাকে। সুতরাং আপনি যদি সেই কার্নেলের সাথে কোনও এসভিএম ব্যবহার করছেন, তবে আপনি স্পষ্টতই ফাঁক ফাঁকে ফাঁকে ফাঁকে ফাঁকে ফাঁকে ফাঁকে ফাঁকে ফাঁকে ফাঁকে সন্ধান করছেন যা h(x) মানচিত্রে।

পরিসংখ্যানগত শিক্ষার উপাদানগুলির 12 অধ্যায়টি এসভিএমের একটি সংক্ষিপ্ত পরিচিতি দেয়। এটি কার্নেল এবং বৈশিষ্ট্য ম্যাপিংয়ের মধ্যে সংযোগ সম্পর্কে আরও বিশদ দেয়: http://statweb.stanford.edu/~tibs/ElemStatLearn/


আপনি কি বোঝাতে চেয়েছেন যে কার্নেল K(x,y) জন্য একটি অনন্য অন্তর্নিহিত h(x) ?

2
@fcoppens No; তুচ্ছ উদাহরণের জন্য, h এবং বিবেচনা করুন h। তবে, সেই কার্নেলের সাথে সম্পর্কিত একটি অনন্য প্রজনন কার্নেল হিলবার্ট স্থান রয়েছে।
ডগল

@ ডাওগাল: তারপরে আমি আপনার সাথে একমত হতে পারি তবে উপরের উত্তরে এটি 'একটি সংশ্লিষ্ট h ' বলা হয়েছিল তাই আমি নিশ্চিত হতে চাই wanted RKHS আমি দেখতে, কিন্তু আপনি মনে করেন এটি একটি 'স্বজ্ঞাত উপায়' থেকে ব্যাখ্যা করা সম্ভব কি এই রূপান্তর h একটি কার্নেল জন্য মত দেখাচ্ছে K(x,y) ?

@fcoppens সাধারণভাবে, না; এই মানচিত্রের সুস্পষ্ট উপস্থাপনা খুঁজে পাওয়া মুশকিল। যদিও নির্দিষ্ট কার্নেলের জন্য এটি খুব বেশি শক্ত নয় বা আগে করা হয়েছিল।
ডগল

1
@fcoppens আপনি ঠিক বলেছেন, এইচ (এক্স) অনন্য নয়। অভ্যন্তরীণ পণ্য <h (x), h (x ')> একই রাখার সময় আপনি সহজেই h (x) এ পরিবর্তন করতে পারেন। যাইহোক, আপনি এগুলিকে বেসিক ফাংশন হিসাবে বিবেচনা করতে পারেন এবং তারা যে স্প্যান করে তার স্থান (অর্থাত্ আরকেএইচএস) অনন্য।
লিই

4

কার্নেল এসভিএমের দরকারী বৈশিষ্ট্যগুলি সর্বজনীন নয় - তারা কার্নেল নির্বাচনের উপর নির্ভর করে। অন্তর্দৃষ্টি পেতে এটি সর্বাধিক ব্যবহৃত ব্যবহৃত কার্নেল, গাউসিয়ান কার্নেলটি দেখার পক্ষে সহায়ক। লক্ষণীয়ভাবে, এই কার্নেলটি এসভিএমকে খুব কাছাকাছি প্রতিবেশী শ্রেণিবদ্ধের মতো কিছুতে রূপান্তরিত করে।

এই উত্তরটি নিম্নলিখিত ব্যাখ্যা করে:

  1. পর্যাপ্ত ছোট ব্যান্ডউইদথের গাউসিয়ান কার্নেল দিয়ে (অতিমাত্রায় ব্যয় করে) কেন ইতিবাচক এবং নেতিবাচক প্রশিক্ষণের ডেটার নিখুঁত পৃথকীকরণ সর্বদা সম্ভব?
  2. এই বিভাজনটি কীভাবে কোনও বৈশিষ্ট্যের জায়গাতে লিনিয়ার হিসাবে ব্যাখ্যা করা যেতে পারে।
  3. ডেটা স্পেস থেকে ফিচার স্পেসে ম্যাপিং তৈরি করতে কার্নেলটি কীভাবে ব্যবহৃত হয়। স্পোলার: বৈশিষ্ট্যটির স্থানটি একটি খুব গাণিতিক বিমূর্ত বস্তু, কার্নেলের উপর ভিত্তি করে একটি অস্বাভাবিক বিমূর্ত অভ্যন্তর পণ্য।

1. নিখুঁত বিচ্ছেদ অর্জন

কার্নেলের লোকাল প্রোপার্টিগুলির কারণে গাউসিয়ান কার্নেলের সাথে নিখুঁত বিচ্ছেদ সর্বদা সম্ভব। পর্যাপ্ত পরিমাণ ছোট কার্নেল ব্যান্ডউইথের জন্য, সিদ্ধান্তের সীমানাটি দেখতে যেমন আপনার দৃষ্টিভঙ্গি এবং নেতিবাচক উদাহরণগুলি পৃথক করার জন্য যখনই প্রয়োজন হবে ঠিক তখনই পয়েন্টগুলির চারপাশে ছোট ছোট বৃত্ত আঁকেন:

এটার মতো কিছু

(ক্রেডিট: অ্যান্ড্রু এনগির অনলাইন মেশিন লার্নিং কোর্স )

সুতরাং, কেন এটি গাণিতিক দৃষ্টিকোণ থেকে ঘটে?

মানক সেটআপটি বিবেচনা করুন: আপনার কাছে গাউসিয়ান কার্নেল এবং প্রশিক্ষণ ডেটা ( x ( 1 ) , y ( 1 ) ) , ( x ( 2 ) , y ( 2 ) ) , ... , ( x ( n ) ,কে(এক্স,z- র)=মেপুঃ(-||এক্স-z- র||2/σ2) যেখানে y ( i ) মানগুলি ± 1 । আমরা একটি শ্রেণিবদ্ধ ফাংশন শিখতে চাই(x(1),y(1)),(x(2),y(2)),,(x(n),y(n))y(i)±1

y^(x)=iwiy(i)K(x(i),x)

এখন কিভাবে আমরা কখনও ওজন ধার্য হবে ? আমাদের কি অসীম মাত্রিক স্থান এবং একটি চতুষ্কোণ প্রোগ্রামিং অ্যালগরিদম দরকার? না, কারণ আমি কেবল দেখাতে চাই যে আমি পয়েন্টগুলি পুরোপুরি আলাদা করতে পারি। তাই আমি করতে σ একটি বিলিয়ন বার ক্ষুদ্রতম বিচ্ছেদ চেয়ে ছোট | | x ( i ) - x ( জে ) | | যে কোনও দুটি প্রশিক্ষণের উদাহরণের মধ্যে থাকা এবং আমি কেবল ডাব্লু i = 1 সেট করেছিলাম । সব প্রশিক্ষণ পয়েন্ট বিলিয়ন sigmas পৃথক্ যতটা কার্নেল সংশ্লিষ্ট হয়, এবং প্রতিটি বিন্দুতে সম্পূর্ণরূপে চিহ্ন নিয়ন্ত্রণ করে এই অর্থ Ywiσ||x(i)x(j)||wi=1y^এর আশেপাশে সাধারণত, আমাদের আছে

y^(x(k))=i=1ny(k)K(x(i),x(k))=y(k)K(x(k),x(k))+iky(i)K(x(i),x(k))=y(k)+ϵ

যেখানে কিছু ইচ্ছামত ছোট মান। আমরা জানি ε ছোট কারণ এক্স ( ) অন্য কোন বিন্দু থেকে এক বিলিয়ন sigmas দূরে, তাই সবার জন্য আমি k আমরা আছেϵϵx(k)ik

K(x(i),x(k))=exp(||x(i)x(k)||2/σ2)0.

যেহেতু এত ছোট হয়, Y ( এক্স ( ) ) স্পষ্টভাবে হিসাবে একই চিহ্ন রয়েছে Y ( ) , এবং ক্লাসিফায়ার প্রশিক্ষণ ডেটার উপর নিখুঁত সঠিকতা অর্জন করা হয়ে। অনুশীলনে এটি মারাত্মকভাবে অত্যধিক মানানসই হবে তবে এটি গাউসীয় কর্নেল এসভিএমের অসাধারণ নমনীয়তা এবং এটি কীভাবে কোনও নিকটবর্তী প্রতিবেশী শ্রেণিবদ্ধের সাথে সামঞ্জস্যপূর্ণ আচরণ করতে পারে তা দেখায়।ϵy^(x(k))y(k)

2. লিনিয়ার পৃথকীকরণ হিসাবে কার্নেল এসভিএম শেখা

এটিকে "একটি অসীম মাত্রিক বৈশিষ্ট্য স্থানে নিখুঁত রৈখিক বিভাজন" হিসাবে ব্যাখ্যা করা যায় এমন তথ্য কার্নেল ট্রিক থেকে আসে, যা আপনাকে কার্নেলটিকে একটি বিমূর্ত অভ্যন্তরীণ পণ্য হিসাবে কিছু নতুন বৈশিষ্ট্য স্থান হিসাবে ব্যাখ্যা করতে দেয়:

K(x(i),x(j))=Φ(x(i)),Φ(x(j))

যেখানে বৈশিষ্ট্য মহাকাশ ডেটা স্থান থেকে ম্যাপিং হয়। অবিলম্বে অনুসরণ করে যে Y ( এক্স ) বৈশিষ্ট্য মহাকাশে একটি রৈখিক ফাংশন হিসাবে ফাংশন:Φ(x)y^(x)

y^(x)=iwiy(i)Φ(x(i)),Φ(x)=L(Φ(x))

where the linear function L(v) is defined on feature space vectors v as

L(v)=iwiy(i)Φ(x(i)),v

এই ফাংশনটি মধ্যে রৈখিক হয় কারণ এটা শুধু নির্দিষ্ট ভেক্টর দিয়ে ভেতরের পণ্য একটি রৈখিক সমন্বয়। বৈশিষ্ট্য স্থান, সিদ্ধান্ত সীমানা Y ( এক্স ) = 0 ঠিক হয় এল ( বনাম ) = 0 , একটি রৈখিক ফাংশন লেবেল সেট করুন। এটি বৈশিষ্ট্য জায়গার একটি হাইপারপ্লেনের খুব সংজ্ঞা।vy^(x)=0L(v)=0

৩. কার্নেলটি বৈশিষ্ট্য স্থানটি তৈরি করতে কীভাবে ব্যবহৃত হয়

Kernel methods never actually "find" or "compute" the feature space or the mapping Φ explicitly. Kernel learning methods such as SVM do not need them to work; they only need the kernel function K. It is possible to write down a formula for Φ but the feature space it maps to is quite abstract and is only really used for proving theoretical results about SVM. If you're still interested, here's how it works.

Basically we define an abstract vector space V where each vector is a function from X to R. A vector f in V is a function formed from a finite linear combination of kernel slices:

f(x)=i=1nαiK(x(i),x)
(Here the x(i) are just an arbitrary set of points and need not be the same as the training set.) It is convenient to write f more compactly as
f=i=1nαiKx(i)
where Kx(y)=K(x,y) is a function giving a "slice" of the kernel at x.

The inner product on the space is not the ordinary dot product, but an abstract inner product based on the kernel:

i=1nαiKx(i),j=1nβjKx(j)=i,jαiβjK(x(i),x(j))

This definition is very deliberate: its construction ensures the identity we need for linear separation, Φ(x),Φ(y)=K(x,y).

With the feature space defined in this way, Φ is a mapping XV, taking each point x to the "kernel slice" at that point:

Φ(x)=Kx,whereKx(y)=K(x,y).

You can prove that V is an inner product space when K is a positive definite kernel. See this paper for details.


Great explanation, but I think you have missed a minus for the definition of the gaussian kernel. K(x,z)=exp(-||x−z||2/σ2) . As it's written, it does not make sense with the ϵ found in the part (1)
hqxortn

1

For the background and the notations I refer to How to calculate decision boundary from support vectors?.

So the features in the 'original' space are the vectors xi, the binary outcome yi{1,+1} and the Lagrange multipliers are αi.

As said by @Lii (+1) the Kernel can be written as K(x,y)=h(x)h(y) ('' represents the inner product.

I will try to give some 'intuitive' explanation of what this h looks like, so this answer is no formal proof, it just wants to give some feeling of how I think that this works. Do not hesitate to correct me if I am wrong.

I have to 'transform' my feature space (so my xi) into some 'new' feature space in which the linear separation will be solved.

For each observation xi, I define functions ϕi(x)=K(xi,x), so I have a function ϕi for each element of my training sample. These functions ϕi span a vector space. The vector space spanned by the ϕi, note it V=span(ϕi,i=1,2,N).

I will try to argue that is the vector space in which linear separation will be possible. By definition of the span, each vector in the vector space V can be written as as a linear combination of the ϕi, i.e.: i=1Nγiϕi, where γi are real numbers.

N is the size of the training sample and therefore the dimension of the vector space V can go up to N, depending on whether the ϕi are linear independent. As ϕi(x)=K(xi,x) (see supra, we defined ϕ in this way), this means that the dimension of V depends on the kernel used and can go up to the size of the training sample.

The transformation, that maps my original feature space to V is defined as

Φ:xiϕ(x)=K(xi,x).

This map Φ maps my original feature space onto a vector space that can have a dimension that goed up to the size of my training sample.

Obviously, this transformation (a) depends on the kernel, (b) depends on the values xi in the training sample and (c) can, depending on my kernel, have a dimension that goes up to the size of my training sample and (d) the vectors of V look like i=1Nγiϕi, where γi, γi are real numbers.

Looking at the function f(x) in How to calculate decision boundary from support vectors? it can be seen that f(x)=iyiαiϕi(x)+b.

In other words, f(x) is a linear combination of the ϕi and this is a linear separator in the V-space : it is a particular choice of the γi namely γi=αiyi !

The yi are known from our observations, the αi are the Lagrange multipliers that the SVM has found. In other words SVM find, through the use of a kernel and by solving a quadratic programming problem, a linear separation in the V-spave.

This is my intuitive understanding of how the 'kernel trick' allows one to 'implicitly' transform the original feature space into a new feature space V, with a different dimension. This dimension depends on the kernel you use and for the RBF kernel this dimension can go up to the size of the training sample.

So kernels are a technique that allows SVM to transform your feature space , see also What makes the Gaussian kernel so magical for PCA, and also in general?


"for each element of my training sample" -- is element here referring to a row or column (i.e. feature )
user1761806

what is x and x_i? If my X is an input of 5 columns, and 100 rows, what would x and x_i be?
user1761806

@user1761806 an element is a row. The notation is explained in the link at the beginning of the answer

1

Transform predictors (input data) to a high-dimensional feature space. It is sufficient to just specify the kernel for this step and the data is never explicitly transformed to the feature space. This process is commonly known as the kernel trick.

Let me explain it. The kernel trick is the key here. Consider the case of a Radial Basis Function (RBF) Kernel here. It transforms the input to infinite dimensional space. The transformation of input x to ϕ(x) can be represented as shown below (taken from http://www.csie.ntu.edu.tw/~cjlin/talks/kuleuven_svm.pdf)

enter image description here

The input space is finite dimensional but the transformed space is infinite dimensional. Transforming the input to an infinite dimensional space is something that happens as a result of the kernel trick. Here x which is the input and ϕ is the transformed input. But ϕ is not computed as it is, instead the product ϕ(xi)Tϕ(x) is computed which is just the exponential of the norm between xi and x.

There is a related question Feature map for the Gaussian kernel to which there is a nice answer /stats//a/69767/86202.

The output or decision function is a function of the kernel matrix K(xi,x)=ϕ(xi)Tϕ(x) and not of the input x or transformed input ϕ directly. enter image description here


0

উচ্চ মাত্রায় ম্যাপিং হ'ল মূল মাত্রায় সংজ্ঞায়িত কোনও সমস্যা সমাধানের কৌশল; সুতরাং উদ্বেগ যেমন আপনার স্বাধীনতা অনেক ডিগ্রি একটি মাত্রা মধ্যে গিয়ে আপনার ডেটা over Fitting ম্যাপিং প্রক্রিয়া একটি উপজাত নয়, কিন্তু আপনার সমস্যার সংজ্ঞা অন্তর্নিহিত।

মূলত, ম্যাপিংয়ের মাধ্যমে যা ঘটে তা হ'ল মূল মাত্রায় শর্তসাপেক্ষ শ্রেণিবিন্যাসকে উচ্চতর মাত্রায় একটি বিমানের সংজ্ঞাতে রূপান্তর করা হয় এবং উচ্চতর মাত্রায় বিমানটির এবং 1 টির মধ্যে নীচের মাত্রায় আপনার অবস্থার মধ্যে 1 থেকে 1 সম্পর্ক থাকার কারণে আপনি সর্বদা পারেন দুজনের মধ্যে সরানো।

অত্যধিক মানসিকতার সমস্যাটি গ্রহণ করে, পরিষ্কারভাবে, আপনি প্রতিটি পর্যবেক্ষণকে তার নিজস্ব শ্রেণিতে বিচ্ছিন্ন করার জন্য পর্যাপ্ত শর্তগুলি নির্ধারণ করে কোনও পর্যবেক্ষণের তুলনায় অতিমাত্রায় সাফল্য অর্জন করতে পারেন, যা আপনার ডেটা ম্যাপিংয়ের সমতুল্য (এন -১) ডি যেখানে এন আপনার পর্যবেক্ষণের সংখ্যা ।

সবচেয়ে সহজ সমস্যাটি গ্রহণ করা, যেখানে আপনার পর্যবেক্ষণগুলি [[[1, -1], [0,0], [1,1]] [[বৈশিষ্ট্য, মান]], 2 ডি মাত্রাতে সরানো এবং একটি লাইন দিয়ে আপনার ডেটা পৃথক করে , আপনি কেবল শর্তসাপেক্ষ শ্রেণিবিন্যাসের feature < 1 && feature > -1 : 0মধ্য দিয়ে যাচ্ছেন এমন একটি রেখাকে সংজ্ঞায়িত করার দিকে ঝুঁকছেন (-1 + epsilon, 1 - epsilon)। আপনার যদি আরও ডেটা পয়েন্ট থাকে এবং আরও শর্তের প্রয়োজন হয় তবে আপনার সংজ্ঞায়িত প্রতিটি নতুন শর্তের দ্বারা আপনার উচ্চতর মাত্রায় আপনাকে আরও একটি ডিগ্রি স্বাধীনতা যুক্ত করতে হবে।

You can replace the process of mapping to a higher dimension with any process that provides you with a 1 to 1 relationship between the conditions and the degrees of freedom of your new problem. Kernel tricks simply do that.


1
As a different example, take the problem where the phenomenon results in observations of the form of [x, floor(sin(x))]. Mapping your problem into a 2D dimension is not helpful here at all; in fact, mapping to any plane will not be helpful here, which is because defining the problem as a set of x < a && x > b : z is not helpful in this case. The simplest mapping in this case is mapping into a polar coordinate, or into the imaginary plane.
Hou
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.