কার্নেল আনুমানিককরণের জন্য Nystroem পদ্ধতি


12

আমি নিম্ন র‌্যাঙ্কের কার্নেল এপ্রোক্সিমেশনের জন্য Nyström পদ্ধতি সম্পর্কে পড়ছি। এই পদ্ধতিটি সাইকিট-লার্নে প্রয়োগ করা হয়েছে [1] কার্নেল বৈশিষ্ট্য ম্যাপিংয়ের নিম্ন-স্তরের প্রাক্কলনে ডেটা নমুনাগুলি প্রজেক্ট করার পদ্ধতি হিসাবে।

আমার জ্ঞানের সেরা হিসাবে, একটি প্রশিক্ষণ সেট given এবং একটি কার্নেল ফাংশন দেওয়া হয়েছে, এটি এসভিডি প্রয়োগ করে একটি কার্নেল ম্যাট্রিক্স একটি নিম্ন-স্তরের সান্নিধ্য তৈরি করে এবং ।{xi}i=1nn×nKWC

K=[WK21TK21K22] C=[WK21] ,WRl×l

তবে, আমি বুঝতে পারি না যে কার্নেল ম্যাট্রিক্সের নিম্ন-স্তরের আনুমানিকতা কার্নেল বৈশিষ্ট্য স্থানে নতুন নমুনা প্রজেক্ট করতে কীভাবে ব্যবহার করা যেতে পারে । আমি যে কাগজপত্রগুলি পেয়েছি (যেমন [2]) সেগুলি খুব বেশি কার্যকর নয়, কারণ সেগুলি সামান্য যুক্তিযুক্ত।

এছাড়াও, আমি প্রশিক্ষণের এবং পরীক্ষার উভয় পর্যায়ের ক্ষেত্রেই এই পদ্ধতির গণ্য জটিলতা সম্পর্কে আগ্রহী।

[1] http://scikit-learn.org/stable/modules/kernel_approximation.html#nystroem-kernel-approx

[২] http://www.jmlr.org/papers/volume13/kumar12a/kumar12a.pdf

উত্তর:


15

আসুন Nyström আনুমানিকতা এমনভাবে উপস্থাপন করুন যাতে আপনার প্রশ্নের উত্তরগুলি আরও পরিষ্কার করা উচিত।

Nyström এর মূল অনুমানটি হ'ল কার্নেল ফাংশনটি র‍্যাঙ্কের হয় । (সত্যিই আমরা ধরে নিই যে এটি প্রায় র‌্যাঙ্ক এর প্রায় , তবে সরলতার জন্য এখনকার জন্য ঠিক এটি র‌্যাঙ্ক ভান করা উচিত )) এর অর্থ হ'ল যে কোনও কার্নেল ম্যাট্রিক্সের বেশিরভাগ র‌্যাঙ্ক থাকবে এবং বিশেষত র‌্যাঙ্ক । সুতরাং ননজারো ইগেনভ্যালু রয়েছে এবং আমরা এর ইউজেনডেকপজিশন লাম্বদা হিসাবে লিখতে পারিmmmm

K=[k(x1,x1)k(x1,xn)k(xn,x1)k(xn,xn)],
mmK
K=UΛUT
igen , একটি ডায়াগোনাল ম্যাট্রিক্সে সজ্জিত -আকৃতির, shape আকারের ইউজেনভেেক্টর সহ ।Un×mΛm×m

সুতরাং, আসুন উপাদানগুলি চয়ন করুন, সাধারণত এলোমেলোভাবে তবে সম্ভবত অন্যান্য স্কিম অনুসারে - এই সরলীকৃত সংস্করণে যে সমস্ত বিষয় রয়েছে তা full সম্পূর্ণ পদমর্যাদার। একবার করার পরে, কেবলমাত্র পয়েন্টগুলি পুনর্বিবেচনা করুন যাতে আমরা ব্লকগুলিতে কার্নেল ম্যাট্রিক্সের সাথে শেষ করি: যেখানে আমরা (যা ) এবং ( ) এর প্রতিটি প্রবেশ মূল্যায়ন করি , কিন্তু কোনও মূল্যায়ন করতে চাই না ।mK11

K=[K11K21TK21K22],
K11m×mK21(nm)×mK22

এখন, আমরা এই ব্লক স্ট্রাকচার অনুসারে ইজেনডিকোপজিশনটিও বিভক্ত করতে পারি: যেখানে হয় এবং হয় । তবে মনে রাখবেন যে এখন আমাদের । সুতরাং আমরা জানতে পারেন এবং পরিচিত ম্যাট্রিক্স eigendecomposing দ্বারা ।

K=UΛUT=[U1U2]Λ[U1U2]T=[U1ΛU1TU1ΛU2TU2ΛU1TU2ΛU2T],
U1m×mU2(nm)×mK11=U1ΛU1TU1ΛK11

আমরা এও জানি যে । এখানে, আমরা ছাড়া এই সমীকরণ সবকিছু জানেন , তাই আমরা কি eigenvalues বোঝা যে জন্য সমাধান করতে পারে: ডান-সংখ্যাবৃদ্ধি দ্বারা উভয় পক্ষের পেতে : মূল্যায়নের জন্য আমাদের যা যা দরকার তা এখন রয়েছেK21=U2ΛU1TU2(ΛU1T)1=U1Λ1

U2=K21U1Λ1.
K22
K22=U2ΛU2T=(K21U1Λ1)Λ(K21U1Λ1)T=K21U1(Λ1Λ)Λ1U1TK21T=K21U1Λ1U1TK21T(*)=K21K111K21T(**)=(K21K1112)(K21K1112)T.

(*) এ, আমরা সম্ভবত Nyström এমবেডিংয়ের একটি সংস্করণ পেয়েছি যা আপনি সম্ভবত সংজ্ঞা হিসাবে দেখতে পেয়েছেন। এটা আমাদের কার্যকর কার্নেল মান বলে যে আমরা ব্লক জন্য আরোপিত হিসাবের করছি ।K22

(**) এ, আমরা দেখতে পেলাম ম্যাট্রিক্স বৈশিষ্ট্যটি , যা আকার , এই নিষ্ক্রিয় কার্নেল মানগুলির সাথে মিলে যায়। যদি আমরা পয়েন্টগুলির জন্য ব্যবহার করি তবে আমাদের কাছে ডাইমেনশনাল বৈশিষ্ট্যগুলি রয়েছে আমরা কেবল তাড়াতাড়ি যাচাই করতে পারি যে সঠিক কার্নেল ম্যাট্রিক্সের সাথে মিলে যায়: K21K1112(nm)×mK1112mm

Φ=[K1112K21K1112].
Φ
ΦΦT=[K1112K21K1112][K1112K21K1112]T=[K1112K1112K1112K1112K21TK21K1112K1112K21K1112K1112K21T]=[K11K21TK21K21K111K21T]=K.

সুতরাং, আমাদের কেবলমাত্র আমাদের নিয়মিত শেখার মডেলটিকে ডাইমেনশনাল বৈশিষ্ট্যগুলি সহ প্রশিক্ষণ করতে হবে । এই হতে হবে ঠিক (অনুমানের অধীনে আমরা তৈরি করেছি) একই সঙ্গে লার্নিং সমস্যার kernelized সংস্করণ হিসেবে ।mΦK

এখন, পৃথক ডেটা পয়েন্ট , র বৈশিষ্ট্যগুলিপার্টিশন ২-এর একটি বিন্দু জন্য , ভেক্টর কেবল of এর প্রাসঙ্গিক সারি , যাতে স্ট্যাকিং এগুলি আমাদের - তাই বিভাজন 2 এর পয়েন্টগুলির সাথে একমত হয় এটি বিভাজন 1 এও কাজ করে: সেখানে, ভেক্টরটি সারি , সুতরাং তাদের , আবার সাথে একমত হয়েxΦ

ϕ(x)=[k(x,x1)k(x,xm)]K1112.
x[k(x,x1)k(x,xm)]K21K21K1112ϕ(x)K11K11K1112=K1112Φ। তাই ... এটা এখনও একটি অদেখা-অ্যাট-প্রশিক্ষণ-টাইম পরীক্ষা পয়েন্টের জন্য সত্য । আপনি কেবল একই কাজটি করেছেন: যেহেতু আমরা ধরে নিয়েছি যে কার্নেলটি র‌্যাঙ্ক , ম্যাট্রিক্স পদে হয় , এবং পুনর্গঠন হিসাবে ঠিক একই যুক্তি দ্বারা সঠিক এখনও ।xnew
Φtest=Ktest,1K1112.
m[KtrainKtrain,testKtest,trainKtest]mKtestK22


সর্বোপরি, আমরা অধিকৃত যে কার্নেল ম্যাট্রিক্স ছিল ঠিক র্যাঙ্ক । এটি সাধারণত ক্ষেত্রে হয় না; একটি গসিয়ান কার্নেল জন্য, উদাহরণস্বরূপ, হয় সবসময় র্যাঙ্ক কিন্তু আধুনিক eigenvalues সাধারণত প্রশংসনীয় দ্রুত ড্রপ বন্ধ তাই এটি হতে যাচ্ছে পাসে পদে একটি ম্যাট্রিক্স , এবং আমাদের পুনর্গঠন বা সত্য মানগুলির কাছাকাছি হতে চলেছে তবে ঠিক একই নয়। তারা ভাল পুনর্গঠন কাছাকাছি এর eigenspace হবেন যে পায়KmKnmK21Ktest,1K11Kসামগ্রিকভাবে, তাই সঠিক পয়েন্টগুলি নির্বাচন করা অনুশীলনে গুরুত্বপূর্ণ।m

আরও মনে রাখবেন যে এর কোনও শূন্য ইগ্যালভ্যালু থাকলে আপনি বিপরীতগুলি সিউডোইনভার্সগুলি প্রতিস্থাপন করতে পারেন এবং সমস্ত কিছু এখনও কাজ করে; আপনি শুধু প্রতিস্থাপন পুনর্গঠন সঙ্গে ।K11K21K21K11K11

আপনি চাইলে egendecomposition এর পরিবর্তে SVD ব্যবহার করতে পারেন; যেহেতু পিএসডি হয়, তারা একই জিনিস, তবে এসভিডি কার্নেল ম্যাট্রিক্স এবং এর মধ্যে সংখ্যাসূচক ত্রুটির তুলনায় আরও কিছুটা শক্তিশালী হতে পারে, তাই বিজ্ঞান-শিখাই তা করে। সাইকিট-শিখার আসল বাস্তবায়ন এটি করে, যদিও এটি সিউডোয়েন্টের পরিবর্তে বিপরীতে mb ল্যাম্বদা_আই ব্যবহার করে।Kmax(λi,1012)


1
যখন ইতিবাচক অর্ধবৃত্ত হয়, তখন Eigndecomposition osition SVD এর সাথে মিলে যায়। scikit-শিখতে, কারণ সংখ্যাসূচক ত্রুটির কারণে সামান্য অ পিএসডি হতে পারে, পরিবর্তে নির্ণয় , এবং ব্যবহার , তাই যে 'র বৈশিষ্ট্য হয়ে । মূলত এটি একই জিনিস। AUΛUTAUΣVTA12=VΣ12VTAAVΣ12VT=UΣVTVΣ12VT=UΣ12VT=A12
ডুগল

1
ওহো, দুঃখিত, হাঁ তারা ব্যবহার । এটা সব সত্যিই বিষয় যেহেতু না , কিন্তু যেহেতু তারা TRANSPOSE বৈশিষ্ট্যগুলিও চায় যেমন শেষ । UΣ12VT=K12UVK11UΣVTVΣ12UT=UΣ12UT
ডগল

1
একটি পাওয়ারে প্রতিটি উপাদানকে একটি শক্তিতে উত্থাপন করা এবং । ন্যালি সম্প্রচারিত স্বরলিপিতে, কোনও ভেক্টরের দ্বারা মৌলিক দিকের গুণটি একটি তির্যক ম্যাট্রিক্স দ্বারা ডান-গুণণের সমান। এছাড়াও, যে কোড ব্যবহার মানে কি আমি আহ্বান ছিল । x12=1/xVVT
ডুগল

1
ওফস, দুঃখিত, এটি কেবলমাত্র অবধি হওয়া উচিত (পুনরায় লেবেলযুক্ত , যাতে সেগুলি Nyström বেস পয়েন্ট)। ঠিক করবে. xm
ডুগল

1
x একটি ডেটা পয়েন্ট, এর মাত্রা এখানে নির্দিষ্ট করা হয়নি। হতে পারে , অথবা এটি একটি স্ট্রিং বা কিছু হতে পারে; কেবল , যাতে । তারপর শুধু stacks আপ জন্য বিভিন্ন ইনপুট। xRdxXk:X×XRϕ:XRmk(x,xi)m
ডুগল
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.