কার্নেল পিসিএর জন্য কার্নেলটি কীভাবে চয়ন করবেন?


13

কার্নেল পিসিএ (মূল উপাদান বিশ্লেষণ) দ্বারা চূড়ান্ত ডেটা আউটপুটে ভাল ডেটা বিচ্ছিন্নতার ফলাফল কী তা চয়ন করার উপায়গুলি কী কী এবং কার্নেলের প্যারামিটারগুলি অনুকূল করার উপায়গুলি কী কী?

সম্ভব হলে লেম্যানের শর্তাদি ব্যাপকভাবে প্রশংসিত হবে এবং এই জাতীয় পদ্ধতিগুলির ব্যাখ্যা করে এমন কাগজের লিঙ্কগুলিও দুর্দান্ত হবে।


1
আপনি যখন "ভাল ডেটা বিচ্ছেদ" বলবেন, আপনি ঠিক কীটির উল্লেখ করছেন? কার্নেল পিসিএ-এর কোন প্রয়োগটি আপনার মনে রয়েছে? যদি "ডেটা বিচ্ছেদ" এর সাথে কিছু করার থাকে, তাহলে আপনি কি কেপিসিএর পরিবর্তে কিছু শ্রেণিবিন্যাস কৌশল (যেমন কার্নেল সমর্থন ভেক্টর মেশিন) ব্যবহার করা উচিত? এগুলি ছাড়াও, ভাল প্রশ্ন, +1। কার্নেলের পছন্দ নিয়ে আমার অভিজ্ঞতা নেই, সুতরাং আপনাকে এখানে সহায়তা করতে পারে না।
অ্যামিবা

@ অ্যামিবা এটি অরৈখিক মাত্রা হ্রাস জন্য ব্যবহৃত হতে পারে। সমর্থন ভেক্টরগুলিতে আমার জ্ঞানটি কিছুটা সীমাবদ্ধ কারণ আমি কোনও সিএস কোর্স কখনও গ্রহণ করি নি; আমি একজন আন্ডারগ্র্যাড এবং অনলাইন পেপারগুলির মাধ্যমে শিখছি learning "ভাল ডেটা বিচ্ছেদ" দ্বারা আমি বোঝাতে চাইছি এই গবেষণাপত্রে প্লট করা উদাহরণগুলি কী দেখায় । আমি মতলব নিয়ে কাজ করছি এবং আমার কার্নেল পিসিএ কোডটি সহজ, পলি, রেডিয়াল ভিত্তি এবং সিগময়েড কার্নেলের জন্য প্রস্তুত এবং চলছে, তবে কখন সেরা ফলাফলের জন্য কোনটি ব্যবহার করা যায় তা জানা সহায়ক হবে।
শাইভস

আমি মনে করি কার্নেল নির্বাচন করার সর্বোত্তম (কেবল?) উপায়টি ক্রস-বৈধতা ব্যবহার করা, এখানে দেখুন: এসভিএমের জন্য কার্নেলটি কীভাবে নির্বাচন করবেন? ক্রস-বৈধতা ব্যবহার করার জন্য আপনার কেপিসিএর জন্য কেবলমাত্র একটি পারফরম্যান্স পরিমাপ করা দরকার। ক্লাস বিচ্ছেদ একটি শালীন পরিমাপ হতে পারে যে কি তোমার পরে, কিন্তু মনে রাখবেন যে পিসিএ / kPCA ডিজাইন করা হয় না এ সব একটি ভাল বর্গ বিচ্ছেদ ফলে; এটি কেবল ক্যাপচারিত বৈকল্পিকতা সর্বাধিক করছে।
অ্যামিবা 11

আমি কিছু পড়া করেছি এবং সম্ভবত আপনার প্রশ্নের উত্তর দিতে সক্ষম হয়েছি। তবে এতে আমার কিছুটা সময় (দিন) লাগতে পারে।
অ্যামিবা

@ অ্যামিবা সর্বাধিক বৈকল্পিকতা এখন আপনার কাছে তা উল্লেখ করার সাথে সাথে তা বোঝায়। আমি নিজে ক্রস বৈধতা যাচাই করব, তবে আপনি যদি সময় খুঁজে পেতে পারেন তবে এটির কিছুটা দেখার জন্য যদি এটি দুর্দান্ত হয়! ধন্যবাদ.
শিভস 21

উত্তর:


8

কোনও কার্নেল-ভিত্তিক পদ্ধতিতে একটি অনুকূল কার্নেল (কার্নেলের ধরণ, বা কার্নেল পরামিতি) নির্বাচন করার জন্য সাধারণ পদ্ধতি ক্রস-বৈধতা। সমর্থন ভেক্টর মেশিনগুলির জন্য কার্নেল নির্বাচনের আলোচনার জন্য এখানে দেখুন: এসভিএমের জন্য কার্নেলটি কীভাবে নির্বাচন করবেন?

ক্রস-বৈধকরণের পিছনে ধারণাটি হ'ল আমরা কিছু "পরীক্ষা" ডেটা রেখে দিই, বাকি "প্রশিক্ষণ" ডেটাতে মডেলটিকে ফিট করার জন্য আমাদের অ্যালগরিদমটি চালাই এবং তারপরে ফলাফলের মডেল পরীক্ষার তথ্যগুলিকে কতটা ভাল বর্ণনা করে তা পরীক্ষা করে দেখুন (এবং ত্রুটিটি কত বড়) ) হয়। এটি বিভিন্ন বাম-আউট ডেটার জন্য পুনরাবৃত্তি হয়, গড় ক্রস-বৈধতাযুক্ত ত্রুটি গঠনের জন্য ত্রুটিগুলি গড়ে গড়ে নেওয়া হয় এবং তারপরে সর্বনিম্ন ত্রুটিটি প্রদানের জন্য আলাদা আলাদা অ্যালগরিদমকে তুলনা করা যায়। এসভিএম -এ মডেল পারফরম্যান্সের পরিমাপ হিসাবে উদাহরণস্বরূপ শ্রেণিবদ্ধকরণ নির্ভুলতা (বা সম্পর্কিত ব্যবস্থা) ব্যবহার করতে পারেন । তারপরে কেউ এমন একটি কার্নেল নির্বাচন করবে যা পরীক্ষার তথ্যের সর্বোত্তম শ্রেণিবিন্যাস দেয়।

প্রশ্নটি তখন ওঠে: কেপিসিএতে মডেল পারফরম্যান্সের কোন পরিমাপ ব্যবহার করা যায়? আপনি যদি "ভাল ডেটা বিচ্ছেদ" (সম্ভবত ভাল বর্গ বিভাজন) অর্জন করতে চান তবে আপনি প্রশিক্ষণের ডেটাতে কোনওভাবে এটি পরিমাপ করতে পারেন এবং এটি সর্বোত্তম কার্নেলটি খুঁজে পেতে ব্যবহার করতে পারেন। নোট করুন, তবে, পিসিএ / কেপিসিএ ভাল ডেটা পৃথকীকরণের জন্য ডিজাইন করা হয়নি (তারা ক্লাস লেবেলগুলিকে মোটেই বিবেচনা করে না )। সুতরাং সাধারণভাবে বলতে গেলে, অন্যরা চাইবেন, শ্রেণি-সম্পর্কিত নয়, মডেল পারফরম্যান্সের পরিমাপ করুন।

স্ট্যান্ডার্ড পিসিএর মধ্যে কেউ পরীক্ষার সেটটিতে পারফরম্যান্স পরিমাপ হিসাবে পুনর্গঠন ত্রুটি ব্যবহার করতে পারে । কার্নেল পিসিএ-তে পুনর্গঠন ত্রুটিও গণনা করা যায়, তবে সমস্যাটি হ'ল এটি বিভিন্ন কার্নেলের মধ্যে তুলনাযোগ্য নয়: পুনর্নির্মাণ ত্রুটি লক্ষ্য বৈশিষ্ট্য স্থানটিতে পরিমাপ করা দূরত্ব; এবং বিভিন্ন কার্নেলগুলি বিভিন্ন টার্গেট স্পেসের সাথে সামঞ্জস্য করে ... সুতরাং আমাদের একটি সমস্যা আছে।

এই সমস্যাটি মোকাবেলার একটি উপায় হ'ল লক্ষ্য স্থানে নয়, কোনও জায়গায় মূল স্থানটিতে পুনর্গঠনের ত্রুটিটি গণনা করা। স্পষ্টতই বাম-আউট পরীক্ষার ডেটা পয়েন্ট মূল জায়গাতেই থাকে। তবে এর কেপিসিএ পুনর্গঠন লক্ষ্য জায়গার [নিম্ন-মাত্রার উপকণ্ঠে] বাস করে। যাইহোক, যেটি করতে পারে তা হ'ল মূল স্থানটিতে একটি বিন্দু ("প্রাক চিত্র") খুঁজে বের করা যা এই পুনর্গঠন পয়েন্টটির যতটা সম্ভব ম্যাপ করা হবে এবং তারপরে পরীক্ষার স্থান এবং এই প্রাক-চিত্রের মধ্যে দূরত্ব পরিমাপ করা হবে পুনর্গঠন ত্রুটি হিসাবে।

আমি এখানে সমস্ত সূত্র দেব না, পরিবর্তে আপনাকে কয়েকটি কাগজপত্রগুলিতে উল্লেখ করুন এবং কেবল এখানে বেশ কয়েকটি চিত্র সন্নিবেশ করান।

কেপিসিএতে "প্রাক-চিত্র" ধারণাটি স্পষ্টতই এই কাগজে প্রবর্তিত হয়েছিল:

মিকা ইত্যাদি। ক্রস-বৈধকরণ করছে না, তবে ডি-শাইজিংয়ের জন্য তাদের প্রাক চিত্রগুলির প্রয়োজন, এই চিত্রটি দেখুন:

মিকা এট আল থেকে কেপিসিএ ডি-নয়েজিং।

ডেনোইজড (পুরু) পয়েন্টগুলি কেপিসিএ অনুমানের প্রাক চিত্রসমূহ (এখানে কোনও পরীক্ষা এবং প্রশিক্ষণ নেই)। এই প্রাক চিত্রগুলি খুঁজে পাওয়া কোনও তুচ্ছ কাজ নয়: একটিকে গ্রেডিয়েন্ট বংশদ্ভুত ব্যবহার করা দরকার, এবং ক্ষতির ফাংশন কার্নেলের উপর নির্ভর করবে।

এবং এখানে একটি খুব সাম্প্রতিক কাগজটি ক্রস-বৈধকরণের উদ্দেশ্যে এবং কার্নেল / হাইপারপ্যারামিটার নির্বাচনের জন্য প্রাক চিত্রগুলি ব্যবহার করেছে:

এটি তাদের আলগোরিদিম:

আলম ও ফুকুমিজু

এবং এখানে কিছু ফলাফল রয়েছে (যে আমার কাছে মনে হয় এটি অনেক বেশি স্ব-ব্যাখ্যামূলক):

আলম ও ফুকুমিজু


1
(+1) এটি উল্লেখ করা কার্যকর হতে পারে যে এই প্রাক চিত্রটি কোনও প্রদত্ত ক্লাস্টারের কাছে নির্ধারিত পয়েন্টগুলির ফ্র্যাচেট / কারচারের সমষ্টি, এটি প্রয়োজনীয় কোনও কিছুর সাথে সহায়তা করে না।
ডগল

এক্সএক্সYYz- রz- র

দ্বিতীয় চিন্তায়, আমি অনুমান করি যে আমি আগে যথেষ্ট মনোযোগ দিইনি; আমার মন্তব্য কার্নেল কে-মানে প্রয়োগ করে, কেপিসিএ নয় CA প্রিমেজটি অবশ্যই সেই ধারণার সাথে সম্পর্কিত তবে একেবারে একই জিনিস নয়। গোলমাল জন্য দুঃখিত। :)
ডগল
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.