কোনও কার্নেল-ভিত্তিক পদ্ধতিতে একটি অনুকূল কার্নেল (কার্নেলের ধরণ, বা কার্নেল পরামিতি) নির্বাচন করার জন্য সাধারণ পদ্ধতি ক্রস-বৈধতা। সমর্থন ভেক্টর মেশিনগুলির জন্য কার্নেল নির্বাচনের আলোচনার জন্য এখানে দেখুন: এসভিএমের জন্য কার্নেলটি কীভাবে নির্বাচন করবেন?
ক্রস-বৈধকরণের পিছনে ধারণাটি হ'ল আমরা কিছু "পরীক্ষা" ডেটা রেখে দিই, বাকি "প্রশিক্ষণ" ডেটাতে মডেলটিকে ফিট করার জন্য আমাদের অ্যালগরিদমটি চালাই এবং তারপরে ফলাফলের মডেল পরীক্ষার তথ্যগুলিকে কতটা ভাল বর্ণনা করে তা পরীক্ষা করে দেখুন (এবং ত্রুটিটি কত বড়) ) হয়। এটি বিভিন্ন বাম-আউট ডেটার জন্য পুনরাবৃত্তি হয়, গড় ক্রস-বৈধতাযুক্ত ত্রুটি গঠনের জন্য ত্রুটিগুলি গড়ে গড়ে নেওয়া হয় এবং তারপরে সর্বনিম্ন ত্রুটিটি প্রদানের জন্য আলাদা আলাদা অ্যালগরিদমকে তুলনা করা যায়। এসভিএম -এ মডেল পারফরম্যান্সের পরিমাপ হিসাবে উদাহরণস্বরূপ শ্রেণিবদ্ধকরণ নির্ভুলতা (বা সম্পর্কিত ব্যবস্থা) ব্যবহার করতে পারেন । তারপরে কেউ এমন একটি কার্নেল নির্বাচন করবে যা পরীক্ষার তথ্যের সর্বোত্তম শ্রেণিবিন্যাস দেয়।
প্রশ্নটি তখন ওঠে: কেপিসিএতে মডেল পারফরম্যান্সের কোন পরিমাপ ব্যবহার করা যায়? আপনি যদি "ভাল ডেটা বিচ্ছেদ" (সম্ভবত ভাল বর্গ বিভাজন) অর্জন করতে চান তবে আপনি প্রশিক্ষণের ডেটাতে কোনওভাবে এটি পরিমাপ করতে পারেন এবং এটি সর্বোত্তম কার্নেলটি খুঁজে পেতে ব্যবহার করতে পারেন। নোট করুন, তবে, পিসিএ / কেপিসিএ ভাল ডেটা পৃথকীকরণের জন্য ডিজাইন করা হয়নি (তারা ক্লাস লেবেলগুলিকে মোটেই বিবেচনা করে না )। সুতরাং সাধারণভাবে বলতে গেলে, অন্যরা চাইবেন, শ্রেণি-সম্পর্কিত নয়, মডেল পারফরম্যান্সের পরিমাপ করুন।
স্ট্যান্ডার্ড পিসিএর মধ্যে কেউ পরীক্ষার সেটটিতে পারফরম্যান্স পরিমাপ হিসাবে পুনর্গঠন ত্রুটি ব্যবহার করতে পারে । কার্নেল পিসিএ-তে পুনর্গঠন ত্রুটিও গণনা করা যায়, তবে সমস্যাটি হ'ল এটি বিভিন্ন কার্নেলের মধ্যে তুলনাযোগ্য নয়: পুনর্নির্মাণ ত্রুটি লক্ষ্য বৈশিষ্ট্য স্থানটিতে পরিমাপ করা দূরত্ব; এবং বিভিন্ন কার্নেলগুলি বিভিন্ন টার্গেট স্পেসের সাথে সামঞ্জস্য করে ... সুতরাং আমাদের একটি সমস্যা আছে।
এই সমস্যাটি মোকাবেলার একটি উপায় হ'ল লক্ষ্য স্থানে নয়, কোনও জায়গায় মূল স্থানটিতে পুনর্গঠনের ত্রুটিটি গণনা করা। স্পষ্টতই বাম-আউট পরীক্ষার ডেটা পয়েন্ট মূল জায়গাতেই থাকে। তবে এর কেপিসিএ পুনর্গঠন লক্ষ্য জায়গার [নিম্ন-মাত্রার উপকণ্ঠে] বাস করে। যাইহোক, যেটি করতে পারে তা হ'ল মূল স্থানটিতে একটি বিন্দু ("প্রাক চিত্র") খুঁজে বের করা যা এই পুনর্গঠন পয়েন্টটির যতটা সম্ভব ম্যাপ করা হবে এবং তারপরে পরীক্ষার স্থান এবং এই প্রাক-চিত্রের মধ্যে দূরত্ব পরিমাপ করা হবে পুনর্গঠন ত্রুটি হিসাবে।
আমি এখানে সমস্ত সূত্র দেব না, পরিবর্তে আপনাকে কয়েকটি কাগজপত্রগুলিতে উল্লেখ করুন এবং কেবল এখানে বেশ কয়েকটি চিত্র সন্নিবেশ করান।
কেপিসিএতে "প্রাক-চিত্র" ধারণাটি স্পষ্টতই এই কাগজে প্রবর্তিত হয়েছিল:
- মিকা, এস।, শেলকোফ্ফ, বি।, স্মোলা, এজে, মুলার, কেআর, শোলজ, এম, এবং র্যাচচ, জি। (1998)। বৈশিষ্ট্য স্পেসে কার্নেল পিসিএ এবং ডি-নয়েজিং । এনআইপিএসে (খণ্ড 11, পৃষ্ঠা 536-542)।
মিকা ইত্যাদি। ক্রস-বৈধকরণ করছে না, তবে ডি-শাইজিংয়ের জন্য তাদের প্রাক চিত্রগুলির প্রয়োজন, এই চিত্রটি দেখুন:
ডেনোইজড (পুরু) পয়েন্টগুলি কেপিসিএ অনুমানের প্রাক চিত্রসমূহ (এখানে কোনও পরীক্ষা এবং প্রশিক্ষণ নেই)। এই প্রাক চিত্রগুলি খুঁজে পাওয়া কোনও তুচ্ছ কাজ নয়: একটিকে গ্রেডিয়েন্ট বংশদ্ভুত ব্যবহার করা দরকার, এবং ক্ষতির ফাংশন কার্নেলের উপর নির্ভর করবে।
এবং এখানে একটি খুব সাম্প্রতিক কাগজটি ক্রস-বৈধকরণের উদ্দেশ্যে এবং কার্নেল / হাইপারপ্যারামিটার নির্বাচনের জন্য প্রাক চিত্রগুলি ব্যবহার করেছে:
এটি তাদের আলগোরিদিম:
এবং এখানে কিছু ফলাফল রয়েছে (যে আমার কাছে মনে হয় এটি অনেক বেশি স্ব-ব্যাখ্যামূলক):