এসভিএমের জন্য কার্নেলটি কীভাবে নির্বাচন করবেন?


95

এসভিএম ব্যবহার করার সময়, আমাদের একটি কার্নেল নির্বাচন করতে হবে।

আমি আশ্চর্য হই যে কীভাবে কার্নেলটি নির্বাচন করতে হয়। কার্নেল নির্বাচনের কোনও মানদণ্ড?


সমস্যার আকার কত? (# পরিবর্তনশীল, পর্যবেক্ষণ)?
ব্যবহারকারী 60

আমি কেবল একটি সাধারণ সমাধানের জন্য বলছি, কোনও নির্দিষ্ট সমস্যা নির্দিষ্ট করা হয়নি
xiaohan2012

উত্তর:


54

কার্নেল কার্যকরভাবে একটি সাদৃশ্য পরিমাপ, সুতরাং রবিনের পরামর্শ অনুসারে আগতদের পূর্ববর্তী জ্ঞান অনুযায়ী কার্নেল নির্বাচন করা (+1) একটি ভাল ধারণা।

বিশেষজ্ঞের জ্ঞানের অভাবে, র‌্যাডিয়াল বেসিস ফাংশন কার্নেলটি একটি ভাল ডিফল্ট কার্নেল তৈরি করে (একবার এটি প্রতিষ্ঠিত হয়ে গেলে এটি একটি লিনিয়ার মডেলের প্রয়োজনে সমস্যা হয়)।

কার্নেল এবং কার্নেল / নিয়মিতকরণ পরামিতিগুলির পছন্দ ক্রস-ভ্যালডিয়েশন ভিত্তিক মডেল নির্বাচনের (বা ব্যাসার্ধ-মার্জিন বা স্প্যান সীমানা ব্যবহার করে) অনুকূলকরণের মাধ্যমে স্বয়ংক্রিয় করা যেতে পারে। সহজ কাজটি হ'ল নেল্ডার-মিড সিমপ্লেক্স পদ্ধতিটি ব্যবহার করে একটি অবিচ্ছিন্ন মডেল নির্বাচনের মানদণ্ডকে হ্রাস করা, যার জন্য গ্রেডিয়েন্ট গণনা প্রয়োজন হয় না এবং হাইপার-প্যারামিটারগুলির বুদ্ধিমান সংখ্যার জন্য ভাল কাজ করে। আপনার সুরের জন্য কয়েকটি হাইপার-প্যারামিটারের বেশি থাকলে, স্বয়ংক্রিয় মডেল নির্বাচনের ফলে মডেল নির্বাচনের মানদণ্ডের বৈকল্পিকতার কারণে মারাত্মক ওভার-ফিটিং হতে পারে। গ্রেডিয়েন্ট ভিত্তিক অপ্টিমাইজেশন ব্যবহার করা সম্ভব, তবে পারফরম্যান্স লাভটি এটিকে কোডিংয়ের প্রচেষ্টার পক্ষে যথাযথ নয়)।

কার্নেল এবং কার্নেল / নিয়মিতকরণ পরামিতিগুলির স্বয়ংক্রিয় পছন্দ একটি জটিল সমস্যা, কারণ মডেল নির্বাচনের মানদণ্ডটি (সাধারণত ক্রস-বৈধকরণ ভিত্তিক) সর্বোপরি ফিট করা খুব সহজ এবং আপনি শুরু করার চেয়ে খারাপ মডেলটি দিয়ে শেষ করতে পারেন। স্বয়ংক্রিয় মডেল নির্বাচনও পারফরম্যান্স মূল্যায়নের পক্ষপাত করতে পারে, সুতরাং আপনার পারফরম্যান্স মূল্যায়নের মডেলের ফিটনেস (প্রশিক্ষণ এবং মডেল নির্বাচন) পুরো প্রক্রিয়াটি মূল্যায়ন করে তা নিশ্চিত করুন, দেখুন

জিসি কাওলি এবং এনএলসি টালবট, হাইপার-প্যারামিটারগুলিকে নিয়মিতকরণের মাধ্যমে বায়সিয়ান নিয়মিতকরণের মাধ্যমে মডেল নির্বাচনের ওভার-ফিটিং প্রতিরোধ করা, মেশিন লার্নিং রিসার্চ জার্নাল, খণ্ড 8, পৃষ্ঠা 841-861, এপ্রিল 2007. (পিডিএফ)

এবং

জিসি কাওলি এবং এনএলসি টালবট, মডেল নির্বাচনের ওভার-ফিটিং এবং পারফরম্যান্স মূল্যায়নে পরবর্তী নির্বাচনের পক্ষপাত, মেশিন লার্নিং রিসার্চ জার্নাল, খণ্ড। 11, পৃষ্ঠা 2079-2107, জুলাই 2010. (পিডিএফ)


আমি জানি কিভাবে রেডিয়াল ভিত্তিটি একে অপরের থেকে দূরে ভেক্টরগুলির পক্ষে প্রায় 0 এবং এটি অভিন্ন ভেক্টরগুলিতে সর্বাধিক পৌঁছায় তাই যেহেতু এটি একটি মিলের পরিমাপ। যাইহোক, আমি দেখতে পাই না যে কীভাবে এই ধারণাটি লিনিয়ার অ্যালগোরিদমের ক্ষেত্রে প্রযোজ্য (কোনও কর্নেল হিসাবে ডট পণ্য ব্যবহার করে)। আমরা কীভাবে ডট পণ্যটিকে মিলের পরিমাপ হিসাবে ব্যাখ্যা করতে পারি?
বনানিন

@ বনানিন ডট পণ্যটি উভয় ভেক্টরের প্রস্থের কোষের মধ্যবর্তী কোণের দ্বিগুণের পণ্য হিসাবে রচনা করা যেতে পারে, সুতরাং আপনি এটিকে ভেক্টরগুলির দিকের দিক থেকে মিলটি হিসাবে পরিমাপ হিসাবে ভাবতে পারেন (তবে স্পষ্টতই নির্ভরশীলও তাদের আকারে)
ডিকরান মার্শুপিয়াল

34

আপনি যদি সঠিক না হন তবে আপনি নির্বাচনের স্বয়ংক্রিয় কৌশলগুলি ব্যবহার করতে পারেন (যেমন ক্রস বৈধকরণ, ...)। এক্ষেত্রে আপনি এমনকি বিভিন্ন কার্নেলের সাথে প্রাপ্ত শ্রেণিবদ্ধের সংমিশ্রণ (যদি আপনার সমস্যা শ্রেণীবদ্ধ হয়) ব্যবহার করতে পারেন ।

তবে , কার্নেলের সাথে কাজ করার "সুবিধা" হ'ল আপনি সাধারণ "ইউক্যালিডিয়ান" জ্যামিতিটি পরিবর্তন করেন যাতে এটি আপনার নিজের সমস্যার সাথে খাপ খায়। এছাড়াও, আপনার সমস্যাটি বোঝার জন্য আপনার সমস্যার জন্য কার্নেলের আগ্রহ কী , আপনার সমস্যার জ্যামিতির ক্ষেত্রে বিশেষ কী তা বোঝার চেষ্টা করা উচিত । এর মধ্যে অন্তর্ভুক্ত থাকতে পারে:

  • ইনভেরিয়েন্স : যদি এমন কোনও রূপান্তর ঘটে থাকে যা আপনার সমস্যাটিকে মৌলিকভাবে পরিবর্তন করে না, কার্নেলের মধ্যে এটি প্রতিফলিত হওয়া উচিত। ঘূর্ণন দ্বারা বিভ্রান্তি গাউস কর্নালে অন্তর্ভুক্ত থাকে তবে আপনি অন্যান্য অনেকগুলি বিষয় চিন্তা করতে পারেন: অনুবাদ, হোমোটি, যে কোনও গ্রুপ প্রতিনিধিত্ব, ....
  • ভাল বিভাজক কী? আপনার শ্রেণিবিন্যাসের সমস্যাটিতে যদি একটি ভাল বিভাজক (অর্থাত্ একটি ভাল শ্রেণিবিন্যাসের নিয়ম) কী তা সম্পর্কে ধারণা থাকে তবে এটিকে কার্নেলের নির্বাচনের অন্তর্ভুক্ত করা উচিত। রিমাইবার যে এসভিএম আপনাকে ফর্মের শ্রেণিবদ্ধী দেবে

f^(x)=i=1nλiK(x,xi)

আপনি যদি জানেন যে লিনিয়ার বিভাজকটি ভাল হবে তবে আপনি কার্নেলটি ব্যবহার করতে পারেন যা অ্যাফাইন ফাংশন দেয় (যেমন )। আপনি যদি ভাবেন যে মসৃণ কেএনএন-এর চেতনায় মসৃণ সীমানা আরও ভাল হতে পারে তবে আপনি গাউসীয় কর্নেল নিতে পারেন ...K(x,xi)=x,Axi+c


আপনার উত্তরে, আপনি উল্লেখ করেছেন যে কার্নেলের সাথে কাজ করার "সুবিধা" হ'ল আপনি সাধারণ "ইউক্যালিডিয়ান" জ্যামিতিটি পরিবর্তন করেন যাতে এটি আপনার নিজের সমস্যার সাথে খাপ খায় Also এছাড়াও, আপনার সত্যিকার অর্থে কার্নেলের আগ্রহ কী তা বোঝার চেষ্টা করা উচিত আপনার সমস্যার জন্য, আপনার সমস্যার জ্যামিতিতে বিশেষ কী "" আপনি কিছু রেফারেন্স দিয়ে শুরু করতে পারেন। ধন্যবাদ।
রায়হানা

11

আমার সর্বদা অনুভূতি আছে যে এসভিএমগুলির জন্য কোনও হাইপার প্যারামিটার নির্বাচন গ্রিড অনুসন্ধানের সাথে সংযুক্ত করে ক্রস বৈধকরণের মাধ্যমে করা হয়।


2
আমার একই অনুভূতি আছে
xiaohan2012

2
গ্রিড অনুসন্ধান একটি খারাপ ধারণা, আপনি যে অঞ্চলে পারফরম্যান্স খারাপ তা সন্ধান করতে আপনি প্রচুর সময় ব্যয় করেন। গ্রেডিয়েন্ট ফ্রি অপ্টিমাইজেশন অ্যালগরিদম যেমন নেল্ডার-মাড সিমপ্লেক্স পদ্ধতি ব্যবহার করুন, যা অনুশীলনে আরও দক্ষ (যেমন ম্যাটল্যাবে ফিমিনসার্চ ())।
ডিকরান মার্শুপিয়াল

না, প্রত্যাশিত তথ্যের সাথে গ্লোবাল অপ্টিমাইজেশনের জন্য গ্রাফিকাল মডেল বা গাউসিয়ান প্রক্রিয়াগুলি ব্যবহার করুন। ('হাইপার প্যারামিটার অপ্টিমাইজেশনের জন্য অ্যালগরিদম', বার্গস্ট্র্রা এট আল, আসন্ন এনআইপিএস) দেখুন
বাইয়ার্জ

2

সাধারণভাবে, আরবিএফ কার্নেলটি একটি যুক্তিসঙ্গত প্রথম পছন্দ F তদ্ব্যতীত, লিনিয়ার কার্নেলটি আরবিএফের একটি বিশেষ ক্ষেত্রে, বিশেষত, যখন বৈশিষ্ট্যের সংখ্যা খুব বড় হয়, কেউ কেবল রৈখিক কার্নেলটি ব্যবহার করতে পারেন।


1
এটি আপনার ডেটা রৈখিকভাবে পৃথকযোগ্য কিনা তা নির্ভর করে, আপনার কত মাত্রা নেই not যখন বৈশিষ্ট্যের সংখ্যাটি খুব বড়, (আবার তথ্যের উপর নির্ভর করে), আপনি প্রথমে মাত্রিকতা হ্রাস প্রয়োগ করবেন, পিসিএ বা এলডিএ (লিনিয়ার বা
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.