সমর্থন ভেক্টর মেশিনের জন্য লিনিয়ার কার্নেল এবং নন-লিনিয়ার কার্নেল?


45

সাপোর্ট ভেক্টর মেশিন ব্যবহার করার সময়, আরবিএফ-এর মতো লিনিয়ার কার্নেল বনাম ননলাইনার কার্নেল বাছাই করার বিষয়ে কোনও গাইডলাইন রয়েছে? আমি একবার শুনেছি যে নন-লিনিয়ার কার্নেল বৈশিষ্ট্যগুলির সংখ্যা বড় হওয়ার পরে ভাল সম্পাদন করতে পারে না। এই ইস্যুতে কোন রেফারেন্স আছে?


1
আমার জ্ঞানের ভিত্তিতে, এটি হাতের সমস্যার উপর ভিত্তি করে এবং বাস্তবে এ জাতীয় থাম্বলগুলি ব্যবহার করা বিপজ্জনক।
htrahdis

উত্তর:


66

সাধারণত, সিদ্ধান্তটি লিনিয়ার বা কোনও আরবিএফ (ওরফে গাউসিয়ান) কার্নেল ব্যবহার করবেন কিনা। দুটি বিষয় বিবেচনা করতে হবে:

  1. লিনিয়ার কার্নেলের জন্য অপ্টিমাইজেশনের সমস্যা সমাধান করা আরও দ্রুত, উদাহরণস্বরূপ লাইবলাইনআর দেখুন।
  2. সাধারণত, ননলাইনার কার্নেলের জন্য সেরা সম্ভাব্য ভবিষ্যদ্বাণীপূর্ণ পারফরম্যান্স (বা কমপক্ষে লিনিয়ারের চেয়ে ভাল হিসাবে ভাল) is

এটি দেখানো হয়েছে যে লিনিয়ার কার্নেলটি আরবিএফের একটি হ্রাসপ্রাপ্ত সংস্করণ , সুতরাং লিনিয়ার কার্নেলটি কখনই সঠিকভাবে সুরক্ষিত আরবিএফ কার্নেলের চেয়ে বেশি নির্ভুল হয় না। আমি লিঙ্কিত কাগজ থেকে বিমূর্ত উদ্ধৃতি:

বিশ্লেষণে এও ইঙ্গিত দেওয়া হয় যে গাউসিয়ান কার্নেল ব্যবহার করে যদি পুরো মডেল নির্বাচন পরিচালনা করা হয় তবে লিনিয়ার এসভিএম বিবেচনা করার প্রয়োজন নেই।

থাম্বের একটি প্রাথমিক নিয়ম সংক্ষেপে ভেক্টর শ্রেণিবিন্যাস (পরিশিষ্ট সি) সমর্থন করার জন্য এনটিইউর ব্যবহারিক গাইডে সংক্ষিপ্তভাবে আচ্ছাদিত ।

যদি বৈশিষ্ট্যের সংখ্যাটি বৃহত হয় তবে একটি উচ্চতর মাত্রিক স্থানে ডেটা মানচিত্রের প্রয়োজন হতে পারে না। অর্থাত, ননলাইনার ম্যাপিং কার্য সম্পাদন করে না। লিনিয়ার কার্নেলটি ব্যবহার করা যথেষ্ট ভাল এবং একজন কেবলমাত্র প্যারামিটার সি অনুসন্ধান করে

আপনার উপসংহার কমবেশি সঠিক তবে আপনার যুক্তি পিছনের দিকে রয়েছে। অনুশীলনে, লিনিয়ার কার্নেল খুব ভাল সঞ্চালন করতে থাকে যখন বৈশিষ্ট্যের সংখ্যাটি বড় হয় (যেমন কোনও উচ্চতর মাত্রিক বৈশিষ্ট্যের জায়গাতে মানচিত্রের প্রয়োজন নেই)। এর একটি সাধারণ উদাহরণ হ'ল ডকুমেন্টের শ্রেণিবিন্যাস, ইনপুট স্পেসে কয়েক হাজার মাত্রা রয়েছে।

এই ক্ষেত্রে, অরৈখিক কার্নেলগুলি লিনিয়ারটির চেয়ে উল্লেখযোগ্যভাবে আরও সঠিক নয়। এর মূল অর্থ হ'ল ননলাইনার কার্নেলগুলি তাদের আবেদন হারাতে পারে: ভবিষ্যদ্বাণীপূর্ণ কার্যকারিতা লাভ না করে প্রশিক্ষণের জন্য তাদের আরও বেশি সংস্থান প্রয়োজন so সুতরাং কেন বিরক্ত হবেন।

টি এল; ডিআর

প্রশিক্ষণের জন্য এটি দ্রুততর (এবং পরীক্ষা) হওয়ায় সর্বদা লিনিয়ার প্রথমে চেষ্টা করুন। যথার্থতা যদি যথেষ্ট হয় তবে কোনও কাজ ভালভাবে করার জন্য নিজেকে পিছনে চাপ দিন এবং পরবর্তী সমস্যাটির দিকে এগিয়ে যান। যদি তা না হয় তবে একটি ননলাইনার কার্নেল ব্যবহার করে দেখুন।


1
কার্নেল ট্রিকের জন্য আমার এই ব্যাখ্যা আছে: stats.stackexchange.com/questions/131138/…

37

পুরো ভিডিওটি দেখার মতো, যদিও এন্ড্রু এনজি 14:46 থেকে এই ভিডিওতে থাম্বের ব্যাখ্যা দেওয়ার একটি দুর্দান্ত নিয়ম দিয়েছেন ।

গুরুত্বপূর্ণ দিক

  • বৈশিষ্ট্যের সংখ্যা পর্যবেক্ষণের সংখ্যার চেয়ে বড় হলে লিনিয়ার কার্নেলটি ব্যবহার করুন।
  • বৈশিষ্ট্যের সংখ্যার চেয়ে পর্যবেক্ষণের সংখ্যা বড় হলে গাউসিয়ান কার্নেল ব্যবহার করুন।
  • গাউসিয়ান কার্নেল ব্যবহার করার সময় যদি পর্যবেক্ষণের সংখ্যা 50,000 এর বেশি হয় তবে গতি একটি সমস্যা হতে পারে; সুতরাং, কেউ লিনিয়ার কার্নেলটি ব্যবহার করতে চাইতে পারে।

সম্মত ................
datmannz

1
লিঙ্কটি মারা গেছে: আমি মনে করি এটি একই ভিডিও: youtube.com/watch?v=hDh7jmEGoY0
ইহেবিহেব
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.