আপনি কী বিজ্ঞান-শিখায় এসভিসি এবং লিনিয়ারএসভিসির মধ্যে পার্থক্যটি ব্যাখ্যা করতে পারেন?


19

আমি সম্প্রতি কাজ করা শিখতে শুরু করেছি sklearnএবং এই অদ্ভুত ফলাফলটি পেয়েছি ।

আমি বিভিন্ন মডেল এবং অনুমানের পদ্ধতিগুলি চেষ্টা করার জন্য digitsউপলব্ধ ডেটাসেট ব্যবহার করেছি sklearn

আমি যখন ডেটাতে একটি সাপোর্ট ভেক্টর মেশিনের মডেল পরীক্ষা করেছি, তখন আমি জানতে পারলাম sklearnএসভিএম শ্রেণিবদ্ধকরণের জন্য দুটি পৃথক শ্রেণি রয়েছে : SVCএবং LinearSVC, যেখানে প্রাক্তনগুলি একের বিপরীতে একটি ব্যবহার করে এবং অন্যটি একের বিপরীতে-বিশ্রাম পদ্ধতির ব্যবহার করে।

ফলাফলগুলিতে এর কী প্রভাব থাকতে পারে তা আমি জানতাম না, তাই উভয়কেই চেষ্টা করেছিলাম। আমি একটি মন্টি কার্লো-শৈলীর প্রাক্কলন করেছি যেখানে আমি উভয় মডেল ৫০০ বার দৌড়েছি, প্রতিটি সময় নমুনাটি এলোমেলোভাবে %০% প্রশিক্ষণ এবং ৪০% পরীক্ষায় বিভক্ত করে এবং পরীক্ষার সেটে ভবিষ্যদ্বাণীটির ত্রুটির গণনা করে।

নিয়মিত এসভিসি অনুমানকারী নীচের ত্রুটিগুলির হিস্টগ্রাম তৈরি করেছিল: এসভিসি ত্রুটির হার লিনিয়ার এসভিসি অনুমানকারী নিম্নলিখিত হিস্টোগ্রাম তৈরি করেছেন: লিনিয়ার এসভিসি ত্রুটির হার

এইরকম স্বতন্ত্র পার্থক্যের জন্য কী কী হতে পারে? কেন লিনিয়ার মডেলটির বেশিরভাগ সময় এইরকম উচ্চতর নির্ভুলতা থাকে?

এবং, সম্পর্কিতভাবে, ফলাফলগুলিতে পুরোপুরি মেরুকরণের কারণ কী হতে পারে? হয় 1 এর কাছাকাছি একটি নির্ভুলতা বা 0 এর কাছাকাছি একটি নির্ভুলতা, এর মধ্যে কিছুই নেই।

তুলনার জন্য, সিদ্ধান্তের শ্রেণীর শ্রেণিবিন্যাসের কাছাকাছি .85 এর যথার্থতার সাথে আরও অনেক বেশি বিতরিত ত্রুটির হার উত্পন্ন করে।


আমি ধরে নিয়েছি সাইকিট-লার্ন ডকুমেন্টেশনগুলি পার্থক্যটি হাইলাইট করে না? আপনি পরীক্ষা করেছেন?
রোহিত

১. এসভিসিতে আপনি কোন কার্নেল ব্যবহার করেছেন? ডিফল্ট সেটিংস = "আরবিএফ"? ২. একের বিপরীতে ও একের বিপরীতে সমস্ত ভিন্ন পন্থা
কেপিব

ডকুমেন্টেশনটি বিষয়টিতে স্পার্স / অস্পষ্ট। এটা এক-বিরুদ্ধে-এক এবং এক-বিরুদ্ধে-বাকি মধ্যে পার্থক্য উল্লেখ, এবং SVS রৈখিক যেSimilar to SVC with parameter kernel=’linear’, but implemented in terms of liblinear rather than libsvm, so it has more flexibility in the choice of penalties and loss functions and should scale better (to large numbers of samples).
metjush

নিয়মিত এসভিসির জন্য, আমি ডিফল্ট কার্নেল ব্যবহার করেছি। আমি জানি 1 ভি 1 এবং 1 ভিআর পৃথক পদ্ধতির, তবে আমি অনুমান করি যে আমি এটি জানতে চাই - কেন তারা এ জাতীয় ভিন্ন ফলাফল দেয়? এটি কি কার্নেল পছন্দ বা একাধিক বিভাগের শ্রেণিবিন্যাসের আলাদা পদ্ধতির?
metjush

উত্তর:


23

ডিফল্ট মান সহ একটি নিয়মিত এসভিএম এসভিএম কার্নেল হিসাবে একটি রেডিয়াল বেস ফাংশন ব্যবহার করে। এটি মূলত একটি গাউসিয়ান কার্নেল ওরফে বেল-বক্র। অর্থ যে বিভিন্ন শ্রেণীর মধ্যে কোনও মানুষের জমি একটি গাউসীয় ফাংশন দিয়ে তৈরি হয়েছিল। লিনিয়ার-এসভিএম বেস ফাংশনের জন্য লিনিয়ার কার্নেল ব্যবহার করে, তাই আপনি এটি একটি ped আকারের ফাংশন হিসাবে ভাবতে পারেন। এটি অনেক কম সুরক্ষিত এবং মূলত কেবল একটি লিনিয়ার ইন্টারপোলেশন।

লোকেরা এই প্রশ্নকে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে পড়ে থাকে এসভিএম ভিত্তিক ফাংশন।

উচ্চ এবং নিম্ন পক্ষপাত এবং উচ্চ এবং নিম্ন বৈচিত্রের চারটি অঞ্চল বর্ণনা করে এই চিত্রটি দেখুন । স্পষ্টতই সবচেয়ে ভাল জায়গা হ'ল কম বৈচিত্র এবং নিম্ন পক্ষপাত।

ডার্টস পক্ষপাতিত্ব-বৈকল্পিক চিত্র

প্রথমে বৈকল্পিক মূল্যায়ন করতে দিন -

এখন আপনার প্লট একবার দেখুন: এখানে চিত্র বর্ণনা লিখুন

ননলাইনারের ভিত্তিতে ফাংশনের উচ্চতর বৈকল্পিকতা রয়েছে। দেখুন লিনিয়ার কার্নেলের চেয়ে কীভাবে গোলমাল! লিনিয়ার কার্নেলের কম বৈকল্পিক রয়েছে। কেমন কম শোরগোল দেখুন!

এখন পক্ষপাত নির্ধারণ করা যাক -

কোন কর্নেল আরও সঠিক? আপনার প্রদত্ত ত্রুটিগুলি আমরা যুক্ত করতে পারি। ননলাইনার কার্নেলের মোট ত্রুটি ~ 550 + 325 = ~ 875। লিনিয়ার কার্নেলটিতে ~ 690 + ~ 50 = ~ 740 এর ত্রুটি রয়েছে। সুতরাং লিনিয়ার কার্নেল সামগ্রিকভাবে আরও ভাল করতে পারে বলে মনে হচ্ছে তবে তারা সামগ্রিকভাবে বেশ কাছাকাছি। এই জিনিস ছিল কৌশলযুক্ত!

সবগুলোকে একত্রে রাখ

দেখুন লিনিয়ার কার্নেল কীভাবে 1 এর উপর খারাপ কাজ করেছে এবং 0 এর দিকে একটি দুর্দান্ত কাজ করেছে। এটি বেশ ভারসাম্যহীন। যেখানে ননলাইনার কার্নেলটি আরও ভারসাম্যযুক্ত। একধরনের মিষ্টি স্পটটি এমন ভারসাম্যহীন মডেল তৈরি করতে পারে বলে মনে হয়। উচ্চতর বৈকল্পের জন্য আমরা কীভাবে নিয়ন্ত্রণ করব? বিঙ্গো - নিয়মিতকরণ। আমরা অ-লাইন মডেলগুলিতে নিয়মিতকরণ যুক্ত করতে পারি এবং আমরা সম্ভবত আরও ভাল ফলাফল দেখতে পাব। এটি সাইকিট লার্নিংয়ের এসভিএমগুলির সি প্যারামিটার, যা আপনি ডিফল্ট থেকে বাড়িয়ে তুলতে চাইবেন। আমরা গামা প্যারামিটার দিয়ে খেলতে পারি। গামা গাউসির প্রস্থ নিয়ন্ত্রণ করে। কম শোরগোলের ফলাফল পাওয়ার জন্য সম্ভবত সেটিকে সামান্য বাড়ানোর চেষ্টা করুন যেমন শ্রেণীর মধ্যে কোনও বৃহত্তর নো-ম্যান জমি।

আশাকরি এটা সাহায্য করবে!


সি প্যারামিটার হ্রাস করা প্রয়োজন ডিফল্ট থেকে বৃদ্ধি করা হয়নি।
হামদী

4

আপনি যদি এসভিসি (), রেডিয়াল বেসিস ফাংশন (আরবিএফ) কার্নেলে ডিফল্ট কার্নেল ব্যবহার করেন তবে আপনি সম্ভবত আরও অ-লাইন সিদ্ধান্তের সীমানা শিখেছেন। ক্ষেত্রে সংখ্যা ডেটা সেটটি , এই অতি একটি রৈখিক সিদ্ধান্ত সীমানা সুখ্যাতি হবে এই কাজের উপর (দেখুন 3.1 'বেসলাইন লিনিয়ার ক্লাসিফায়ার')

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.