আমি সম্প্রতি কাজ করা শিখতে শুরু করেছি sklearnএবং এই অদ্ভুত ফলাফলটি পেয়েছি ।
আমি বিভিন্ন মডেল এবং অনুমানের পদ্ধতিগুলি চেষ্টা করার জন্য digitsউপলব্ধ ডেটাসেট ব্যবহার করেছি sklearn।
আমি যখন ডেটাতে একটি সাপোর্ট ভেক্টর মেশিনের মডেল পরীক্ষা করেছি, তখন আমি জানতে পারলাম sklearnএসভিএম শ্রেণিবদ্ধকরণের জন্য দুটি পৃথক শ্রেণি রয়েছে : SVCএবং LinearSVC, যেখানে প্রাক্তনগুলি একের বিপরীতে একটি ব্যবহার করে এবং অন্যটি একের বিপরীতে-বিশ্রাম পদ্ধতির ব্যবহার করে।
ফলাফলগুলিতে এর কী প্রভাব থাকতে পারে তা আমি জানতাম না, তাই উভয়কেই চেষ্টা করেছিলাম। আমি একটি মন্টি কার্লো-শৈলীর প্রাক্কলন করেছি যেখানে আমি উভয় মডেল ৫০০ বার দৌড়েছি, প্রতিটি সময় নমুনাটি এলোমেলোভাবে %০% প্রশিক্ষণ এবং ৪০% পরীক্ষায় বিভক্ত করে এবং পরীক্ষার সেটে ভবিষ্যদ্বাণীটির ত্রুটির গণনা করে।
নিয়মিত এসভিসি অনুমানকারী নীচের ত্রুটিগুলির হিস্টগ্রাম তৈরি করেছিল:
লিনিয়ার এসভিসি অনুমানকারী নিম্নলিখিত হিস্টোগ্রাম তৈরি করেছেন:

এইরকম স্বতন্ত্র পার্থক্যের জন্য কী কী হতে পারে? কেন লিনিয়ার মডেলটির বেশিরভাগ সময় এইরকম উচ্চতর নির্ভুলতা থাকে?
এবং, সম্পর্কিতভাবে, ফলাফলগুলিতে পুরোপুরি মেরুকরণের কারণ কী হতে পারে? হয় 1 এর কাছাকাছি একটি নির্ভুলতা বা 0 এর কাছাকাছি একটি নির্ভুলতা, এর মধ্যে কিছুই নেই।
তুলনার জন্য, সিদ্ধান্তের শ্রেণীর শ্রেণিবিন্যাসের কাছাকাছি .85 এর যথার্থতার সাথে আরও অনেক বেশি বিতরিত ত্রুটির হার উত্পন্ন করে।
Similar to SVC with parameter kernel=’linear’, but implemented in terms of liblinear rather than libsvm, so it has more flexibility in the choice of penalties and loss functions and should scale better (to large numbers of samples).

