আমি সম্প্রতি কাজ করা শিখতে শুরু করেছি sklearn
এবং এই অদ্ভুত ফলাফলটি পেয়েছি ।
আমি বিভিন্ন মডেল এবং অনুমানের পদ্ধতিগুলি চেষ্টা করার জন্য digits
উপলব্ধ ডেটাসেট ব্যবহার করেছি sklearn
।
আমি যখন ডেটাতে একটি সাপোর্ট ভেক্টর মেশিনের মডেল পরীক্ষা করেছি, তখন আমি জানতে পারলাম sklearn
এসভিএম শ্রেণিবদ্ধকরণের জন্য দুটি পৃথক শ্রেণি রয়েছে : SVC
এবং LinearSVC
, যেখানে প্রাক্তনগুলি একের বিপরীতে একটি ব্যবহার করে এবং অন্যটি একের বিপরীতে-বিশ্রাম পদ্ধতির ব্যবহার করে।
ফলাফলগুলিতে এর কী প্রভাব থাকতে পারে তা আমি জানতাম না, তাই উভয়কেই চেষ্টা করেছিলাম। আমি একটি মন্টি কার্লো-শৈলীর প্রাক্কলন করেছি যেখানে আমি উভয় মডেল ৫০০ বার দৌড়েছি, প্রতিটি সময় নমুনাটি এলোমেলোভাবে %০% প্রশিক্ষণ এবং ৪০% পরীক্ষায় বিভক্ত করে এবং পরীক্ষার সেটে ভবিষ্যদ্বাণীটির ত্রুটির গণনা করে।
নিয়মিত এসভিসি অনুমানকারী নীচের ত্রুটিগুলির হিস্টগ্রাম তৈরি করেছিল: লিনিয়ার এসভিসি অনুমানকারী নিম্নলিখিত হিস্টোগ্রাম তৈরি করেছেন:
এইরকম স্বতন্ত্র পার্থক্যের জন্য কী কী হতে পারে? কেন লিনিয়ার মডেলটির বেশিরভাগ সময় এইরকম উচ্চতর নির্ভুলতা থাকে?
এবং, সম্পর্কিতভাবে, ফলাফলগুলিতে পুরোপুরি মেরুকরণের কারণ কী হতে পারে? হয় 1 এর কাছাকাছি একটি নির্ভুলতা বা 0 এর কাছাকাছি একটি নির্ভুলতা, এর মধ্যে কিছুই নেই।
তুলনার জন্য, সিদ্ধান্তের শ্রেণীর শ্রেণিবিন্যাসের কাছাকাছি .85 এর যথার্থতার সাথে আরও অনেক বেশি বিতরিত ত্রুটির হার উত্পন্ন করে।
Similar to SVC with parameter kernel=’linear’, but implemented in terms of liblinear rather than libsvm, so it has more flexibility in the choice of penalties and loss functions and should scale better (to large numbers of samples).