শ্রেণিবদ্ধকরণ সমস্যার জন্য যদি শ্রেণি ভেরিয়েবলের অসম বন্টন থাকে তবে আমাদের কোন কৌশলটি ব্যবহার করা উচিত?


10

যেমন। যদি আমার কাছে ভাল এবং খারাপ দুটি ক্লাস সহ একটি ক্লাস ভেরিয়েবল ক্রেডিট স্কোরিং থাকে, যেখানে # (ভাল) = 700 এবং # (খারাপ) = 300. আমি আমার ডেটা সংক্ষিপ্ত করতে চাই না। আমার কোন কৌশলটি ব্যবহার করা উচিত? আমি এসভিএম ব্যবহার করছিলাম তবে এটি পূর্বাভাসগুলিতে খুব খারাপ দিচ্ছে।


এই অসমত্ব এত খারাপ লাগে না ; আপনি কি নিশ্চিত যে অন্য কোথাও আপনার ত্রুটি নেই? এছাড়াও আপনি ডেটা সম্পর্কে আরও কিছু বিশদ দিতে পারেন? এটির কোনও সাধারণ সমাধান নেই।

আমার ডেটাসেটে 17 পূর্বাভাস রয়েছে (3 ধারাবাহিক এবং 14 শ্রেণিবদ্ধ), স্পষ্টতই 1 বর্গ ভেরিয়েবল এবং মোট 1000 অশ্লীল। ফ্রিকোয়েন্সি ডিস্ট। বর্গের জন্য। ট্রেন এবং পরীক্ষা সহ ট্রেন (খারাপ) = 197, পরীক্ষা (খারাপ) = 103, ত্রিয়ান (ভাল) = 446, পরীক্ষা (ভাল) = 254
asad.taj

উত্তর:


6

আপনার শ্রেণীর নমুনা আকারগুলি এতটা ভারসাম্যহীন বলে মনে হচ্ছে না যেহেতু আপনার সংখ্যালঘু শ্রেণিতে আপনার 30% পর্যবেক্ষণ রয়েছে। আপনার ক্ষেত্রে লজিস্টিক রিগ্রেশন ভালভাবে সম্পাদন করা উচিত। আপনার মডেলটি প্রবেশ করে এমন পূর্বাভাসকারীদের সংখ্যার উপর নির্ভর করে আপনি প্যারামিটারগুলির অনুমানের জন্য রিজ (এল 2) বা লাসো (এল 1) এর মতো এক ধরণের দণ্ড বিবেচনা করতে পারেন। খুব ভারসাম্যহীন বর্গের সমস্যাগুলির ওভারভিউয়ের জন্য, ক্র্যামার (1999), দ্য স্ট্যাটিস্টিশিয়ান, 48: 85-94 ( পিডিএফ ) দেখুন।

আমি ক্রেডিট স্কোরিং কৌশলগুলির সাথে পরিচিত নই, তবে আমি এমন কিছু কাগজপত্র পেয়েছি যাতে বোঝা যায় যে আপনি ভারী শ্রেণীর সাথে এসভিএম ব্যবহার করতে পারেন, যেমন ক্রেডিট স্কোরিংয়ের জন্য সমর্থন ভেক্টর মেশিনগুলি: নন স্ট্যান্ডার্ড কেসগুলিতে প্রসারিত । বিকল্প হিসাবে, আপনি কার্ট, বা র্যান্ডম অরণ্যগুলির সাথে বুস্টিং পদ্ধতিগুলি দেখতে পারেন (পরবর্তী ক্ষেত্রে, নমুনা কৌশলটি এমনভাবে গ্রহণ করা সম্ভব যাতে শ্রেণিবদ্ধকরণ গাছগুলি নির্মাণের সময় প্রতিটি শ্রেণি প্রতিনিধিত্ব হয়)। নোভাক এবং লাডুর এই গবেষণাপত্রে জিএলএম বনাম পুনঃসংশ্লিষ্ট পার্টিশনগুলির পক্ষে মতামত নিয়ে আলোচনা করা হয়েছে । আমি এই নিবন্ধটিও পেয়েছি, হ্যান্ড এবং ভিঞ্চিওটির ভারসাম্যহীন শ্রেণির মাপের সাথে স্কোরকার্ড নির্মাণ


ক্র্যামারের ( ১৯৯
৯৮৮৮৫.পিডিএফ

10

শ্রেণীর ভারসাম্যহীন সমস্যা সমাধানের দিকে জনপ্রিয় দৃষ্টিভঙ্গি হল শ্রেণিবদ্ধার পক্ষপাতিত্ব করা যাতে এটি ইতিবাচক উদাহরণগুলিতে আরও মনোযোগ দেয়। উদাহরণস্বরূপ, negativeণাত্মক শ্রেণীর তুলনায় ধনাত্মক শ্রেণীর ভুল সংজ্ঞা দেওয়ার সাথে জড়িত জরিমানা বাড়িয়ে এটি করা যেতে পারে। আরেকটি পদ্ধতি হ'ল ভারসাম্যপূর্ণ ডেটাসেট তৈরির জন্য সংখ্যাগরিষ্ঠ শ্রেণিকে ওভার স্যাম্পল করে বা সংখ্যালঘু শ্রেণিকে আন্ডার স্যাম্পল করে ডেটা প্রেরোসেস করা।

তবে আপনার ক্ষেত্রে, শ্রেণি ভারসাম্যহীনতা কোনও সমস্যা বলে মনে হচ্ছে না। সম্ভবত এটি পরামিতি টিউনিংয়ের বিষয়, যেহেতু কোনও এসভিএম শ্রেণিবদ্ধের জন্য অনুকূল পরামিতিগুলি সন্ধান করা বরং এক ক্লান্তিকর প্রক্রিয়া হতে পারে। আরবিএফ কার্নেলের ক্ষেত্রে উদাহরণস্বরূপ দুটি পরামিতি রয়েছে:C এবং γ। আগে কোনটি জানা যায়নিসি এবং γপ্রদত্ত সমস্যার জন্য সেরা; ফলস্বরূপ কিছু ধরণের মডেল নির্বাচন (প্যারামিটার অনুসন্ধান) করা আবশ্যক।

ডেটা প্রিপ্রোসেসিং পর্বে, মনে রাখবেন যে এসভিএমের প্রয়োজন প্রতিটি তথ্য উদাহরণকে প্রকৃত সংখ্যার ভেক্টর হিসাবে উপস্থাপন করা হয়। সুতরাং, যদি শ্রেণীবদ্ধ বৈশিষ্ট্যগুলি থাকে তবে এম-বিভাগের বৈশিষ্ট্যটি উপস্থাপন করার জন্য এম সংখ্যা ব্যবহার করে (বা এটি নতুন নতুন বাইনারি ভেরিয়েবলের সাথে প্রতিস্থাপন) মিটার সংখ্যা ব্যবহার করে এগুলিকে সংখ্যাসূচক ডেটাতে রূপান্তরিত করার পরামর্শ দেওয়া হয়।

এছাড়াও, এসভিএম প্রয়োগ করার আগে ভেরিয়েবলগুলি স্কেলিং করা অত্যন্ত গুরুত্বপূর্ণ, যাতে বৃহত্তর সংখ্যাসূচক রেঞ্জগুলিতে ছোট সংখ্যার পরিসীমাগুলির উপর প্রভাব বিস্তার করতে পারে না।

পরীক্ষা করে দেখুন এই কাগজ

আপনি আর কর্মরত থাকেন, তবে খুঁজে বার করো সুর ফাংশন (প্যাকেজ e1071) সুর hyperparameters সরবরাহকৃত প্যারামিটার রেঞ্জ উপর একটি গ্রিড অনুসন্ধান ব্যবহার করতে। তারপরে প্লট.টুন ব্যবহার করে আপনি দেখতে পারবেন কোন মানগুলির সেটটি ত্রুটিটিকে আরও ছোট করে gives

সময় গ্রহণকারী প্যারামিটার অনুসন্ধানের চারপাশে একটি শর্টকাট রয়েছে। "এসভিএমপ্যাথ" নামে একটি আর প্যাকেজ রয়েছে যা একসাথে ২-শ্রেণির এসভিএম শ্রেণিবদ্ধের জন্য পুরো নিয়মিতকরণের পথটি গণনা করে। এখানে কাগজের একটি লিঙ্ক রয়েছে যা এটি কী করছে তা বর্ণনা করে।

পিএস আপনি এই কাগজটি আকর্ষণীয়ও দেখতে পাবেন: ক্যালিবিটেড সম্ভাবনার প্রাক্কলন প্রাপ্ত


2
+1 টি; এখনও কার্নলব থেকে কেএসভিএম পছন্দসই আর এসভিএম বাস্তবায়ন বলে মনে হচ্ছে। উদাহরণস্বরূপ এটি নিজস্ব থেকে ভেরিয়েবলগুলিকে স্কেল করে এবং ভাল বাছাইয়ের জন্য একটি দুর্দান্ত (= খুব ভাল কাজ করে) হিউরিস্টিক পদ্ধতি রয়েছেγআরবিএফের জন্য।

1

আমি ইতিবাচক শ্রেণীর উদাহরণ এবং নেতিবাচক শ্রেণীর উদাহরণগুলির জন্য নিয়মিতকরণ প্যারামিটার সি এর আলাদা মান ব্যবহার করার পরামর্শ দেব (অনেক এসভিএম প্যাকেজ এটি সমর্থন করে, এবং কোনও ক্ষেত্রে এটি সহজেই প্রয়োগ করা হয়)। তারপরে দুটি নিয়মিতকরণ পরামিতিগুলির ভাল মানগুলি খুঁজে পেতে যেমন ক্রস-বৈধকরণ ব্যবহার করুন।

এটি দেখানো যেতে পারে যে এটি সি + এবং সি- দ্বারা নির্ধারিত অনুপাতে ডেটাটিকে পুনরায় নমুনা দেওয়ার সমতুল্য (যাতে পুনরায় ভারীকরণের পরিবর্তে পুনরায় স্যাম্পলিংয়ের কোনও সুবিধা নেই, তারা শেষে এবং ওজনে একই জিনিস আসে বিযুক্তির চেয়ে ক্রমাগত হতে পারে, সুতরাং এটি সূক্ষ্ম নিয়ন্ত্রণ দেয়)।

ইতিবাচক এবং নেতিবাচক নিদর্শনগুলিতে একটি 50-50 ওজন দেওয়ার জন্য কেবল সি + এবং সি-কেই বেছে নিন না যদিও "ভারসাম্যহীন ক্লাসগুলি" সমস্যার প্রভাবের ডেটাসেট থেকে ডেটাসেটে আলাদা হয়ে যায়, তাই অনুকূল পুনরায় শক্তি ওজনকে অগ্রাধিকার নির্ধারণ করা যায় না।

এছাড়াও মনে রাখবেন যে মিথ্যা-ধনাত্মক এবং মিথ্যা-নেতিবাচক ব্যয় আলাদা হতে পারে এবং যদি সি + এবং সি- নির্ধারণের মধ্যে এগুলি অন্তর্ভুক্ত করা হয় তবে সমস্যাটি নিজেই সমাধান হতে পারে।

এটি মনে রাখার মতোও, যে কিছু সমস্যার জন্য বেইস অনুকূল সিদ্ধান্তের নিয়ম একটি একক শ্রেণীর জন্য সমস্ত নিদর্শন বরাদ্দ করবে এবং অন্যটিকে উপেক্ষা করবে, সুতরাং এটি অগত্যা কোনও খারাপ জিনিস নয় - এর অর্থ কেবল এই হতে পারে যে নিদর্শনগুলির ঘনত্ব একটি শ্রেণি অন্য শ্রেণীর নিদর্শনগুলির ঘনত্বের নীচে সর্বত্র।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.