ভারসাম্যহীন ডেটার জন্য বাইনারি শ্রেণিবদ্ধকরণ মডেল


14

নিম্নলিখিত স্পেসিফিকেশন সহ আমার একটি ডেটাসেট রয়েছে:

  • 2,821 ধনাত্মক সহ 193,176 নমুনা সহ ডেটাসেট প্রশিক্ষণ
  • 673 ধনাত্মক সহ 82,887 নমুনা সহ ডেটাসেট পরীক্ষা করুন
  • এখানে 10 টি বৈশিষ্ট্য রয়েছে।

আমি একটি বাইনারি শ্রেণিবদ্ধতা (0 বা 1) সম্পাদন করতে চাই। আমি যে সমস্যার মুখোমুখি হচ্ছি তা হ'ল ডেটাটি ভারসাম্যহীন। কিছু বৈশিষ্ট্যযুক্ত ইঞ্জিনিয়ারিংয়ের সাথে ডেটাটিকে সাধারণকরণ এবং স্কেলিংয়ের পরে এবং কয়েকটি পৃথক অ্যালগরিদম ব্যবহার করার পরে, আমি অর্জন করতে পারি এটি সেরা ফলাফল:

mean square error : 0.00804710026904
Confusion matrix : [[82214   667]
                   [    0     6]]

অর্থাত্ কেবল 6 টি ধনাত্মক হিট। এটি লজিস্টিক রিগ্রেশন ব্যবহার করছে। আমি এটি দিয়ে চেষ্টা করেছি বিভিন্ন জিনিস এখানে:

  • র‌্যান্ডমফোরস্ট, ডিসিশনট্রি, এসভিএম এর মতো বিভিন্ন অ্যালগরিদম
  • ফাংশনটি কল করতে প্যারামিটারের মান পরিবর্তন করা
  • সংশ্লেষযুক্ত বৈশিষ্ট্যগুলি অন্তর্ভুক্ত করতে কিছু অন্তর্দৃষ্টি ভিত্তিক বৈশিষ্ট্য ইঞ্জিনিয়ারিং

এখন, আমার প্রশ্নগুলি হ'ল:

  1. ইতিবাচক হিটগুলির সংখ্যা উন্নত করতে আমি কী করতে পারি?
  2. এ জাতীয় ক্ষেত্রে ওভারফিট থাকলে কীভাবে তা নির্ধারণ করা যায়? (আমি চক্রান্ত করার চেষ্টা করেছি ইত্যাদি)
  3. এই মুহুর্তে কেউ যদি সিদ্ধান্ত নিতে পারে যে আমার পক্ষে এই সবচেয়ে উপযুক্ত সম্ভব? (যা 7373৩ টির মধ্যে মাত্র h টি হিট বিবেচনা করে দুঃখজনক বলে মনে হচ্ছে)
  4. প্যাটার্নের স্বীকৃতি আরও হিটের দিকে পরিচালিত করার ফলে ইতিবাচক নমুনা উদাহরণগুলি আরও ওজন করতে পারে এমন কোনও উপায় আছে কি?
  5. কোন গ্রাফিকাল প্লটগুলি আউটলিয়ারগুলি সনাক্ত করতে সহায়তা করতে পারে বা কোন প্যাটার্নটি সবচেয়ে ভাল মানায় সে সম্পর্কে কিছু অন্তর্দৃষ্টি?

আমি পাইথনের সাথে সাইকিট-লার্ন লাইব্রেরি ব্যবহার করছি এবং সমস্ত বাস্তবায়ন গ্রন্থাগার ফাংশন।

সম্পাদনা:

কয়েকটি অন্যান্য অ্যালগোরিদম সহ ফলাফল এখানে:

র‌্যান্ডম ফরেস্ট ক্লাসিফায়ার (n_estimators = 100)

[[82211   667]
[    3     6]]

সিদ্ধান্ত গাছ:

[[78611   635]
[ 3603    38]]

উত্তর:


11
  1. আপনি যেহেতু বাইনারি শ্রেণিবদ্ধকরণ করছেন, আপনি কি শ্রেণিবদ্ধের চৌম্বকটি সামঞ্জস্য করার চেষ্টা করেছেন? যেহেতু আপনার অ্যালগরিদমটি বরং সংবেদনশীল বলে মনে হচ্ছে, আমি এটি হ্রাস করার চেষ্টা করব এবং কোনও উন্নতি হয়েছে কিনা তা পরীক্ষা করে দেখব।

  2. আপনি সর্বদা লার্নিং কার্ভগুলি ব্যবহার করতে পারেন , বা একটি মডেল প্যারামিটার বনাম প্রশিক্ষণ এবং বৈধতা ত্রুটি আপনার মডেলটি উপযুক্ত নয় কিনা তা নির্ধারণ করতে ব্যবহার করতে পারেন। দেখে মনে হচ্ছে এটি আপনার ক্ষেত্রে উপযুক্ত। তবে এটি কেবল স্বজ্ঞাত।

  3. ভাল, শেষ পর্যন্ত এটি আপনার ডেটাসেট এবং আপনি যে বিভিন্ন মডেল চেষ্টা করেছেন তার উপর নির্ভর করে। এই মুহুর্তে, এবং আরও পরীক্ষা ছাড়াই, একটি নির্দিষ্ট উত্তর দেওয়া যাবে না be

  4. বিষয়টিতে বিশেষজ্ঞ হিসাবে দাবি না করেই আপনি অনুসরণ করতে পারেন এমন বিভিন্ন কৌশল রয়েছে (ইঙ্গিত: গুগলে প্রথম লিঙ্ক ), তবে আমার মতে আপনার প্রথমে নিশ্চিত হওয়া উচিত যে আপনি আপনার ব্যয়ের কাজটি সাবধানতার সাথে বেছে নিয়েছেন, যাতে এটি কী উপস্থাপন করে আপনি আসলে খুঁজছেন।

  5. প্যাটার্ন অন্তর্নিহিত দ্বারা আপনি কী বোঝেন তা নিশ্চিত নন, আপনি কী আরও বিস্তারিত বলতে পারবেন?

যাইহোক, আপনি চেষ্টা করেছেন এমন বিভিন্ন অ্যালগরিদমের সাথে আপনার ফলাফলগুলি কী ছিল? তারা কি অন্যরকম ছিল?


1
লজিস্টিক রিগ্রেশনটির জন্য প্রান্তিককরণটি সামঞ্জস্য করে কৌতুকটি করেছিল। উত্স তালিকার জন্য ধন্যবাদ।
তেজস্কট

আপনি কীভাবে একটি লজিস্টিক রিগ্রেশন থ্রেশহোল্ড সামঞ্জস্য করেন তার কোড স্নিপেট কেউ পেস্ট করতে পারে?
ব্লেঞ্জ

0

যেহেতু ডেটাটি খুব স্কিউড, এই জাতীয় ক্ষেত্রে আমরা ওভার স্যাম্পলিং ডেটার পরেও মডেল প্রশিক্ষণের চেষ্টা করতে পারি।

স্মোট এবং এডিএসআইএন হ'ল এমন কিছু কৌশল যা আমরা ডেটা ওভার স্যাম্পল করতে ব্যবহার করতে পারি।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.