মিথ্যা ধনাত্মক সংখ্যা হ্রাস কিভাবে?


12

আমি পথচারী সনাক্তকরণ নামক কার্যটি সমাধান করার চেষ্টা করছি এবং আমি বাইনারি ক্লাসিফারকে দুটি বিভাগের ধনাত্মক - লোক, নেতিবাচক - পটভূমিতে প্রশিক্ষণ দিই।

আমার ডেটাসেট রয়েছে:

  • ধনাত্মক সংখ্যা = 3752
  • নেতিবাচক সংখ্যা = 3800

আমি ট্রেন-পরীক্ষার বিভাজন 80 \ 20% এবং র‌্যান্ডমফোরস্টক্লাসিফায়ার ফর্মটি প্যারামিটার সহ বিজ্ঞান-শিখুন :

RandomForestClassifier(n_estimators=100, max_depth=50, n_jobs= -1)

আমি স্কোর পেয়েছি: 95.896757%

প্রশিক্ষণের ডেটা পরীক্ষা (পুরোপুরি কাজ করে):

true positive:  3005
false positive:  0
false negative:  0
true negative:  3036

তথ্য পরীক্ষার উপর পরীক্ষা:

true positive:  742
false positive:  57
false negative:  5
true negative:  707

আমার প্রশ্নটি কীভাবে মিথ্যা পজিটিভের সংখ্যা হ্রাস করবেন (লোক হিসাবে পটভূমি শ্রেণিবদ্ধ)? এছাড়াও আমার কেন মিথ্যা নেতিবাচক চেয়েও বেশি মিথ্যা ইতিবাচক ত্রুটি রয়েছে?

আমি class_weightপ্যারামিটারটি ব্যবহার করার চেষ্টা করেছি , তবে কিছুটা সময় পারফরম্যান্স হ্রাস পায় (যেমন আপনি ক্লাস_ ওয়েট = {0: 1,1: 4 at এ দেখতে পারেন)।

class_weight= {0:1,1:1}
true positive:  3005
false positive:  0
false negative:  0
true negative:  3036

true positive:  742
false positive:  55
false negative:  5
true negative:  709
score: 96.029120 %

class_weight= {0:1,1:2}
true positive:  3005
false positive:  0
false negative:  0
true negative:  3036

true positive:  741
false positive:  45
false negative:  6
true negative:  719
score: 96.624752 %

class_weight= {0:1,1:3}
true positive:  3005
false positive:  0
false negative:  0
true negative:  3036

true positive:  738
false positive:  44
false negative:  9
true negative:  720
score: 96.492389 %

class_weight= {0:1,1:4}
true positive:  3005
false positive:  13
false negative:  0
true negative:  3023

true positive:  735
false positive:  46
false negative:  12
true negative:  718
score: 96.161482 %

class_weight= {0:1,1:5}
true positive:  3005
false positive:  31
false negative:  0
true negative:  3005

true positive:  737
false positive:  48
false negative:  10
true negative:  716
score: 96.161482 %

class_weight= {0:1,1:6}
true positive:  3005
false positive:  56
false negative:  0
true negative:  2980

true positive:  736
false positive:  51
false negative:  11
true negative:  713
score: 95.896757 %

class_weight= {0:1,1:7}
true positive:  3005
false positive:  87
false negative:  0
true negative:  2949

true positive:  734
false positive:  59
false negative:  13
true negative:  705
score: 95.234944 %

এছাড়াও এটি লক্ষণীয় যে র‌্যান্ডমফোরেস্ট ভারসাম্যহীন ডেটাসেটে ভুগছে না বলে মনে হচ্ছে:

pos = 3752 নেগ = 10100

শ্রেনী ওজন = {0: 1,1: 1} সত্য ইতিবাচক: 3007 মিথ্যা ধনাত্মক: 0 মিথ্যা negativeণাত্মক: 0 সত্য negativeণাত্মক: 8074

true positive:  729
false positive:  71
false negative:  16
true negative:  1955
score: 96.860339 %

class_weight= {0:1,1:2}
true positive:  3007
false positive:  0
false negative:  0
true negative:  8074

true positive:  728
false positive:  59
false negative:  17
true negative:  1967
score: 97.257308 %

class_weight= {0:1,1:3}
true positive:  3007
false positive:  0
false negative:  0
true negative:  8074

true positive:  727
false positive:  58
false negative:  18
true negative:  1968
score: 97.257308 %

উত্তর:


7

এলোমেলো বনের কথা বললে আমি বিশেষজ্ঞ নই, আমি খুব সম্প্রতি সেগুলি পড়েছি। তবে আমার কাছে এটি কীভাবে দেখায় তা থেকে আপনি এলোমেলো বনটিকে উপভোগ করছেন। আমি যা করব তা হল ভবিষ্যদ্বাণী করতে আপনি যে কৌশলটি ব্যাগ-অফ-ব্যাগ পর্যবেক্ষণগুলি ব্যবহার করেন তা ব্যবহার করা। আপনি এই স্লাইডগুলিতে পদ্ধতিটি খুঁজে পেতে পারেন: https://lagunita.stanford.edu/c4x/ মানবতাবিজ্ঞান / স্ট্যাটলিয়ারিং / অ্যাসেট/ trees.pdf

আমি আরও একটি বিষয় প্রস্তাব করব যা এই বিভাগে উল্লিখিত গ্রেডিয়েন্ট বুস্টিং মেশিন (জিবিএম) নামেও এই স্লাইডগুলিতে উল্লেখ করা হয়েছে। আমি মনে করি যে জিবিএম এলোমেলো বনের চেয়ে স্বজ্ঞাত।

সম্পাদনা 1 : আমি এটি আবার চেক করেছি এবং মনে হচ্ছে বুটস্ট্র্যাপিং হল জিবিএমের প্রথম ধাপ। এছাড়াও, আমার প্রতি সেপ্টেম্বর বুটস্ট্র্যাপিং নিয়ে সমস্যা নেই, এটি দুর্দান্ত এবং ভাল। এটির সাথে একমাত্র সমস্যাটি এটি খুব খারাপভাবে ব্যবহার করা যায়।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.