আমি পথচারী সনাক্তকরণ নামক কার্যটি সমাধান করার চেষ্টা করছি এবং আমি বাইনারি ক্লাসিফারকে দুটি বিভাগের ধনাত্মক - লোক, নেতিবাচক - পটভূমিতে প্রশিক্ষণ দিই।
আমার ডেটাসেট রয়েছে:
- ধনাত্মক সংখ্যা = 3752
- নেতিবাচক সংখ্যা = 3800
আমি ট্রেন-পরীক্ষার বিভাজন 80 \ 20% এবং র্যান্ডমফোরস্টক্লাসিফায়ার ফর্মটি প্যারামিটার সহ বিজ্ঞান-শিখুন :
RandomForestClassifier(n_estimators=100, max_depth=50, n_jobs= -1)
আমি স্কোর পেয়েছি: 95.896757%
প্রশিক্ষণের ডেটা পরীক্ষা (পুরোপুরি কাজ করে):
true positive: 3005
false positive: 0
false negative: 0
true negative: 3036
তথ্য পরীক্ষার উপর পরীক্ষা:
true positive: 742
false positive: 57
false negative: 5
true negative: 707
আমার প্রশ্নটি কীভাবে মিথ্যা পজিটিভের সংখ্যা হ্রাস করবেন (লোক হিসাবে পটভূমি শ্রেণিবদ্ধ)? এছাড়াও আমার কেন মিথ্যা নেতিবাচক চেয়েও বেশি মিথ্যা ইতিবাচক ত্রুটি রয়েছে?
আমি class_weight
প্যারামিটারটি ব্যবহার করার চেষ্টা করেছি , তবে কিছুটা সময় পারফরম্যান্স হ্রাস পায় (যেমন আপনি ক্লাস_ ওয়েট = {0: 1,1: 4 at এ দেখতে পারেন)।
class_weight= {0:1,1:1}
true positive: 3005
false positive: 0
false negative: 0
true negative: 3036
true positive: 742
false positive: 55
false negative: 5
true negative: 709
score: 96.029120 %
class_weight= {0:1,1:2}
true positive: 3005
false positive: 0
false negative: 0
true negative: 3036
true positive: 741
false positive: 45
false negative: 6
true negative: 719
score: 96.624752 %
class_weight= {0:1,1:3}
true positive: 3005
false positive: 0
false negative: 0
true negative: 3036
true positive: 738
false positive: 44
false negative: 9
true negative: 720
score: 96.492389 %
class_weight= {0:1,1:4}
true positive: 3005
false positive: 13
false negative: 0
true negative: 3023
true positive: 735
false positive: 46
false negative: 12
true negative: 718
score: 96.161482 %
class_weight= {0:1,1:5}
true positive: 3005
false positive: 31
false negative: 0
true negative: 3005
true positive: 737
false positive: 48
false negative: 10
true negative: 716
score: 96.161482 %
class_weight= {0:1,1:6}
true positive: 3005
false positive: 56
false negative: 0
true negative: 2980
true positive: 736
false positive: 51
false negative: 11
true negative: 713
score: 95.896757 %
class_weight= {0:1,1:7}
true positive: 3005
false positive: 87
false negative: 0
true negative: 2949
true positive: 734
false positive: 59
false negative: 13
true negative: 705
score: 95.234944 %
এছাড়াও এটি লক্ষণীয় যে র্যান্ডমফোরেস্ট ভারসাম্যহীন ডেটাসেটে ভুগছে না বলে মনে হচ্ছে:
pos = 3752 নেগ = 10100
শ্রেনী ওজন = {0: 1,1: 1} সত্য ইতিবাচক: 3007 মিথ্যা ধনাত্মক: 0 মিথ্যা negativeণাত্মক: 0 সত্য negativeণাত্মক: 8074
true positive: 729
false positive: 71
false negative: 16
true negative: 1955
score: 96.860339 %
class_weight= {0:1,1:2}
true positive: 3007
false positive: 0
false negative: 0
true negative: 8074
true positive: 728
false positive: 59
false negative: 17
true negative: 1967
score: 97.257308 %
class_weight= {0:1,1:3}
true positive: 3007
false positive: 0
false negative: 0
true negative: 8074
true positive: 727
false positive: 58
false negative: 18
true negative: 1968
score: 97.257308 %