নিম্নলিখিত স্পেসিফিকেশন সহ আমার একটি ডেটাসেট রয়েছে:
- 2,821 ধনাত্মক সহ 193,176 নমুনা সহ ডেটাসেট প্রশিক্ষণ
- 673 ধনাত্মক সহ 82,887 নমুনা সহ ডেটাসেট পরীক্ষা করুন
- এখানে 10 টি বৈশিষ্ট্য রয়েছে।
আমি একটি বাইনারি শ্রেণিবদ্ধতা (0 বা 1) সম্পাদন করতে চাই। আমি যে সমস্যার মুখোমুখি হচ্ছি তা হ'ল ডেটাটি ভারসাম্যহীন। কিছু বৈশিষ্ট্যযুক্ত ইঞ্জিনিয়ারিংয়ের সাথে ডেটাটিকে সাধারণকরণ এবং স্কেলিংয়ের পরে এবং কয়েকটি পৃথক অ্যালগরিদম ব্যবহার করার পরে, আমি অর্জন করতে পারি এটি সেরা ফলাফল:
mean square error : 0.00804710026904
Confusion matrix : [[82214 667]
[ 0 6]]
অর্থাত্ কেবল 6 টি ধনাত্মক হিট। এটি লজিস্টিক রিগ্রেশন ব্যবহার করছে। আমি এটি দিয়ে চেষ্টা করেছি বিভিন্ন জিনিস এখানে:
- র্যান্ডমফোরস্ট, ডিসিশনট্রি, এসভিএম এর মতো বিভিন্ন অ্যালগরিদম
- ফাংশনটি কল করতে প্যারামিটারের মান পরিবর্তন করা
- সংশ্লেষযুক্ত বৈশিষ্ট্যগুলি অন্তর্ভুক্ত করতে কিছু অন্তর্দৃষ্টি ভিত্তিক বৈশিষ্ট্য ইঞ্জিনিয়ারিং
এখন, আমার প্রশ্নগুলি হ'ল:
- ইতিবাচক হিটগুলির সংখ্যা উন্নত করতে আমি কী করতে পারি?
- এ জাতীয় ক্ষেত্রে ওভারফিট থাকলে কীভাবে তা নির্ধারণ করা যায়? (আমি চক্রান্ত করার চেষ্টা করেছি ইত্যাদি)
- এই মুহুর্তে কেউ যদি সিদ্ধান্ত নিতে পারে যে আমার পক্ষে এই সবচেয়ে উপযুক্ত সম্ভব? (যা 7373৩ টির মধ্যে মাত্র h টি হিট বিবেচনা করে দুঃখজনক বলে মনে হচ্ছে)
- প্যাটার্নের স্বীকৃতি আরও হিটের দিকে পরিচালিত করার ফলে ইতিবাচক নমুনা উদাহরণগুলি আরও ওজন করতে পারে এমন কোনও উপায় আছে কি?
- কোন গ্রাফিকাল প্লটগুলি আউটলিয়ারগুলি সনাক্ত করতে সহায়তা করতে পারে বা কোন প্যাটার্নটি সবচেয়ে ভাল মানায় সে সম্পর্কে কিছু অন্তর্দৃষ্টি?
আমি পাইথনের সাথে সাইকিট-লার্ন লাইব্রেরি ব্যবহার করছি এবং সমস্ত বাস্তবায়ন গ্রন্থাগার ফাংশন।
সম্পাদনা:
কয়েকটি অন্যান্য অ্যালগোরিদম সহ ফলাফল এখানে:
র্যান্ডম ফরেস্ট ক্লাসিফায়ার (n_estimators = 100)
[[82211 667]
[ 3 6]]
সিদ্ধান্ত গাছ:
[[78611 635]
[ 3603 38]]