এআইসি এবং সি-পরিসংখ্যান বিভিন্ন প্রশ্নের উত্তর দেওয়ার চেষ্টা করছে। (এছাড়াও সাম্প্রতিক বছরগুলিতে সি-স্ট্যাটিস্টিক সহ কিছু সমস্যা উত্থাপিত হয়েছে, তবে আমি এটিকে একপাশে এসে হাজির করব)
কঠোরভাবে কথা বলা:
- AIC আপনাকে জানিয়ে দিচ্ছে যে নির্দিষ্ট মডেল -শ্রেণীবদ্ধকরণ ব্যয়ের জন্য আপনার মডেল কতটা ফিট করে ।
- এউসি আপনাকে বলছে যে আপনার মডেলটি কীভাবে ভালভাবে কাজ করবে সমস্ত গড়-শ্রেণিবদ্ধকরণ ব্যয় জুড়ে।
আপনি যখন এআইসির গণনা করেন তখন আপনি আপনার লজিস্টিকটিকে ০.৯ বলার পূর্বাভাস হিসাবে 1 (যেমন 0 এর চেয়ে বেশি সম্ভাব্য 1) বলে পূর্বাভাস দিয়ে থাকেন তবে এটি হওয়ার দরকার নেই। আপনি আপনার লজিস্টিক স্কোরটি নিতে এবং বলতে পারেন "0.95 এর উপরে যে কোনও কিছু 1, নীচের সবকিছু 0"। কেন আপনি এই করবেন? ভাল এটি নিশ্চিত করবে যে আপনি যখন সত্যই আত্মবিশ্বাসী তখন কেবল আপনিই একটির ভবিষ্যদ্বাণী করেন। আপনার মিথ্যা ইতিবাচক হারটি সত্যই কম হবে, তবে আপনার মিথ্যা নেতিবাচক চিত্রটি আকাশচুম্বী হবে। কিছু পরিস্থিতিতে এটি খারাপ জিনিস নয় - আপনি যদি কারও বিরুদ্ধে জালিয়াতির অভিযোগ আনতে চলেছেন তবে আপনি সম্ভবত প্রথমে সত্যই নিশ্চিত হতে চান। এছাড়াও, যদি ইতিবাচক ফলাফলগুলি অনুসরণ করা খুব ব্যয়বহুল হয় তবে আপনি সেগুলির মধ্যে খুব বেশি কিছু চান না।
এটি ব্যয়ের সাথে সম্পর্কিত। আপনি যখন 1 কে 0 হিসাবে শ্রেণিভুক্ত করেন তখন একটি ব্যয় হয় এবং যখন আপনি 0 কে 1 হিসাবে শ্রেণিবদ্ধ করেন তখন সাধারণত লজিস্টিক রিগ্রেশন জন্য এআইসি বিশেষ ক্ষেত্রে বোঝায় যখন উভয় ভুল শ্রেণিবদ্ধকরণ সমান হয় ব্যয়বহুল। এটি হ'ল লজিস্টিক রিগ্রেশন আপনাকে ইতিবাচক বা নেতিবাচক কোনও পছন্দ ছাড়াই সঠিক পূর্বাভাসের সেরা সামগ্রিক সংখ্যা দেয়।
আরওসি বক্ররেখা ব্যবহার করা হয়েছে কারণ আপনি যদি বিভিন্ন ব্যয়ের প্রয়োজনীয়তার আওতায় শ্রেণিবদ্ধকারীটিকে এটি ব্যবহার করেন তবে শ্রেণিবদ্ধী কীভাবে সঞ্চালন করবে তা দেখানোর জন্য এটি মিথ্যা পজিটিভের বিরুদ্ধে সত্য পজিটিভকে প্লট করে। সি-স্ট্যাটিস্টিকস সম্পর্কে আসে কারণ যে কোনও আরওসি বক্ররেখা যা অন্যের তুলনায় কঠোরভাবে থাকে তা স্পষ্টতই একটি প্রভাবশালী শ্রেণিবদ্ধ হয়। সামগ্রিকভাবে শ্রেণিবদ্ধকারী কতটা ভাল তা পরিমাপ হিসাবে বক্ররেখার অধীনে অঞ্চলটি পরিমাপ করা স্বজ্ঞাত।
সুতরাং মূলত, আপনি যদি মডেলটি ফিট করার সময় আপনার ব্যয়গুলি জানেন তবে এআইসি (বা অনুরূপ) ব্যবহার করুন। যদি আপনি কেবল একটি স্কোর তৈরি করছেন তবে ডায়াগনস্টিক থ্রেশহোল্ড নির্দিষ্ট করে না নিচ্ছেন তবে তারপরে এটিউ পদ্ধতির প্রয়োজন (নিজেই এওসি সম্পর্কে নিম্নলিখিত সাবধানতা সহ)।
তাহলে সি-স্ট্যাটিস্টিক / এউসি / গিনিতে কী ভুল?
বেশ কয়েক বছর ধরে এইউসি স্ট্যান্ডার্ড পদ্ধতির ছিল এবং এটি এখনও ব্যাপকভাবে ব্যবহৃত হয় তবে এর সাথে বেশ কয়েকটি সমস্যা রয়েছে। একটি জিনিস যা এটি বিশেষভাবে আকর্ষণীয় করে তুলেছিল তা হ'ল এটি শ্রেণিবদ্ধার ক্ষেত্রে উইলকক্স পরীক্ষার সাথে সম্পর্কিত। এটিই সম্ভবত এমন সম্ভাবনা পরিমাপ করা হয়েছে যে একটি শ্রেণির এলোমেলোভাবে বাছাই করা সদস্যের স্কোর অন্য শ্রেণীর এলোমেলোভাবে বাছাই করা সদস্যের চেয়ে বেশি হবে। সমস্যাটি হচ্ছে, এটি প্রায়শই কোনও দরকারী মেট্রিক নয়।
এইউসি-র সাথে সবচেয়ে জটিল সমস্যাগুলি কয়েক বছর আগে ডেভিড হ্যান্ড প্রকাশ করেছিলেন। (নীচে রেফারেন্সগুলি দেখুন) সমস্যার চূড়ান্ত বিষয়টি হ'ল এটিউসি সমস্ত ব্যয়ের তুলনায় গড় করেন, কারণ আরওসি বক্ররের এক্স-অক্ষটি মিথ্যা পজিটিভ রেট, এটি বিভিন্ন ব্যয়ের ব্যবস্থায় যে ওজনকে নির্ধারিত করে তা শ্রেণিবদ্ধের মধ্যে পরিবর্তিত হয়। সুতরাং আপনি যদি দুটি ভিন্ন লজিটিক রিগ্রেশনগুলিতে AUC গণনা করেন তবে এটি উভয় ক্ষেত্রে "একই জিনিস" পরিমাপ করা হবে না। এর অর্থ এটিউ এর উপর ভিত্তি করে মডেলগুলির তুলনা করা সামান্য বুদ্ধিমান।
হ্যান্ড একটি নির্দিষ্ট ব্যয়ের ওজনকে ব্যবহার করে একটি বিকল্প গণনার প্রস্তাব দিয়েছিল এবং এটিকে এইচ-পরিমাপ বলে - আর-তে একটি প্যাকেজ রয়েছে hmeasure
যা এই গণনাটি সম্পাদন করবে, এবং আমি তুলনার জন্য এটিউসি বিশ্বাস করি।
এউসির সমস্যা নিয়ে কিছু রেফারেন্স:
কখন রিসিভার অপারেটিং বৈশিষ্ট্যযুক্ত বক্ররেখার ক্ষেত্রফল শ্রেণিবদ্ধ কর্মক্ষমতা একটি উপযুক্ত পরিমাপ? ডিজে হ্যান্ড, সি। অ্যাগনোস্টোপল্লোস প্যাটার্ন রিকগনিশন লেটারস 34 (2013) 492–495
(আমি এটি একটি বিশেষ অ্যাক্সেসযোগ্য এবং দরকারী ব্যাখ্যা বলে মনে করেছি)