মাইক্রো-গড় বা ম্যাক্রো-গড় গড় মূল্যায়ন ব্যবস্থার ভিত্তিতে সিদ্ধান্ত নেওয়া উচিত?


21

আমি একই ডেটাসেট সহ বিভিন্ন বাইনারি শ্রেণিবদ্ধকরণ অ্যালগরিদমগুলিতে একটি 10-গুণ ক্রস বৈধতা দৌড়েছি এবং মাইক্রো- এবং ম্যাক্রো উভয়ের গড় ফলাফল পেয়েছি। এটি উল্লেখ করা উচিত যে এটি একটি মাল্টি-লেবেল শ্রেণিবিন্যাস সমস্যা ছিল।

আমার ক্ষেত্রে, সত্য নেতিবাচক এবং সত্য ধনাত্মক সমানভাবে ওজন করা হয়। এর অর্থ সঠিকভাবে negativeণাত্মক ভবিষ্যদ্বাণী করা সঠিকভাবে সত্যের ইতিবাচক ভবিষ্যদ্বাণী করার মতোই গুরুত্বপূর্ণ।

মাইক্রো-গড় ব্যবস্থাগুলি ম্যাক্রো গড়ের চেয়ে কম। এখানে একটি নিউরাল নেটওয়ার্ক এবং সমর্থন ভেক্টর মেশিনের ফলাফল রয়েছে:

এখানে চিত্র বর্ণনা লিখুন

আমি একই অ্যালগরিদমের সাথে একই ডেটাসেটে শতাংশ-বিভক্ত পরীক্ষাও চালিয়েছি। ফলাফলগুলি ছিল:

এখানে চিত্র বর্ণনা লিখুন

আমি ম্যাক্রো-গড়ের ফলাফলের সাথে শতাংশ-বিভক্ত পরীক্ষার তুলনা করতে পছন্দ করব, তবে এটি কি ন্যায্য? আমি বিশ্বাস করি না যে ম্যাক্রো-গড়ের ফলাফলগুলি পক্ষপাতদুষ্ট কারণ সত্য ধনাত্মক এবং সত্য নেতিবাচক সমানভাবে ওজন করা হয়, তবে আবার আমি ভাবছি যে এটি কমলাগুলির সাথে আপেলের তুলনা করার মতো কিনা?

হালনাগাদ

মন্তব্যের ভিত্তিতে আমি দেখাব যে কীভাবে মাইক্রো এবং ম্যাক্রো গড় গণনা করা হয়।

আমার 144 লেবেল রয়েছে (বৈশিষ্ট্য বা বৈশিষ্ট্যগুলির সমান) যা আমি পূর্বাভাস দিতে চাই। যথার্থতা, রিকাল এবং এফ-মেজার প্রতিটি লেবেলের জন্য গণনা করা হয়।

---------------------------------------------------
LABEL1 | LABEL2 | LABEL3 | LABEL4 | .. | LABEL144
---------------------------------------------------
   ?   |    ?   |    ?   |   ?    | .. |     ?
---------------------------------------------------

একটি বাইনারি মূল্যায়ন পরিমাপ বি (টিপি, টিএন, এফপি, এফএন) বিবেচনা করে যা সত্য ধনাত্মক (টিপি), সত্য নেতিবাচক (টিএন), মিথ্যা পজিটিভ (এফপি), এবং মিথ্যা নেগেটিভ (এফএন) এর উপর ভিত্তি করে গণনা করা হয়। একটি নির্দিষ্ট পরিমাপের ম্যাক্রো এবং মাইক্রো গড়গুলি নিম্নলিখিত হিসাবে গণনা করা যেতে পারে:

এখানে চিত্র বর্ণনা লিখুন

এখানে চিত্র বর্ণনা লিখুন

এই সূত্রগুলি ব্যবহার করে আমরা নীচে মাইক্রো এবং ম্যাক্রো গড় গণনা করতে পারি:

এখানে চিত্র বর্ণনা লিখুন

এখানে চিত্র বর্ণনা লিখুন

সুতরাং, মাইক্রো-গড় ব্যবস্থাগুলি সমস্ত টিপি, এফপি এবং fn (প্রতিটি লেবেলের জন্য) যুক্ত করে, তারপরে একটি নতুন বাইনারি মূল্যায়ন করা হয়। ম্যাক্রো-গড় ব্যবস্থাগুলি সমস্ত পদক্ষেপগুলি (যথার্থতা, পুনর্বিবেচনা বা এফ-মেজার) যুক্ত করে এবং লেবেলের সংখ্যার সাথে ভাগ করে, যা আরও গড়ের মতো।

এখন, প্রশ্নটি কোনটি ব্যবহার করবেন?


আপনি কোনটি ব্যবহার করবেন তা জিজ্ঞাসা করলে, উদ্দেশ্যযুক্ত ব্যবহারটি কী? দুটি পদ্ধতির মধ্যে নির্বাচন করা, ফলাফলগুলির সংক্ষিপ্তসার বা অন্য কিছু?
শন ইস্টার

1
উদ্দেশ্যটি ব্যবহারটি হ'ল কোন মডেলটি সর্বাধিক উন্নত তা নির্ধারণ করা এবং এটি কতটা কার্যকরভাবে সম্পাদন করে সে সম্পর্কে কিছু বলা। আমি জানতে পেরেছি যে মাইক্রো পরিমাপগুলি অনুযায়ী অনুসারে উন্নত: ফর্ম্যান, জর্জ এবং মার্টিন শোল্জ। "ক্রস-বৈধকরণ স্টাডিতে আপেল থেকে আপেল: শ্রেণিবদ্ধ কর্মক্ষমতা পরিমাপের ক্ষতিগুলি pit" ACM SIGKDD এক্সপ্লোরেশন নিউজলেটার 12.1 (2010): 49-57।
কেনকি

@ কেনসি, আমি বিশ্বাস করি আপনার নিজের প্রশ্নের উত্তর হিসাবে এটি পোস্ট করা উচিত এবং এটি সঠিকভাবে অ্যাওয়ার্জার হিসাবে নিশ্চিত হওয়া উচিত। রেফারেন্সের জন্য ধন্যবাদ!
fnl

উত্তর:


27

আপনি যদি ভাবেন যে সমস্ত লেবেল কম-বেশি সমান আকারের হয় (প্রায় একই সংখ্যার উদাহরণ রয়েছে), যে কোনও ব্যবহার করুন।

আপনি যদি ভাবেন যে অন্যদের চেয়ে আরও বেশি উদাহরণ সহ লেবেল রয়েছে এবং আপনি যদি সর্বাধিক জনবহুলের দিকে নিজের মেট্রিককে পক্ষপাত করতে চান তবে মাইক্রোমিডিয়া ব্যবহার করুন

আপনি যদি মনে করেন যে অন্যদের চেয়ে আরও বেশি উদাহরণ সহ লেবেল রয়েছে এবং আপনি যদি নিজের মেট্রিককে সর্বনিম্ন জনগোষ্ঠীর দিকে পক্ষপাত করতে চান (বা কমপক্ষে আপনি সর্বাধিক জনবহুলের দিকে পক্ষপাতিত্ব করতে চান না) তবে ম্যাক্রোমিডিয়া ব্যবহার করুন

যদি মাইক্রোমিডিয়ার ফলাফলটি ম্যাক্রোমিডিয়া একের তুলনায় উল্লেখযোগ্যভাবে কম থাকে তবে এর অর্থ হ'ল আপনার বেশিরভাগ জনবহুল লেবেলে কিছু স্থূল বিযুক্তি রয়েছে, তবে আপনার ছোট লেবেলগুলি সম্ভবত সঠিকভাবে শ্রেণিবদ্ধ করা হয়েছে। ম্যাক্রোমিডিয়ার ফলাফল যদি মাইক্রোমিডিয়ার চেয়ে উল্লেখযোগ্যভাবে কম হয় তবে এর অর্থ আপনার ছোট লেবেলগুলি খারাপভাবে শ্রেণিবদ্ধ করা হয়েছে, তবে আপনার বৃহত্তরগুলি সম্ভবত সঠিকভাবে শ্রেণিবদ্ধ করা হয়েছে।

আপনি কী করবেন তা নিশ্চিত না হলে, মাইক্রো- এবং ম্যাক্রোওয়েভারেজ উভয়ের সাথে তুলনা করে চলুন :)

এটি এই বিষয়ে একটি ভাল কাগজ।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.