শ্রেণিবদ্ধকরণ ফলাফলের তাত্পর্য পরীক্ষা করার সঠিক উপায় কী


21

এমন অনেকগুলি পরিস্থিতি রয়েছে যেখানে আপনি বেশ কয়েকটি বিভিন্ন শ্রেণিবদ্ধ প্রশিক্ষণ দিতে পারেন বা বিভিন্ন বৈশিষ্ট্য নিষ্কাশন পদ্ধতি ব্যবহার করতে পারেন। সাহিত্যে লেখকরা প্রায়শই ডেটাগুলির এলোমেলো বিভাজনগুলির (যেমন দ্বিগুণ নেস্ট করা ক্রস-বৈধকরণের পরে) সেটগুলির ওপরে গড় শ্রেণিবিন্যাস ত্রুটি দেন এবং কখনও কখনও বিভাজনে ত্রুটির ক্ষেত্রেও বৈকল্পিকতা দেন। তবে এটি নিজের পক্ষে এটি যথেষ্ট নয় যে একটি শ্রেণিবদ্ধ অন্যের তুলনায় উল্লেখযোগ্যভাবে ভাল। আমি এটির জন্য অনেকগুলি ভিন্ন পদ্ধতি দেখেছি - চি-স্কোয়ার্ড টেস্ট, টি-টেস্ট, পোস্ট-হক পরীক্ষা সহ এনওভা ইত্যাদি ব্যবহার করে

পরিসংখ্যান তাত্পর্য নির্ধারণ করতে কোন পদ্ধতি ব্যবহার করা উচিত? এই প্রশ্নের অন্তর্নিহিত হ'ল: শ্রেণিবিন্যাসের স্কোর বিতরণ সম্পর্কে আমাদের কী অনুমান করা উচিত?


2
আপনি কি উদাহরণ সহ কাগজপত্র পোস্ট করতে পারেন: "আমি এটির জন্য অনেকগুলি ভিন্ন পদ্ধতি দেখেছি - চি-স্কোয়ার্ড টেস্ট, টি-টেস্ট, আনোভা পোস্ট-হক পরীক্ষা ইত্যাদি ব্যবহার করে"? আমি সত্যিই এটি আগ্রহী।
জেবি।

1
@ জেবি এটি দেখুন: cmpe.boun.edu.tr/~ethem/i2ML/slides/v1-1/i2ML-chap14-v1-1.pdf
ডভ

উত্তর:


9

@ জেবি.-এর দুর্দান্ত উত্তরের পাশাপাশি, আমাকে আরও যোগ করতে দাও যে আপনি কোনও পরীক্ষার্থী অন্যটির তুলনায় উল্লেখযোগ্যভাবে আরও ভাল কিনা তা নির্ধারণ করতে আপনি একই পরীক্ষার সেটটিতে ম্যাকনামারের পরীক্ষা ব্যবহার করতে পারেন । এটি কেবল শ্রেণিবদ্ধকরণ সমস্যাগুলির জন্যই কাজ করবে (ম্যাকনামারের মূল রচনাটি "দ্বৈতশাস্ত্রীয় বৈশিষ্ট্য" বলে) যার অর্থ শ্রেণিবদ্ধরা হয় এটি সঠিক বা ভুল, মাঝখানে কোনও স্থান নেই।


ক্লাসিফায়ার যখন পাস করতে পারে তখন দৃশ্যের কী হবে? যেমন এটি বলে যে এটি জানেন না। আপনি এখনও ম্যাকনেমারের পরীক্ষা ব্যবহার করতে পারেন?
S0rin

5

শ্রেণিবিন্যাস ত্রুটির বিতরণ যেহেতু দ্বৈত বিতরণ (হয় সেখানে ভুল সংকলন হয় বা কিছুই নেই) --- আমি বলব যে চি-স্কোয়ার ব্যবহার করা বুদ্ধিমানের নয়।

এছাড়াও একই ডেটাসেটগুলিতে কাজ করা শ্রেণিবদ্ধের দক্ষতার তুলনা করা বুদ্ধিমান --- 'কোনও নিখরচায় মধ্যাহ্নভুক্ত উপপাদ্য' বলে যে সমস্ত মডেলগুলির সমস্ত ডেটাসেটের তুলনায় একই গড় দক্ষতা থাকে, সুতরাং কোন মডেলটি আরও ভাল প্রদর্শিত হবে তা কেবল ডেটাসেটগুলির উপর নির্ভর করবে তাদের http://en.wikedia.org/wiki/No_free_lunch_in_search_and_optimization প্রশিক্ষণ দেওয়ার জন্য বেছে নিন ।

আপনি যদি ডেটাসেট ডি-র তুলনায় মডেল এ এবং বি এর দক্ষতার তুলনা করেন তবে আমার মনে হয় যে গড় দক্ষতা + গড় একটি পছন্দ করার পক্ষে যথেষ্ট।

তদুপরি যদি কারও কাছে এমন মডেল থাকে যেগুলির অনুরোধযোগ্য দক্ষতা রয়েছে (এবং একে অপরের তুলনায় লিনিয়ার স্বতন্ত্র) আমি বরং সেরা মডেল বেছে নেওয়ার চেয়ে বরং নকশাকৃত মডেল তৈরি করব।


তবে একটি একক শ্রেণিবদ্ধের জন্য আপনি স্কোরগুলির একটি সেট (যেমন এমএসই 100 টি বিভাজনের উপরে) দিয়ে শেষ করেছেন, উদাহরণস্বরূপ [0,1] এর মধ্যে হতে পারে। আমি মনে করি প্রতিটি একক রানের ফলাফল নেওয়া এবং সেগুলি বিশ্লেষণ করা খুব ব্যয়বহুল হবে।
tdc

হ্যাঁ। তবে এক্ষেত্রে মানে + স্টেডিডিভ অন্য যে কোনও পরিমাপের মতো, অন্যটির চেয়ে উল্লেখযোগ্যভাবে ভাল কিনা তা পরীক্ষা করার জন্য যথেষ্ট।
জেবি।

2
আমি পুরপুরি নিশ্চিত নই. মিডস এবং এসটিডিদেভ শুরু করার জন্য গাউসীয়তা ধরে নিয়েছে এবং দ্বিতীয়ত এটি কত তুলনা করা হচ্ছে তা বিবেচনায় নেবে না (যেমন বনফেরনি সংশোধন প্রয়োজন হতে পারে)
tdc

1
এটি মৌলিক পরিমাপক তত্ত্বের ক্ষেত্রে একই। ধরে নেওয়া যাক আমাদের একটি মাইক্রোমিটার রয়েছে এবং আমরা দুটি রডের একই ডায়ামটার আছে কিনা তা পরীক্ষা করে দেখতে চাই, আমরা উভয় রডের 100 টি পরিমাপ নিই এবং এর মানে + স্টডিডিভ ওভারল্যাপ কিনা তা পরীক্ষা করতে পারি। উভয় ক্ষেত্রে (রড পরিমাপ এবং মডেল ম্যাট্রিক) আমরা কেবল ফলাফলের গাউসীয় বন্টন অনুমান করি, কেবল বুদ্ধিমান যুক্তিই কেন্দ্রীয় সীমাবদ্ধ উপপাদ্য
জেবি।

3

আমি টম ডায়েটারিচের "সুপারভাইজড ক্লাসিফিকেশন লার্নিং অ্যালগরিদমগুলির তুলনা করার জন্য আনুমানিক পরিসংখ্যান পরীক্ষা" শিরোনামের কাগজটি সুপারিশ করি। সিটিসিয়ারে কাগজের প্রোফাইলটি এখানে: http://citeseer.ist.psu.edu/viewdoc/summary?doi=10.1.1.37.3325 । বিমূর্ত থেকে: "এই গবেষণাপত্রটি একটি শেখার অ্যালগরিদমকে অন্য একটি নির্দিষ্ট শিক্ষার কার্য সম্পাদন করে কিনা তা নির্ধারণের জন্য পাঁচটি আনুমানিক পরিসংখ্যান পরীক্ষার পর্যালোচনা করে। এই তদন্তগুলি পরীক্ষা-নিরীক্ষার সাথে তুলনা করা হয় যখন কোনও পার্থক্য না থাকলে ভুল পার্থক্য সনাক্ত করার সম্ভাবনা নির্ধারণ করে (টাইপ প্রথম ত্রুটি) ) ... ... ম্যাকনামারের পরীক্ষাটিতে দেখানো হয়েছে যে আমি কম টাইপ করেছি ত্রুটি ... ... "


2

আইএমএইচও-র স্কোর বিতরণে অন্য কোনও ধরণের ডেটা বিতরণ করার মধ্যে কোনও আলাদা হওয়া উচিত না। তাই মূলত সব চেক করতে আপনার ডেটা স্বাভাবিকভাবে বিতরণ করা হয় বা না দেখতে কিনা তা ব্যবহারকারীকে এখানে । তদুপরি, এখানে দুর্দান্ত বই রয়েছে যা এই প্রশ্নের সাথে পুরোপুরি ডিল করে এখানে দেখুন (অর্থাত্ সংক্ষেপে: তারা সকলেই পরীক্ষা করে দেখায় যে দুটি শ্রেণিবদ্ধের ফলাফল উল্লেখযোগ্যভাবে পৃথক কিনা .. এবং যদি তারা তা করে তবে সেগুলি একত্রিত করা যেতে পারে - নকশাকৃত মডেল)


আমি মনে করি এগুলি সম্ভবত বিতরণ না করার খুব সম্ভাবনা রয়েছে । সাধারণ ক্ষেত্রে স্কোরগুলি ইতিবাচক এবং পরিসরের এক প্রান্তের দিকে স্কিউ হবে (1 বা 0 নির্ভর করে যদি আপনি পরিমাপ হিসাবে নির্ভুলতা বা ত্রুটি ব্যবহার করছেন)।
tdc

@tdc: এই কেস ফাংশন বিতরণ (ভুল সংখ্যার সংখ্যা) -> (ভুল সংখ্যার এই গণনা সহ মডেলগুলির সংখ্যা) প্রায়শই আইএমএইচও অনুরূপ পোয়েসন ডিসট্রিবিউশন হতে পারে।
জেবি।

@ ডভ: কোন মডেলটি উল্লেখযোগ্যভাবে ভাল Test এটি পরীক্ষা করা (এটি ওপি প্রশ্ন) এবং টেস্টিনগুলি যদি আলাদা হয় তবে তা একেবারেই আলাদা জিনিস।
জেবি।

@jb। ধন্যবাদ। তবে আমি বলেছি উল্লেখযোগ্যভাবে আলাদা না আরও ভাল ...
ডভ

@ ডোভ আপনার প্রথম লিঙ্কটি নষ্ট হয়েছে - এটি কোথায় নির্দেশ করতে হবে তা আমি বলতে পারছি না।
তামজিন ব্লেক

2

এমন কোনও একক পরীক্ষা নেই যা সমস্ত পরিস্থিতিতে উপযুক্ত is আমি নাথালি জ্যাপকোভিজ এবং মোহক শাহ, কেমব্রিজ ইউনিভার্সিটি প্রেস, ২০১১-এর "মূল্যায়ন লার্নিং অ্যালগরিদমস" বইটি সুপারিশ করতে পারি this আমি প্রায়শই খুঁজে পেয়েছি যে এমন কোনও পরীক্ষা নেই যা আমার অধ্যয়নের প্রয়োজনীয়তার সাথে খাপ খায়, তাই শেষ পর্যন্ত যে কোনও পদ্ধতি ব্যবহার করা হয় তার সুবিধাগুলি এবং অসুবিধাগুলি সম্পর্কে ভাল ধারণা রাখা গুরুত্বপূর্ণ।

একটি সাধারণ সমস্যা হ'ল বড় ডেটাসেটের জন্য একটি পরিসংখ্যানগতভাবে গুরুত্বপূর্ণ পার্থক্য একটি প্রভাব আকারের সাথে পাওয়া যেতে পারে যা ব্যবহারিক তাত্পর্যপূর্ণ নয়।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.