কীভাবে পরিসংখ্যানগতভাবে মেশিন লার্নিং ক্লাসিফায়ারগুলির পারফরম্যান্সের তুলনা করবেন?


29

আনুমানিক শ্রেণিবদ্ধকরণ নির্ভুলতার ভিত্তিতে, আমি পরীক্ষা করতে চাই যে কোনও শ্রেণিবদ্ধকারী অন্য শ্রেণিবদ্ধের তুলনায় বেস সেটে পরিসংখ্যানগতভাবে আরও ভাল কিনা। প্রতিটি শ্রেণিবদ্ধের জন্য, আমি বেস সেট থেকে এলোমেলোভাবে একটি প্রশিক্ষণ এবং পরীক্ষার নমুনা নির্বাচন করি, মডেলকে প্রশিক্ষণ দিয়েছি এবং মডেলটি পরীক্ষা করি। আমি প্রতিটি শ্রেণিবদ্ধের জন্য দশ বার এটি করি। অতএব আমার কাছে প্রতিটি শ্রেণিবদ্ধের জন্য দশটি অনুমানের শ্রেণিবদ্ধকরণ নির্ভুলতার পরিমাপ রয়েছে। কীভাবে আমি পরিসংখ্যানগত পরীক্ষা কিনা চেয়ে ভাল ক্লাসিফায়ার হয় একটি গুলি গুলি আমি আমি 2একটিগুলিগুলিআমিআমিR1একটিগুলিগুলিআমিআমিR2বেস ডেটাसेटে। কোন টি-টেস্ট ব্যবহারের জন্য উপযুক্ত?


আপনি কি একই নমুনায় শ্রেণিবদ্ধ পরীক্ষা করেছেন? যেমন, নমুনা 1, সি 1 (নমুনা 1), সি 2 (নমুনা 1)? অথবা আপনি প্রতিটি শ্রেণিবদ্ধের জন্য বিভিন্ন নমুনা ব্যবহার করেছেন?
জন মোলার

এই দৃশ্যে জোড়যুক্ত টি-টেস্ট উপযুক্ত হবে।
জেল

1
@ লেভেলেন: যথার্থতা একটি অনুপাত: টি-টেস্টগুলি সাধারণত উপযুক্ত হয় না
সিবিলেটগুলি মনিকা

3
@ জনমোলার: "অনুপাতের পার্থক্য" একটি অনুসন্ধান শব্দ হবে, স্বাধীন বা নির্ভরশীল আমরা এখনও জানি না। যদি এটি যুক্ত হয়: ম্যাকনামারের পরীক্ষা। আমি অনুমান করছি যে টি-টেস্টের অর্থ ছোট ছোট নমুনার আকার, সুতরাং সম্ভবত স্বাভাবিক আনুমানিক কোনও ভাল ধারণা নয়। আমি বিশদ বিবরণ সন্ধানের জন্য হার এবং অনুপাতের জন্য পরিসংখ্যানগত পদ্ধতিতে যাব ।
সিবেলাইটস মনিকে

2
@ জনমোলার: আমি বলছি যে প্রতিটি নির্ভুলতা একটি অনুপাত। আপনি যদি তাদের তুলনা করতে চান, "অনুপাতের পার্থক্য" জন্য পদ্ধতি ব্যবহার করুন। অবিরাম মন্তব্য রোধ করতে আমি এটি একটি উত্তরে প্রসারিত করেছি।
সিবেলাইটস মনিকা

উত্তর:


14

ডায়েটারিচ বলেছেন: "দ্বিপদী বিতরণ যুক্তিসঙ্গত মানের জন্য একটি সাধারণ বিতরণ দ্বারা ভালভাবে অনুমান করা যেতে পারে ।" এখনও অবধি, আপনি আমাদের জানাননি যে আপনার কাছে যুক্তিসঙ্গত এন । @ জনমোলারের ৩০ টি কেস আইএমএইচও স্বাভাবিক আনুমানিক জন্য কয়েকটি (কমপক্ষে পি 1 এবং পি 2 সম্পর্কে কোনও জ্ঞান ছাড়াই ) are এনএনপি1পি2
সিবিলেটরা

বেস ডেটাসেটে প্রতি ক্লাসে আমার কমপক্ষে 4000 রেকর্ড রয়েছে, অতএব আমি যে নমুনাটি নির্বাচন করি তা এর চেয়ে কম কিছু হতে পারে। অনুপাত পরীক্ষার পার্থক্যের সাথে সবচেয়ে বড় অসুবিধা হ'ল তারা "শেখার অ্যালগরিদমের অভ্যন্তরীণ প্রকরণ" উপেক্ষা করে। আমি মনে করি এটি একটি শ্রেণিবদ্ধের যেমন এআর নিউরাল নেটওয়ার্কের জন্য এটি গুরুত্বপূর্ণ, যা আমি ব্যবহার করছি।
এন্ট্রপি

হ্যাঁ, জনমোলার যা চেয়েছিলেন তা থেকে এটি সম্পূর্ণ আলাদা পরিস্থিতি। যদি আপনি "অভ্যন্তরীণ প্রকরণ" দ্বারা মডেলটির অস্থিরতা বোঝায়: আপনি এটি পরিমাপ করতে পারেন। আমি আমার উত্তর আপডেট করব।
সিবেলাইটস মনিকে

স্পষ্ট করে বলতে গেলে, 30 টি আমি পরীক্ষার / ট্রেন বিভাজন সেটগুলি নির্বাচন করার সময়, আমি নির্বাচন করে এমন পরীক্ষার পয়েন্টের সংখ্যা নয়
জন মোলার

@ জনমোলার: দুঃখিত, আমি পুরোপুরি ভুল বুঝেছি (এমন ক্ষেত্র থেকে আসা যেখানে "নমুনা" কোনও ধরণের শারীরিক নমুনা)।
ক্যাবলাইটস মনিকে

10

আমার হাতে ফ্লেইস বই নেই, সুতরাং এটি সমস্ত আইআইআরসি।

মুহুর্তের মন্তব্যে @ জনমোয়েলারের প্রশ্নের উত্তর দেওয়া: আসল প্রশ্নটি আইএমএইচওর অদলবদলযোগ্য।

সুতরাং ধরুন যে আমার কাছে 30 টি নমুনা রয়েছে এবং আমি প্রতিটি নমুনায় c1 এবং c2 পরীক্ষা করি এবং প্রতিটি নমুনায় প্রতিটিটির যথার্থতা রেকর্ড করি।

এটি করে আপনি ক্লাসিফায়ারকে 1 সঠিক / ভুল শ্রেণিবদ্ধের বিপরীতে 2 সঠিক / ভুল প্রদান করে একটি 2 এক্স 2 কন্টিনজেন্সি টেবিল দিয়ে শেষ করেন। যা ম্যাকনেমার পরীক্ষার সূচনা পয়েন্ট । সুতরাং এটি একটি জোড়যুক্ত তুলনার জন্য, যা "স্বতন্ত্র" অনুপাতের সাথে তুলনা করার চেয়ে বেশি শক্তিশালী (যা তারা একই সীমাবদ্ধ নমুনা থেকে এলোমেলোভাবে অঙ্কন থেকে আসে তবে সম্পূর্ণ স্বাধীন নয়)।

আমি এখনই ম্যাকনামারের "ছোট মুদ্রণ" সন্ধান করতে পারি না, তবে 30 টি নমুনা বেশি নয়। সুতরাং আপনাকে এমনকি ম্যাকনামার্স থেকে ফিশারের সঠিক পরীক্ষা [বা অন্য কিছু] এ স্যুইচ করতে হতে পারে যা দ্বিপদী সম্ভাবনার গণনা করে।


অনুপাতের অর্থ:
আপনি 10 টি পরীক্ষার ক্ষেত্রে একটি এবং একই শ্রেণীবদ্ধকারী 10x পরীক্ষা করে বা একবারে সমস্ত 100 কেস (2 x 2 টেবিলটি কেবল সমস্ত পরীক্ষার কেস গণনা করে) পরীক্ষা করেন কিনা তা বিবেচ্য নয়।

যদি মূল প্রশ্নের প্রতিটি শ্রেণিবদ্ধের জন্য নির্ভুলতার 10 অনুমানগুলি এলোমেলো হোল্ড আউট বা 10-গুণ ক্রস বৈধতা বা 10x-এর-বুটস্ট্র্যাপ দ্বারা প্রাপ্ত হয় তবে অনুমানটি সাধারণত হয় যে প্রতিটি শ্রেণিবদ্ধের জন্য গণনা করা 10 সারোগেট মডেল সমান (= একই নির্ভুলতা রয়েছে), তাই পরীক্ষার ফলাফলগুলি পুল করা যায় *। 10-ভাঁজ ক্রস বৈধতার জন্য আপনি তারপর ধরে নিবেন যে পরীক্ষার নমুনা আকার পরীক্ষার নমুনার মোট সংখ্যার সমান। অন্যান্য পদ্ধতির জন্য আমি এতটা নিশ্চিত নই: আপনি একই ক্ষেত্রে একবারের বেশি পরীক্ষা করতে পারেন। ডেটা / সমস্যা / প্রয়োগের উপর নির্ভর করে, এটি কোনও নতুন কেস পরীক্ষা করার মতো তথ্যের সমান নয়।

এনপি^=এনσ2(পি^)=σ2(এন)=পি(1-পি)এন


আহ, ঠিক আছে. কমপক্ষে আমার জন্য এটি শেষ বিট জিনিসগুলি পরিষ্কার করে দেয়। ধন্যবাদ।
জন Moeller

উত্তরের জন্য ধন্যবাদ. অনুসরণ করার পদ্ধতি সম্পর্কে কেবল পরিষ্কার নয়। আপনি একক ডেটাसेटে 10-গুণ ক্রস বৈধকরণের কথা বলছেন। হোল্ড আউট নমুনায় নির্ভুলতা পরিমাপ করুন, এটি একটি 2x2 কনফিউশন ম্যাট্রিক্স গণনা করা। দশ 2x2 কনফিউশন ম্যাট্রিক্স যুক্ত করুন। সম্মিলিত 2x2 কনফিউশন ম্যাট্রিক্সের উপর ম্যাকনামারের পরীক্ষা করুন।
এন্ট্রপি

@ এন্ট্রপি: ১. 2x2 কন্টিনজেন্সি টেবিলটি কনফিউশন ম্যাট্রিক্স নয়। ২. প্রতিবার নতুন নমুনা বনাম একই পরীক্ষার ডেটাতে উভয় শ্রেণিবদ্ধের পরীক্ষা করা: জোড়াযুক্ত পরীক্ষাগুলি আরও শক্তিশালী (এবং এখানে সম্ভব)। আপডেট উত্তর দেখুন।
সিবেলাইটস মনিকা

তার জন্য দুঃখিত, হ্যাঁ, কন্টিনজেন্সি টেবিল। আমি কি এই কথাটি বলতে পারি যে ম্যাকনামারের পরীক্ষাটি একটি বহু-শ্রেণীর সমস্যায় সরাসরি অনুবাদ করে?
এন্টার

@ কেবিলাইটস প্রতিক্রিয়া জন্য অনেক ধন্যবাদ !!! আমি মনে করি আপনি এখন আমার প্রশ্নের সঠিক উত্তর দিয়েছেন। তবে, অনুসরণ করার সঠিক পদ্ধতিটি আমি এখনও বুঝতে পারি না। আপনি কি শেষ প্যারাটি সবিস্তারে ব্যাখ্যা করতে চান?
এন্টার
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.