নির্ভুলতার উন্নতি তাৎপর্যপূর্ণ কিনা তা পরীক্ষা করা হচ্ছে


14

ধরুন আমার কাছে একটি অ্যালগরিদম আছে যা জিনিসগুলিকে দুটি বিভাগে শ্রেণিবদ্ধ করে। আমি 1000 পরীক্ষার জিনিসগুলি বলার ক্ষেত্রে অ্যালগরিদমের যথার্থতা পরিমাপ করতে পারি - মনে করুন যে 80% জিনিস সঠিকভাবে শ্রেণিবদ্ধ করা হয়েছে।

ধরা যাক আমি একরকমভাবে অ্যালগরিদমটি সংশোধন করি যাতে 81% জিনিস সঠিকভাবে শ্রেণিবদ্ধ করা হয়।

পরিসংখ্যানগুলি আমাকে অ্যালগরিদমের উন্নতি পরিসংখ্যানগতভাবে তাৎপর্যপূর্ণ কিনা সে সম্পর্কে কিছু বলতে পারে? এই পরিস্থিতিতে পরিসংখ্যানগত তাত্পর্য সম্পর্কিত ধারণাটি কি প্রাসঙ্গিক? প্রাসঙ্গিক হতে পারে এমন কিছু সংস্থার দিকে আমাকে নির্দেশ করুন।

অনেক ধন্যবাদ.

উত্তর:


3

সংক্ষেপে, হ্যাঁ পরিসংখ্যানগত তাত্পর্য এখানে প্রাসঙ্গিক। আপনি শ্রেণিবদ্ধকরণ ত্রুটির দিকে তাকিয়ে আছেন (বা যেমন আপনি এখানে যথার্থতা দিয়েছেন = 1- শ্রেণিবিন্যাস ত্রুটি)। আপনি যদি বিভিন্ন 1000 নমুনায় শ্রেণিবদ্ধদের তুলনা করেন তবে আপনি কেবল দ্বিপদী পরীক্ষা ব্যবহার করতে পারেন, যদি এটি একই 1000 নমুনা হয় তবে আপনাকে ম্যাকনেমার পরীক্ষাটি ব্যবহার করতে হবে। নোট করুন যে কেবল এইভাবে শ্রেণিবদ্ধকরণ ত্রুটিটি পরীক্ষা করা সাবজেক্টিমাল কারণ আপনি ধরে নিচ্ছেন শ্রেণিবদ্ধকরণ ত্রুটি সত্য শ্রেণীর তুলনায় স্বতন্ত্র বা সত্য শ্রেণীর অনুপাত আপনার সম্ভাব্য অ্যাপ্লিকেশনগুলিতে একই।

এর অর্থ সত্য পজিটিভ রেট, ভুয়া পজিটিভ রেট বা এউসির মতো ব্যবস্থাগুলির দিকে নজর দেওয়া উচিত। কী পরিমাপটি ব্যবহার করতে হবে এবং কীভাবে এটি পরীক্ষা করা যায় তা নির্ভর করে আপনার ক্লাসিকের আউটপুট। এটি কেবল একটি শ্রেণি হতে পারে বা এটি একটি ক্রমাগত সংখ্যা হতে পারে যা নির্দিষ্ট শ্রেণীর অন্তর্গত হওয়ার সম্ভাবনা দেয়।


ধন্যবাদ দারুণ। আমি আসলে পাঠ্য নথির সংবেদন বিশ্লেষণকে দেখছি - এগুলিকে "পজেটিভ" বা "নেতিবাচক" হিসাবে শ্রেণীবদ্ধ করে - এমন অনেক কাজ প্রকাশিত হয়েছে যেখানে লোকেরা 1% যথাযথ উন্নতি বলে কিছু সূক্ষ্মভাবে বৈশিষ্ট্য নির্বাচনকে পরিবর্তন করে - এবং লিখুন এই সম্পর্কে একটি কাগজ। আমি ভাবছি যে এর মধ্যে বেশিরভাগ ক্ষেত্রেই লেখকগণ শ্রেণিবদ্ধকরণের নির্ভুলতার পরিসংখ্যানগতভাবে উল্লেখযোগ্য উন্নতির প্রমাণ দিতে ব্যর্থ হয়েছেন কিনা।
বেন

ম্যাকনামারের পরীক্ষা আপনাকে বলে যে মডেলগুলি উল্লেখযোগ্যভাবে পৃথক কিনা, যা সঠিকভাবে পার্থক্যটি সর্বদা তাৎপর্যপূর্ণভাবে বোঝায় না (বিভিন্ন মডেলের একই নির্ভুলতা থাকতে পারে)। যথাযথতা বৃদ্ধির সরাসরি তাত্পর্য পরীক্ষা করার জন্য, আপনি নির্ভুলতার বিতরণগুলিকে মানচিত্র করতে অনেক নির্ভুলতার প্রাক্কলন করতে চান এবং সেগুলি পৃথক কিনা তা অনুমান করতে পারেন। এর অর্থ আপনার মডেলগুলি একাধিকবার প্রশিক্ষণ দেওয়া।
ড্র্যাভিকো

3

যেমন এরিক বলেছেন, হ্যাঁ আপনি এটি পরিসংখ্যানগত তাত্পর্য জন্য পরীক্ষা করতে পারেন। যাইহোক, আপনি যা যাচাই করতে চান তা এক মুহুর্তের জন্য ভাবুন think আমি মনে করি একটি বেশি আকর্ষণীয় প্রশ্ন জিজ্ঞাসা করতে কিভাবে এটা সম্ভবত যে এই তথাকথিত "উন্নত" হতে পারে অ্যালগরিদম ভাল (অথবা অর্থপূর্ণ ভাল) মূল, চেয়ে দেওয়া একটি ডাটা 1% পার্থক্য পরিলক্ষিত। "পরিসংখ্যানগত তাত্পর্য" এর নিরিখে প্রশ্ন জিজ্ঞাসা বিপরীত ধরণের প্রশ্নের দিকে পরিচালিত করে: দুটি অ্যালগরিদম একইরূপে দেওয়া গেলে কি কমপক্ষে এই অনেক উন্নতি পর্যবেক্ষণের 5% এর চেয়ে কম সুযোগ রয়েছে?

আমার কাছে, উত্তরোত্তর প্রশ্নটি পিছনের দিকে, তবে এটি কোনওভাবে মানক হয়ে উঠেছে। আপনি পরিসংখ্যান অনুমানের পরীক্ষার বিতর্কে উইকিপিডিয়া পরীক্ষা করতে পারেন । পরবর্তীকালে আপনি বায়েসীয় অনুমানের প্রতি আগ্রহী হতে পারেন । আপনি যদি সত্যিই বায়েশিয়ান ডেটা বিশ্লেষণে যেতে চান তবে আপনি গেলম্যান এট আল-এর "বায়সিয়ান ডেটা অ্যানালাইসিস" পরীক্ষা করতে পারেন বা এই প্রশ্নটি দেখতে পারেন


2

মাইকেল এর এরিক এর উত্তর প্রয়োগ :

পারফরম্যান্সের পরিমাপটি বেছে নেওয়ার সময় আপনি একই ধরণের চিন্তাভাবনা করতে পারেন এরিক refers

আমি তাদের উত্তর দেওয়া প্রশ্নগুলির দ্বারা এই জাতীয় বিভিন্ন পদক্ষেপগুলি উল্লেখ করতে সহায়ক বলে মনে করি (এখানে মেডিকেল ডায়াগনস্টিক ভাষায় যার সাথে আমি সর্বাধিক পরিচিত - তবে সম্ভবত আপনি রোগীকে স্প্যাম দ্বারা পাঠ্য এবং রোগ দ্বারা প্রতিস্থাপন করতে পারেন ;-)):

  • সংবেদনশীলতা: প্রদত্ত রোগীর সত্যিকার অর্থেই এই রোগ রয়েছে, শ্রেণিবদ্ধ যে এটি উপলব্ধি করতে পারে তা কতটা সম্ভব?

  • বৈশিষ্ট্য: প্রদত্ত রোগীর সত্যিকার অর্থে এই রোগ নেই, শ্রেণিবদ্ধ যে এটি উপলব্ধি করতে কতটা সম্ভব?

  • ইতিবাচক ভবিষ্যদ্বাণীমূলক মান: শ্রেণিবদ্ধ দ্বারা প্রদত্ত রোগীকে রোগাক্রান্ত বলে দাবি করা হয়েছে, রোগীর সত্যিই এই রোগ হওয়ার সম্ভাবনা কতটা?

  • নেতিবাচক ভবিষ্যদ্বাণীমূলক মান: শ্রেণিবদ্ধের দ্বারা দাবি করা হয়েছে যে রোগী অসুস্থ না হচ্ছেন, রোগীর সত্যিই এই রোগটি না হওয়ার সম্ভাবনা কতটা?

আপনি দেখতে পাচ্ছেন, ভবিষ্যদ্বাণীমূলক মানগুলি হ'ল চিকিত্সকরা এবং রোগীরা সত্যই আগ্রহী However তবে, প্রায় প্রত্যেকেই সংবেদনশীলতা এবং নির্দিষ্টতার দ্বারা তার শ্রেণিবদ্ধকারীকে চিহ্নিত করে। কারণটি হ'ল ভবিষ্যদ্বাণীমূলক মানগুলির মধ্যে রোগের প্রকোপটি বিবেচনায় নেওয়া দরকার এবং এটি বিভিন্ন ধরণের রোগীদের জন্য বিশাল আকারে (প্রস্থের আদেশ!) পরিবর্তিত হতে পারে।

আপনার প্রশ্নের জন্য বিষয়টিতে আরও:

আমি বাজি ধরছি আপনি চিন্তায় ঠিক আছেন।

এরিকের উভয় দৃশ্যকে উদাহরণ হিসাবে নেওয়া:

এখানে স্বাধীন পরীক্ষার নমুনা রয়েছে:

> binom.test (x = 810, n = 1000, p = 0.8)

    Exact binomial test

data:  810 and 1000 
number of successes = 810, number of trials = 1000, p-value = 0.4526
alternative hypothesis: true probability of success is not equal to 0.8 
95 percent confidence interval:
 0.7842863 0.8338735 
sample estimates:
probability of success 
                  0.81 

(দ্রষ্টব্য যে এই পরীক্ষাটি দ্বি-পার্শ্বযুক্ত ছিল, ধরে নিলাম দুটি শ্রেণিবদ্ধ প্রকাশ করা যেত যদি ফলাফলগুলি অন্যভাবে না হয় তবে ...)

এখানে সর্বোত্তম সম্ভাব্য পরিস্থিতি রয়েছে: জোড়াযুক্ত পরীক্ষা এবং নতুন শ্রেণিবদ্ধকারী পুরানোটি যে সমস্ত নমুনা ঠিক তার জন্য আরও 10 টি আরও সঠিক:

> ## mc.nemar: best possible case
> oldclassif <- c (rep ("correct", 800), rep ("wrong", 200))
> newclassif <- c (rep ("correct", 810), rep ("wrong", 190))
> table (oldclassif, newclassif)
          newclassif
oldclassif correct wrong
   correct     800     0
   wrong        10   190
> mcnemar.test (oldclassif, newclassif)

    McNemar's Chi-squared test with continuity correction

data:  oldclassif and newclassif 
McNemar's chi-squared = 8.1, df = 1, p-value = 0.004427

(পি-ভ্যালু যাদুকরী 0.05 এর নীচে থাকবে যতক্ষণ না 1000 এর মধ্যে 10 টির বেশি নমুনা দুটি শ্রেণিবদ্ধ দ্বারা পৃথকভাবে পূর্বাভাস দেওয়া হয়েছিল)।

এমনকি যদি পি-ভ্যালুগুলি ভুল প্রশ্নের সঠিক উত্তর হয়, তবে এটি একটি শক্ত জায়গা বলে ইঙ্গিত দেয়।

তবে, সাধারণ বৈজ্ঞানিক অনুশীলনকে বিবেচনা করে অর্থাৎ একটি অজানা (অপ্রকাশিত) বেশ কয়েকটি নতুন বৈশিষ্ট্য পরীক্ষা করা হয়েছিল এবং কেবলমাত্র যেটি কিছুটা ভাল কাজ করেছে তা প্রকাশিত হয়েছিল, জায়গাটি আরও দৃ tight় হয়। এবং তারপরে, ৮০% শ্রেণিবদ্ধ মাত্র কিছু some৯% শ্রেণিবদ্ধের উত্তরসূরি হতে পারে ...

আপনি যদি জার্মান পড়া উপভোগ করেন তবে বেক-বর্নহোল্ড এবং ডুবেনের কিছু দুর্দান্ত বই রয়েছে। যদি আমি সঠিকভাবে মনে রাখি, মিট অ্যান্ড ওয়াহার্সচেইনলিচকেইট গ্রেনজেন্ডার শিচেরহাইটের এই সমস্যাগুলির সম্পর্কে খুব সুন্দর আলোচনা হয়েছে। (আমি জানি না যে কোনও ইংরেজি সংস্করণ আছে কিনা, শিরোনামটির পরিবর্তে আক্ষরিক অনুবাদ "সম্ভাবনার উপর একটি নির্দিষ্ট সীমানা সহ"))


1

আমি কোনও অনিয়মিত ভুল স্কোরিং নিয়ম (সংবেদনশীলতা, নির্দিষ্টতা, অনুপাতের শ্রেণিবদ্ধ হিসাবে সঠিকতা স্কোর যে বগাস মডেল অনুকূল ফলাফল যখন) এর পরিবর্তে সম্ভাবনা অনুপাত পরীক্ষা বা নতুন সংযোজন মূল্যের জন্য আংশিক এফ পরীক্ষার ব্যবহার ব্যবহারকে নিরুৎসাহিত করব ভেরিয়েবল।

অনুপাতে সঠিকভাবে শ্রেণিবদ্ধ হওয়া সমস্যাগুলি দেখার বিভিন্ন উপায়গুলির মধ্যে একটি হ'ল যদি এক বিভাগে সামগ্রিক অনুপাতটি 0.9 হয় তবে আপনি তথ্য উপেক্ষা করে এবং প্রতিটি পর্যবেক্ষণকে সেই বিভাগের হিসাবে শ্রেণিবদ্ধ করে সময়ের সঠিক 0.9 হবে।


2
হ্যাঁ কখনও কখনও নির্ভুলতা ব্যবহার করা একটি লস মেট্রিক এবং কখনও কখনও এটি একটি ভয়ঙ্কর পদ্ধতি; এটা নির্ভর করে. যদিও এটি সম্পর্কে প্রশ্নটি সম্পূর্ণরূপে স্পর্শকাতর বলে মনে হচ্ছে। একটি নতুন অ্যালগরিদম একটি পরিচিত মেট্রিক অনুযায়ী ভাল কিনা তা নির্ধারণ করার ক্ষেত্রে প্রশ্নটি প্রথম স্থানে মেট্রিক বাছাইয়ের বিষয়ে নয়।
মাইকেল ম্যাকগওয়ান

আমি মনে করি আমাদের লক্ষ্য এবং ইউটিলিটি ফাংশনগুলি যত্ন সহকারে বর্ণনা করতে হবে, এবং আমরা যদি ইউটিলিটি ফাংশন সরবরাহ করতে না চাই তবে শ্রেণিবিন্যাস সম্পাদন করার সময় কার্যকরভাবে ধরে নেওয়া হচ্ছে এমন ইউটিলিটি ফাংশনের জন্য আমাদের ব্যাকলভ করতে হবে।
ফ্র্যাঙ্ক হ্যারেল

এত বেনাম জনপদের কোনও কারণ?
chl

2
@ সিএইচএল আমি ভেবেছিলাম যে আমি ব্যাখ্যা করেছি যে আমি জিজ্ঞাসা করা প্রশ্নটির সত্যই উত্তর না দেওয়ার জন্য অগ্রাহ্য করেছি।
মাইকেল ম্যাকগওয়ান

@ মিশেলএমসিগোয়ান মেলা যথেষ্ট।
সিএল
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.