ক্রস বৈধকরণের মধ্যে গড় (স্কোর) বনাম স্কোর (সংক্ষেপণ)


15

TLDR:

আমার ডেটাসেটটি বেশ ছোট (120) নমুনা। 10-গুণ ক্রস বৈধকরণ করার সময়, আমার উচিত:

  1. প্রতিটি পরীক্ষার ভাঁজ থেকে আউটপুট সংগ্রহ করুন, সেগুলিকে একটি ভেক্টরের সাথে একত্রীকরণ করুন, এবং তারপরে পূর্বাভাসের এই পুরো ভেক্টরের (120 নমুনা) ত্রুটিটি গণনা করুন?

  2. অথবা পরিবর্তে আমার প্রাপ্ত ফলাফলগুলিতে ত্রুটিটি গণনা করা উচিত প্রতিটি ভাঁজগুলিতে ( 12 টি নমুনা সহ) প্রাপ্ত এবং তারপরে 10 ভাঁজ ত্রুটির প্রাক্কলনের গড় হিসাবে আমার চূড়ান্ত ত্রুটি অনুমান করা উচিত?

এমন কোন বৈজ্ঞানিক কাগজপত্র রয়েছে যেগুলি এই কৌশলগুলির মধ্যে পার্থক্যকে তর্ক করে?


পটভূমি: মাল্টি-লেবেল শ্রেণিবিন্যাসে ম্যাক্রো / মাইক্রো স্কোরগুলির সাথে সম্ভাব্য সম্পর্ক:

আমি মনে করি এই প্রশ্নটি মাইক্রো এবং ম্যাক্রো গড়ের মধ্যে পার্থক্যের সাথে সম্পর্কিত হতে পারে যা প্রায়শই একটি বহু-লেবেল শ্রেণিবদ্ধকরণ কার্যে ব্যবহৃত হয় (যেমন 5 লেবেল বলুন)।

বহু-ট্যাগ সেটিং, মাইক্রো গড় স্কোর একটি করে নির্ণিত হয় রাশীকৃত 120 নমুনায় সমস্ত 5 শ্রেণিবদ্ধের পূর্বাভাসের জন্য সত্য ধনাত্মক, মিথ্যা ধনাত্মক, সত্য নেতিবাচক, মিথ্যা নেতিবাচক সংঘটন সারণী । এই কন্টিনজেন্সি টেবিলটি তখন মাইক্রো স্পষ্টতা, মাইক্রো রিকল এবং মাইক্রো এফ-পরিমাপের গণনা করতে ব্যবহৃত হয়। সুতরাং যখন আমাদের 120 টি নমুনা এবং পাঁচটি শ্রেণিবদ্ধ রয়েছে, তখন মাইক্রো ব্যবস্থা 600 অনুমান (120 নমুনা * 5 লেবেল) এর উপর ভিত্তি করে গণনা করা হয়।

ম্যাক্রো ভেরিয়েন্ট ব্যবহার করার সময় , প্রতিটি লেবেলে স্বতন্ত্রভাবে পরিমাপগুলি (যথার্থতা, প্রত্যাহার ইত্যাদি) গণনা করা হয় এবং শেষ পর্যন্ত, এই ব্যবস্থাগুলির গড় হয়।

মাইক্রো বনাম ম্যাক্রো অনুমানের মধ্যে পার্থক্যের পিছনে ধারণাটি বাইনারি শ্রেণিবদ্ধকরণ সমস্যায় কে-ফোল্ড সেটিংয়ে করা যেতে পারে to 10 ভাঁজ আমরা হয় পারেন গড় 10 মান ( ম্যাক্রো পরিমাপ) অথবা 10 পরীক্ষানিরীক্ষা কনক্যাটেনেট এবং গনা মাইক্রো ব্যবস্থা।

পটভূমি - প্রসারিত উদাহরণ:

নিম্নলিখিত উদাহরণটি প্রশ্নের চিত্র তুলে ধরেছে। ধরা যাক আমাদের 12 টি পরীক্ষার নমুনা রয়েছে এবং আমাদের 10 টি ভাঁজ রয়েছে:

  • ভাঁজ 1 : টিপি = 4, এফপি = 0, টিএন = 8 যথার্থ = 1.0
  • ভাঁজ 2 : টিপি = 4, এফপি = 0, টিএন = 8 যথার্থ = 1.0
  • ভাঁজ 3 : টিপি = 4, এফপি = 0, টিএন = 8 যথার্থতা = 1.0
  • ভাঁজ 4 : টিপি = 0, এফপি = 12, যথার্থ = 0
  • ভাঁজ 5 .. ভাঁজ 10 : সবার একই টিপি = 0, এফপি = 12 এবং যথার্থ = 0 থাকে have

যেখানে আমি নিম্নলিখিত স্বরলিপি ব্যবহার করেছি:

সত্য ধনাত্মকগুলির টিপি = #, এফপি = # মিথ্যা ইতিবাচক, সত্য নেতিবাচকদের টিএন = #

ফলাফলগুলি হ'ল:

  • 10 ভাঁজ = 3/10 = 0.3 এ জুড়ে গড় নির্ভুলতা
  • 10 ভাঁজ = টিপি / টিপি + এফপি = 12/12 + 84 = 0.125 এর পূর্বাভাসের সংমিশ্রণের উপর যথার্থতা

নোট করুন যে 0.3 এবং 0.125 মানগুলি খুব আলাদা !


ভবিষ্যতে পারফরম্যান্সের পূর্বাভাস দেওয়ার পক্ষে সিভি আসলেই দুর্দান্ত মাপকাঠি নয়। বৈকল্পিকটি খুব ছোট। আপনার মডেলটি যাচাই করার জন্য বুটস্ট্র্যাপ সহ আরও ভাল।
ব্যবহারকারী765195

2
@ ব্যবহারকারী 765195: আপনি কিছু উদ্ধৃতি দিয়ে নিজের দাবিটি ব্যাকআপ করতে পারবেন?
জাচ

আমি সন্ধান করছি কিন্তু সমষ্টিগত সিভি পদ্ধতি সম্পর্কিত কোনও সাহিত্যের সন্ধান পাইনি। এটি পরিমাপের কম বৈকল্পিক হওয়ায় এটি গণনা করার আরও উপযুক্ত উপায় বলে মনে হচ্ছে।
ব্যবহারকারী 13420

1
: @Zach, কিছু আলোচনা এখানে Harrell এর বই এর tinyurl.com/92fsmuv আমি অন্য রেফারেন্স যে আরো স্পষ্ট হয় মনে রাখবেন করার চেষ্টা করব (পৃষ্ঠা 93 গত অনুচ্ছেদ এবং পৃষ্ঠা 94. প্রথম অনুচ্ছেদে বর্ণন)।
ব্যবহারকারী765195

1

উত্তর:


3

বর্ণিত পার্থক্য হ'ল আইএমএইচও বোগাস।

আপনি কেবল তখনই তা পর্যবেক্ষণ করতে পারবেন যদি সত্যিকারের ইতিবাচক কেসগুলির বিতরণ (যেমন রেফারেন্স পদ্ধতিটি এটি ইতিবাচক ক্ষেত্রে বলে) ভাঁজগুলির তুলনায় খুব অসম হয় (উদাহরণস্বরূপ) এবং প্রাসঙ্গিক পরীক্ষার মামলার সংখ্যা (পারফরম্যান্স পরিমাপের বিভাজন আমরা বলছি, এখানে প্রকৃত ইতিবাচক) ভাঁজ গড় গড় যখন বিবেচনা করা হয় না।

যদি আপনার প্রথম তিন ভাগে গড় ওজন হয় 412=13 (যেহেতু মোট 12 টি ক্ষেত্রে যথাযথ গণনার জন্য প্রাসঙ্গিক 4 টির মধ্যে 4 টি পরীক্ষার ঘটনা ছিল), এবং শেষ 6 টি 1 এর সাথে গড়ে গড় (যথাযথ গণনার জন্য প্রযোজ্য সমস্ত পরীক্ষার কেস), ওজনিত গড় আপনি ঠিক একই ' ডি 10 ভাজগুলির পূর্বাভাস পুলিং এবং তারপরে নির্ভুলতার গণনা থেকে পান।


সম্পাদনা: বৈধতা পুনরাবৃত্তি / পুনরাবৃত্তি সম্পর্কেও মূল প্রশ্নটি জিজ্ঞাসা করেছিল:


সেখান থেকে আপনি আপনার মডেলগুলির পূর্বাভাসগুলির স্থায়িত্ব সম্পর্কে ধারণা পেতে পারেন

  • কিছু প্রশিক্ষণের নমুনা বিনিময় করে প্রশিক্ষণের ডেটা বিভ্রান্ত করা হলে ভবিষ্যদ্বাণীগুলির কতটা পরিবর্তন হবে?
  • অর্থাৎ, বিভিন্ন "সারোগেট" মডেলগুলির পূর্বাভাস একই পরীক্ষার নমুনার জন্য কতটা আলাদা?

আপনি বৈজ্ঞানিক কাগজপত্র চেয়েছিলেন :

অবমূল্যায়ন বৈকল্পিক পরিণামে, আপনার ডেটা সেটটিতে সুনির্দিষ্ট (n = 120) নমুনা আকার রয়েছে, আপনি যতগুলি পুনরায় বুটস্ট্র্যাপ বা ক্রস বৈধতা যাচ্ছেন তা নির্বিশেষে size

  • আপনার (কমপক্ষে) বৈকল্পিকতার 2 উত্স পুনর্নির্মাণের (ক্রস বৈধকরণ এবং বুটস্ট্র্যাপের বাইরে) বৈধতার ফলাফল রয়েছে:

    • সীমাবদ্ধ (পরীক্ষার) নমুনার সংখ্যার কারণে বৈকল্পিকতা
    • সারোগেট মডেলগুলির পূর্বাভাসের অস্থিরতার কারণে বৈকল্পিকতা
  • যদি আপনার মডেলগুলি স্থিতিশীল হয় তবে

    • পুনরাবৃত্তি ফোল্ড ক্রস বৈধকরণের প্রয়োজন ছিল না (তারা পারফরম্যান্সের প্রাক্কলনের প্রাক্কলনটিকে উন্নত করে না: ক্রসের বৈধতার প্রতিটি রানের গড় গড় একই)।
    • তবে, পরীক্ষার সীমাবদ্ধতার সীমাবদ্ধতার কারণে পারফরম্যান্সের অনুমানটি এখনও বৈচিত্রের বিষয়।
    • যদি আপনার ডেটা স্ট্রাকচারটি "সাধারণ" হয় (অর্থাত্ প্রতিটি পরিসংখ্যানগতভাবে স্বতন্ত্র ক্ষেত্রে একক পরিমাপের ভেক্টর), আপনি ধরে নিতে পারেন যে পরীক্ষার ফলাফলগুলি একটি বার্নোল্লি প্রক্রিয়া (মুদ্রা নিক্ষেপ) এর ফলাফল এবং সসীম-পরীক্ষা-সেট বৈকল্পিক গণনা করে।
  • এন


এছাড়াও, আমি চারটি শ্রেণিবদ্ধের সাথে মাল্টি-লেবেল শ্রেণিবদ্ধকরণ করছি। সুতরাং আমি 4 টি কার্য জুড়ে মাইক্রো এবং ম্যাক্রো এফ-ব্যবস্থাগুলি সন্ধান করতে চাই। আমি ধরে নিই "একত্রিত" ক্রস-বৈধতা এই ক্ষেত্রে এমনকি প্রয়োজনীয় হবে? এছাড়াও আমি নিশ্চিত নই যে আমি উপরে উল্লিখিত "সম্মিলিত" সিভি পদ্ধতির মতো বুটস্ট্র্যাপটি একই কিনা। Stats.stackex بدل
Quetions/

@ ইউজার ১৩৪২০: আপনি সম্মিলিত সিভি দিয়ে কী বোঝাতে চাইছেন তা আমি নিশ্চিত নই ... এখানে একটি উত্তর রয়েছে যেখানে আমি লিখেছিলাম যে আউট-অফ-বুটস্ট্র্যাপ এবং ক্রস বৈধতা আমার কাছে কী বোঝায়: stats.stackexchange.com/a/26548/4598
সিবেলাইট সমর্থন করে মনিকা

@ ব্যবহারকারী 13420: টার্মিনোলজি বিভিন্ন ক্ষেত্রে খুব আলাদা। মাইক্রো এবং ম্যাক্রো এফ-ব্যবস্থা কী কী তথ্য দিয়ে আপনার উত্তর আপডেট করতে পারবেন? যাইহোক, ক্রস বৈধকরণ খুব সাধারণ কৌশল: এটি মডেল পরীক্ষার ফলাফলগুলির কম্পিউটিংয়ের জন্য একটি পরিকল্পনা। আপনি প্রতিটি কেসের জন্য রেফারেন্স মান এবং প্রতিটি মামলার পূর্বাভাসিত মান হিসাবে প্রয়োজনীয় যে কোনও পারফরম্যান্স পরিমাপ গণনা করতে পারেন।
ক্যাবেলাইটস মনিকে

সম্মিলিত সিভির অর্থ হ'ল আপনি প্রতিটি হোল্ডআউটের পূর্বাভাস সংগ্রহ করেছেন এবং সমস্ত 10 টি হোল্ডআউট পরে পরিমাপটি গণনা করবেন। সুতরাং, আমি যদি যথার্থতা পরিমাপ করি, একটি শ্রেণিবদ্ধকরণ কার্যের জন্য প্রত্যাহার করি, তবে এটির একটি একক নির্ভুলতা থাকতে হবে, 10 টি মান এবং গড়ের বিপরীতে পুনরায় স্মরণ করুন (যা সাধারণ সিভিতে হয়)
ব্যবহারকারী 13420

2
ধন্যবাদ ক্যাবেলাইটস - আমি এই স্পষ্টতাগুলি যুক্ত করেছি কারণ আমি মূল প্রশ্নের শব্দটিকে কিছুটা বিভ্রান্তিকর বলে খুঁজে পেয়েছি। আমি আশা করি আমার সম্পাদনাগুলি উন্নতির জন্য ছিল - আমি দ্বিধা আরও ভালভাবে তুলে ধরার চেষ্টা করেছি - তবে দয়া করে অন্যথায় আমাকে জানান let যা যা বলা হয়েছিল, যখন আপনি উল্লেখ করেছেন যে আপনি এই পার্থক্যটি বোগাস পেয়েছেন - আমি মনে রাখতে চাই যে @ ব্যবহারকারী 13420 1 বা 2 অনুসরণ করার সময় তার ওপির নীচে দুটি দুটি ভিন্ন ভিন্ন ফলাফল পায় । আমি নিজেই এই দ্বিধাটির মুখোমুখি হয়েছি। আমি বিশ্বাস করি ২ য় পন্থা যদিও বেশি সাধারণ তবে এটি আপনার গ্রহণ করা ভাল লাগবে।
জোশ

1

আপনার স্কোর করা উচিত (কনটেন্টেশন)। এটি ক্ষেত্রে একটি সাধারণ ভুল ধারণা যার অর্থ (স্কোর) সর্বোত্তম উপায়। এটি আপনার প্রাক্কলন হিসাবে বিশেষত বিরল শ্রেণীর ক্ষেত্রে আরও পক্ষপাতিত্ব প্রবর্তন করতে পারে। এখানে একটি কাগজ এটি সমর্থন করছে:

http://www.kdd.org/exploration_files/v12-1-p49-forman-sigkdd.pdf

কাগজে, তারা আপনার "গড় (স্কোর)" এর পরিবর্তে "Favg" এবং আপনার "স্কোর (কনটেন্টেশন)" এর স্থানে "Ftp, fp" ব্যবহার করে

খেলনা উদাহরণ:

কল্পনা করুন যে আপনার 10 টি ভাঁজ ক্রস বৈধতা এবং একটি শ্রেণি রয়েছে যা 10 বার প্রদর্শিত হয় এবং এটি বরাদ্দ করা হয় যাতে প্রতিটি ভাঁজটিতে এটি একবার উপস্থিত হয়। এছাড়াও বর্গটি সর্বদা সঠিকভাবে পূর্বাভাস দেওয়া হয় তবে ডেটাগুলিতে একক মিথ্যা-পজিটিভ রয়েছে। মিথ্যা ধনাত্মকযুক্ত পরীক্ষার ভাঁজটিতে 50% নির্ভুলতা থাকবে, অন্য সমস্ত ভাঁজগুলিতে 100% থাকবে। সুতরাং গড় (স্কোর) = 95%। অন্যদিকে, স্কোর (সমঝোতা) 10/11, প্রায় 91%।

যদি আমরা ধরে নিই যে সত্য জনসংখ্যা উপাত্ত দ্বারা উপস্থাপিত, এবং 10 ক্রস-বৈধকরণ শ্রেণিবদ্ধকারীগুলি চূড়ান্ত শ্রেণিবদ্ধের প্রতিনিধিত্ব করে তবে বাস্তব বিশ্বের যথার্থতা 91% হবে এবং 95% এর গড় (স্কোর) প্রাক্কলনটি পক্ষপাতদুষ্ট ।

অনুশীলনে, আপনি এই অনুমানগুলি তৈরি করতে চাইবেন না। পরিবর্তে আপনি এলোমেলোভাবে ডেটা অনুমতি দিয়ে এবং একাধিকবার পুনরায় কম্পিউটিং স্কোর (কনটেন্টেশন), পাশাপাশি বুটস্ট্র্যাপিংয়ের মাধ্যমে আস্থা অর্জনের পরিসংখ্যান ব্যবহার করতে পারেন।


এটি একটি দুর্দান্ত কাগজ! আমি মনে করি মূল প্রশ্নের ভাষার ভাষায় ফলাফল (কাগজে ব্যবহৃত হয় না) এফ স্কোর গণনা করার সময় একটি "মাইক্রো এভারেজিং" পদ্ধতির ব্যবহার করা হয়; বিশেষত, সমস্ত ভাঁজ থেকে টিপি, টিএন, এফপি, এফএন যোগ করুন, একটি একক বিভ্রান্তির ম্যাট্রিক্স পেতে এবং তারপরে এফ স্কোর (বা অন্যান্য পছন্দসই মেট্রিক) গণনা করুন।
travelingbones
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.