স্তরিত ক্রস-বৈধতা বোঝা


54

স্তরিত ক্রস-বৈধকরণ এবং ক্রস-বৈধকরণের মধ্যে পার্থক্য কী ?

উইকিপিডিয়া বলেছেন:

ইন স্তরীভূত K-ধা ক্রস বৈধতা , ভাঁজ নির্বাচন করা হয়, যাতে গড় প্রতিক্রিয়া মান সব ভাঁজ প্রায় সমান। দ্বিগুণ শ্রেণিবিন্যাসের ক্ষেত্রে, এর অর্থ হ'ল প্রতিটি ভাগে দুটি ধরণের শ্রেণির লেবেলের প্রায় একই অনুপাত থাকে।

তবে আমি এখনও বিভ্রান্ত।

  1. mean response valueএই প্রসঙ্গে অর্থ কী ?
  2. # 1 গুরুত্বপূর্ণ কেন?
  3. বাস্তবে কেউ কীভাবে # 1 অর্জন করতে পারে?

উত্তর:


43

ডাটাবেস সিস্টেমগুলির এনসাইক্লোপিডিয়ায় ক্রস-বৈধতা নিবন্ধটি বলে:

স্ট্র্যাটিফিকেশন হ'ল ডাটাগুলি পুনরায় সাজানোর প্রক্রিয়া যাতে প্রতিটি ভাঁজ সম্পূর্ণরূপে একটি ভাল প্রতিনিধি হিসাবে নিশ্চিত হয়। উদাহরণস্বরূপ, বাইনারি শ্রেণিবদ্ধকরণ সমস্যা যেখানে প্রতিটি বর্গের ৫০% ডেটা থাকে, তথ্যের ব্যবস্থা এমনভাবে করা ভাল যে প্রতিটি ভাগে প্রতিটি শ্রেণীর প্রায় অর্ধেকটি উদাহরণ থাকে।

স্তরবিন্যাসের গুরুত্ব সম্পর্কে কোহাবী (সঠিকতা অনুমান এবং মডেল নির্বাচনের জন্য ক্রস-বৈধতা এবং বুটস্ট্র্যাপের একটি গবেষণা) এই সিদ্ধান্তে পৌঁছেছে যে:

নিয়মিত ক্রস-বৈধকরণের সাথে তুলনা করা গেলে পক্ষপাত এবং বৈকল্পিকতার দিক থেকে স্তচিক্যকরণ সাধারণত একটি ভাল পরিকল্পনা।


5
আপনি স্বজ্ঞাতভাবে বর্ণনা করতে পারেন, কেন এটি নিয়মিত সিভি ভাল?
মোহাম্মদজেজ

সম্ভবত এমন একটি অনুচ্ছেদে অন্তর্ভুক্ত করুন যেগুলি লক্ষ্যমাত্রার জন্য বিভিন্ন স্তরের স্তরবিন্যাস রয়েছে এবং তারা ভাঁজগুলির এলোমেলোভাবে বিভিন্ন ডিগ্রীতে হস্তক্ষেপ করে। কখনও কখনও, আপনার যা প্রয়োজন তা হ'ল প্রতিটি ভাগে প্রতিটি শ্রেণির কমপক্ষে একটি রেকর্ড রয়েছে তা নিশ্চিত করা। তারপরে আপনি কেবল এলোমেলোভাবে ভাঁজগুলি তৈরি করতে পারেন, শর্তটি পূরণ হয়েছে কিনা তা যাচাই করুন এবং কেবল সম্ভাবনাময় ক্ষেত্রেই এটি ভাঁজগুলিতে রদবদল হয়নি।
ডেভিড আর্নস্ট

37

স্ট্র্যাটিফিকেশন প্রতিটি ভাঁজ ডেটার সমস্ত স্তরের প্রতিনিধি কিনা তা নিশ্চিত করার চেষ্টা করে। সাধারণত এটি শ্রেণিবদ্ধকরণের জন্য তত্ত্বাবধায়ক উপায়ে করা হয় এবং প্রতিটি শ্রেণি (প্রায়) সমানভাবে প্রতিটি পরীক্ষার ভাঁজ জুড়ে প্রতিনিধিত্ব করা নিশ্চিত করা হয় (যা অবশ্যই প্রশিক্ষণের ভাঁজ গঠনের পরিপূরক উপায়ে সংযুক্ত করা হয়)।

এর পিছনে স্বজ্ঞাততা বেশিরভাগ শ্রেণিবদ্ধকরণ অ্যালগরিদমের পক্ষপাতের সাথে সম্পর্কিত। তারা প্রতিটি উদাহরণকে সমানভাবে ওজন করতে থাকে যার অর্থ ওপরে উপস্থাপিত শ্রেণিগুলি খুব বেশি ওজন পায় (যেমন এফ-পরিমাপ, নির্ভুলতা বা ত্রুটির পরিপূরক রূপ) form স্তবায়ন একটি অ্যালগরিদমের পক্ষে এতটা গুরুত্বপূর্ণ নয় যে প্রতিটি শ্রেণীর সমানভাবে ওজন করে (যেমন কপ্পা, ইনফরমেশন বা আরওসি এউসি অনুকূল করে) বা ব্যয় ম্যাট্রিক্স অনুসারে (যেমন প্রতিটি বর্গকে সঠিকভাবে ওজনযুক্ত এবং / অথবা প্রতিটি উপায়ে একটি ব্যয় দেয়) misclassifying)। দেখুন, যেমন ডিএমডাব্লু পাওয়ারস (2014), এফ-পরিমাপ কী পরিমাপ করে না: বৈশিষ্ট্য, ত্রুটি, ত্রুটি এবং স্থিরতা। http://arxiv.org/pdf/1503.06410

একটি নির্দিষ্ট সমস্যা যা এমনকি পক্ষপাতহীন বা ভারসাম্যযুক্ত অ্যালগরিদম জুড়ে গুরুত্বপূর্ণ, তারা হ'ল এমন একটি শ্রেণি শিখতে বা পরীক্ষা করতে সক্ষম হবে না যা একটি ভাঁজগুলিতে একেবারেই উপস্থাপিত নয়, এবং এমনকি এমন ক্ষেত্রে এমনকি যেখানে কেবলমাত্র এক শ্রেণীর মধ্যে একটি রয়েছে case একটি ভাঁজ মধ্যে প্রতিনিধিত্ব সাধারণ সম্পাদন শ্রদ্ধা অনুমতি দেয় না। মূল্যায়ন করেন। তবে এমনকি এই বিবেচনাটি সর্বজনীন নয় এবং উদাহরণস্বরূপ এক-শ্রেণীর শিক্ষার ক্ষেত্রে এতটা প্রযোজ্য নয়, যা কোনও পৃথক শ্রেণীর জন্য সাধারণ কী তা নির্ধারণ করার চেষ্টা করে এবং ক্রস-বৈধকরণের ভিত্তিতে বহিরাগতদের আলাদা শ্রেণি হিসাবে কার্যকরভাবে চিহ্নিত করে নির্দিষ্ট পরিসংখ্যান উত্পাদন না করে পরিসংখ্যান নির্ধারণ সম্পর্কে।

অন্যদিকে, তত্ত্বাবধানযুক্ত স্তরেরকরণ মূল্যায়নের প্রযুক্তিগত বিশুদ্ধতার সাথে আপোষ করে কারণ পরীক্ষার ডেটাগুলির লেবেলগুলি প্রশিক্ষণের উপর প্রভাব ফেলবে না, তবে প্রশিক্ষণের উদাহরণগুলির নির্বাচনের ক্ষেত্রে স্তরবিন্যাস ব্যবহৃত হয়। সত্য শ্রেণীর নয়, কেবলমাত্র ডেটার বৈশিষ্ট্যগুলি দেখার জন্য প্রায় একই রকমের ডেটা ছড়িয়ে দেওয়ার ভিত্তিতে আনসুপভাইজড স্ট্রেটিফিকেশনও সম্ভব। দেখুন, উদাহরণস্বরূপ http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.469.8855 এনএ ডায়াম্যানটিডিস, ডি কার্লিস, ইএ গিয়াকৌমাকিস (1997), যথার্থতা অনুমানের জন্য ক্রস-বৈধকরণের অকার্যকর স্তরবিন্যাস।

শ্রেণিবিন্যাসের পরিবর্তে স্ট্র্যাটিফিকেশনটি রিগ্রেশনকেও প্রয়োগ করা যেতে পারে, সেক্ষেত্রে নিরীক্ষণযোগ্য স্তরবিন্যাসের মতো পরিচয় ব্যবহারের চেয়ে সাদৃশ্য ব্যবহৃত হয় তবে তত্ত্বাবধানে থাকা সংস্করণটি সত্যিকারের ফাংশন মানটি ব্যবহার করে।

আরও জটিলতাগুলি বিরল শ্রেণি এবং বহুবিধ শ্রেণিবিন্যাস, যেখানে একাধিক (স্বতন্ত্র) মাত্রায় শ্রেণিবিন্যাস করা হচ্ছে। এখানে সমস্ত মাত্রা জুড়ে সত্য লেবেলের টিপলগুলি ক্রস-বৈধকরণের উদ্দেশ্যে শ্রেণি হিসাবে বিবেচনা করা যেতে পারে। তবে, সমস্ত সংমিশ্রণগুলি অগত্যা ঘটে না এবং কিছু সংমিশ্রণ বিরল হতে পারে। বিরল ক্লাস এবং বিরল সংমিশ্রণগুলি এমন একটি সমস্যা যে কোনও শ্রেণি / সংমিশ্রণ ঘটে যা কমপক্ষে একবার হলেও ঘটে থাকে তবে কে বারের চেয়ে কম (কে-সিভিতে) সমস্ত পরীক্ষার ভাগে প্রতিনিধিত্ব করতে পারে না। এ জাতীয় ক্ষেত্রে, পরিবর্তিত স্তরের স্তরের স্তরের পরিবর্তনের জন্য নমুনা তৈরি করা যেতে পারে (প্রত্যাশিত পুনরাবৃত্তিগুলির সাথে একটি পূর্ণ আকারের প্রশিক্ষণের ভাঁজ তৈরির জন্য প্রতিস্থাপনের সাথে নমুনা দেওয়া এবং পরীক্ষার জন্য নির্বাচিত প্রতিটি শ্রেণীর একটি উদাহরণ পরীক্ষার জন্য প্রতিস্থাপন ছাড়াই প্রাথমিকভাবে নির্বাচিত হওয়া) ।

মাল্টিলেবল স্ট্র্যাটিফিকেশনের আরেকটি পদ্ধতি হ'ল সংমিশ্রনের প্রতিনিধি নির্বাচন নিশ্চিত না করে প্রতিটি শ্রেণীর মাত্রা পৃথকভাবে স্ট্র্যাটিফাই বা বুটস্ট্র্যাপ করার চেষ্টা করা। লেবেল এল এর জন্য এল লেবেল এবং এন দৃষ্টান্ত এবং ক্লাস কে এর কে কে এল দৃষ্টান্ত সহ, আমরা এলোমেলোভাবে লেবেল দৃষ্টান্তগুলি ডি কে এল এর আনুমানিক N / LKkl দৃষ্টান্তের সেট থেকে বেছে নিতে পারি (প্রতিস্থাপন ব্যতীত) can এটি সর্বোত্তম ভারসাম্য নিশ্চিত করে না বরং বরং ভারসাম্যহীনভাবে ভারসাম্য চেয়েছে। কোনও বিকল্প না থাকলে (কিছু সংমিশ্রণ ঘটে না বা বিরল হয়) তবে কোটাতে বা তার বেশি লেবেল নির্বাচন বন্ধ করে এটি উন্নত করা যেতে পারে। সমস্যাগুলির অর্থ হ'ল খুব অল্প ডেটা আছে বা মাত্রাটি স্বতন্ত্র নয়।


5

গড় ভাড়ার মধ্যে গড় প্রতিক্রিয়া মান প্রায় সমান এবং সমস্ত ভাগে প্রতিটি শ্রেণির অনুপাত প্রায় সমান বলে বলার অন্য উপায় another

উদাহরণস্বরূপ, আমাদের কাছে 80 ক্লাস 0 রেকর্ড এবং 20 ক্লাস 1 রেকর্ড সহ একটি ডেটাসেট রয়েছে। আমরা (80 * 0 + 20 * 1) / 100 = 0.2 এর একটি গড় প্রতিক্রিয়া মান পেতে পারি এবং আমরা 0.2 সব ভাজগুলির গড় প্রতিক্রিয়া মান হতে চাই। এটি দেওয়া ডেটাसेट গণনার পরিবর্তে ভারসাম্যহীন হয় কি না তা পরিমাপ করারও এডিএর দ্রুত উপায়।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.