শ্রেণিবিন্যাসের পারফরম্যান্স মূল্যায়নের জন্য ক্রস-বৈধতা বা বুটস্ট্র্যাপিং?


24

কোনও নির্দিষ্ট ডেটা সেটে শ্রেণিবদ্ধের পারফরম্যান্স মূল্যায়ন করার জন্য এবং অন্যান্য শ্রেণিবদ্ধের সাথে এটির তুলনা করার জন্য স্যাম্পলিংয়ের সবচেয়ে উপযুক্ত পদ্ধতি কী? ক্রস-বৈধকরণটি স্ট্যান্ডার্ড অনুশীলন বলে মনে হয় তবে আমি পড়েছি যে .632 বুটস্ট্র্যাপের মতো পদ্ধতিগুলি আরও ভাল পছন্দ।

ফলোআপ হিসাবে: পারফরম্যান্স মেট্রিকের পছন্দটি কি উত্তরকে প্রভাবিত করে (যদি আমি নির্ভুলতার পরিবর্তে এটিসি ব্যবহার করি)?

আমার চূড়ান্ত লক্ষ্যটি কিছুটা আত্মবিশ্বাসের সাথে বলতে সক্ষম হতে হবে যে একটি মেশিন লার্নিং পদ্ধতি একটি নির্দিষ্ট ডেটাসেটের জন্য অন্যটির চেয়ে সেরা।


1
বুটস্ট্র্যাপ (প্রতিস্থাপন সহ) আপনার প্রশিক্ষণ ডেটা সেটে ব্যবহার করা যেতে পারে, যেমন, (পুনরাবৃত্তি) কে-ভাঁজ ক্রস-বৈধকরণ। আরও দেখুন: পূর্বাভাস ত্রুটিটি অনুমান করার জন্য ক্রস বৈধতা এবং বুটস্ট্র্যাপের মধ্যে পার্থক্য , বৈধতা এবং মডেল নির্বাচনের জন্য বুটস্ট্র্যাপিং বোঝা
chl

উত্তর:


42

সাধারণভাবে ক্রস বৈধকরণ এবং বুটস্ট্র্যাপের বাইরের পদ্ধতি প্রয়োগ করার ক্ষেত্রে একটি গুরুত্বপূর্ণ পার্থক্যটি হ'ল বেশিরভাগ লোক কেবল একবার ক্রস বৈধকরণ প্রয়োগ করে (যেমন প্রতিটি ক্ষেত্রে ঠিক একবার পরীক্ষা করা হয়), যখন-আউট-অফ-বুটস্ট্র্যাপ বৈধতা একটি বিশাল সংখ্যার সাথে সম্পাদিত হয় পুনরাবৃত্তি / পুনরাবৃত্তি। সেই পরিস্থিতিতে মডেল অস্থিরতার কারণে ক্রস বৈধকরণ উচ্চতর পরিবর্তনের সাপেক্ষে। যাইহোক, উদাহরণস্বরূপ পুনরাবৃত্তি / পুনরাবৃত্তি -ফোল্ড ক্রস বৈধতা ব্যবহার করে এড়ানো যায় । যদি তা হয়ে যায়, কমপক্ষে বর্ণালী সম্পর্কিত ডেটা সেটগুলির জন্য যা আমি কাজ করছি, উভয় পুনর্নির্মাণ প্রকল্পের মোট ত্রুটিটি বাস্তবে একইরকম বলে মনে হচ্ছে।

লেভ-ওয়ান-আউট ক্রস বৈধতা নিরুৎসাহিত করা হয়েছে, কারণ মডেলের অস্থিরতা-ধরণের বৈকল্পিকতা হ্রাস করার কোনও সম্ভাবনা নেই এবং এমন কিছু শ্রেণিবদ্ধ এবং সমস্যা রয়েছে যেখানে এটি একটি বিশাল হতাশাবাদী পক্ষপাতিত্ব প্রদর্শন করে।

.632 বুটস্ট্র্যাপ ততক্ষণ একটি যুক্তিসঙ্গত কাজ করে যতক্ষণ না পুনরায় মডেলিংয়ের ত্রুটি মিশ্রিত হয় খুব আশাবাদী পক্ষপাতদুষ্ট নয়। (উদাহরণস্বরূপ, আমি যে ডেটা নিয়ে কাজ করি তার জন্য, প্রচুর পরিমাণে বিভিন্ন বিস্তৃত ম্যাট্রিকগুলি, এটি খুব ভাল কাজ করে না কারণ মডেলগুলি মারাত্মক অত্যধিক মানানসই প্রবণতাযুক্ত)। এর অর্থ হ'ল আমি বিভিন্ন জটিলতার মডেলগুলির সাথে তুলনা করার জন্য .632 বুটস্ট্র্যাপ ব্যবহার করা এড়াতে চাই .632+ বুটস্ট্র্যাপের সাথে আমার অভিজ্ঞতা নেই: ওভারফিটিং যদি ঘটে থাকে এবং সঠিকভাবে সনাক্ত করা হয় তবে এটি বুটস্ট্র্যাপের মূল অনুমানের সমান হবে, তাই আমি আমার ডেটার জন্য প্লেইন oob বা পুনরাবৃত্তি / পুনরাবৃত্তি ক্রস বৈধতার সাথে আটকে থাকি।

সাহিত্য:

  • কোহাবী, আর।: সঠিকতা অনুমান এবং মডেল নির্বাচনের জন্য কৃত্রিম বুদ্ধিমত্তা প্রসেসিংস 14 তম আন্তর্জাতিক যৌথ সম্মেলন, 20 - 25. অগস্ট 1995, মন্ট্রিয়াল, কুইবেক, কানাডা, 1995, 1137 - 1145.
    (একটি ক্লাসিক )

ডুগার্টি এবং ব্রাগা-নেটোর এই বিষয়ের উপর বেশ কয়েকটি প্রকাশনা রয়েছে , যেমন

মেট্রিকের পছন্দ:

আমার চূড়ান্ত লক্ষ্যটি কিছুটা আত্মবিশ্বাসের সাথে বলতে সক্ষম হতে হবে যে একটি মেশিন লার্নিং পদ্ধতি একটি নির্দিষ্ট ডেটাসেটের জন্য অন্যটির চেয়ে সেরা।

  • এটি মূল্যায়নের জন্য জোড় করা পরীক্ষাটি ব্যবহার করুন। অনুপাতের তুলনা করার জন্য, ম্যাকনামারের পরীক্ষাটি দেখুন।

  • এর উত্তরটি মেট্রিকের পছন্দ দ্বারা প্রভাবিত হবে। যেহেতু রিগ্রেশন-ধরণের ত্রুটি ব্যবস্থাগুলি একটি থ্রেশোল্ডের সাথে সিদ্ধান্তগুলি কাটানোর "কঠোর" পদক্ষেপ না রাখে, তাদের প্রায়শই তাদের শ্রেণিবিন্যাসের অংশগুলির তুলনায় কম পার্থক্য থাকে। নির্ভুলতার মতো মেট্রিক যা মূলত অনুপাত হয় একের তুলনায় এক শ্রেণীর শ্রেণীর শ্রেষ্ঠত্ব প্রতিষ্ঠার জন্য প্রচুর পরীক্ষার কেসগুলির প্রয়োজন হবে ।

ফ্লেইস: "হার এবং অনুপাতের জন্য পরিসংখ্যান পদ্ধতি" অনুপাতের অ- সংযোজিত তুলনার জন্য উদাহরণ (এবং সারণী) দেয় । আপনাকে "বিশাল নমুনা আকার" দিয়ে আমি কী বোঝাতে চাইছি তা বোঝাতে, এই অন্য প্রশ্নের উত্তরটিতে আমার চিত্রটি দেখুন । ম্যাকনামারের মতো জোড়াযুক্ত পরীক্ষাগুলির জন্য কম পরীক্ষার প্রয়োজন, তবে আইআইআরসি অবিবাহিত পরীক্ষার জন্য প্রয়োজনীয় নমুনা আকারের সেরা ক্ষেত্রে অর্ধেক (?)।

  • শ্রেণিবদ্ধের পারফরম্যান্স (কঠোর) বৈশিষ্ট্যযুক্ত করতে আপনার সাধারণত কমপক্ষে দুটি মান যেমন আরওসি (সংবেদনশীলতা বনাম নির্দিষ্টতা) বা এর মতো একটি কাজের বক্ররেখা প্রয়োজন ।
    আমি খুব কমই সামগ্রিক নির্ভুলতা বা এউসি ব্যবহার করি, কারণ আমার অ্যাপ্লিকেশনগুলিতে সাধারণত বিধিনিষেধ থাকে যেমন স্পষ্টতার চেয়ে সংবেদনশীলতা বেশি গুরুত্বপূর্ণ, বা এই ব্যবস্থাগুলির নির্দিষ্ট সীমাটি মেটানো উচিত। আপনি যদি "একক সংখ্যা" সমষ্টি বৈশিষ্ট্যের জন্য যান তবে নিশ্চিত হয়ে নিন যে আপনি যে মডেলগুলি দেখছেন তার কার্যক্ষেত্রটি আসলে সংবেদনশীল পরিসরে রয়েছে।

  • নির্ভুলতা এবং অন্যান্য পারফরম্যান্স ব্যবস্থার জন্য যা রেফারেন্স লেবেলগুলি অনুসারে কয়েকটি শ্রেণীর জন্য পারফরম্যান্সের সংক্ষিপ্তসার করে থাকে তা নিশ্চিত করে নিন যে আপনি যে ক্লাসগুলির প্রয়োগ করতে পারবেন তার আপেক্ষিক ফ্রিকোয়েন্সিটি বিবেচনায় রেখেছেন - যা অগত্যা আপনার মতো নয় প্রশিক্ষণ বা পরীক্ষার ডেটা।

  • প্রোভোস্ট, এফ। ইত্যাদি। : 1998 সালে মেশিন লার্নিংয়ের পঞ্চদশ আন্তর্জাতিক সম্মেলনের প্রসেসিং ইনডাকশন অ্যালগরিদমগুলির তুলনা করার জন্য নির্ভুলতার আনুমানিক বিরুদ্ধে মামলা


সম্পাদনা: একাধিক শ্রেণিবদ্ধের তুলনা করা

আমি এই সমস্যাটি সম্পর্কে কিছুক্ষণ ভাবছিলাম, তবে এখনও কোনও সমাধানে পৌঁছিনি (যার সমাধান পেয়েছি এমন ব্যক্তির সাথেও আমার দেখা হয়নি)।

আমি এ পর্যন্ত যা পেয়েছি তা এখানে:

এই মুহুর্তের জন্য, আমি স্থির করেছিলাম যে "অপ্টিমাইজেশানটি সমস্ত মন্দের মূল", এবং পরিবর্তে একটি পৃথক পদ্ধতির গ্রহণ
করি : আমি হাতের সমস্যা সম্পর্কে বিশেষজ্ঞ জ্ঞানের দ্বারা যথাসম্ভব সিদ্ধান্ত নিই। এটি আসলে জিনিসগুলিকে বেশ কিছুটা সঙ্কুচিত করতে দেয়, যাতে আমি প্রায়শই মডেল তুলনা এড়াতে পারি। যখন আমাকে মডেলগুলির তুলনা করতে হবে, আমি পারফরম্যান্স অনুমানের অনিশ্চয়তা এবং বিশেষত একাধিক মডেলের তুলনা এএফআইএকে এখনও একটি অমীমাংসিত সমস্যা বলে লোকদের খুব খোলামেলা এবং স্পষ্ট মনে করার চেষ্টা করি।


সম্পাদনা 2: জোড় করা পরীক্ষাগুলি

মধ্যে মডেল, আপনি করতে পারেন দুটি ভিন্ন মডেলের (যা একটি বৃহদায়তন একাধিক তুলনা অবস্থা) মধ্যে তুলনা, আমি কিভাবে সঠিকভাবে এই কাজ করতে জানে না। তবে, জোড় করা1এন12(এন2-এন)পরীক্ষার ফলে কেবল একই পরীক্ষার ক্ষেত্রে সমস্ত মডেল যেমন পরীক্ষা করা হয়, আপনি একদিকে যেমন কেসগুলিকে "সহজ" এবং "কঠিন" ক্ষেত্রে বিভক্ত করতে পারেন, যার জন্য সমস্ত মডেল সঠিকভাবে উপস্থিত হয় (বা ভুল) পূর্বাভাস। তারা মডেলগুলির মধ্যে পার্থক্য করতে সহায়তা করে না। অন্যদিকে, "আকর্ষণীয়" কেসগুলি রয়েছে যা কিছু দ্বারা সঠিকভাবে পূর্বাভাস দেওয়া হয়েছে, তবে অন্য মডেলরা নয়। শ্রেষ্ঠত্ব বিচারের জন্য কেবল এই "আকর্ষণীয়" কেসগুলি বিবেচনা করা দরকার, "সহজ" বা "কঠিন" কেসই সে ক্ষেত্রে সহায়তা করে না। (ম্যাকনামারের পরীক্ষার পেছনের ধারণাটি আমি এইভাবে বুঝতে পারি)।

মডেলগুলির মধ্যে বৃহত্তর একাধিক তুলনার জন্য , আমি অনুমান করি যে একটি সমস্যা হ'ল আপনি যদি খুব ভাগ্যবান না হন তবে যত বেশি সংখ্যক মডেল আপনি সংক্ষিপ্ত ক্ষেত্রে তুলনা করতে পারবেন আপনি পরবর্তী বিবেচনা থেকে বাদ দিতে পারবেন: এমনকি সমস্ত মডেল তাদের ক্ষেত্রে সত্যই সমান হলেও সামগ্রিক কর্মক্ষমতা, এটা কম সম্ভবত হয়ে যে হচ্ছে একটি মামলা প্রান্ত সবসময় সঠিকভাবে (অথবা সবসময় ভুলভাবে) দ্বারা পূর্বাভাস মডেলের।এনএনএন


আপনার বিস্তারিত উত্তরের জন্য ধন্যবাদ! আপনি যে বক্তব্যটি করেছেন তা যদি আপনি বিস্তারিতভাবে বর্ণনা করতে পারেন তবে আমি সত্যিই প্রশংসা করব: " এটি মূল্যায়নের জন্য একটি জোড় পরীক্ষা ব্যবহার করুন or অনুপাতের সাথে তুলনা করার জন্য, ম্যাকনামারের পরীক্ষাটি দেখুন " "আমার প্রশ্নটি আমার সামান্য পুনর্বিবেচনা করা উচিত: আমি কয়েকটি মেশিনের তুলনা করতে চাই একযোগে শিখার পদ্ধতিগুলি কেবল জোড়া নয়। জোড় করা পরীক্ষাগুলি কীভাবে এটি সম্পাদন করতে পারে তা আমার কাছে তাত্ক্ষণিকভাবে পরিষ্কার নয়।
কেলভিন_11

3
(+6) দুর্দান্ত প্রতিক্রিয়া।
chl

এই মন্তব্যটির জন্য @cbeleites আমি আপনাকে ভালবাসি। একাধিক মডেল তুলনার তাত্পর্যটির জন্য - বৈকল্পিক বিশ্লেষণ (আনোভা) কী হবে? যেমন কৃসকল – ওয়ালিস ?
সেরেন্ডিপিটি

1
@ সেরেন্ডিপিটি: আমি এখানে উত্তর দেওয়ার জন্য সত্যই ক্রুশকল-ওয়ালিস সম্পর্কে যথেষ্ট জানি না। তবে আমি সন্দেহ করি যে আনোভা-এর মতো পদ্ধতিগুলি এখানে যা চাওয়া হয়েছে তা নয় (১) এটি ডেটাগুলির যুক্তযুক্ত প্রকৃতি ব্যবহার করে না এবং (২) একাধিক তুলনার তুলনায় এটি শক্তি অর্জন করে কারণ নাল অনুমানটি কেবল "সমস্ত মডেল" সমানভাবে সম্পাদন করুন "- যদি তা প্রত্যাখ্যান করা হয় তবে আপনি এখনও জানেন না কোন অ্যালগরিদম (গুলি) আলাদাভাবে সম্পাদন করে। সুতরাং এটি কেবল নেতিবাচক ফলাফলের উপর জোর দেওয়ার জন্য ব্যবহার করা যেতে পারে (আপনি কোন এলগরিদম চয়ন করেন তা বিবেচ্য নয়)। আমি সন্দেহ করেছি যে এখানে একটি বৃহত অঞ্চল আছে যেখানে
আনোভা

... সমান তবে আপনার কাছে আরও ভাল মডেলগুলি সনাক্ত করার জন্য প্রয়োজনীয় একাধিক তুলনা মঞ্জুরি দেওয়ার জন্য পর্যাপ্ত তথ্য নেই।
সিবিলেটগুলি

6

আপনার কেবল বুটস্ট্র্যাপে (.632, .632+) পরিবর্তন করতে হবে কারণ মূল গবেষণায় একটি বিরতিহীন ভুল স্কোরিং নিয়ম ব্যবহার করা হয়েছে (অনুপাত সঠিকভাবে শ্রেণিবদ্ধ করা হয়েছে)। অন্যান্য নির্ভুলতার স্কোরগুলির জন্য সাধারণ আশাবাদ বুটস্ট্র্যাপ সূক্ষ্মভাবে কাজ করে। আরও তথ্যের জন্য দেখুন http://biostat.mc.vanderbilt.edu/RmS# স্টুডিজ_মোথোডস_ ইউজড_ইন_এইচটি_

ভুল স্কোরিংয়ের নিয়মগুলি আপনাকে বৈশিষ্ট্য এবং তাদের ওজনগুলির পছন্দ সম্পর্কে বিভ্রান্ত করে। অন্য কথায়, ভুল হতে পারে এমন সমস্ত কিছু ভুল হয়ে যাবে।


4

থেকে 'ফলিত ভবিষ্যদ্বাণীপূর্ণ মডেলিং।, Khun। জনসন । পৃ .78

"কোনও পুনর্নির্মাণের পদ্ধতি অন্যের তুলনায় সমানভাবে উন্নত নয়; কয়েকটি কারণ বিবেচনা করার সময় পছন্দ করা উচিত the নমুনার আকারটি যদি ছোট হয় তবে আমরা বিভিন্ন কারণে বারবার 10-ভাঁজ ক্রস বৈধতা ব্যবহার করার পরামর্শ দিই; পক্ষপাত এবং বৈকল্পিক বৈশিষ্ট্যগুলি ভাল, এবং দেওয়া হয় নমুনার আকার, গণনা ব্যয় বড় নয় performance যদি পারফরম্যান্সের সেরা সূচক পাওয়ার বিপরীতে মডেলগুলির মধ্যে চয়ন করা লক্ষ্য হয় তবে বুটস্ট্র্যাপের একটি পদ্ধতি ব্যবহারের জন্য একটি শক্তিশালী কেস তৈরি করা যেতে পারে কারণ এর খুব কম বৈকল্পিক রয়েছে। বড় আকারের নমুনা আকারের জন্য, পুনরায় মডেলিং পদ্ধতির মধ্যে পার্থক্য কম প্রকট হয়ে ওঠে এবং গণনার দক্ষতা পারফরম্যান্সে বৃদ্ধি পায়। " পি। 78

তদ্ব্যতীত, দুটি অনুরূপ ফলাফলের পছন্দ দেওয়া, আরও ব্যাখ্যাযোগ্য মডেলটি সাধারণত পছন্দ করা হয়। উদাহরণ হিসাবে (একই পাঠ্য থেকে), 10 ভাঁজ সিভি ব্যবহার করে, একটি এসভিএম শ্রেণিবদ্ধের ample 66 থেকে 82২% এর মধ্যে রেজাল্ট ফলাফলের সাথে একটি 75% যথার্থতা অনুমান ছিল। একই পরামিতিগুলি একটি লজিস্টিক রিগ্রেশন শ্রেণিবদ্ধে .9৪.৯% নির্ভুলতা এবং একই পুনরায় নমুনার ব্যাপ্তিতে ব্যবহৃত হয়েছিল। ফলাফলগুলি ব্যাখ্যা করা সহজ হওয়ায় সহজ লজিস্টিক রিগ্রেশন মডেলটিকে পছন্দ করা যেতে পারে।


4
নোট করুন যে আপনি প্রচুর পরিমাণে বুটস্ট্র্যাপ / ক্রস বৈধতা পুনরাবৃত্তি / পুনরাবৃত্তি চালিয়ে যে পরিমাণটি হ্রাস করতে পারবেন তা হ'ল সারোগেট মডেলের অস্থিরতা থেকে আগত বৈকল্পিকতার অংশ part ক্রস বৈধকরণের মাধ্যমে এটি মোট বৈকল্পিকতার ক্ষেত্রে একটি বড় অবদান কিনা তা আপনি পরিমাপ করতে পারেন কারণ এটি প্রতিটি রানের সময় প্রতিটি নমুনা ঠিক একবার পরীক্ষা করে, তাই সীমাবদ্ধ নমুনার আকারের কারণে বৈকল্পিকতা সম্পূর্ণ ক্রস বৈধতা রানের গড়ের তুলনায় দেখা যায় না । "হার্ড" শ্রেণিবিন্যাসের জন্য, দ্বিপদী বিতরণ থেকে সীমাবদ্ধ আকারের কারণে আপনি বৈকল্পিক গণনা করতে পারেন।
ক্যাবিলাইটগুলি মোনিকাকে

@ ক্যাবেলাইটস: আপনি দয়া করে কী বোঝাতে চেয়েছেন তা বোঝাতে পারেন "এটি প্রতিটি রানের সময় প্রতিটি নমুনা ঠিক একবার পরীক্ষা করে, তাই সীমাবদ্ধ নমুনার আকারের কারণে বৈকল্পিকতা সম্পূর্ণ ক্রস বৈধকরণের গড়ের গড়ের তুলনায় দেখা যায় না।" (তথ্যসূত্রগুলিও খুব ভাল!) (+1 স্পষ্টভাবে)
ইউএসআর 11852 বলেছেন 0-10 এ পুনরায় স্থাপন করা মনিক

@ usεr11852: প্রতিটি ক্ষেত্রে ক্রস বৈধতা রান প্রতি ঠিক একবার পরীক্ষা করা হয়। এন_সাম্পল এক্সআর সিভি রান ফলাফলের একটি সারণীটি কল্পনা করুন। যদি আমাদের স্থিতিশীল পূর্বাভাস থাকে তবে একই কেসের সমস্ত r পূর্বাভাস একই। অর্থাৎ সারিগুলির সাথে কোনও বৈকল্পিক নেই। তবে বিভিন্ন ক্ষেত্রে বিভিন্ন পূর্বাভাস পেতে পারে (যদি না আমাদের উদাহরণস্বরূপ 100% নির্ভুলতা থাকে): কলামগুলির সাথে আমাদের বৈচিত্র রয়েছে। এখন পুনরাবৃত্ত / পুনরাবৃত্তি ক্রস সমীক্ষার মান মূল্যায়ন কলামের গড়ের তুলনা করা। স্থিতিশীল মডেল জন্য, এই ঠিক একই, যদিও আমরা না ক্ষেত্রেই মধ্যে কলাম বরাবর ভ্যারিয়েন্স, অর্থাত্ আছে।
ক্যাবেলাইটস মনিকাকে

(যদি মডেলগুলি / পূর্বাভাসগুলি অস্থিতিশীল থাকে তবে আমরা বিভিন্ন সরোগেট মডেলগুলির দ্বারা পৃথক পূর্বাভাস পাই এবং সারিগুলির পাশাপাশি ভিন্নতাও দেখতে পাই Plus এছাড়াও কলামের পাশাপাশি কিছু অতিরিক্ত প্রকার যেমন কে-ফোল্ড সিভিতে প্রতিটি কলামে কে বিভিন্ন সারোগেট মডেল coversেকে থাকে)। ) সুতরাং মডেল / ভবিষ্যদ্বাণী (ইন) স্থায়িত্ব পরিমাপের জন্য, সারিগুলির সাথে ভিন্নতার জন্য সরাসরি যেতে আরও বেশি সরাসরি হতে পারে, অর্থাত্ একই ক্ষেত্রে বিভিন্ন সারোগেট মডেলের ভবিষ্যদ্বাণীগুলির বৈকল্পিকতা ।
ক্যাবেলাইটস মনিকাকে

1
@ কেবেলাইটস: স্পষ্টির জন্য আপনাকে অনেক ধন্যবাদ। আপনি এখন আরও বেশি যে বিষয়টি তৈরি করছেন তা আমি প্রশংসা করতে পারি।
usεr11852 20-10 এ মনিকে
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.