সাধারণভাবে ক্রস বৈধকরণ এবং বুটস্ট্র্যাপের বাইরের পদ্ধতি প্রয়োগ করার ক্ষেত্রে একটি গুরুত্বপূর্ণ পার্থক্যটি হ'ল বেশিরভাগ লোক কেবল একবার ক্রস বৈধকরণ প্রয়োগ করে (যেমন প্রতিটি ক্ষেত্রে ঠিক একবার পরীক্ষা করা হয়), যখন-আউট-অফ-বুটস্ট্র্যাপ বৈধতা একটি বিশাল সংখ্যার সাথে সম্পাদিত হয় পুনরাবৃত্তি / পুনরাবৃত্তি। সেই পরিস্থিতিতে মডেল অস্থিরতার কারণে ক্রস বৈধকরণ উচ্চতর পরিবর্তনের সাপেক্ষে। যাইহোক, উদাহরণস্বরূপ পুনরাবৃত্তি / পুনরাবৃত্তি -ফোল্ড ক্রস বৈধতা ব্যবহার করে এড়ানো যায় । যদি তা হয়ে যায়, কমপক্ষে বর্ণালী সম্পর্কিত ডেটা সেটগুলির জন্য যা আমি কাজ করছি, উভয় পুনর্নির্মাণ প্রকল্পের মোট ত্রুটিটি বাস্তবে একইরকম বলে মনে হচ্ছে।ট
লেভ-ওয়ান-আউট ক্রস বৈধতা নিরুৎসাহিত করা হয়েছে, কারণ মডেলের অস্থিরতা-ধরণের বৈকল্পিকতা হ্রাস করার কোনও সম্ভাবনা নেই এবং এমন কিছু শ্রেণিবদ্ধ এবং সমস্যা রয়েছে যেখানে এটি একটি বিশাল হতাশাবাদী পক্ষপাতিত্ব প্রদর্শন করে।
.632 বুটস্ট্র্যাপ ততক্ষণ একটি যুক্তিসঙ্গত কাজ করে যতক্ষণ না পুনরায় মডেলিংয়ের ত্রুটি মিশ্রিত হয় খুব আশাবাদী পক্ষপাতদুষ্ট নয়। (উদাহরণস্বরূপ, আমি যে ডেটা নিয়ে কাজ করি তার জন্য, প্রচুর পরিমাণে বিভিন্ন বিস্তৃত ম্যাট্রিকগুলি, এটি খুব ভাল কাজ করে না কারণ মডেলগুলি মারাত্মক অত্যধিক মানানসই প্রবণতাযুক্ত)। এর অর্থ হ'ল আমি বিভিন্ন জটিলতার মডেলগুলির সাথে তুলনা করার জন্য .632 বুটস্ট্র্যাপ ব্যবহার করা এড়াতে চাই । .632+ বুটস্ট্র্যাপের সাথে আমার অভিজ্ঞতা নেই: ওভারফিটিং যদি ঘটে থাকে এবং সঠিকভাবে সনাক্ত করা হয় তবে এটি বুটস্ট্র্যাপের মূল অনুমানের সমান হবে, তাই আমি আমার ডেটার জন্য প্লেইন oob বা পুনরাবৃত্তি / পুনরাবৃত্তি ক্রস বৈধতার সাথে আটকে থাকি।
সাহিত্য:
- কোহাবী, আর।: সঠিকতা অনুমান এবং মডেল নির্বাচনের জন্য কৃত্রিম বুদ্ধিমত্তা প্রসেসিংস 14 তম আন্তর্জাতিক যৌথ সম্মেলন, 20 - 25. অগস্ট 1995, মন্ট্রিয়াল, কুইবেক, কানাডা, 1995, 1137 - 1145.
(একটি ক্লাসিক )
ডুগার্টি এবং ব্রাগা-নেটোর এই বিষয়ের উপর বেশ কয়েকটি প্রকাশনা রয়েছে , যেমন
ডঘের্টি, ইআর এট আল। : শ্রেণিবদ্ধকরণ বর্তমান বায়োইনফরম্যাটিকস, 2010, 5, 53-67 এর জন্য ত্রুটি অনুমানের পারফরম্যান্স
বেলাইটস, সি। এট। : স্পার্স ডেটাসেট চেমোম ইন্টেল ল্যাব সিস্ট, ২০০৫, ,৯, ৯১ - ১০০ ব্যবহার করে শ্রেণিবিন্যাসের ত্রুটি অনুমানের ক্ষেত্রে বৈচিত্র্য হ্রাস -
আমাদের কেবল একটি বার ক্রস বৈধকরণ বা পুনরাবৃত্তি / পুনরাবৃত্তি করার একটি তুলনা আছে এবং এটি বুটস্ট্র্যাপ এবং 63 .২-এর সাথে তুলনা করে have বুটস্ট্র্যাপ পাশাপাশি মাল্টি-কোলাইনারিটি সহ বিস্তৃত ডেটাগুলির জন্য।
কিম, জে-এইচ .: শ্রেণিবিন্যাস ত্রুটির হার অনুমান করা: পুনরাবৃত্তি ক্রস-বৈধকরণ, পুনরাবৃত্তি হোল্ড-আউট এবং বুটস্ট্র্যাপ, গণনা সংক্রান্ত পরিসংখ্যান ও ডেটা বিশ্লেষণ, 2009, 53, 3735 - 374
এছাড়াও খুঁজে পাওয়া যায় যে পুনরাবৃত্তি / পুনরাবৃত্তি -ফোল্ড ক্রস বৈধতা এবং আউট-বুটস্ট্র্যাপের একই কর্মক্ষমতা রয়েছে (কেবল একবার ক্রস বৈধকরণের বিপরীতে)।ট
মেট্রিকের পছন্দ:
অ্যাকুয়ের (যার মধ্যে @ ফ্র্যাঙ্কহারেল আপনাকে বলবে যে এটি একটি খারাপ পছন্দ কারণ এটি সঠিক স্কোরিং নিয়ম নয় ) উচ্চতর বৈকল্পিকতার কারণ এটি প্রতিটি ক্ষেত্রেই একেবারে সঠিক বা সম্পূর্ণরূপে ভুল হিসাবে গণ্য হয়, এমনকি শ্রেণিবদ্ধের পূর্বাভাস যেমন কেবল eg০ পরীক্ষার ক্ষেত্রে প্রশ্নযুক্ত শ্রেণীর অন্তর্ভুক্ত হওয়ার জন্য% উত্তরোত্তর সম্ভাবনা। একটি যথাযথ স্কোরিং নিয়ম উদাহরণস্বরূপ, বেরিয়ারের স্কোর যা রিগ্রেশন-এর স্কোয়ার ত্রুটির সাথে ঘনিষ্ঠভাবে জড়িত।
: গড় বর্গ ত্রুটি analoga সঠিকতা, সংবেদনশীলতা, নির্দিষ্টতা, ভবিষ্যদ্বাণীপূর্ণ মান মত অনুপাত জন্য উপলব্ধ রয়েছে Beleites, সি এট অল। : আংশিক শ্রেণীর সদস্যতা ব্যবহার করে নরম শ্রেণিবদ্ধকরণের মডেলগুলির বৈধতা: অ্যাস্ট্রোকাইটোমা টিস্যুগুলির গ্রেডিংয়ের ক্ষেত্রে সংবেদনশীলতা এবং কো এর একটি বর্ধিত ধারণা প্রয়োগ করা হয়েছে, কেমম ইন্টেল ল্যাব সিস্ট, 2013, 122, 12 - 22; ডিওআই: 10.1016 / জে.কেমোলাব এমপিএল.১.২০৩৩ (সংক্ষিপ্ত পৃষ্ঠাটিও প্রিপ্রিন্টের লিঙ্ক দেয়)
আমার চূড়ান্ত লক্ষ্যটি কিছুটা আত্মবিশ্বাসের সাথে বলতে সক্ষম হতে হবে যে একটি মেশিন লার্নিং পদ্ধতি একটি নির্দিষ্ট ডেটাসেটের জন্য অন্যটির চেয়ে সেরা।
এটি মূল্যায়নের জন্য জোড় করা পরীক্ষাটি ব্যবহার করুন। অনুপাতের তুলনা করার জন্য, ম্যাকনামারের পরীক্ষাটি দেখুন।
এর উত্তরটি মেট্রিকের পছন্দ দ্বারা প্রভাবিত হবে। যেহেতু রিগ্রেশন-ধরণের ত্রুটি ব্যবস্থাগুলি একটি থ্রেশোল্ডের সাথে সিদ্ধান্তগুলি কাটানোর "কঠোর" পদক্ষেপ না রাখে, তাদের প্রায়শই তাদের শ্রেণিবিন্যাসের অংশগুলির তুলনায় কম পার্থক্য থাকে। নির্ভুলতার মতো মেট্রিক যা মূলত অনুপাত হয় একের তুলনায় এক শ্রেণীর শ্রেণীর শ্রেষ্ঠত্ব প্রতিষ্ঠার জন্য প্রচুর পরীক্ষার কেসগুলির প্রয়োজন হবে ।
ফ্লেইস: "হার এবং অনুপাতের জন্য পরিসংখ্যান পদ্ধতি" অনুপাতের অ- সংযোজিত তুলনার জন্য উদাহরণ (এবং সারণী) দেয় । আপনাকে "বিশাল নমুনা আকার" দিয়ে আমি কী বোঝাতে চাইছি তা বোঝাতে, এই অন্য প্রশ্নের উত্তরটিতে আমার চিত্রটি দেখুন । ম্যাকনামারের মতো জোড়াযুক্ত পরীক্ষাগুলির জন্য কম পরীক্ষার প্রয়োজন, তবে আইআইআরসি অবিবাহিত পরীক্ষার জন্য প্রয়োজনীয় নমুনা আকারের সেরা ক্ষেত্রে অর্ধেক (?)।
শ্রেণিবদ্ধের পারফরম্যান্স (কঠোর) বৈশিষ্ট্যযুক্ত করতে আপনার সাধারণত কমপক্ষে দুটি মান যেমন আরওসি (সংবেদনশীলতা বনাম নির্দিষ্টতা) বা এর মতো একটি কাজের বক্ররেখা প্রয়োজন ।
আমি খুব কমই সামগ্রিক নির্ভুলতা বা এউসি ব্যবহার করি, কারণ আমার অ্যাপ্লিকেশনগুলিতে সাধারণত বিধিনিষেধ থাকে যেমন স্পষ্টতার চেয়ে সংবেদনশীলতা বেশি গুরুত্বপূর্ণ, বা এই ব্যবস্থাগুলির নির্দিষ্ট সীমাটি মেটানো উচিত। আপনি যদি "একক সংখ্যা" সমষ্টি বৈশিষ্ট্যের জন্য যান তবে নিশ্চিত হয়ে নিন যে আপনি যে মডেলগুলি দেখছেন তার কার্যক্ষেত্রটি আসলে সংবেদনশীল পরিসরে রয়েছে।
নির্ভুলতা এবং অন্যান্য পারফরম্যান্স ব্যবস্থার জন্য যা রেফারেন্স লেবেলগুলি অনুসারে কয়েকটি শ্রেণীর জন্য পারফরম্যান্সের সংক্ষিপ্তসার করে থাকে তা নিশ্চিত করে নিন যে আপনি যে ক্লাসগুলির প্রয়োগ করতে পারবেন তার আপেক্ষিক ফ্রিকোয়েন্সিটি বিবেচনায় রেখেছেন - যা অগত্যা আপনার মতো নয় প্রশিক্ষণ বা পরীক্ষার ডেটা।
প্রোভোস্ট, এফ। ইত্যাদি। : 1998 সালে মেশিন লার্নিংয়ের পঞ্চদশ আন্তর্জাতিক সম্মেলনের প্রসেসিং ইনডাকশন অ্যালগরিদমগুলির তুলনা করার জন্য নির্ভুলতার আনুমানিক বিরুদ্ধে মামলা
সম্পাদনা: একাধিক শ্রেণিবদ্ধের তুলনা করা
আমি এই সমস্যাটি সম্পর্কে কিছুক্ষণ ভাবছিলাম, তবে এখনও কোনও সমাধানে পৌঁছিনি (যার সমাধান পেয়েছি এমন ব্যক্তির সাথেও আমার দেখা হয়নি)।
আমি এ পর্যন্ত যা পেয়েছি তা এখানে:
এই মুহুর্তের জন্য, আমি স্থির করেছিলাম যে "অপ্টিমাইজেশানটি সমস্ত মন্দের মূল", এবং পরিবর্তে একটি পৃথক পদ্ধতির গ্রহণ
করি : আমি হাতের সমস্যা সম্পর্কে বিশেষজ্ঞ জ্ঞানের দ্বারা যথাসম্ভব সিদ্ধান্ত নিই। এটি আসলে জিনিসগুলিকে বেশ কিছুটা সঙ্কুচিত করতে দেয়, যাতে আমি প্রায়শই মডেল তুলনা এড়াতে পারি। যখন আমাকে মডেলগুলির তুলনা করতে হবে, আমি পারফরম্যান্স অনুমানের অনিশ্চয়তা এবং বিশেষত একাধিক মডেলের তুলনা এএফআইএকে এখনও একটি অমীমাংসিত সমস্যা বলে লোকদের খুব খোলামেলা এবং স্পষ্ট মনে করার চেষ্টা করি।
সম্পাদনা 2: জোড় করা পরীক্ষাগুলি
মধ্যে মডেল, আপনি করতে পারেন দুটি ভিন্ন মডেলের (যা একটি বৃহদায়তন একাধিক তুলনা অবস্থা) মধ্যে তুলনা, আমি কিভাবে সঠিকভাবে এই কাজ করতে জানে না। তবে, জোড় করা1এন12( এন)2- এন )পরীক্ষার ফলে কেবল একই পরীক্ষার ক্ষেত্রে সমস্ত মডেল যেমন পরীক্ষা করা হয়, আপনি একদিকে যেমন কেসগুলিকে "সহজ" এবং "কঠিন" ক্ষেত্রে বিভক্ত করতে পারেন, যার জন্য সমস্ত মডেল সঠিকভাবে উপস্থিত হয় (বা ভুল) পূর্বাভাস। তারা মডেলগুলির মধ্যে পার্থক্য করতে সহায়তা করে না। অন্যদিকে, "আকর্ষণীয়" কেসগুলি রয়েছে যা কিছু দ্বারা সঠিকভাবে পূর্বাভাস দেওয়া হয়েছে, তবে অন্য মডেলরা নয়। শ্রেষ্ঠত্ব বিচারের জন্য কেবল এই "আকর্ষণীয়" কেসগুলি বিবেচনা করা দরকার, "সহজ" বা "কঠিন" কেসই সে ক্ষেত্রে সহায়তা করে না। (ম্যাকনামারের পরীক্ষার পেছনের ধারণাটি আমি এইভাবে বুঝতে পারি)।
মডেলগুলির মধ্যে বৃহত্তর একাধিক তুলনার জন্য , আমি অনুমান করি যে একটি সমস্যা হ'ল আপনি যদি খুব ভাগ্যবান না হন তবে যত বেশি সংখ্যক মডেল আপনি সংক্ষিপ্ত ক্ষেত্রে তুলনা করতে পারবেন আপনি পরবর্তী বিবেচনা থেকে বাদ দিতে পারবেন: এমনকি সমস্ত মডেল তাদের ক্ষেত্রে সত্যই সমান হলেও সামগ্রিক কর্মক্ষমতা, এটা কম সম্ভবত হয়ে যে হচ্ছে একটি মামলা প্রান্ত সবসময় সঠিকভাবে (অথবা সবসময় ভুলভাবে) দ্বারা পূর্বাভাস মডেলের।এনএনএন