কেন পরীক্ষার ত্রুটির সিভি অনুমানটি প্রকৃত পরীক্ষার ত্রুটিটিকে অবমূল্যায়ন করে?


10

এটি আমার বোঝা যায় যে পরীক্ষার ত্রুটির কে-ফোল্ড ক্রস-বৈধকরণের প্রাক্কলনটি সাধারণত প্রকৃত পরীক্ষার ত্রুটিটিকে হ্রাস করে। আমি বিভ্রান্ত কারণ কেন এই ঘটনা। আমি কেন পরীক্ষার ত্রুটিটি সাধারণত পরীক্ষার ত্রুটির চেয়ে কম হয় - কারণ আপনি সেই একই ডেটাতে মডেলটিকে প্রশিক্ষণ দিচ্ছেন যা আপনি ত্রুটিটি অনুমান করছেন! তবে ক্রস-বৈধকরণের ক্ষেত্রে এটি নয় - প্রশিক্ষণ প্রক্রিয়া চলাকালীন আপনি যে ভাঁজটি ত্রুটিটি পরিমাপ করেছেন তা বিশেষত বাদ পড়েছে।

এছাড়াও, এটি কি সঠিক যে পরীক্ষার ত্রুটির ক্রস-বৈধতা অনুমানটি নীচের দিকে পক্ষপাতদুষ্ট?


1
কোথায় আপনি এই বর্ণিত দেখতে পাচ্ছেন? আপনি কিছু রেফারেন্স দিতে পারেন?
horaceT

1
(+1) আমি একই বিবৃতিটি দেখেছি এবং আমি বিশ্বাস করি যে এটি সঠিক তবে আমি যুক্তিটি বুঝতে পারি না
কেভিনকিম

উত্তর:


9

উদাহরণস্বরূপ: আপনারা মূলত একাধিক মডেল (প্রত্যেকের নির্দিষ্ট সিভি ত্রুটি এবং ত্রুটির বৈকল্পিকতা) থাকে তবে কেবলমাত্র কোনও মডেলের সিভি ত্রুটি জানানো সমস্যাযুক্ত, তারপরে আপনার অ্যাপ্লিকেশনের জন্য সেরা উপযুক্ত মডেলটি বেছে নিতে এই ত্রুটিটি ব্যবহার করুন। এটি সমস্যাযুক্ত কারণ প্রতিটি মডেলের সাথে আপনার কাছে এখনও একটি নির্দিষ্ট সুযোগ রয়েছে যে আপনি ভাগ্যবান / দুর্ভাগ্য (এবং আরও ভাল / খারাপ ফলাফল অর্জন করেন) - এবং একটি মডেল চয়ন করে, আপনি সম্ভবত এমন একটিকে বেছে নিয়েছিলেন যেখানে আপনি আরও ভাগ্যবান। সুতরাং, এই ত্রুটিটিকে চূড়ান্ত ত্রুটির প্রাক্কলন হিসাবে প্রতিবেদন করা অত্যধিক আশাবাদী হতে থাকে।

যদি আপনি বিশদটি আরও গভীরভাবে খুঁড়তে চান: এই উত্তরটি এই সমস্যার কয়েকটি সহজ-পাঠযোগ্য কাগজপত্রের সাথে লিঙ্ক করে: ক্রস-বৈধতা অপব্যবহার (সর্বোত্তম হাইপারপ্যারমিটার মানটির জন্য রিপোর্টিং কর্মক্ষমতা)

যেমন @ কেবিলেটগুলি উল্লেখ করেছে: যদি কেউ প্রাপ্ত কে-ফোল্ড সিভি ত্রুটি যেমন উদাহরণস্বরূপ ব্যবহার করে তবে এটি সমস্যাযুক্ত) উদাহরণস্বরূপ, বিভিন্ন হাইপারপ্যারামিটারগুলি ব্যবহার করে একাধিক মডেলের মধ্যে একটি সেরা মডেল বেছে নিয়েছেন, যা প্রশিক্ষণ প্রক্রিয়ার অংশ, এবং খ) তারপরে) পৃথক, হোল্ড-ব্যাক পরীক্ষা সেটটি ব্যবহার না করে পরীক্ষার ত্রুটির মতো একই ত্রুটিটি রিপোর্ট করে । আপনি যদি পরিবর্তে খাঁটি সিভি ত্রুটিটি নিজেই জিজ্ঞাসা করতে চেয়েছিলেন - এটি কোনও মডেল চয়ন না করেই - @cbeleites- এর উত্তর সম্ভবত আপনি যা অনুসন্ধান করছেন তা সম্ভবত।


আবার, এখানে সমস্যাটি প্রশিক্ষণের ত্রুটির প্রতিবেদন করছে (প্রশিক্ষণ হিসাবে: এই অনুমানটি একটি চূড়ান্ত মডেল প্রাপ্তির প্রক্রিয়ায় ব্যবহৃত হয়) সাধারণীকরণ ত্রুটির জন্য অনুমান - এই ত্রুটি ক্রস বৈধকরণের মাধ্যমে গণনা করা হয়েছিল কিনা তা বিবেচনা না করেই ধরে রাখুন, বা যা কিছু থাকুক না কেন অন্যান্য ত্রুটি অনুমান পদ্ধতি।
এসবিএল

1
@ কেবেলাইটস আবার, সত্য কথা - আমি সাধারণত ধরে নিয়েছি যে সিভি ফলাফলগুলি একরকম মডেল নির্বাচনের জন্য ব্যবহার করা হবে (যা কিছু ক্ষেত্রে সিভি প্রথম স্থানে ব্যবহারের কারণ) - সুতরাং এটি উল্লেখ করুন। আমি আমার উত্তর অনুসারে আপডেট করেছি।
geekoverdose

9

সঠিকভাবে সম্পন্ন হওয়ার অর্থ হ'ল ক্রস বৈধতার মধ্যে পরীক্ষা এবং প্রশিক্ষণের সেটগুলিতে বিভক্ত হওয়া আসলে পরীক্ষার কেসগুলিতে নিয়ে যায় যা মডেলটির থেকে সত্যই স্বাধীন।

তবে, এই স্বাধীনতার সাথে আপসকারী অনেকগুলি সমস্যা রয়েছে । পরীক্ষার ডেটা কতটা তীব্রভাবে আপস করা হয়েছে এবং মডেলটি কতটা বেশি সাফল্য তার উপর নির্ভর করে স্বাধীনতার এই অভাবের অর্থ ক্রস বৈধকরণ ত্রুটি আসলে প্রশিক্ষণ ত্রুটি হয়ে যায়। অর্থাত্, সর্বোপরি, আপনি একটি কঠোর আশাবাদী পক্ষপাতিত্বের সাথে শেষ করতে পারেন (প্রকৃত সাধারণীকরণের ত্রুটিটিকে অবমূল্যায়ন)।
আইএমএইচএও এটি বুঝতে গুরুত্বপূর্ণ যে এই সমস্যার মধ্যে বেশিরভাগই বৈধতা পেরিয়ে যাওয়ার পক্ষে অনন্য নয় তবে ট্রেন এবং পরীক্ষার সেটগুলিতে ভুল বিভক্ত হওয়ার চেয়ে আরও ভাল বৈশিষ্ট্যযুক্ত : তারা অন্য বৈধকরণের স্কিম যেমন হোল্ড আউট বা স্বতন্ত্রভাবে একই ঘটতে পারে (এবং করতে পারে) পরীক্ষাগুলি এমনটি সেট করে যা বাস্তবে কোনও হিসাবে অনুমান করা যায় না তেমন স্বাধীন হয় না।

বিভাজনে আমি সবচেয়ে সাধারণ ভুলগুলির উদাহরণ এখানে দেখছি:

  • @ গিওকোভারডোজ এর উত্তর পরীক্ষার ত্রুটি হিসাবে নির্দ্বিধায় একটি অভ্যন্তরীণ প্রশিক্ষণ (!) ত্রুটি অনুমান ব্যবহার করার একটি উদাহরণ দেয় ।
    আরও সাধারণভাবে, ডেটা-চালিত মডেল অপ্টিমাইজেশনের জন্য যে কোনও ধরণের ত্রুটি অনুমান ব্যবহৃত হয় এটি একটি প্রশিক্ষণ ত্রুটি কারণ এখনও এই ত্রুটি অনুমানটি ব্যবহার করে প্রশিক্ষণ চলছে।
  • বিভক্ত করার জন্য বিস্ময়কর ভেরিয়েবলগুলি বিবেচনায় নেওয়া হয় না।
    ডেটা ম্যাট্রিক্সের এক সারি অগত্যা একটি স্বতন্ত্র কেস গঠন করে না, যেমন
    • একই ক্ষেত্রে / বিষয় / রোগীকে "স্বতন্ত্র" হিসাবে বারবার পরিমাপ করা
    • সাধারণভাবে উপেক্ষিত / উপাত্তগুলিতে দৃ cl় ক্লাস্টারিং উপেক্ষা করে
    • ডেটা তৈরির প্রক্রিয়া চলমান চলমান চালিকা সম্পর্কে সচেতন না হওয়া (ভবিষ্যতের অজানা মামলাগুলি বনাম কেবল অজানা মামলা), ...


0

প্রথমে আমি যেমন বুঝি তেমন প্রশ্নে ব্যবহৃত শর্তাদি পরিষ্কার করুন let আমরা সাধারণত একটি প্রশিক্ষণ ডেটাসেট দিয়ে শুরু করি, বিভিন্ন মডেল (বা হাইপারপ্যারামিটারের সেট) পরীক্ষা করতে কে-ফোল্ড ক্রস বৈধতা ব্যবহার করি এবং সর্বনিম্ন সিভি ত্রুটির সাথে সেরা মডেলটি নির্বাচন করি। সুতরাং 'পরীক্ষার ত্রুটির ক্রস-বৈধকরণের প্রাক্কলন' এর অর্থ পরীক্ষার ত্রুটি হিসাবে সর্বনিম্ন সিভি ত্রুটি ব্যবহার করা, কেবল একটি এলোমেলো মডেলের সিভি ত্রুটি নয় (যা কেবেলাইট দ্বারা আলোচিত কেস, তবে এটি আমরা সাধারণত করি না do)। অসীম পরীক্ষার ডেটাসেটে সেরা সিভি মডেল প্রয়োগ করার সময় আমরা ধরে নিতে পারি যে ধরে নেওয়া যায়, প্রশ্নটিতে থাকা 'প্রকৃত পরীক্ষার ত্রুটি' ত্রুটি। সিভি ত্রুটিটি আমাদের যে নির্দিষ্ট ডেটাসেটের উপর নির্ভর করে এবং প্রকৃত পরীক্ষার ত্রুটিটি নির্বাচিত সেরা সিভি মডেলের উপর নির্ভরশীল, যা প্রশিক্ষণ ডেটাসেটের উপরও নির্ভর করে। সুতরাং সিভি ত্রুটি এবং পরীক্ষার ত্রুটির মধ্যে পার্থক্যটি বিভিন্ন প্রশিক্ষণের ডেটাসেটের উপর নির্ভর করে। তাহলে প্রশ্নটি হয়ে ওঠে, আমরা যদি উপরের প্রক্রিয়াটিকে বিভিন্ন প্রশিক্ষণ ডেটাসেটের সাহায্যে বহুবার পুনরাবৃত্তি করি এবং যথাক্রমে দুটি ত্রুটি গড় করি তবে গড় সিভি ত্রুটি গড় পরীক্ষার ত্রুটির চেয়ে কম কেন, অর্থাৎ সিভি ত্রুটি নিম্নমুখী হয়? কিন্তু তার আগে, এটি কি সবসময় ঘটে?

সাধারণত অসীম সারি সহ অনেক প্রশিক্ষণ ডেটাসেট এবং টেস্ট ডেটাসেট পাওয়া অসম্ভব। তবে সিমুলেশন দ্বারা উত্পন্ন ডেটা ব্যবহার করে এটি করা সম্ভব। ট্রেভর হাস্টির লেখা "স্ট্যাটাসটিকাল লার্নিংয়ের" বইয়ের "অধ্যায় 7 মডেল অ্যাসেসমেন্ট অ্যান্ড সিলেকশন" এ, ইত্যাদি। , এটি যেমন সিমুলেশন পরীক্ষা অন্তর্ভুক্ত।

উপসংহারটি হ'ল, সিভি বা বুটস্ট্র্যাপ ব্যবহার করে, "... নির্দিষ্ট প্রশিক্ষণ সংস্থার জন্য পরীক্ষার ত্রুটির অনুমান করা সাধারণভাবে সহজ নয়, একই প্রশিক্ষণের সেট থেকে প্রাপ্ত ডেটা দেওয়া"। 'সহজ নয়' দ্বারা তারা বোঝায় যে সিভি ত্রুটিটি বিভিন্ন প্রশিক্ষণের ডেটা সেটগুলির উপর নির্ভর করে প্রকৃত পরীক্ষার ত্রুটিটিকে হ্রাস করা বা অত্যধিক মূল্যায়ন করতে পারে, অর্থাত্ বিভিন্ন প্রশিক্ষণ ডেটাসেটগুলির ফলে সৃষ্ট ভিন্নতাটি বেশ বড়। পক্ষপাত কীভাবে? তারা যে কেএনএন এবং লিনিয়ার মডেলগুলি পরীক্ষা করেছিল তা প্রায় পক্ষপাতদুষ্ট নয়: সিভি ত্রুটি সত্য পরীক্ষার ত্রুটি 0-4% দ্বারা ওভারস্টেট করে, তবে কিছু মডেল "গাছ, ক্রস-বৈধতা এবং বুট-স্ট্র্যাপের মতো 10% দ্বারা সত্য ত্রুটিটিকে হ্রাস করতে পারে, কারণ "সেরা গাছের অনুসন্ধান অনুসন্ধানের মাধ্যমে বৈধতা সেটটি দৃ strongly়ভাবে প্রভাবিত হয়"।

সংক্ষেপে, একটি নির্দিষ্ট প্রশিক্ষণ ডেটাসেটের জন্য, সিভি ত্রুটিটি সত্য পরীক্ষার ত্রুটির চেয়ে বেশি বা কম হতে পারে। পক্ষপাতিত্বের জন্য, অর্থাত সিভি ত্রুটি মডেলিং পদ্ধতির উপর নির্ভর করে সত্যিকারের পরীক্ষার ত্রুটির চেয়ে কিছুটা বেশি থেকে অনেক কম পর্যন্ত হতে পারে।

অবমূল্যায়নের কারণ, যেমন উপরে উল্লিখিত, হ'ল সেরা মডেলের জন্য হাইপারপ্যারামিটারগুলির নির্বাচনটি শেষ পর্যন্ত আমাদের পাওয়া বিশেষ প্রশিক্ষণের ডেটাসেটের উপর নির্ভর করে। কিছুটা বিশদ বিবরণ, এই বিশেষ প্রশিক্ষণের ডেটাসেটে সেরা হাইপারপ্যারামিটারগুলি এম 1 হতে দিন। তবে, এম 1 অন্যান্য প্রশিক্ষণ ডেটাসেটের সেরা হাইপারপ্যারামিটার হতে পারে না, যার অর্থ ন্যূনতম সিভি ত্রুটি এম 1 থেকে সিভি ত্রুটির চেয়ে কম। সুতরাং প্রশিক্ষণ প্রক্রিয়া থেকে আমরা প্রত্যাশিত সিভি ত্রুটিগুলি এম 1 এর প্রত্যাশিত সিভি ত্রুটির চেয়ে খুব সম্ভবত কম। কোনও নির্দিষ্ট প্রশিক্ষণ ডেটাসেট থেকে ন্যূনতম সিভি ত্রুটি পক্ষপাতদুষ্ট নয় কেবল তখনই যখন সেরা মডেলটি সর্বদা প্রশিক্ষণ ডেটাসেটগুলির থেকে সেরা স্বতন্ত্র। অন্যদিকে, সিবিএলাইটস দ্বারা আলোচিত হিসাবে সিভি ত্রুটিও সত্যিকারের পরীক্ষার ত্রুটিটিকে কিছুটা ছাড়িয়ে যেতে পারে। এর কারণ কে ফোল্ড সিভি ত্রুটিটি মডেলটিকে প্রশিক্ষণের জন্য কিছুটা কম প্রশিক্ষণের ডেটা ব্যবহার করে প্রাপ্ত করা হয় (10 ভাণ্ডার সিভির জন্য, 90% ডেটা ব্যবহার করুন), এটি সত্য ত্রুটির বিরুদ্ধে পক্ষপাতিত্বমূলক, তবে বেশি নয়। সুতরাং দুটি পক্ষপাতদুষ্ট বিভিন্ন দিকে যাচ্ছে। মডেলিং পদ্ধতির জন্য বেশি সাফল্য পাওয়া যায়, কম ভাঁজ সিভি ব্যবহার করে, উদাহরণস্বরূপ, 5-গুণ বনাম 10-ভাঁজ, কম পক্ষপাত হতে পারে।

সব কিছু বলা হচ্ছে, এটি অনুশীলনে খুব বেশি সহায়তা করে না: আমরা সাধারণত কেবল একটি 'নির্দিষ্ট' ডেটাसेट পাই। যদি আমরা পরীক্ষার ডেটা হিসাবে 15% থেকে 30% ধরে রাখি এবং বাকি অংশে সিভি দ্বারা প্রশিক্ষণ ডেটা হিসাবে সেরা মডেলটি বেছে নিই, সম্ভাব্য পরীক্ষার ত্রুটি থেকে উভয়ই পৃথক হওয়ায় সিভি ত্রুটি পরীক্ষার ত্রুটি থেকে আলাদা হবে। পরীক্ষার ত্রুটির তুলনায় সিভি ত্রুটিটি যদি খুব কম থাকে তবে আমরা সন্দেহজনক হতে পারি তবে কোনটি সত্য পরীক্ষার ত্রুটির নিকটে রয়েছে তা আমরা জানব না। সর্বোত্তম অনুশীলন কেবল উভয় মেট্রিক উপস্থাপন করা হতে পারে।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.