উচ্চ বৈধতা নির্ভুলতা তবে গবেষণায় কম পরীক্ষার নির্ভুলতা কী হবে?


15

মেশিন লার্নিং গবেষণায় বৈধতা সম্পর্কে আমার একটি নির্দিষ্ট প্রশ্ন আছে।

যেমনটি আমরা জানি, মেশিন লার্নিং সিস্টেম গবেষকদের তাদের মডেলগুলি প্রশিক্ষণের ডেটাতে প্রশিক্ষণ দিতে, বৈধতা সেট দ্বারা প্রার্থী মডেলগুলি থেকে চয়ন করতে এবং পরীক্ষার সেটটিতে নির্ভুলতার প্রতিবেদন করতে বলে। খুব কঠোর গবেষণায়, পরীক্ষার সেটটি কেবল একবার ব্যবহার করা যেতে পারে। তবে এটি কখনই গবেষণার পরিস্থিতি হতে পারে না, কারণ কোনও গবেষণাপত্র প্রকাশ (বা এমনকি জমা দেওয়ার) আগে পরীক্ষার যথাযথতা অত্যাধুনিক ফলাফলের চেয়ে ভাল না হওয়া পর্যন্ত আমাদের কর্মক্ষমতা উন্নত করতে হবে।

এখন সমস্যা আসে। ধরা যাক 50% হ'ল সর্বাধিক অত্যাধুনিক ফলাফল এবং আমার মডেল সাধারণত 50--51 নির্ভুলতা অর্জন করতে পারে যা গড়ের চেয়ে ভাল better

যাইহোক, আমার সেরা বৈধতা নির্ভুলতা (52%) খুব কম পরীক্ষার নির্ভুলতা দেয়, যেমন, 49%। তারপরে, আমি যদি আমার বৈধতা সংশোধনকে আরও উন্নত করতে না পারি তবে আমার সামগ্রিক পারফরম্যান্স হিসাবে 49% প্রতিবেদন করতে হবে, যা আমার মনে হয় কোনও আশা নেই। এটি সত্যই আমাকে সমস্যাটি অধ্যয়ন করতে বাধা দেয়, তবে আমার সমবয়সীদের পক্ষে এটি কোনও ব্যাপার নয় কারণ তারা 52% অভিভাবকতা দেখেন না, যা আমি মনে করি একটি বহিরাগত।

সুতরাং, লোকেরা সাধারণত তাদের গবেষণায় কী করে?

পি কে কে-ভাঁজ বৈধতা কোনও উপকারে আসে না, কারণ একই পরিস্থিতি এখনও ঘটতে পারে।

উত্তর:


9

সংজ্ঞা অনুসারে, যখন প্রশিক্ষণের নির্ভুলতা (বা আপনি যে কোনও মেট্রিক ব্যবহার করছেন) আপনার পরীক্ষার চেয়ে বেশি হয় আপনার একটি ওভারফিট মডেল থাকে । সংক্ষেপে, আপনার মডেল বিশদগুলি শিখেছে যা এটি আপনার প্রশিক্ষণের ডেটাতে আরও ভাল সম্পাদন করতে সহায়তা করে যা বৃহত্তর ডেটা জনসংখ্যার জন্য প্রযোজ্য নয় এবং ফলস্বরূপ খারাপ কর্মক্ষমতা তৈরি করে।

আমি নিশ্চিত নই কেন আপনি বলছেন যে কে-ফোল্ড বৈধতা কার্যকর হবে না। এর উদ্দেশ্য হ'ল আপনার মডেলগুলির বেশি ফিট করা এড়ানো help সম্ভবত আপনার যথেষ্ট তথ্য নেই? এর মতো একটি বিবৃতি গুরুত্বপূর্ণ, বিশেষত যদি আপনি কোনও গবেষণা প্রতিরক্ষা করতে চলেছেন যখন এই জাতীয় ক্রস-বৈধকরণ পদ্ধতিগুলি সুপারিশ করা হয়।

আপনি বলেছিলেন যে আপনি একবারে পরীক্ষা সেটটি ব্যবহার করতে সক্ষম নন (আবার আমি ছোট নমুনার আকারটি ধরে নিই?) আমার অভিজ্ঞতায় অনুসরণ করা সবচেয়ে সাধারণ পথটি হ'ল আপনার মডেলের কে-ফোল্ড ক্রস-বৈধতা। আসুন 100-এর নমুনা আকারের জন্য 10-ভাঁজ সিভি সহ একটি উদাহরণ নিই এবং গণনাগুলি সহজ করে তুলতে আপনার শ্রেণিবিন্যাসের সমস্যা বাইনারি বলে ধরে নিই। আমি তাই 10 টা ভিন্ন করার জন্য আমার ডেটা বিভক্ত করেছি ভাঁজ । আমি তারপরে আমার মডেলটি 9/10 টি ভাঁজগুলিতে ফিট করে এবং তারপরে আমার ছেড়ে যাওয়া 1/10 এর পূর্বাভাস দেয়। এই প্রথম রানের জন্য, ফলাফলের বিভ্রান্তির ম্যাট্রিক্স হ'ল:

    0  1
0   4  1
1   2  3

আমি তারপরে এই বিশ্লেষণটি পুনরায় পুনরুক্তি করব এবং পরের 1/10 ভাঁজটি বাকী রেখে অন্য 9/10 তে প্রশিক্ষণ দেব। এবং আমার পরবর্তী বিভ্রান্তির ম্যাট্রিক্স পান। একবার সম্পূর্ণ হয়ে গেলে আমার কাছে 10 টি বিভ্রান্তির ম্যাট্রিক রয়েছে। আমি তখন এই ম্যাট্রিকগুলি যোগ করব (সুতরাং আমার 100 টি নমুনা পূর্বাভাস দিয়েছিল) এবং তারপরে আমার পরিসংখ্যানগুলি (যথাযথতা, পিপিভি, এফ 1-স্কোর, কাপা ইত্যাদি) রিপোর্ট করব report আপনার যথার্থতা যেখানে আপনি এটিটি চান সেখানে না থাকলে সেখানে আরও অনেক সম্ভাবনা রয়েছে।

  1. আপনার মডেলটি উন্নত করতে হবে (প্যারামিটারগুলি পরিবর্তন করুন)
  2. আপনার আলাদা মেশিন লার্নিং অ্যালগরিদম চেষ্টা করার প্রয়োজন হতে পারে (সমস্ত অ্যালগোরিদম সমানভাবে তৈরি হয়নি)
  3. আপনার আরও ডেটা দরকার (সূক্ষ্ম সম্পর্ক খুঁজে পাওয়া কঠিন)
  4. আপনার নিজের ডেটা রুপান্তর করার চেষ্টা করতে হবে (ব্যবহৃত অ্যালগরিদমের উপর নির্ভরশীল)
  5. আপনার নির্ভরশীল এবং স্বাধীন ভেরিয়েবলের মধ্যে কোনও সম্পর্ক থাকতে পারে

বিষয়টির সত্যতা হ'ল, আপনার প্রশিক্ষণের চেয়ে কম পরীক্ষামূলক মেট্রিক (যেমন নির্ভুলতা) একটি নতুন ভবিষ্যদ্বাণীপূর্ণ মডেল তৈরি করার চেষ্টা করার সময় আপনার মডেলটিকে আপনি পছন্দ করেন এমন কিছু নয়, তার চেয়ে বেশি উপযুক্ততার পরিচায়ক।


জবাব দেওয়ার জন্য আপনাকে ধন্যবাদ। আমি যে বিষয়টির বিষয়ে আছি তা হ'ল মেশিন লার্নিংয়ের কৌশল প্রয়োগের চেয়ে প্রকাশনাগুলির জন্য মেশিন লার্নিং গবেষণা। প্রায়শই, মানদণ্ডগুলি প্রশিক্ষণ, বৈধতা এবং পরীক্ষার সেটগুলির মানক বিভাজন সরবরাহ করে। তদুপরি, কে-ফোল্ডগুলি কেবল বৈকল্পিকতা কেটে দেয়। আমি এখনও পরিস্থিতিটি দেখতে পাব, যেখানে আমার (গড়) বৈধকরণের আইপি। উচ্চ কিন্তু পরীক্ষার অ্যাক্ট। কম.
মৌ 14

এটি কখনও কখনও মজার বিষয় হয় যে আমি যদি আমার মডেলটিকে কিছুটা নতুনভাবে ডিজাইন করি তবে আমি কেবল আউটলেটটিকে উপেক্ষা করতে পারি কারণ আমার মডেল (এবং এইভাবে হাইপোথিসিস ক্লাস) পরিবর্তিত হয়, তবে হাইপারপ্যারামিটারগুলি সুর করার ক্ষেত্রে এটি কাজ করে না কারণ আমরা অনুমান থেকে একটি মডেল বেছে নিচ্ছি বর্গ। তবে, প্রকৃতপক্ষে, আমাদের, গবেষকরা, অনির্দিষ্ট কাল্পনিক শ্রেণি আছে --- আমরা যা খুশি তাই চেষ্টা করছি are এটি সত্যই গবেষণার সময় আমাকে বিরক্ত করে, প্রায়শই, যথার্থতার পার্থক্য সাধারণত খুব সামান্য, 0.1% বলে।
মৌ

@ মৌ, আমি অনুমান করি যে আপনি প্রাথমিক প্রশ্নটি কি তা আমি এখনও কিছুটা অনিশ্চিত। একাধিক প্রশ্ন আছে বলে মনে হচ্ছে। আউটলিয়ারদের সাথে ডিল করা একটি আলাদা বিষয়। আপনি কি প্যারামিটারগুলি অনুকূল করতে বা একটি চূড়ান্ত মডেলটি মূল্যায়ন করার চেষ্টা করছেন? এটি বিভিন্ন ক্ষেত্রে সুনির্দিষ্ট হতে পারে তবে 0.1% এর পরিবর্তনগুলি বেশ তুচ্ছ। আপনি আমার উত্তরটিতে তালিকাবদ্ধ বিকল্পগুলি অনুসরণ করতে পারেন বা স্বীকার করতে পারেন যে আপনি কেবলমাত্র বর্তমান মডেল এবং ডেটা থেকে এত কিছু পেতে পারেন। মডেলটি এখনও অতিরিক্ত পোশাক হিসাবে উপস্থিত রয়েছে (কিছুটা হলেও)।
cdeterman

আমি আপনার সাথে একমত. আমাকে গ্রহণ করতে হবে যে আমার মডেলটি এতটা ভাল নয়। তবে বেশ কয়েক দিন আগে, যখন উচ্চ সিভি এ্যাক। + কম পরীক্ষার এসি। আমার পর্দায় ঝাঁপ দাও না, আমার মডেল ছিল বিশ্বের সেরা একজন। এখন, যদিও আমি কিছু পরিবর্তন করি নি তা নয়। আরও, আমার কাছে সিভি অ্যাক্টে 52% ছাড়িয়ে যাওয়ার কোনও আশা নেই, যা আমার গবেষণাকে আটকে রেখেছে, তবে আমার সহকর্মীদের এ নিয়ে উদ্বিগ্ন হওয়ার দরকার নেই।
মৌ

সংখ্যার পরিবর্তনের জন্য আপনার অবশ্যই কিছু পরিবর্তন করা উচিত অথবা কিছু র্যান্ডমাইজেশন রয়েছে যা আপনি seedপুনরুত্পাদনযোগ্যতার জন্য অ্যাকাউন্টে সেট করেন নি । আমি সন্দেহ করি আপনার সিভি পদ্ধতিতে কিছুটা এলোমেলোকরণ রয়েছে যা পুনরাবৃত্তি করলে কিছুটা ভিন্ন ফলাফল ফিরে আসতে পারে (তবে এটি কেবল অনুমান)। আমি আপনাকে সুপারিশ করছি আপনি নিজের পারফরম্যান্সটি চেষ্টা করতে এবং উন্নত করতে কিছু অন্যান্য মডেল বা ডেটা ট্রান্সফরমেশন অন্বেষণ করুন।
cdeterman
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.