প্রশিক্ষণের চেয়ে পরীক্ষার নির্ভুলতা বেশি। কীভাবে ব্যাখ্যা করবেন?


23

আমার বেশিরভাগ 150 টি উদাহরণ রয়েছে (এমন একটি প্রশিক্ষণ ও পরীক্ষায় বিভক্ত) রয়েছে যেখানে অনেকগুলি বৈশিষ্ট্য (1000 এর চেয়েও বেশি) রয়েছে dat আমার ক্লাসিফায়ারগুলি এবং বৈশিষ্ট্য নির্বাচন পদ্ধতিগুলি তুলনা করতে হবে যা ডেটাতে ভাল সম্পাদন করে। সুতরাং, আমি তিনটি শ্রেণিবদ্ধকরণ পদ্ধতি (জে 48, এনবি, এসভিএম) এবং 2 টি বৈশিষ্ট্য নির্বাচন পদ্ধতি (সিএফএস, র্যাপারসুবসেট) বিভিন্ন অনুসন্ধান পদ্ধতির (লোভী, বেস্টফার্স্ট) ব্যবহার করছি।

তুলনা করার সময়, আমি প্রশিক্ষণের নির্ভুলতা (5-ভাঁজ ক্রস-ভাঁজ) এবং পরীক্ষার নির্ভুলতার দিকে তাকিয়ে আছি।

এখানে জে 48 এবং সিএফএস-বেস্টফার্স্টের ফলাফলগুলির একটি:

acc "নির্ভুলতা প্রশিক্ষণ": 95.83, "নির্ভুলতা টেস্ট": 98.21}

অনেকগুলি ফলাফল এর মতো, এবং এসভিএম-তে অনেকগুলি ফলাফল রয়েছে যা নির্দেশ করে যে পরীক্ষার যথার্থতা প্রশিক্ষণের চেয়ে অনেক বেশি (প্রশিক্ষণ: 60%, পরীক্ষা: 98%)

আমি কীভাবে এই ধরণের ফলাফলকে অর্থপূর্ণভাবে ব্যাখ্যা করতে পারি? যদি এটি কম হয় তবে আমি বলব এটি অত্যধিক মানানসই। সমস্ত ফলাফল দেখে এই ক্ষেত্রে পক্ষপাত এবং বৈকল্পিকতা সম্পর্কে কিছু বলার আছে? এই শ্রেণিবিন্যাসকে অর্থবহ করে তোলার জন্য আমি কী করতে পারি, যেমন প্রশিক্ষণ এবং পরীক্ষার সেটগুলি পুনরায় নির্বাচন করা বা সমস্ত ডেটাতে কেবল ক্রস-বৈধকরণ ব্যবহার করে?

আমার কাছে 73 টি প্রশিক্ষণ এবং 58 টি পরীক্ষার দৃষ্টান্ত রয়েছে। কিছু পোস্টের পোস্ট করার সময় কিছু উত্তরের এই তথ্য ছিল না।

উত্তর:


20

আমি মনে করি যে প্রতিবেদন করা প্রশিক্ষণ এবং পরীক্ষার পারফরম্যান্স আসলেই সঠিক কিনা তা যাচাই করা প্রথম পদক্ষেপ।

  • 5-ভাঁজ ক্রস বৈধকরণের সময় বিভাজন এমনভাবে করা হয় যা পরিসংখ্যানগতভাবে স্বাধীন সিভি ট্রেন / পরীক্ষার সেট দেয়? উদাহরণস্বরূপ যদি ডেটাতে বারবার পরিমাপ হয় তবে সেগুলি কি সর্বদা একই সেটে শেষ হয়?
  • 5 টি সার্গেট মডেলের 130 প্রশিক্ষণের নমুনাগুলির মধ্যে 5 টি ভুল বা 5 * ১৩০ প্রশিক্ষণের নমুনার জন্য ২৫ টি ভুল মামলার সাথে 150 টি স্যাম্পলগুলির 5 গুণ সিভিতে 95.83% যথার্থতা line
  • 98.21% পরীক্ষার যথার্থতা ব্যাখ্যা করা আরও কঠিন: সিভির একটি রান চলাকালীন, প্রতিটি ক্ষেত্রে একবার পরীক্ষা করা উচিত। সুতরাং সম্ভবত রিপোর্ট করা সংখ্যাগুলি 100% / 150 এর ধাপে হওয়া উচিত। 98.21% 2.68 ভুল মামলার সাথে মিলিত (150 টির মধ্যে 2 এবং 3 টির মধ্যে যথাক্রমে 98.67 এবং 98.00% যথার্থতা দেয়)।

  • আপনি যদি আপনার মডেলটি নিষ্কাশন করতে পারেন তবে বাহ্যিকভাবে রিপোর্ট করা যথাযথ গণনা করুন।

  • এলোমেলো ইনপুট জন্য রিপোর্ট করা যথাযথতা কি কি?
  • একটি বাহ্যিক ক্রস বৈধকরণ করুন: আপনার ডেটা ভাগ করুন এবং কেবল প্রশিক্ষণের অংশটি প্রোগ্রামে হস্তান্তর করুন। "বাহ্যিক" পরীক্ষার ডেটা পূর্বাভাস করুন এবং নির্ভুলতার গণনা করুন। এটি কি প্রোগ্রামটির ফলাফলের সাথে সামঞ্জস্যপূর্ণ?
  • নিশ্চিত হয়ে নিন যে "পরীক্ষার যথাযথতা" স্বাধীন ডেটা থেকে এসেছে (ডাবল / নেস্টেড ক্রস বৈধকরণ): যদি আপনার প্রোগ্রাম ডেটা চালিত অপ্টিমাইজেশন করে (যেমন অনেক মডেলের সাথে তুলনা করে "সেরা" বৈশিষ্ট্যগুলি বেছে নেওয়া), তবে এটি প্রশিক্ষণের ত্রুটির মতো আরও বেশি সাধারণ) ত্রুটির চেয়ে ফিট।

আমি @ এমবিকিউর সাথে একমত যে প্রশিক্ষণ ত্রুটি মেশিন লার্নিংয়ে খুব কমই কার্যকর হয়। তবে আপনি যে কয়েকটি পরিস্থিতিতে প্রকৃতপক্ষে কার্যকর সেগুলির মধ্যে একটিতে আপনি থাকতে পারেন: প্রোগ্রামটি যদি নির্ভুলতার তুলনা করে একটি "সেরা" মডেল নির্বাচন করে তবে এর মধ্যে বেছে নিতে কেবল প্রশিক্ষণের ত্রুটি থাকে, তবে প্রশিক্ষণ ত্রুটিটি আসলে কোনও বোধগম্যতা দেয় কিনা তা আপনাকে পরীক্ষা করতে হবে পছন্দ।
@ এমএমকিউ অবিচ্ছেদ্য মডেলগুলির জন্য সেরা-ক্ষেত্রে দৃশ্যের রূপরেখা দিয়েছেন। তবে, আরও খারাপ পরিস্থিতিগুলিও ঘটে: পরীক্ষার যথার্থতার মতো, প্রশিক্ষণের যথাযথতাও বৈচিত্রের বিষয়, তবে সাধারণীকরণের যথার্থতার তুলনায় একটি আশাবাদী পক্ষপাত থাকে যা সাধারণত আগ্রহী interest এটি এমন পরিস্থিতির দিকে নিয়ে যেতে পারে যেখানে মডেলগুলির আলাদা আলাদা পারফরম্যান্স থাকলেও তাদের আলাদা করা যায় না। তবে তাদের প্রশিক্ষণ (বা অভ্যন্তরীণ সিভি) নির্ভুলতা তাদের আশাবাদী পক্ষপাতিত্বের কারণে তাদের পার্থক্য করতে খুব কাছাকাছি। উদাহরণস্বরূপ পুনরাবৃত্ত বৈশিষ্ট্য নির্বাচনের পদ্ধতিগুলি এ জাতীয় সমস্যার মধ্যে পড়তে পারে যা এমনকি অভ্যন্তরীণ ক্রস বৈধতা যাচাইয়ের জন্যও অব্যাহত থাকতে পারে (সেই ক্রস বৈধকরণ কীভাবে কার্যকর হয় তার উপর নির্ভর করে)।

সুতরাং যদি এই জাতীয় সমস্যা উত্থাপিত হতে পারে, তবে আমি মনে করি যে প্রোগ্রামটি সিদ্ধান্ত গ্রহণের জন্য ব্যবহারযোগ্য যথাযথতা থেকে কোনও বুদ্ধিমান পছন্দ সম্ভবত ফলস্বরূপ হতে পারে কিনা তা খতিয়ে দেখার পক্ষে ভাল ধারণা। এর অর্থ হ'ল এটি যাচাই করা হবে যে অভ্যন্তরীণ সিভি নির্ভুলতা (যা সম্ভবত সেরা মডেল নির্বাচনের জন্য ব্যবহৃত হয়) স্ট্যাটিস্টিক্যালি স্বতন্ত্র বিভাজন সহ একটি বাহ্যিকভাবে সম্পন্ন সিভি সম্পর্কিত শ্রদ্ধার সাথে খুব বেশি আশাবাদী নয়। আবার, সিন্থেটিক এবং / বা এলোমেলো ডেটা প্রোগ্রামটি আসলে কী করে তা সন্ধানে সহায়তা করতে পারে।

একটি দ্বিতীয় পদক্ষেপ হ'ল @ এমবিকিউ ইতিমধ্যে নির্দেশিত হিসাবে পরিসংখ্যানগতভাবে পৃথক বিভাজনের জন্য পর্যবেক্ষণ করা পার্থক্যগুলি অর্থবোধক কিনা তা একবার দেখা উচিত a

আমি আপনাকে পরিসংখ্যানগতভাবে অর্থপূর্ণ পার্থক্য রাখতে আপনার প্রদত্ত নমুনা আকারের সাথে সঠিকতার মধ্যে কোন পার্থক্যটি পর্যবেক্ষণ করতে হবে তা গণনা করার পরামর্শ দিচ্ছি। যদি আপনার পর্যবেক্ষণের বৈকল্পিকতা কম হয় তবে আপনার প্রদত্ত ডেটা সেটটি দিয়ে কোন অ্যালগরিদম আরও ভাল তা আপনি ঠিক করতে পারবেন না: আরও অনুকূলিতকরণের অর্থ হয় না।


হজম করার জন্য এখানে দুর্দান্ত তথ্য রয়েছে। প্রথমত, আমি খুব দুঃখিত যে আমি সঠিক সংখ্যাটি দিইনি কারণ আমি প্রত্যাশা করি নি যে আপনি এত সংখ্যক বিশদে সংখ্যায় নামবেন এবং আমি কেবল একটি বিষয়ে মনোনিবেশ করতে চেয়েছিলাম। যাইহোক, আমার কাছে 73 টি প্রশিক্ষণ এবং 58 টি পরীক্ষার ডেটা রয়েছে। এগুলি পরিসংখ্যানগতভাবে পৃথক নয়, এগুলি কেবল বিভিন্ন সময়ে আমার দ্বারা নেওয়া হয়েছিল। প্রশিক্ষণের নমুনাগুলি প্রথমে বৈশিষ্ট্য নির্বাচন অ্যালগরিদমে নেওয়া হয় (মোড়ক এফএস পদ্ধতিতে অভ্যন্তরীণ 5-ভাঁজ সিভিও থাকে) এবং তারপরে 5-ভাজ এবং সর্বোত্তম নির্ভুলতা নেওয়া হয় এবং মডেল সংরক্ষণ করা হয়। এবং তারপরে সেই মডেলটি পরীক্ষার নির্ভুলতার গণনার জন্য ব্যবহৃত হয়।
এরকু

16

প্রশিক্ষণের সেটটিতে যথার্থতা মেশিন শেখার কোনও ধারণা রাখে না। বাদ দাও.


ধন্যবাদ! আমার একই পরীক্ষার যথার্থতার সাথে অনেকগুলি ফলাফল রয়েছে, সুতরাং এখনি ফলাফলগুলি তুলনা করতে পারছি না (যদি আপনি এটি না বলে থাকেন তবে তুলনা করার জন্য আমি প্রশিক্ষণের যথার্থতার দিকেও নজর দেব) :)। সুতরাং পরীক্ষা এবং প্রশিক্ষণে বিভক্ত হওয়ার পরিবর্তে, সমস্ত ডেটাসেটে একাধিক ক্রস বৈধতা আমার ফলাফলের সাথে তুলনা করার জন্য কি আরও উপযুক্ত? বা আমার অন্য কোনও মেট্রিক দরকার?
এরকু

1
সিভি অবশ্যই একটি ভাল ধারণা; যাইহোক, নোট করুন যে এখানে বেশ কয়েকটি "সেরা" অ্যালগরিদম বা প্যারামিটার সেট থাকতে পারে (এমন একটি অর্থে যে তারা একই রকম দেয়, বা সেরা কেস থেকে পরিসংখ্যানগতভাবে পৃথক পৃথক যথার্থতা) - এটিও কোনও সমস্যা নয়। আরও ভাল, এর অর্থ হল যে আপনি স্থিতিশীল ফলাফল পাচ্ছেন - তীক্ষ্ণ সর্বোত্তম প্রস্তাব দিতে পারে আপনি চেরি-পিকিং পরামিতিগুলির সাহায্যে মডেলটির চেয়ে বেশি মানিয়ে নিয়েছেন।

8
আপনার ভবিষ্যদ্বাণীপূর্ণ অ্যালগরিদমটি কী পরিমাণ বাড়িয়েছে (প্রশিক্ষণ ও পরীক্ষার সেটগুলির মধ্যে নির্ভুলতার মধ্যে পার্থক্যটি গণনা করে) প্রশিক্ষণের সেটটিতে যথাযথতা জানতে দরকারী useful
ফ্র্যাঙ্ক হ্যারেল

কেন আপনি ব্যাখ্যা করতে পারেন?
inf

1
সংজ্ঞা থেকে, এমএল পদ্ধতিগুলি অদেখা তথ্যের পারফরম্যান্স সম্পর্কে, সুতরাং তারা এই ফলাফল সম্পর্কে কোনও গ্যারান্টি দেয় না (মডেলটি পরিসংখ্যানগত মডেলিংয়ের মতো ডেটা অন্তর্নিহিত প্রক্রিয়াটি পুনরায় বাস্তবায়নের প্রত্যাশিত নয়)। অনুশীলনে অনেকগুলি পদ্ধতি অত্যধিক সঠিক পূর্বাভাস দেয়, সুতরাং এটি কেবল প্রতারণা।

6

আপনি যেভাবে চলেছেন তাতে কয়েকটি গুরুতর সমস্যা রয়েছে। প্রথমত, মোট নমুনার আকার বিশাল না হলে ডেটা বিভাজন অবিশ্বাস্য। আপনি আবার বিভক্ত হলে আপনি বিভিন্ন ফলাফল পাবেন। অন্যান্য জিনিসের মধ্যে আপনি নির্ভুলতার অনুমানের উপর আস্থা অন্তর বিবেচনা করছেন না। দ্বিতীয়ত, 5-ভাঁড়ের ক্রস-বৈধতা যথেষ্ট সুনির্দিষ্ট নয়। পর্যাপ্ত নির্ভুলতা অর্জনের জন্য এটি 100 বার পুনরাবৃত্তি করা প্রয়োজন হতে পারে। তৃতীয়, আপনি নির্ভুলতার স্কোর হিসাবে একটি বিযুক্ত অনর্থক স্কোরিং নিয়ম হিসাবে বেছে নিয়েছেন (অনুপাত সঠিকভাবে শ্রেণিবদ্ধ)। এই ধরনের একটি ভুল স্কোরিং নিয়ম ভুল মডেল নির্বাচন করতে পরিচালিত করবে।


3

ধরে নিই যে অ্যালগোরিদমগুলির বাস্তবায়নে কোনও ত্রুটি নেই, আসুন আমরা সমস্যাটি দেখি।

আপনার প্রশিক্ষণ ডেটা থেকে একটি ছোট উপসেট গ্রহণ এবং এটিতে আপনার শেখার অ্যালগরিদম চালানোর কল্পনা করুন। এটি অবশ্যই খুব ভাল করবে। 98% নির্ভুলতা অর্জন করে এমন একটি উপসেট আহরণ করা সর্বদা সম্ভব।

এখন আপনার পরীক্ষার ডেটা কি এই উপসেটের সাথে খুব মিল? যদি হ্যাঁ, তবে আপনাকে আরও ডেটা সংগ্রহ করতে হবে, আশা করি কিছুটা ভিন্ন। বায়াস-ভেরিয়েন্স দৃষ্টিকোণ থেকে, আমি বলব যে আপনার বৈকল্পিক বেশি।


1

আপনার কাছে যে নমুনাগুলি রয়েছে তার সংখ্যা (150) আপনার কাছে অনেকগুলি বৈশিষ্ট্য (1000) রয়েছে। আপনার নমুনা বাড়াতে বা আপনার বৈশিষ্ট্যগুলির সংখ্যা হ্রাস করতে হবে।

তারা বলছেন সাধারণত বৈশিষ্ট্যগুলির সংখ্যা ^ 2 = প্রয়োজনীয় নমুনার সংখ্যা। সুতরাং আপনার কমপক্ষে মিলিয়ন নমুনা প্রয়োজন।


0

এটি কোনও এমএল অ্যালগরিদম এমনকি কাস্টম শ্রেণিবদ্ধ ব্যবহার করেও ঘটতে পারে। বিভিন্ন কে-ফোল্ড ক্রস বৈধকরণ প্রকল্পগুলি যেমন 2 বা 10 ভাগেও চেষ্টা করুন। উচ্চতর কে দিয়ে আশা করা যায় যে পরীক্ষার ত্রুটি হ্রাস পেয়েছে।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.