কত বড় একটি প্রশিক্ষণ সেট প্রয়োজন?


24

কোনও শ্রেণিবদ্ধ (এই ক্ষেত্রে একটি এলডিএ) প্রশিক্ষণের জন্য কত প্রশিক্ষণের নমুনার প্রয়োজন তা নির্ধারণ করার জন্য একটি সাধারণ পদ্ধতি ব্যবহার করা হয় কি না সর্বনিম্ন প্রান্তিক সাধারণীকরণের সঠিকতা পেতে?

আমি জিজ্ঞাসা করছি কারণ আমি সাধারণত ব্রেইন-কম্পিউটার ইন্টারফেসে প্রয়োজনীয় ক্যালিগ্রেশন সময়টি হ্রাস করতে চাই।


2
ব্যবহারকারী 2030669, নীচে @ ক্যাবেলাইটের উত্তর চমত্কার তবে থাম্বের রুক্ষ নিয়ম হিসাবে: আপনার বৈশিষ্ট্য হিসাবে কমপক্ষে সংখ্যার (নমুনা) সংখ্যার কমপক্ষে 6 গুণ প্রয়োজন need
বিগ্রেইন

2
... প্রতিটি ক্লাসে। আমি 5p এবং 3 পি / শ্রেণীর সুপারিশও দেখেছি।
ক্যাবেলাইটস মনিকাকে

উত্তর:


31

আপনি যে শব্দটির সন্ধান করছেন তা হ'ল "লার্নিং কার্ভ", যা প্রশিক্ষণের নমুনা আকারের কার্যকারিতা হিসাবে (গড়) মডেল পারফরম্যান্স দেয়।

বক্ররেখা শেখা অনেক কিছুর উপর নির্ভর করে, যেমন

  • শ্রেণিবদ্ধকরণ পদ্ধতি
  • শ্রেণিবদ্ধের জটিলতা
  • ক্লাস পৃথক করা হয় কত ভাল।

(আমি মনে করি দ্বি-শ্রেণীর এলডিএর জন্য আপনি কিছু তাত্ত্বিক শক্তি গণনা অর্জন করতে সক্ষম হতে পারেন, তবে গুরুত্বপূর্ণ তথ্যটি সর্বদা আপনার ডেটা আসলে "সমান সিওভি মাল্টিভারিয়েট স্বাভাবিক" অনুমানের সাথে মিলিত হয় কিনা তা সর্বদা। আমি উভয় এলডিএর জন্য কিছু সিমুলেশন চাইব অনুমান এবং আপনার ইতিমধ্যে বিদ্যমান ডেটা পুনরায় মডেলিং)।

সীমাবদ্ধ আকারের (যথারীতি) প্রশিক্ষণপ্রাপ্ত শ্রেণিবদ্ধের পারফরম্যান্সের দুটি দিক রয়েছে ,এন

  • পক্ষপাতিত্ব, অর্থাত্ প্রশিক্ষণ নমুনাগুলিতে প্রশিক্ষিত একজন শ্রেণিবদ্ধ, প্রশিক্ষণের ক্ষেত্রে প্রশিক্ষণপ্রাপ্ত শ্রেণিবদ্ধের চেয়ে খারাপ (এটি সাধারণত বক্ররেখা শেখার দ্বারা বোঝানো হয়), এবংএনএন=
  • বৈকল্পিকতা: ক্ষেত্রে একটি প্রদত্ত প্রশিক্ষণ সেট মডেলটির পারফরম্যান্সে ভিন্ন হতে পারে। এমনকি কয়েকটি ক্ষেত্রেও আপনি ভাগ্যবান এবং ভাল ফলাফল পেতে পারেন। অথবা আপনার ভাগ্য খারাপ এবং সত্যিই খারাপ শ্রেণিবদ্ধ হয়। যথারীতি, incresing প্রশিক্ষণ নমুনার আকার সাথে এই প্রকরণটি হ্রাস পায় ।এন

    এন

আপনার আরেকটি দিক যা বিবেচনায় নিতে হতে পারে তা হ'ল সাধারণত কোনও ভাল শ্রেণিবদ্ধকারীকে প্রশিক্ষণ দেওয়া যথেষ্ট নয়, তবে আপনাকে এটি প্রমাণও করতে হবে যে শ্রেণিবদ্ধকারী ভাল (বা যথেষ্ট ভাল)। সুতরাং আপনাকে প্রদত্ত নির্ভুলতার সাথে বৈধতার জন্য প্রয়োজনীয় নমুনা আকারও পরিকল্পনা করতে হবে। এতগুলি পরীক্ষার ক্ষেত্রে (যেমন উত্পাদকের বা গ্রাহকের যথার্থতা / যথার্থতা / সংবেদনশীলতা / ইতিবাচক ভবিষ্যদ্বাণীমূলক মান) মধ্যে সাফল্যের ভগ্নাংশ হিসাবে যদি আপনাকে এই ফলাফলগুলি দেওয়া প্রয়োজন হয়, এবং অন্তর্নিহিত শ্রেণিবিন্যাসের কাজটি বরং সহজ তবে প্রশিক্ষণের চেয়ে আরও স্বতন্ত্র কেসগুলির প্রয়োজন হতে পারে একটি ভাল মডেল।

থাম্বের নিয়ম হিসাবে, প্রশিক্ষণের জন্য, নমুনার আকারটি সাধারণত মডেল জটিলতার সাথে সম্পর্কিত হয় (কেসের সংখ্যা: প্রকরণের সংখ্যা), যেখানে পরীক্ষার নমুনা আকারের উপর নিখুঁত সীমা পারফরম্যান্সের পরিমাপের প্রয়োজনীয় নির্ভুলতার জন্য দেওয়া যেতে পারে।

এখানে একটি কাগজ রয়েছে, যেখানে আমরা এই বিষয়গুলি আরও বিশদভাবে ব্যাখ্যা করেছি এবং কীভাবে শেখার বক্ররেখাগুলি পরিচালনা করবেন তাও আলোচনা করব:
বেলাইট, সি এবং নিউজবাউয়ার, ইউ এবং বকলিটজ, টি। এবং ক্রাফ্ট, সি এবং পপ, জে: নমুনা আকারের পরিকল্পনা শ্রেণিবদ্ধকরণ মডেলগুলির জন্য। পায়খানা চিম অ্যাক্টা, 2013, 760, 25-33।
ডিওআই: 10.1016 / জে.এ.সি.এ.এল.এল .11.11.007 আরএক্সআইভিতে
স্বীকৃত পান্ডুলিপি: 1211.1323

এটি "টিজার", একটি সহজ শ্রেণিবদ্ধকরণ সমস্যা দেখায় (আমাদের শ্রেণিবিন্যাসের সমস্যাটিতে আমাদের কাছে এর মতো একটি সহজ পার্থক্য রয়েছে তবে অন্যান্য শ্রেণিগুলি পার্থক্য করা আরও বেশি কঠিন): টিজার নমুনা আকার পরিকল্পনা কাগজ

আরও কত প্রশিক্ষণের ক্ষেত্রে প্রয়োজনীয় তা নির্ধারণ করার জন্য আমরা বৃহত্তর প্রশিক্ষণের নমুনা আকারগুলিতে এক্সট্রোপোলেট করার চেষ্টা করিনি, কারণ পরীক্ষার নমুনা মাপগুলি আমাদের বাধা, এবং বৃহত্তর প্রশিক্ষণের নমুনা আকারগুলি আরও জটিল মডেলগুলি তৈরি করতে দেয়, সুতরাং এক্সট্রাপোলেশন প্রশ্নবিদ্ধ। আমার যে ধরণের ডেটা সেট রয়েছে সেগুলির জন্য, আমি এই পুনরাবৃত্তির সাথে যোগাযোগ করতাম, একগুচ্ছ নতুন কেস পরিমাপ করতাম, দেখিয়েছিলাম যে জিনিসগুলির মধ্যে কতটা উন্নতি হয়েছে, আরও কেসগুলি পরিমাপ করা হবে ইত্যাদি।

এটি আপনার পক্ষে পৃথক হতে পারে তবে প্রয়োজনীয় সংখ্যার নমুনার অনুমানের জন্য কাগজটিতে উচ্চতর নমুনা আকারগুলিতে এক্সট্রাপোলেশন ব্যবহার করে কাগজগুলিতে সাহিত্যের উল্লেখ রয়েছে।


আমার এলডিএর জন্য একটি নিয়মিতকরণ স্কিম ব্যবহার করা আমাকে একটি ছোট প্রশিক্ষণের সেট নিয়ে কাজ করার অনুমতি দেবে?
Lunat1c

1
@ ব্যবহারকারী2036690, আরও পার্সামোনিয়াস মডেল (কম বৈশিষ্ট্য) এর জন্য কম প্রশিক্ষণের নমুনাগুলির প্রয়োজন হবে। একটি নিয়মিতকরণ স্কিম প্রয়োজনীয় নমুনার সংখ্যাকে প্রভাবিত করবে না, যদি কেবলমাত্র কম গুরুত্বপূর্ণ বৈশিষ্ট্যের প্রভাবকে হ্রাস করে। কিছু ধরণের বৈশিষ্ট্য
যৌক্তিকরণ

1
তবুও ডেটা-চালিত বৈশিষ্ট্য নির্বাচনের জন্য প্রচুর পরিমাণে নমুনার প্রয়োজন কারণ প্রতিটি মডেলের তুলনা আসলে একটি পরিসংখ্যানগত পরীক্ষা। বিশেষজ্ঞের জ্ঞান দ্বারা বৈশিষ্ট্য নির্বাচন তবে তাত্ক্ষণিক সাহায্য করতে পারে। @ গ্রেইন: নিয়মিতকরণ কেন নমুনা আকারের প্রয়োজনীয়তাগুলি হ্রাস করতে সহায়তা করতে পারে না তা আপনি প্রসারিত করতে পারেন (উদাহরণস্বরূপ একটি শর্তসাপেক্ষ কোভরিয়েন্স ম্যাট্রিক্সের উপর একটি রিজ বিবেচনা)? আইএমএইচও এটি বিস্ময়কর করতে পারে না, তবে এটি সাহায্য করতে পারে।
ক্যাবেলাইটস মনিকাকে

একটি মহাকাব্য আলোচনায় না গিয়ে ভাল, আমি ফ্রিডম্যানের নিয়মিতকরণ সূত্রের পরিবর্তে রিজ বা অন্যান্য শাস্তিযুক্ত দমনকে উল্লেখ করছি। তবে উভয় উপায়ে সহগের সংখ্যা লাসোর মতোই শূন্যে নেমে আসে না তাই মাত্রিকতা অকার্যকর হয় যার ফলস্বরূপ অসুস্থ পোজযুক্ত ম্যাট্রিক্স এড়াতে প্রয়োজনীয় নমুনা আকারের উপর কোনও প্রভাব ফেলবে না কারণ আপনি উপরে উল্লেখ করেছেন। যদি এটি
দৌড়াদৌড়ি

@ গ্রেইন: কোনও বাচ্চা নেই, আমি ফিরে জিজ্ঞাসা করেছি। আকর্ষণীয় প্রশ্নটি হ'ল: ডেটা-চালিত উপায়ে সহগুণকে শূন্যে সেট করে সামগ্রিক ডিএফ / জটিলতা কতটা হ্রাস করা হয় । যাইহোক, আমরা একটি অন্য গল্পে প্রবাহিত করছি ...
সিবিলেটগুলি মনিকা

4

প্রশিক্ষণের নমুনা আকার সম্পর্কে জিজ্ঞাসা করা বোঝায় যে আপনি মডেল বৈধতার জন্য ডেটা ধরে রাখতে চলেছেন। এটি একটি অস্থির প্রক্রিয়া যা একটি বিশাল আকারের নমুনার আকারের প্রয়োজন। বুটস্ট্র্যাপ সহ শক্তিশালী অভ্যন্তরীণ বৈধতা প্রায়শই পছন্দ করা হয়। আপনি যদি সেই পথটি বেছে নেন তবে আপনাকে কেবলমাত্র একটি নমুনার আকার গণনা করতে হবে। যেহেতু @ কেবিলেটগুলি এত সুন্দরভাবে বলেছেন যে এটি প্রায়শই "প্রার্থী পরিবর্তনশীল প্রতি ইভেন্ট" মূল্যায়ন হয় তবে আপনার কোনও বাইনারি ফলাফলের সম্ভাবনা সম্পর্কে সঠিকভাবে পূর্বাভাস দেওয়ার জন্য ন্যূনতম 96 টি পর্যবেক্ষণ দরকার যদিও পরীক্ষা করার জন্য কোনও বৈশিষ্ট্য নেই [এটি অর্জনের জন্য ওয়াই = 1] প্রকৃত প্রান্তিক সম্ভাবনাটি অনুমান করার ক্ষেত্রে ০.৯৫ এর আত্মবিশ্বাসের মার্জিনের ত্রুটি 0.1

নির্ভুলতার মূল্যায়নের জন্য যথাযথ স্কোরিংয়ের নিয়মগুলি বিবেচনা করা গুরুত্বপূর্ণ (যেমন, বেরিয়ার স্কোর এবং লগের সম্ভাবনা / বিচ্যুতি)। সদস্যতা সম্ভাবনা অনুমান করার বিপরীতে আপনি পর্যবেক্ষণগুলিকে সত্যই শ্রেণিবদ্ধ করতে চান তা নিশ্চিত করুন। পরেরটি প্রায়শই সবসময় বেশি কার্যকর কারণ এটি ধূসর জোনকে অনুমতি দেয়।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.