আমার মেশিন লার্নিং মডেলটি প্রশিক্ষণের জন্য কতটা ডেটা যথেষ্ট?


11

আমি কিছুক্ষণের জন্য মেশিন লার্নিং এবং বায়োইনফরম্যাটিকসে কাজ করছি এবং আজ ডেটা মাইনিংয়ের মূল সাধারণ বিষয়গুলি সম্পর্কে আমার একজন সহকর্মীর সাথে আলাপ হয়েছিল।

আমার সহকর্মী (যিনি একটি মেশিন লার্নিং বিশেষজ্ঞ) বলেছিলেন যে, তাঁর মতে, মেশিন লার্নিংয়ের তর্কযোগ্যভাবে সবচেয়ে গুরুত্বপূর্ণ ব্যবহারিক দিকটি হ'ল কীভাবে বুঝতে হবে যে আপনি নিজের মেশিন লার্নিং মডেলটি প্রশিক্ষণের জন্য পর্যাপ্ত ডেটা সংগ্রহ করেছেন কিনা

এই বিবৃতি আমাকে অবাক করেছে, কারণ আমি এই দিকটিকে এতটা গুরুত্ব দেয়নি ...

আমি তখন ইন্টারনেটে আরও তথ্যের সন্ধান করলাম এবং আমি এই পোস্টটি ফাস্টএমএল.কম -এ থাম্বের নিয়ম হিসাবে প্রতিবেদন করে দেখলাম যে বৈশিষ্ট্যগুলি রয়েছে বলে আপনার প্রায় 10 গুণ বেশি ডেটা দৃষ্টান্ত প্রয়োজন

দুটি প্রশ্ন:

1 - এই সমস্যাটি কি বিশেষভাবে মেশিন লার্নিংয়ে প্রাসঙ্গিক ?

2 - 10 বার নিয়ম কি কাজ করছে? এই থিমের জন্য অন্য কোনও প্রাসঙ্গিক উত্স আছে?


1. হ্যাঁ ২. এটি একটি ভাল বেসলাইন তবে আপনি স্বাধীনতার কার্যকর ডিগ্রি হ্রাস করতে নিয়মিতকরণের সাথে এটি পেতে পারেন । এটি গভীর শিক্ষার সাথে বিশেষত ভাল কাজ করে। ৩. আপনি ত্রুটি বা স্কোরের বিরুদ্ধে নমুনা আকারের শেখার বক্ররেখাকে প্লট করে আপনার সমস্যার পরিস্থিতি নির্ণয় করতে পারেন।
এমরে

@ ইমর ধন্যবাদ! আপনি কি আমাকে কিছু কাগজপত্র বা পড়ার জন্য কোনও উপাদান প্রস্তাব করতে পারেন?
ডেভিডেচিকো.ইট

এটি সাধারণত আপনার পাঠ্যপুস্তকে ক্রস-বৈধকরণ এবং অন্যান্য মডেল বৈধকরণ প্রযুক্তির পাশাপাশি আচ্ছাদিত হবে।
এমের

আপনি যদি এটি অর্জন করতে পারেন তবে 10 বারের নিয়ম দুর্দান্ত তবে কিছু ব্যবসায়ের সেটিংসে এটি ব্যবহারিক নয়। এমন অনেকগুলি পরিস্থিতি রয়েছে যেখানে ডেটা উদাহরণগুলির তুলনায় বৈশিষ্ট্যগুলির সংখ্যা অনেক বেশি (p> n)। এই পরিস্থিতিগুলি মোকাবেলা করার জন্য বিশেষভাবে নকশাকৃত মেশিন লার্নিং কৌশল রয়েছে।
ডেটা বিজ্ঞানের লোক 15

আপনার যদি এমন একটি বিশদ বিবরণ প্রয়োজন হয় যা শিক্ষার কার্ভ গ্রাফটি বুঝতে আপনাকে সহায়তা করতে পারে তবে এটিকে পরীক্ষা করে দেখুন: scikit-yb.org/en/latest/api/model_selection/learning_curve.html
singh

উত্তর:


6

দশবারের নিয়মটি আমার কাছে থাম্বের নিয়মের মতো বলে মনে হচ্ছে তবে এটি সত্য যে আপনি যদি পর্যাপ্ত প্রশিক্ষণের ডেটা না দিয়ে থাকেন তবে আপনার মেশিন লার্নিং অ্যালগরিদমের কার্যকারিতা হ্রাস পেতে পারে।

আপনার পর্যাপ্ত প্রশিক্ষণ তথ্য রয়েছে কিনা তা নির্ধারণের একটি ব্যবহারিক এবং ডেটা-চালিত উপায় হ'ল নীচের উদাহরণের মতো একটি শেখার বক্ররেখা ষড়যন্ত্র করে:

শেখার বক্ররেখা

শেখার বক্ররেখা প্রশিক্ষণ এবং পরীক্ষার ত্রুটির বিবর্তনকে প্রতিনিধিত্ব করে কারণ আপনি আপনার প্রশিক্ষণের সেটটির আকার বৃদ্ধি করেন।

  • আপনি আপনার ডেটাসেটের আকার বাড়ানোর সাথে সাথে প্রশিক্ষণের ত্রুটি বৃদ্ধি পায় কারণ আপনার প্রশিক্ষণ সংস্থার ক্রমবর্ধমান জটিলতা / পরিবর্তনশীলতার জন্য দায়ী এমন একটি মডেল ফিট করা আরও শক্ত হয়ে যায়।
  • আপনি আপনার ডেটাসেটের আকার বাড়ানোর সাথে সাথে পরীক্ষার ত্রুটি হ্রাস পেয়েছে, কারণ মডেল আরও বেশি পরিমাণে তথ্যের থেকে আরও সাধারণকরণ করতে সক্ষম।

আপনি প্লটের ডানদিকের অংশে দেখতে পাচ্ছেন যে প্লটের দুটি লাইনই পৌঁছায় এবং অ্যাসিম্পোটোটে থাকে। অতএব, আপনি অবশেষে একটি পর্যায়ে পৌঁছে যাবেন যাতে আপনার ডেটাসেটের আকার বাড়ানো আপনার প্রশিক্ষিত মডেলটির উপর প্রভাব ফেলবে না।

পরীক্ষার ত্রুটি এবং প্রশিক্ষণ ত্রুটির asympototes মধ্যে দূরত্বটি আপনার মডেলটির অত্যধিক উপস্থাপনের প্রতিনিধিত্ব করে। তবে আরও গুরুত্বপূর্ণ বিষয়, এই প্লটটি আপনাকে আরও ডেটা প্রয়োজন কিনা তা বলছে। মূলত, যদি আপনি আপনার প্রশিক্ষণের ডেটার বৃহত্তর সাবসেটগুলি বাড়ানোর জন্য পরীক্ষা এবং প্রশিক্ষণের ত্রুটির প্রতিনিধিত্ব করেন এবং লাইনগুলি কোনও অ্যাসিম্পটোটে পৌঁছেছে বলে মনে হয় না, আপনার আরও ডেটা সংগ্রহ করা উচিত।


X_train, y_train: Only train subsetX, y: the entire dataset
লার্নিং_কর্ভে

নমুনার সংখ্যা বাড়ার সাথে সাথে এই বাঁকটি ক্রস বৈধকরণ প্রয়োগ করার ফলাফল হিসাবে নির্মিত built অতএব, আপনার পুরো ডেটাसेट দরকার।
পাবলো সুউ

4
  1. হ্যাঁ, বিষয়টি অবশ্যই প্রাসঙ্গিক, যেহেতু আপনার মডেলটি ফিট করার ক্ষমতা আপনার কাছে থাকা পরিমাণের পরিমাণের উপর নির্ভর করবে তবে আরও গুরুত্বপূর্ণ বিষয় এটি ভবিষ্যদ্বাণীকারীদের গুণমানের উপর নির্ভর করে।
  2. একটি 10-বারের নিয়মটি থাম্বের নিয়ম হতে পারে (এবং আরও অনেকগুলি রয়েছে) তবে এটি আপনার বৈশিষ্ট্যগুলির ভবিষ্যদ্বাণীপূর্ণ ইউটিলিটির উপর নির্ভর করে। উদাহরণস্বরূপ, আইরিস ডেটাসেটটি মোটামুটি ছোট তবে সহজেই সমাধান হয়েছে, কারণ বৈশিষ্ট্যগুলি লক্ষ্যগুলি থেকে ভাল পৃথকীকরণ দেয়। বিপরীতে, আপনার 10 মিলিয়ন উদাহরণ থাকতে পারে এবং বৈশিষ্ট্যগুলি দুর্বল হলে ফিট করতে ব্যর্থ হন।

ধন্যবাদ! আপনি কি আমাকে কিছু কাগজপত্র বা পড়ার জন্য কোনও উপাদান প্রস্তাব করতে পারেন?
ডেভিডেচিকো.ইট
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.