পরিসংখ্যান মডেলদের প্রশিক্ষণের জন্য কি "পর্যাপ্ত" ডেটার ধারণা রয়েছে?


10

আমি হিট মার্কোভ মডেলস এবং গাউসিয়ান মিশ্রণ মডেলগুলির মতো বেশ কয়েকটি পরিসংখ্যানের মডেলিংয়ে কাজ করি। আমি দেখতে পাচ্ছি যে প্রতিটি ক্ষেত্রে ভাল মডেলদের প্রশিক্ষণ দেওয়ার জন্য চূড়ান্ত ব্যবহারের মতো একই পরিবেশ থেকে নেওয়া একটি বৃহত (> 20000 বাক্য এইচএমএমদের জন্য বাক্য) প্রয়োজন। আমার প্রশ্নটি হ'ল:

  1. সাহিত্যে "পর্যাপ্ত" প্রশিক্ষণের ডেটা ধারণা আছে? "যথেষ্ট ভাল" প্রশিক্ষণের ডেটা কত?
  2. "ভাল" (যা একটি ভাল স্বীকৃতি নির্ভুলতা দেয় (> 80%)) প্রশিক্ষিত হতে মডেলগুলির জন্য কতগুলি বাক্য প্রয়োজন তা আমি কীভাবে গণনা করতে পারি?
  3. কোনও মডেলকে সঠিকভাবে প্রশিক্ষণ দেওয়া হয়েছে কিনা আমি কীভাবে জানতে পারি? মডেলের সহগগুলি কি এলোমেলো ওঠানামা প্রদর্শন শুরু করবে? যদি তা হয় তবে মডেল আপডেটের কারণে আমি এলোমেলো ওঠানামা এবং আসল পরিবর্তনগুলিকে কীভাবে আলাদা করব?

আরও বেশি ট্যাগ লাগলে দয়া করে এই প্রশ্নটি পুনরায় চালু করতে দ্বিধা বোধ করবেন।

উত্তর:


10

আপনি আপনার ডেটাসেটকে 10%, 20%, 30%, ..., 100% আপনার ডেটা দিয়ে টানা সাবসেটগুলিতে টুকরো টুকরো করে ফেলতে পারেন এবং প্রতিটি উপসেটের জন্য কে-ফোল্ড ক্রস বৈধতা বা বুটস্ট্র্যাপিং ব্যবহার করে আপনার অনুমানের যথার্থতার প্রকরণটি অনুমান করতে পারেন। আপনার যদি "পর্যাপ্ত" ডেটা থাকে তবে রূপগুলি প্লট করার ক্ষেত্রে হ্রাসমান একঘেয়ে লাইন প্রদর্শন করা উচিত যা 100% এর আগে একটি মালভূমিতে পৌঁছা উচিত: আরও ডেটা যুক্ত করা কোনও উল্লেখযোগ্য উপায়ে প্রাক্কলকের নির্ভুলতার বৈচিত্রকে হ্রাস করে না।


আমার চেষ্টা করতে হবে। আকর্ষণীয় মনে হচ্ছে। ধন্যবাদ!
শ্রীরাম
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.