ছোট নমুনা-আকারের ডেটার জন্য প্রশিক্ষণ, ক্রস-বৈধকরণ এবং পরীক্ষার সেট আকারগুলি কীভাবে চয়ন করবেন?


10

ধরুন আমার কাছে একটি ছোট নমুনার আকার রয়েছে, যেমন এন = 100 এবং দুটি শ্রেণি। আমার কীভাবে প্রশিক্ষণ, ক্রস-বৈধকরণ এবং মেশিন লার্নিংয়ের জন্য পরীক্ষার সেট আকার নির্বাচন করতে হবে?

আমি স্বজ্ঞাতভাবে বাছাই করা হবে

  • প্রশিক্ষণের সেট আকার 50 হিসাবে
  • ক্রস বৈধতা সেট আকার 25, এবং
  • 25 হিসাবে পরীক্ষার আকার।

তবে সম্ভবত এটি কম-বেশি উপলব্ধি করে। আমি কীভাবে এই মূল্যবোধগুলি স্থির করব? আমি কি বিভিন্ন অপশন চেষ্টা করতে পারি (যদিও আমি অনুমান করি যে এটি এত বেশি পছন্দনীয় নয় ... অতিরিক্ত শিক্ষার সম্ভাবনা বৃদ্ধি পেয়েছে)?

আমার যদি দুটি ক্লাসের বেশি থাকে?


2
100 আমার জন্য খুব ছোট। আমি ক্রস-বৈধকরণ এবং পরীক্ষার মূল্যায়ন উভয়ের জন্য একটি ছুটির বাইরে এক কৌশল বেছে নেব।
স্মরণ

আমি এটিতে কোনও সাহিত্য দেখিনি (বৈধতার জন্য ন্যূনতম নমুনার আকার)। নিশ্চিত কেন। একটি গুরুত্বপূর্ণ ইস্যু মনে হচ্ছে।
চার্লস

উত্তর:


15

প্যারামিটার অপ্টিমাইজেশন এবং মডেল জটিলতার বিষয়ে পরামর্শের জন্য বিশুদ্ধভাবে +1। তবে এই সমস্ত পরামর্শই দুর্দান্ত।
চার্জ

1

আপনার নমুনার আকার ছোট হওয়ায় একটি ভাল অনুশীলন হ'ল ক্রস-বৈধকরণ বিভাগটি ছেড়ে দেওয়া এবং 60 - 40 বা 70 - 30 অনুপাত ব্যবহার করা।

আপনি ক্লিমেন্টাইন এবং ডেটা মাইনিংয়ের পরিচিতির ২.৮ বিভাগে এবং এমএসডিএন লাইব্রেরিতেও দেখতে পারেন - ডেটা মাইনিং - প্রশিক্ষণ এবং পরীক্ষার সেটগুলি একটি 70 - 30 অনুপাত সাধারণ। অ্যান্ড্রু এনজি'র মেশিন লার্নিং অনুসারে একটি 60 - 20 - 20 অনুপাতের প্রস্তাব দেওয়া হয়।

আশা করি আমি সহায়ক ছিলাম। শুভেচ্ছান্তে.

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.