কোনও পরিসংখ্যানবিদকে কোনও প্রশ্ন জিজ্ঞাসা করুন এবং তাদের উত্তরটি "এটি নির্ভর করে" এর কিছু ফর্ম হবে be
এটা নির্ভর করে । মডেলের ধরণ (ভাল পয়েন্ট ক্যাবলিট!) বাদে প্রশিক্ষণ সেট পয়েন্টের সংখ্যা এবং ভবিষ্যদ্বাণীকের সংখ্যা? যদি মডেলটি শ্রেণিবদ্ধকরণের জন্য হয় তবে একটি বৃহত শ্রেণির ভারসাম্যহীনতা আমাকে পুনরাবৃত্তির সংখ্যা বাড়িয়ে তুলবে। এছাড়াও, যদি আমি কোনও বৈশিষ্ট্য নির্বাচনের পদ্ধতিটি পুনঃনির্মাণ করি তবে আমি আরও প্রতিরোধের দিকে নিজেকে পক্ষপাত করব।
এই প্রসঙ্গে ব্যবহৃত পুনরায় মডেলিং পদ্ধতির জন্য মনে রাখবেন (শাস্ত্রীয় বুটস্ট্র্যাপিংয়ের বিপরীতে) আপনার বিতরণের গড়ের একটি "যথাযথ পর্যাপ্ত" অনুমান পেতে কেবল পর্যাপ্ত পুনরাবৃত্তি প্রয়োজন। এটি সাবজেক্টিভ তবে যে কোনও উত্তরই হবে।
এক সেকেন্ডের জন্য দুটি শ্রেণীর সাথে শ্রেণিবদ্ধকরণের সাথে আটকে থাকা, ধরুন আপনি আশা করেন / মডেলটির যথার্থতা প্রায় 0.80 হবে। যেহেতু পুনঃনির্মাণ প্রক্রিয়াটি নির্ভুলতার প্রাক্কলনটিকে নমুনা দিচ্ছে (বলুন p
), sqrt[p*(1-p)]/sqrt(B)
যেখানে স্ট্যান্ডার্ড ত্রুটি হবে সেখানে B
রেজাল্টের সংখ্যা। জন্য B = 10
, সঠিকতার স্ট্যান্ডার্ড ত্রুটি প্রায় 0.13 এবং B = 100
এটির সাথে প্রায় 0.04। আপনি এই নির্দিষ্ট ক্ষেত্রে একটি সূক্ষ্ম গাইড হিসাবে সূত্র ব্যবহার করতে পারেন।
এটিকেও বিবেচনা করুন, উদাহরণস্বরূপ, যথাযথতার বৈচিত্রটি আপনি 0.50 এর কাছাকাছি যতটা ঘনিষ্ঠ হন ততই সুনির্দিষ্ট মডেলের কম প্রতিরূপ হওয়া উচিত কারণ দুর্বল শিক্ষার্থীদের মডেলগুলির তুলনায় স্ট্যান্ডার্ড ত্রুটি কম হওয়া উচিত।
আছে HTH,
ম্যাক্স