আমি আর-তে লস রেগ্রেশন মডেলগুলি চালাচ্ছি এবং আমি 12 টি বিভিন্ন মডেলের আউটপুটগুলির সাথে বিভিন্ন নমুনার আকারের তুলনা করতে চাই। আমি প্রকৃত মডেলগুলিকে আরও বিশদে বিবরণ দিতে পারি যদি এটি প্রশ্নের উত্তর দেওয়ার ক্ষেত্রে সহায়তা করে।
এখানে নমুনা আকার আছে:
Fastballs vs RHH 2008-09: 2002
Fastballs vs LHH 2008-09: 2209
Fastballs vs RHH 2010: 527
Fastballs vs LHH 2010: 449
Changeups vs RHH 2008-09: 365
Changeups vs LHH 2008-09: 824
Changeups vs RHH 2010: 201
Changeups vs LHH 2010: 330
Curveballs vs RHH 2008-09: 488
Curveballs vs LHH 2008-09: 483
Curveballs vs RHH 2010: 213
Curveballs vs LHH 2010: 162
লস রিগ্রেশন মডেলটি একটি পৃষ্ঠের ফিট, যেখানে প্রতিটি বেসবল পিচের এক্স অবস্থান এবং ওয়াই অবস্থানটি ডাব্লু স্ট্রাইক সম্ভাবনার ঝুলিতে পূর্বাভাস দেওয়ার জন্য ব্যবহৃত হয়। যাইহোক, আমি এই সমস্ত মডেলের 12 টির মধ্যে তুলনা করতে চাই, তবে একই স্প্যানটি সেট করা (অর্থাত্ স্প্যান = ০.৫) বিভিন্ন ধরণের নমুনা আকারের উপস্থিতি থেকে বিভিন্ন ফলাফল আসবে।
আমার প্রাথমিক প্রশ্নটি হল আপনি কীভাবে আপনার মডেলের স্প্যানটি নির্ধারণ করবেন? একটি উচ্চতর স্প্যান আরও উপযুক্ত ফিট করে, যখন একটি স্বল্প স্প্যান আরও প্রবণতা ক্যাপচার করে তবে খুব অল্প ডেটা থাকলে স্ট্যাটিস্টিকাল শোরগোলের পরিচয় দেয়। আমি ছোট নমুনা আকারের জন্য একটি উচ্চতর স্প্যান এবং বৃহত্তর নমুনা আকারগুলির জন্য একটি কম স্প্যান ব্যবহার করি।
আমার কি করা উচিৎ? আর-তে কম রিগ্রেশন মডেলগুলির জন্য স্প্যান সেট করার সময় থাম্বের একটি ভাল নিয়ম কী? আগাম ধন্যবাদ!