মডেলিং ক্রিকেট বোলাররা ব্যাটসম্যানদের আউট করছেন


9

আমার কাছে প্রচুর পরিমাণে ক্রিকেট গেম (কয়েক হাজার) সম্পর্কিত একটি ডেটা সেট রয়েছে। ক্রিকেটে "বোলার" বারবার "ব্যাটসম্যান" এর উত্তরাধিকার সূত্রে একটি বল নিক্ষেপ করে। বোলার ব্যাটসম্যানকে "আউট" করার চেষ্টা করছেন। এই ক্ষেত্রে এটি বেসবলের কলসি এবং ব্যাটারগুলির সাথে বেশ মিল।

আমি যদি পুরো ডেটাসেটটি নিয়েছি এবং মোট বলের যে সংখ্যাটি একটি ব্যাটসম্যানকে পেয়েছে মোট বল বল দ্বারা ভাগ করে নিলাম, আমি দেখতে পাচ্ছি যে কোনও বোলার একজন ব্যাটসম্যানকে আউট করার সম্ভাবনা আমার ছিল - এটি প্রায় 0.03 (প্রায় হবে) আশা করি আমি ইতিমধ্যে ভুল হই নি?)

আমি যে বিষয়ে আগ্রহী তা হ'ল আমি পরের বলে একটি নির্দিষ্ট বোলার দ্বারা নির্দিষ্ট বোলারকে আউট করার সম্ভাবনাটি চেষ্টা করতে এবং গণনার জন্য কী করতে পারি।

ডেটাসেটটি এত বড় যে কোনও প্রদত্ত বোলার হাজার হাজার বল ব্যাটসম্যানদের বিস্তৃত করতে পারেন। সুতরাং আমি বিশ্বাস করি যে একজন নির্দিষ্ট বোলার পরের বল থেকে আউট হওয়ার জন্য একটি নতুন সম্ভাবনা গণনা করার জন্য যে বোলার বোলিং করেছেন তার সংখ্যা থেকে আমি কেবল আউটসের সংখ্যাকে বিভক্ত করতে পারি।

আমার সমস্যাটি হ'ল ডেটাসেট এত বড় নয় যে গ্যারান্টি দেওয়া যে কোনও প্রদত্ত বোলার কোনও পরিসংখ্যানগতভাবে উল্লেখযোগ্য সংখ্যক বল কোনও বোলিংয়ে ফেলেছেন। সুতরাং আমি যদি নির্দিষ্ট ব্যাটসম্যানের মুখোমুখি কোনও নির্দিষ্ট বোলারের পক্ষে আউট হওয়ার সম্ভাবনা গণনা করতে আগ্রহী তবে আমি মনে করি না যে এটি একই সরল পদ্ধতিতে করা সম্ভব নয়।

নিম্নলিখিত প্রশ্নটি বৈধ কিনা আমার প্রশ্ন:

  • পুরো ডেটাসেট জুড়ে একটি বল আউট হওয়ার সম্ভাবনা 0.03।

  • যদি আমি গণনা করি যে গড় বোলার এ-এর ০.০6 (যেমন গড় বোলার হিসাবে দ্বিগুণ হওয়ার সম্ভাবনা রয়েছে) এর বাইরে যাওয়ার সম্ভাবনা রয়েছে,

  • এবং গড়ে ব্যাটসম্যান বি এর ০.০১ এর বাইরে থাকার সম্ভাবনা ছিল (একজন গড় তৃতীয় ব্যাটসম্যান)

  • তাহলে সেই নির্দিষ্ট ব্যাটসম্যানের পরবর্তী বলের যে নির্দিষ্ট বোলারের আউট হওয়ার সম্ভাবনা 0.06 * (0.01 / 0.03) = 0.02 হতে চলেছে তা কি বৈধ?


যদি বোলার বারবার বল নিক্ষেপ করতে পছন্দ করে তবে তারা দ্রুত খেলায় আবারও বল করতে সক্ষম হতে নিজেকে সরিয়ে নিতে চাইবে।
গ্লেন_বি -রিনস্টেট মনিকা

উত্তর:


2

আমি যদি পুরো ডেটাসেটটি নিয়েছি এবং মোট বলের যে সংখ্যাটি একটি ব্যাটসম্যানকে পেয়েছে মোট বল বল দ্বারা বিভক্ত করতে পারি আমি দেখতে পাচ্ছি যে একজন বোলার একজন ব্যাটসম্যানকে আউট করার পক্ষে আমার গড় সম্ভাবনা থাকে - আশা করি এটি প্রায় 0.03 (আশাবাদী) আমি ইতিমধ্যে ভুল হই নি?)

দুর্ভাগ্যক্রমে, এটি ইতিমধ্যে আপনি যা সন্ধান করছেন ঠিক তা নয়।

ধরা যাক, আমাদের একক বোলার এবং দুটি ব্যাটসম্যান: ডন ব্র্যাডম্যান এবং আমি। (আমি ক্রিকেট সম্পর্কে খুব কম জানি, তাই আমি যদি এখানে কিছুটা বন্ধ করি তবে আমাকে জানতে দিন)) গেমগুলি এমন কিছু যায়:

  • ডন ব্যাট করতে যায়, এবং 99 তম বলে আউট হয়।
  • আমি ব্যাট করতে যাই, এবং সঙ্গে সঙ্গে আউট আউট।
  • ডন ব্যাট করতে যায়, এবং 99 তম বলে আউট হয়।
  • আমি ব্যাট করতে যাই, এবং সঙ্গে সঙ্গে আউট আউট।

এই ক্ষেত্রে, 200 টি বাউলের ​​মধ্যে চারটি আউট রয়েছে, সুতরাং কোনও বোলার ব্যাটসম্যান আউট হওয়ার প্রান্তিক সম্ভাবনা 4/200 = 2% হিসাবে ধরা হয়। তবে প্রকৃতপক্ষে, ডনের বাইরে যাওয়ার সম্ভাবনা আরও 1% এর মতো, যেখানে খনি 100%। সুতরাং আপনি যদি এলোমেলোভাবে কোনও ব্যাটসম্যান এবং কোনও বোলার বেছে নেন, তবে এই বোলার এই বার এই ব্যাটসম্যানকে আউট করার সম্ভাবনা অনেক বেশি (50% সুযোগ আপনি ডনকে বেছে নিয়েছেন) * (1% সুযোগ তিনি আউট হয়ে গেছেন) + (আপনি যে ৫০% সুযোগ নিয়েছেন) আমি) * (আমি বেরিয়ে আসার 100% সুযোগ) = 50.05%। তবে আপনি যদি এলোমেলোভাবে কোনও পিচ চয়ন করেন তবে এটি 2% হওয়ার সম্ভাবনা রয়েছে। সুতরাং আপনি যে নমুনা মডেলগুলির কথা ভাবেন সে সম্পর্কে আপনার সাবধানে চিন্তা করা উচিত।


যাইহোক, আপনার প্রস্তাব পাগল নয়। আরও প্রতীকীভাবে, আসুনb বোলার হন এবং mব্যাটসম্যান; দিনf(b,m) সম্ভাবনা হও b পায় mবাইরে। তারপরে আপনি বলছেন:

f(b,m)=Em[f(b,m)]Eb[f(b,m)]Eb,m[f(b,m)].

এটিতে কাঙ্ক্ষিত সম্পত্তি রয়েছে যা:

Eb,m[f(b,m)]=Eb,m[f(b,m)]Eb,m[f(b,m)]Eb,m[f(b,m)]=Eb,m[f(b,m)];
যদি আপনি কেবল অর্থ উপার্জন করেন তবে এটি একইভাবে সুসংগত b অথবা m

মনে রাখবেন যে এই ক্ষেত্রে আমরা বরাদ্দ করতে পারি

C:=Eb,m[f(b,m)]g(b):=Em[f(b,m)]/Ch(m):=Eb[f(b,m)]/Cso that f(b,m)=g(b)h(m).
আপনার অনুমান যে আপনি পর্যবেক্ষণ করতে পারেন g(b) এবং h(m)যুক্তিসঙ্গতভাবে তথ্য থেকে ভাল। যতক্ষণ না (ক) আপনার পর্যাপ্ত গেমস থাকে [যা আপনি করেন] এবং (খ) খেলোয়াড়রা সবাই একে অপরকে যুক্তিযুক্ত অনুরূপ ফ্রিকোয়েন্সি নিয়ে খেলেন, তবে এটি ঠিক আছে।

(খ) কিছুটা বিশদভাবে বর্ণনা করার জন্য: ধারণা করুন যে আপনার কাছে প্রচুর পেশাদার গেমসের ডেটা রয়েছে, এবং আমার বন্ধুদের সাথে খেলতে আমার একগুচ্ছ গেমস রয়েছে। যদি কোনও ওভারল্যাপ না থাকে তবে আমি আমার বন্ধুদের তুলনায় সত্যিই দেখতে ভাল লাগছে, তাই আপনি সম্ভবত মনে করেন যে আমি সবচেয়ে খারাপ পেশাদার খেলোয়াড়ের চেয়ে অনেক ভাল। এটি স্পষ্টতই মিথ্যা, তবে এটির খণ্ডন করার মতো কোনও তথ্য আপনার কাছে নেই। যদিও আপনার যদি কিছুটা ওভারল্যাপ থাকে তবে আমি যেখানে একসময় একজন পেশাদার খেলোয়াড়ের বিপক্ষে খেলি এবং ধ্বংস হয়ে যায়, তবে ডেটা আমাকে এবং আমার বন্ধুদেরকে পেশাদারদের চেয়ে খারাপ হিসাবে চিহ্নিত করার পক্ষে সমর্থন করে তবে আপনার পদ্ধতি এটির জন্য অ্যাকাউন্ট করবে না। প্রযুক্তিগতভাবে, এখানে সমস্যা হ'ল আপনি ধরে নিচ্ছেন যে আপনার যেমন উদাহরণের জন্য একটি ভাল নমুনা রয়েছেEb[f(b,m)], কিন্তু তোমার b বিতরণ পক্ষপাতদুষ্ট।

অবশ্যই আপনার ডেটা এটিকে খারাপ দেখবে না, তবে লীগের কাঠামো বা যা কিছু নির্ভর করে, এতে সমস্যার কিছু উপাদান থাকতে পারে।


আপনি এটির চারপাশে একটি ভিন্ন পদ্ধতির সাথে কাজ করে দেখতে পারেন প্রস্তাবিত মডেল জন্যfআসলে কম-সারির ম্যাট্রিক্স গুণকনির্ণয় সাধারণ মডেলের একটি দৃষ্টান্ত হল সহযোগীতা ফিল্টারিং , হিসাবে Netflix এর সমস্যা । সেখানে, আপনি ফাংশনটি বেছে নিনg(b) এবং h(m) মাত্রা হতে r, এবং উপস্থাপন f(b,m)=g(b)Th(m)। আপনি ব্যাখ্যা করতে পারেনr>1একক "গুণমান" স্কোর থেকে একাধিক মাত্রার সাথে স্কোর করা আপনার মডেলকে জটিল করে তোলা: সম্ভবত নির্দিষ্ট বোলাররা নির্দিষ্ট ধরণের ব্যাটসম্যানদের বিরুদ্ধে আরও ভাল করতে পারে। (এটি এনবিএ গেমসের জন্য যেমন করা হয়েছে ))

তাদের ম্যাট্রিক্স ফ্যাক্টেরাইজেশন বলা হবার কারণ হ'ল যদি আপনি ম্যাট্রিক্স করেন F বোলার হিসাবে যতগুলি সারি এবং ব্যাটসম্যান হিসাবে যতগুলি কলাম রয়েছে, আপনি এটি লিখতে পারেন

[f(b1,m1)f(b1,m2)f(b1,mM)f(b2,m1)f(b2,m2)f(b2,mM)f(bN,m1)f(bN,m2)f(bN,mM)]F=[g(b1)g(bN)]G[h(m1)h(mM)]THT
যেখানে আপনি একটি N×M জরায়ু F মধ্যে একটি N×r এক G এবং একটি M×r এক H

অবশ্যই, আপনি পর্যবেক্ষণ করতে হবে না Fসরাসরি। সাধারণ মডেলটি হ'ল আপনি শোরগোলের এন্ট্রিগুলি পর্যবেক্ষণ করতে পারেনFএলোমেলোভাবে; আপনার ক্ষেত্রে, আপনি প্রতিটি প্রবেশের জন্য এলোমেলো ট্রায়ালগুলির সাথে দ্বিপদী বিতরণ থেকে একটি অঙ্কন পর্যবেক্ষণ করতে পারেনF

আপনি যেমন একটি সম্ভাব্যতা মডেল নির্মাণ করতে পারেন, বলুন:

GikN(0,σG2)HjkN(0,σH2)Fij=GiTHjRijBinomial(nij,Fij)
যেখানে nij এবং Rij পর্যবেক্ষণ করা হয়, এবং আপনি সম্ভবত কিছু হাইপারপ্রাইয়ার রেখে দিয়েছিলেন σG/σHএবং অনুমান যেমন স্ট্যান মধ্যে

এটি কোনও নিখুঁত মডেল নয়: একটির জন্য এটি এটিকে উপেক্ষা করে n স্কোরের সাথে সম্পর্কযুক্ত (যেমন আমি প্রথম বিভাগে উল্লেখ করেছি), এবং আরও গুরুত্বপূর্ণ, এটি বাধা দেয় না Fij প্রবেশ করতে [0,1](আপনি সম্ভবত এটি পেতে লজিস্টিক সিগময়েড বা অনুরূপ ব্যবহার করতে পারেন)। আরও জটিল প্রিয়ার সহ একটি সম্পর্কিত নিবন্ধG এবং H(তবে এটি দ্বিপদী সম্ভাবনা ব্যবহার করে না) হ'ল: সালখুদ্দিনভ এবং মনিহ, মার্কেস চেইন মন্টি কার্লো , আইসিএমএল ২০০es ব্যবহার করে বায়েসিয়ান সম্ভাব্য ম্যাট্রিক্স ফ্যাক্টরাইজেশন do ( ডোই / লেখকের পিডিএফ )


1
@ রবি এটি দীর্ঘ ছিল, সম্ভবত পরিষ্কারভাবে ব্যাখ্যা করা হয়নি এবং আমি এই ধরণের সমস্যাগুলির সাথে আপনার পটভূমির স্তরটি জানি না। তবে অস্পষ্ট যে কোনও অংশ সম্পর্কে প্রশ্ন জিজ্ঞাসা করতে দ্বিধা বোধ করুন। এছাড়াও, যেহেতু আপনার ডেটা একের পর এক আপনিও এলো বলার বিষয়টি বিবেচনা করতে পারেন ।
ডগল

অত্যন্ত উচ্চ মানের এই উত্তরটি লেখার জন্য সময় দেওয়ার জন্য আপনাকে ধন্যবাদ। স্বীকার্যভাবে আমি এখনই কেবলমাত্র প্রাথমিক পরিসংখ্যান জানি তাই এটির অনেক কিছুই আমার কাছে নতুন। তবে এটি আমাকে খুব স্পষ্টভাবে দেখায় যে এই সমস্যাটি সঠিকভাবে বুঝতে কী পড়তে হবে যা আমি যা চেয়েছিলাম ঠিক সেটাই। আশা করি অধ্যয়নের কিছু দিন (বা বছর!) পরে আমি আপনার উত্তর আরও ভালভাবে বুঝতে সক্ষম হব।
রবি

ধন্যবাদ. এলো সম্পর্কে আমার একটা প্রশ্ন ছিল। বরং এটি দীর্ঘ হিসাবে আমি একটি নতুন প্রশ্ন খুলেছি [এখানে] :( stats.stackexchange.com/questions/230518/… )
রবি

0

আপনি সঠিক সম্ভাব্যতা যে বি বাইরে থাকবে প্রদত্ত যে A বোলার হলে A এবং B ক্ষেত্র শুধু তাদের গড় উপর ভিত্তি করে কখনই হয়নি অনুমান করতে পারবে না অন্যান্য খেলোয়াড়দের।


3
যদিও আপনি ক্রিকেট সম্পর্কে সঠিক হতে পারেন, দাবা জাতীয় দক্ষতার মতো অন্যান্য খেলায় রেটিং সিস্টেমের দক্ষতা এমন লোকদের মধ্যে ম্যাচের ফলাফল পূর্বাভাস দেয় যা কখনও প্রতিদ্বন্দ্বিতা করেনি অন্যথায় বলে দেয়।
হোবার

2
@ হুশিয়ার রাজি - আমি মনে করি এটি প্রায় অন্যান্য প্রতিযোগিতামূলক মিথস্ক্রিয়া হিসাবে ক্রিকেটের ঠিক ঠিক ঠিক হবে। না ক্রিকেট যে আলাদা।
গ্লেন_বি -রিনস্টেট মনিকা
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.