আমি যদি পুরো ডেটাসেটটি নিয়েছি এবং মোট বলের যে সংখ্যাটি একটি ব্যাটসম্যানকে পেয়েছে মোট বল বল দ্বারা বিভক্ত করতে পারি আমি দেখতে পাচ্ছি যে একজন বোলার একজন ব্যাটসম্যানকে আউট করার পক্ষে আমার গড় সম্ভাবনা থাকে - আশা করি এটি প্রায় 0.03 (আশাবাদী) আমি ইতিমধ্যে ভুল হই নি?)
দুর্ভাগ্যক্রমে, এটি ইতিমধ্যে আপনি যা সন্ধান করছেন ঠিক তা নয়।
ধরা যাক, আমাদের একক বোলার এবং দুটি ব্যাটসম্যান: ডন ব্র্যাডম্যান এবং আমি। (আমি ক্রিকেট সম্পর্কে খুব কম জানি, তাই আমি যদি এখানে কিছুটা বন্ধ করি তবে আমাকে জানতে দিন)) গেমগুলি এমন কিছু যায়:
- ডন ব্যাট করতে যায়, এবং 99 তম বলে আউট হয়।
- আমি ব্যাট করতে যাই, এবং সঙ্গে সঙ্গে আউট আউট।
- ডন ব্যাট করতে যায়, এবং 99 তম বলে আউট হয়।
- আমি ব্যাট করতে যাই, এবং সঙ্গে সঙ্গে আউট আউট।
এই ক্ষেত্রে, 200 টি বাউলের মধ্যে চারটি আউট রয়েছে, সুতরাং কোনও বোলার ব্যাটসম্যান আউট হওয়ার প্রান্তিক সম্ভাবনা 4/200 = 2% হিসাবে ধরা হয়। তবে প্রকৃতপক্ষে, ডনের বাইরে যাওয়ার সম্ভাবনা আরও 1% এর মতো, যেখানে খনি 100%। সুতরাং আপনি যদি এলোমেলোভাবে কোনও ব্যাটসম্যান এবং কোনও বোলার বেছে নেন, তবে এই বোলার এই বার এই ব্যাটসম্যানকে আউট করার সম্ভাবনা অনেক বেশি (50% সুযোগ আপনি ডনকে বেছে নিয়েছেন) * (1% সুযোগ তিনি আউট হয়ে গেছেন) + (আপনি যে ৫০% সুযোগ নিয়েছেন) আমি) * (আমি বেরিয়ে আসার 100% সুযোগ) = 50.05%। তবে আপনি যদি এলোমেলোভাবে কোনও পিচ চয়ন করেন তবে এটি 2% হওয়ার সম্ভাবনা রয়েছে। সুতরাং আপনি যে নমুনা মডেলগুলির কথা ভাবেন সে সম্পর্কে আপনার সাবধানে চিন্তা করা উচিত।
যাইহোক, আপনার প্রস্তাব পাগল নয়। আরও প্রতীকীভাবে, আসুনখ বোলার হন এবং মিব্যাটসম্যান; দিনচ( খ , মি ) সম্ভাবনা হও খ পায় মিবাইরে। তারপরে আপনি বলছেন:
f(b,m)=Em′[f(b,m′)]Eb′[f(b′,m)]Eb′,m′[f(b′,m′)].
এটিতে কাঙ্ক্ষিত সম্পত্তি রয়েছে যা:
Eb,m[f(b,m)]=Eb,m′[f(b,m′)]Eb′,m[f(b′,m)]Eb′,m′[f(b′,m′)]=Eb,m[f(b,m)];
যদি আপনি কেবল অর্থ উপার্জন করেন তবে এটি একইভাবে সুসংগত
b অথবা
m।
মনে রাখবেন যে এই ক্ষেত্রে আমরা বরাদ্দ করতে পারি
C:=Eb,m[f(b,m)]g(b):=Em[f(b,m)]/C−−√h(m):=Eb[f(b,m)]/C−−√so that f(b,m)=g(b)h(m).
আপনার অনুমান যে আপনি পর্যবেক্ষণ করতে পারেন
g(b) এবং
h(m)যুক্তিসঙ্গতভাবে তথ্য থেকে ভাল। যতক্ষণ না (ক) আপনার পর্যাপ্ত গেমস থাকে [যা আপনি করেন] এবং (খ) খেলোয়াড়রা সবাই একে অপরকে যুক্তিযুক্ত অনুরূপ ফ্রিকোয়েন্সি নিয়ে খেলেন, তবে এটি ঠিক আছে।
(খ) কিছুটা বিশদভাবে বর্ণনা করার জন্য: ধারণা করুন যে আপনার কাছে প্রচুর পেশাদার গেমসের ডেটা রয়েছে, এবং আমার বন্ধুদের সাথে খেলতে আমার একগুচ্ছ গেমস রয়েছে। যদি কোনও ওভারল্যাপ না থাকে তবে আমি আমার বন্ধুদের তুলনায় সত্যিই দেখতে ভাল লাগছে, তাই আপনি সম্ভবত মনে করেন যে আমি সবচেয়ে খারাপ পেশাদার খেলোয়াড়ের চেয়ে অনেক ভাল। এটি স্পষ্টতই মিথ্যা, তবে এটির খণ্ডন করার মতো কোনও তথ্য আপনার কাছে নেই। যদিও আপনার যদি কিছুটা ওভারল্যাপ থাকে তবে আমি যেখানে একসময় একজন পেশাদার খেলোয়াড়ের বিপক্ষে খেলি এবং ধ্বংস হয়ে যায়, তবে ডেটা আমাকে এবং আমার বন্ধুদেরকে পেশাদারদের চেয়ে খারাপ হিসাবে চিহ্নিত করার পক্ষে সমর্থন করে তবে আপনার পদ্ধতি এটির জন্য অ্যাকাউন্ট করবে না। প্রযুক্তিগতভাবে, এখানে সমস্যা হ'ল আপনি ধরে নিচ্ছেন যে আপনার যেমন উদাহরণের জন্য একটি ভাল নমুনা রয়েছেEb′[f(b′,m)], কিন্তু তোমার b′ বিতরণ পক্ষপাতদুষ্ট।
অবশ্যই আপনার ডেটা এটিকে খারাপ দেখবে না, তবে লীগের কাঠামো বা যা কিছু নির্ভর করে, এতে সমস্যার কিছু উপাদান থাকতে পারে।
আপনি এটির চারপাশে একটি ভিন্ন পদ্ধতির সাথে কাজ করে দেখতে পারেন প্রস্তাবিত মডেল জন্যfআসলে কম-সারির ম্যাট্রিক্স গুণকনির্ণয় সাধারণ মডেলের একটি দৃষ্টান্ত হল সহযোগীতা ফিল্টারিং , হিসাবে Netflix এর সমস্যা । সেখানে, আপনি ফাংশনটি বেছে নিনg(b) এবং h(m) মাত্রা হতে r, এবং উপস্থাপন f(b,m)=g(b)Th(m)। আপনি ব্যাখ্যা করতে পারেনr>1একক "গুণমান" স্কোর থেকে একাধিক মাত্রার সাথে স্কোর করা আপনার মডেলকে জটিল করে তোলা: সম্ভবত নির্দিষ্ট বোলাররা নির্দিষ্ট ধরণের ব্যাটসম্যানদের বিরুদ্ধে আরও ভাল করতে পারে। (এটি এনবিএ গেমসের জন্য যেমন করা হয়েছে ))
তাদের ম্যাট্রিক্স ফ্যাক্টেরাইজেশন বলা হবার কারণ হ'ল যদি আপনি ম্যাট্রিক্স করেন F বোলার হিসাবে যতগুলি সারি এবং ব্যাটসম্যান হিসাবে যতগুলি কলাম রয়েছে, আপনি এটি লিখতে পারেন
⎡⎣⎢⎢⎢⎢⎢f(b1,m1)f(b2,m1)⋮f(bN,m1)f(b1,m2)f(b2,m2)⋮f(bN,m2)……⋱…f(b1,mM)f(b2,mM)⋮f(bN,mM)⎤⎦⎥⎥⎥⎥⎥F=⎡⎣⎢⎢g(b1)⋮g(bN)⎤⎦⎥⎥G⎡⎣⎢⎢h(m1)⋮h(mM)⎤⎦⎥⎥THT
যেখানে আপনি একটি
N×M জরায়ু
F মধ্যে একটি
N×r এক
G এবং একটি
M×r এক
H।
অবশ্যই, আপনি পর্যবেক্ষণ করতে হবে না Fসরাসরি। সাধারণ মডেলটি হ'ল আপনি শোরগোলের এন্ট্রিগুলি পর্যবেক্ষণ করতে পারেনFএলোমেলোভাবে; আপনার ক্ষেত্রে, আপনি প্রতিটি প্রবেশের জন্য এলোমেলো ট্রায়ালগুলির সাথে দ্বিপদী বিতরণ থেকে একটি অঙ্কন পর্যবেক্ষণ করতে পারেনF।
আপনি যেমন একটি সম্ভাব্যতা মডেল নির্মাণ করতে পারেন, বলুন:
Gik∼N(0,σ2G)Hjk∼N(0,σ2H)Fij=GTiHjRij∼Binomial(nij,Fij)
যেখানে
nij এবং
Rij পর্যবেক্ষণ করা হয়, এবং আপনি সম্ভবত কিছু হাইপারপ্রাইয়ার রেখে দিয়েছিলেন
σG/
σHএবং অনুমান যেমন
স্ট্যান মধ্যে ।
এটি কোনও নিখুঁত মডেল নয়: একটির জন্য এটি এটিকে উপেক্ষা করে n স্কোরের সাথে সম্পর্কযুক্ত (যেমন আমি প্রথম বিভাগে উল্লেখ করেছি), এবং আরও গুরুত্বপূর্ণ, এটি বাধা দেয় না Fij প্রবেশ করতে [0,1](আপনি সম্ভবত এটি পেতে লজিস্টিক সিগময়েড বা অনুরূপ ব্যবহার করতে পারেন)। আরও জটিল প্রিয়ার সহ একটি সম্পর্কিত নিবন্ধG এবং H(তবে এটি দ্বিপদী সম্ভাবনা ব্যবহার করে না) হ'ল: সালখুদ্দিনভ এবং মনিহ, মার্কেস চেইন মন্টি কার্লো , আইসিএমএল ২০০es ব্যবহার করে বায়েসিয়ান সম্ভাব্য ম্যাট্রিক্স ফ্যাক্টরাইজেশন do ( ডোই / লেখকের পিডিএফ )