সাফল্যের সম্ভাবনা অনুমান করে, একটি রেফারেন্স জনসংখ্যা দেওয়া হয়


11

ধরুন আপনার নিম্নলিখিত পরিস্থিতি রয়েছে:

আপনি সময়ের সাথে সাথে 1000 বোলিং প্লেয়ারকে পর্যবেক্ষণ করেছেন, যারা প্রত্যেকে তুলনামূলকভাবে কম সংখ্যক গেম খেলেছেন (বলুন 1 থেকে 20)। আপনি players খেলোয়াড়দের প্রত্যেকটি খেলানো সংখ্যার উপরে এই খেলোয়াড়ের প্রতিটির স্ট্রাইক শতাংশ লক্ষ্য করেছেন।

একজন নতুন বোলিং খেলোয়াড় এসে 10 টি গেম খেলে 3 টি স্ট্রাইক পায়।

যে কোনও খেলোয়াড়ের স্ট্রাইক সংখ্যার জন্য বিতরণ দ্বিপদী হিসাবে ধরে নেওয়া হয়।

আমি সেই খেলোয়াড়ের সাফল্যের "সত্য" সম্ভাবনাটি অনুমান করতে চাই।

দয়া করে নীচের বিষয়গুলি নোট করুন:

  1. এটি আসল পরিস্থিতি বা কোনও বিদ্যালয়ের সমস্যা নয়, কেবল একটি স্ব-চিন্তার সমস্যা।
  2. আমি স্ট্যাটাস 101 কোর্সের চেয়ে কিছুটা বেশি পরিসংখ্যান শিক্ষার ছাত্র। আমি সর্বাধিক সম্ভাবনার অনুমানের মতো অনুমান সম্পর্কে কিছুটা জানি ... সুতরাং আমার কাছে পরিসংখ্যানগুলির যে ক্ষেত্রগুলি সম্পর্কে পড়া উচিত তা নির্দ্বিধায় বলুন।
  3. আমার সমস্যাটির তথ্যের অভাব হতে পারে, বা যদি এটির পক্ষে উপকারী হয় তবে বলুন, সাফল্যের সম্ভাবনা বন্টন প্রায় স্বাভাবিক হওয়ার জন্য, দয়া করে আমাকে এটি বলুন।

আপনাকে অনেক ধন্যবাদ


আপনি কী মনে করেন যে এই খেলোয়াড়ের সম্ভাবনা এবং অন্যান্য 1000 খেলোয়াড়ের প্রতিটির সম্ভাবনার মধ্যে সম্পর্ক? অন্য কথায়, আমরা কেন এই খেলোয়াড়ের প্রোবটি অনুমান করে অন্যান্য 1000 টি বিবেচনা করব??
Rolando2

1
আমি ধরে নিচ্ছি যে খেলোয়াড়ের আসল স্ট্রাইক শতাংশ হ'ল 1000 অন্যান্য খেলোয়াড়ের মতো স্ট্রাইক শতাংশের একই বন্টনকে উপলব্ধি করা। অন্য কথায়, নতুন এই খেলোয়াড়টির বিশেষ কিছু নেই, তিনি হলেন কেবল অন্য এলোমেলো খেলোয়াড়। আশা করি তা বোধগম্য হয়।
উওয়াত

উত্তর:


10

অনুরাগের সাথে ঘন ঘন এবং বায়েশিয়ান পদ্ধতির মধ্যে পার্থক্য বোঝানোর জন্য এটি একটি দুর্দান্ত উদাহরণ।

আমার প্রথম, সরলবাদী ঘন ঘনবাদী প্রতিক্রিয়া: আপনি যদি ইতিমধ্যে স্ট্রাইক বিতরণ দ্বিপক্ষীয় বলে ধরে নিয়ে থাকেন তবে আপনাকে অন্যান্য 1000 খেলোয়াড় সম্পর্কে কিছু জানতে হবে না (সম্ভবত আপনি তাদের দ্বিপদী ধারণা অনুধাবন করতে এটি ব্যবহার করতে পারেন)

একবার দ্বিপাক্ষিক ধারণাটি পরিষ্কার হয়ে গেলে আপনার অনুমানটি খুব সোজা: 3-10। এই অনুমানের বৈচিত্রটি হ'ল স্বাভাবিক পি (1-পি) / এন = 0.021।

মূলত, 1000 অন্যান্য খেলোয়াড় অপ্রাসঙ্গিক, যদি না আপনি ভাবেন যে স্ট্রাইক বিতরণ সম্পর্কে আকর্ষণীয় এবং অ দ্বিপাক্ষিক কিছু রয়েছে (যেমন লোকেরা আরও গেম খেলে তারা আরও ভাল হয়)।

এটি দেখার আরও একটি বিবেচিত বায়েশিয়ান পদ্ধতি: বিকল্পভাবে, আপনি যদি অন্য খেলোয়াড়দের কাছ থেকে প্রাপ্ত পূর্ববর্তী জ্ঞান প্রয়োগ করতে আগ্রহী হন এবং আপনি যদি মনে করেন যে নতুন খেলোয়াড় মূলত সেই একই জনসংখ্যার থেকে একটি নতুন নমুনা, তবে আপনার এটি বায়েসিয়ার মধ্যে ভাবা উচিত পদ

খেলোয়াড়দের একটি পূর্ব বিতরণ অনুমান করুন। এটি করার জন্য, আপনাকে আপনার 1000 ডেটা পয়েন্টগুলি দেখতে হবে - এমন 1000 খেলোয়াড় যা ইতিমধ্যে পর্যবেক্ষণ করা হয়েছে, যাদের প্রত্যেকের কাছে আপনার স্ট্রাইক হওয়ার সম্ভাবনা সম্পর্কে অনুমান রয়েছে। এই 1000 পয়েন্টগুলির প্রতিটি 21 টির মধ্যে একটি মাত্র মান নিতে পারে (বিশের মধ্যে শূন্য থেকে বিশ টি স্ট্রাইক) এবং আপনি পুরো ক্ষেত্রের উপর একটি বিতরণ দেখতে পাবেন। আপনি যদি এই স্কোরগুলিকে অনুপাতে রূপান্তর করেন (যেমন শূন্য এবং একের মধ্যে) তবে এই বিটাকে সম্ভবত বিটা বিতরণের মাধ্যমে একটি এলোমেলো ভেরিয়েবলের সম্ভাব্যতা বিতরণের মাধ্যমে যুক্তিসঙ্গতভাবে প্রায় কাছাকাছি করা যেতে পারে। একটি বিটা বিতরণ পুরোপুরি মাত্র দুটি প্যারামিটার দ্বারা চিহ্নিত করা হয়েছে - এ এবং বি বলতে দেয় - তবে এই প্যারামিটারগুলি সত্যই যে বিতরণ সম্পর্কে আমাদের কাছে জিজ্ঞাসা করা হয়েছে (বিশেষভাবে খেলোয়াড়ের স্ট্রাইকের নিজস্ব সম্ভাবনা) তা নয় তবে আমরা উচ্চতর স্তরের বিতরণ করব তাদের হাইপারপ্যারামিটারে কল করুন। আপনি আপনার হাইপারপ্যারামিটারগুলির অনুমানগুলি আপনার 1000 ডেটা পয়েন্ট থেকে বিভিন্ন উপায়ে একটিতে বিকাশ করতে পারেন যা আপনার প্রশ্নের মূল পয়েন্টের সাথে সত্যিই প্রাসঙ্গিক নয়।

আপনার খেলোয়াড়ের সম্পর্কে মোটামুটি কোনও তথ্য পাওয়ার আগে আপনার স্ট্রাইক করার স্কোর অনুপাত সম্পর্কে আপনার সেরা অনুমান (এটি পি বলুন) কেবলমাত্র এই বেটা বিতরণ থেকে আমরা কেবল ফিট করেছি p

তবে, আমাদের নিজস্ব খেলোয়াড়ের উপর ডেটা রয়েছে, কেবল সাধারণ জনগণই নয়! Trustশ্বরের উপরে আমরা বিশ্বাস করি, অন্য সকলকে অবশ্যই ডেটা আনতে হবে (আমি এই উদ্ধৃতিটির জন্য আমি যদি এটি কোথায় পেয়েছি মনে করতে পারতাম, দুঃখিত)। প্রতিবার আমরা যখন আমাদের খেলোয়াড় কোনও খেলা খেলি এবং স্ট্রাইক পাই বা না দেখি, তখন তার অনুপাতের আমাদের অনুমানটি সুনিশ্চিত করার জন্য আমাদের কাছে একটি নতুন তথ্য রয়েছে।

অনুপাতের সম্ভাব্যতা বন্টন হিসাবে বিটা বিতরণ সম্পর্কে একটি ঝরঝরে বিষয় হ'ল আমরা যখন তথ্য থেকে নতুন তথ্য সংগ্রহ করি এবং অনুপাতের একটি নতুন, উন্নত অনুমান তৈরি করি, সম্ভাব্যতা তত্ত্বটি দেখায় যে নতুন, উন্নত অনুমানটিও একটি বিটা বিতরণ - আরও একটি ঘন সংস্করণ। এটি কারণ দ্বিপদী মডেল সম্পর্কে অনুমান করার চেষ্টা করার আগে বিটা বিতরণকে কনজুগেট হিসাবে উল্লেখ করা হয় ।

এটি হ'ল আমরা যদি এন এর সফল ইভেন্টগুলির বাইরে জেড পর্যবেক্ষণ করি (এই ক্ষেত্রে স্ট্রাইক সহ গেমস); এবং পূর্ববর্তী বিতরণটি ছিল বিটা (ক, খ); উত্তরোত্তর বিতরণ (মূল 1000 ডাটা পয়েন্ট উভয়ই দেওয়া প এর সম্ভাব্যতা বন্টনের অনুমান এবং এটি দশ গেমের নতুন পর্যবেক্ষণ) বিটা (এ + জেড, বি + এনজেড) বা (আমাদের ক্ষেত্রে) বিটা (এ + 3, b + 7)। যেমন আপনি দেখতে পাচ্ছেন, তত বেশি ডেটা আপনি ক এবং খ কম গুরুত্বপূর্ণ পাবেন। এর গাণিতিক যুক্তিসঙ্গতভাবে সোজা এবং অনেকগুলি গ্রন্থে তবে এটি আকর্ষণীয় নয় (আমার কাছে, যাইহোক)।

আপনার যদি আর থাকে তবে আপনি নীচের কোডটি চালিয়ে একটি উদাহরণ দেখতে পাচ্ছেন (এবং যদি আপনার আর নেই তবে আপনার এটি পাওয়া উচিত - এটি নিখরচায় এবং এই ধরণের সমস্যার মধ্যে দিয়ে ভাবতে সহায়তা করার জন্য এটি দুর্দান্ত aw এটি ধরে নিয়েছে প্লেয়ারদের পূর্বের বিতরণটি বিটা (2,5) দ্বারা মডেল করা যায় - এটি আমার দ্বারা তৈরি হয়েছিল। বাস্তবে, আপনি 2 এবং 5 তৈরির চেয়ে আপনি ক এবং বি এর জন্য পরিসংখ্যানগুলি আরও ভালভাবে অনুমান করতে পারেন কারণ আমার ধারণা বক্ররেখা ঠিক আছে।

আপনি দেখতে পাবেন যে আপনি এই স্টাইলাইজড উদাহরণটি চালাচ্ছেন কিনা, বিটার পূর্ববর্তী বিতরণ (২,৫) প্রদত্ত খেলোয়াড়ের স্ট্রাইক করার সম্ভাবনা সম্পর্কে পয়েন্ট অনুমানটি ০.০৯ এর পরিবর্তে 0.29। এছাড়াও, আমরা একটি বিশ্বাসযোগ্যতা ব্যবধান তৈরি করতে পারি, যা আত্মবিশ্বাসের ব্যবধানের চেয়ে স্পষ্টতই আরও স্বজ্ঞাত এবং ব্যাখ্যা করা সহজ (ক্রসভিলেটেড সহ উভয়ের মধ্যে পার্থক্যের ইন্টারনেটে অনেক প্রশ্ন এবং আলোচনা দেখুন)।

plot(0:100/100,dbeta(0:100/100,2,5), type="l", ylim=c(0,4), bty="l")
lines(0:100/100,dbeta(0:100/100,2+3,5+7), type="l", lty=2)
legend(0.6,3.5,c("Posterior distribution", "Prior distribution"), 
    lty=2:1, bty="n")
qbeta(c(0.025, 0.975), 2, 5) # credibility interval prior to any new data
qbeta(c(0.025, 0.975), 2+3, 5+7) # credibility interval posterior to data
qbeta(0.5, 2+3, 5+7) # point estimate of p, posterior to data

তারপরে আপনার নতুন প্লেয়ারটি পর্যবেক্ষণ করুন; এবং নতুন খেলোয়াড়ের জন্য একটি নতুন পোস্ট বিতরণ গণনা করুন। কার্যকরভাবে এটি বলে যে "আমরা সবেমাত্র যা পর্যবেক্ষণ করেছি তা দেওয়া হয়েছে, যেখানে খেলোয়াড়দের বিতরণে আমরা মনে করি এই ব্যক্তি সম্ভবত সবচেয়ে বেশি সম্ভবত?"


2
আমি এটি সঠিক মনে করি না। ধরুন যে 1000 জনগণের মধ্যে বিশাল সংখ্যাগরিষ্ঠ (99%) জনগণের 5% থেকে 15% এবং মুষ্টিমেয় লোকদের ধর্মঘটের শতাংশ 25% এর চেয়ে বেশি রয়েছে। তারপরে আমি যুক্তি দিয়ে বলব যে আমরা যে নতুন খেলোয়াড়ের পর্যবেক্ষণ করেছি তার সত্যিকারের স্ট্রাইক শতাংশ 30% এর চেয়ে কম থাকলেও কেবল "ভাগ্যবান" হয়ে যায়।
উওয়াত

ঠিক আছে, ভাল কথা - এই পরিস্থিতিটি বিবেচনায় নেওয়ার জন্য আমি একটি সম্পাদনা যুক্ত করেছি। মূলত আপনার কাছে বায়সিয়ান ইনফারেন্স সমস্যাটির ভাল বক্তব্য রয়েছে।
পিটার এলিস

@ পিটার - সমস্ত সুন্দরভাবে যুক্তিযুক্ত।
Rolando2

আপনার উত্তরের জন্য ধন্যবাদ. তবে, আপনি কী বোঝাতে চেয়েছেন তা আমি পুরোপুরি বুঝতে পারি নি: "আপনার ব্যক্তির স্ট্রাইক রেটের প্রকৃত বন্টন প্রয়োজন যা সম্ভবত কোনও প্রকারের বিটা হবে" আপনি কি দয়া করে কিছুটা পরিষ্কার করতে পারেন? ধন্যবাদ
উওয়াত

ধন্যবাদ, সত্যিই ভাল প্রশ্ন, আমি প্রতিক্রিয়া হিসাবে আমার উত্তর ব্যাপকভাবে প্রসারিত করেছি।
পিটার এলিস
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.