বাড়ির রানগুলিতে আঘাতের গড় প্রতিরোধকে পরিমাপ করা


11

বেসবল অনুসরণকারী যে কেউই সম্ভবত টরন্টোর জোসে বাউটিস্তার বাইরে থাকা এমভিপি ধরণের পারফরম্যান্সের কথা শুনেছেন। আগের চার বছরে, তিনি প্রায় প্রতি মরসুমে 15 হোম রান করেছিলেন। গত বছর তিনি 54 রান করেছিলেন, বেসবলের ইতিহাসে কেবল 12 জন খেলোয়াড়ই ছাড়িয়ে গিয়েছিল।

২০১০ সালে তাকে ২.৪ মিলিয়ন দেওয়া হয়েছিল এবং তিনি ২০১১ সালের জন্য দলকে ১০.৫ মিলিয়ন চেয়েছিলেন। তারা .6..6 মিলিয়ন অফার দিচ্ছে। তিনি যদি ২০১১ সালে এটি পুনরুক্ত করতে পারেন তবে তিনি সহজেই উভয় পরিমাণের মূল্য হবেন। তবে তার পুনরাবৃত্তি করার অসুবিধাগুলি কী? আমরা কীভাবে তাকে প্রত্যাশা করতে পারি? তার কতটা পারফরম্যান্স আমরা আশা করতে পারি সুযোগের কারণে? আমরা তার রিগ্রেশন-টু-দ্য-গড় অ্যাডজাস্টেড 2010 মোটের কী আশা করতে পারি? আমি কীভাবে এটি কাজ করব?

আমি লাহমান বেসবল ডেটাবেস নিয়ে ঘুরে বেড়াচ্ছি এবং এমন একটি কোয়েরি খেয়েছি যা আগের পাঁচটি মরশুমে সমস্ত খেলোয়াড়ের জন্য মোট রান ফিরিয়েছে যারা প্রতি মৌসুমে কমপক্ষে 50 ব্যাট করেছে।

টেবিলটি দেখতে দেখতে (সারি 10-তে জোসে বাউটিস্টাকে লক্ষ্য করুন)

     first     last hr_2006 hr_2007 hr_2008 hr_2009 hr_2010
1    Bobby    Abreu      15      16      20      15      20
2   Garret Anderson      17      16      15      13       2
3  Bronson   Arroyo       2       1       1       0       1
4  Garrett   Atkins      29      25      21       9       1
5     Brad   Ausmus       2       3       3       1       0
6     Jeff    Baker       5       4      12       4       4
7      Rod  Barajas      11       4      11      19      17
8     Josh     Bard       9       5       1       6       3
9    Jason Bartlett       2       5       1      14       4
10    Jose Bautista      16      15      15      13      54

এবং সম্পূর্ণ ফলাফল (232 সারি) এখানে উপলব্ধ ।

আমি সত্যিই জানি না কোথা থেকে শুরু করব। কেউ কি আমাকে সঠিক দিকে নির্দেশ করতে পারে? কিছু প্রাসঙ্গিক তত্ত্ব এবং আর কমান্ড বিশেষভাবে সহায়ক হবে।

দয়া করে ধন্যবাদ

রূটি

দ্রষ্টব্য: উদাহরণটি কিছুটা স্বীকৃত। হোম রানগুলি অবশ্যই কোনও খেলোয়াড়ের যোগ্যতার সেরা সূচক নয় এবং হোম রান মোট রান প্রতি মরসুমে পরিবর্তিত বিভিন্ন সম্ভাবনার বিষয়টি বিবেচনা করে না যে কোনও ব্যাটারের ঘরের রান (প্লেটের উপস্থিতি) হিট করার সুযোগ রয়েছে। বা এও প্রতিফলিত হয় না যে কিছু খেলোয়াড় বেশি অনুকূল স্টেডিয়ামগুলিতে খেলেন, এবং সেই লিগে গড়ে হোম রান বছরের পর বছর পরিবর্তিত হয়। ইত্যাদি ইত্যাদি আমি যদি রিগ্রেশনের জন্য অ্যাকাউন্টিংয়ের পেছনের তত্ত্বটি বুঝতে পারি তবে আমি এইচআরএসের চেয়ে বেশি উপযুক্ত ব্যবস্থায় এটি ব্যবহার করতে পারি।


2
বেসবল অনেক মার্কিন পরিসংখ্যানবিদদের উদাহরণের প্রিয় উত্স, তাই গুগল (/ স্কলার) অনুসন্ধানে বেশ কয়েকটি প্রাসঙ্গিক নিবন্ধ প্রকাশিত হবে, যেমন মরিসন এবং স্মিটলিন (1981) jstor.org/stable/2630890 । আপনার প্রশ্নের উত্তর দেওয়ার জন্য আমি এটি বেসবল এবং আর উভয়ের সাথে আরও পরিচিত কারও কাছে রেখে দেব।
onestop

1
আমি আপনাকে জেসি ব্র্যাডবারি এবং তার ব্লগ, সাবারনমিক্স, সাবারনমিক্স . com/ sabernomics এর কাজ পরীক্ষা করার পরামর্শ দিচ্ছি । খেলোয়াড়ের মূল্য পরিমাপের বিষয়ে তাঁর বইটি ভবিষ্যতের উত্পাদনশীলতার ভবিষ্যদ্বাণীমূলক বৈশিষ্ট্যগুলি সম্পর্কে অন্তর্দৃষ্টিযুক্ত হবে।
অ্যান্ডি ডাব্লু

2
উল্লিখিত সমস্যাটি কিছুটা আউটলারের সমস্যার মতো, তবে সাধারণভাবে যে কোনও ব্যক্তি বিদেশী বলে মনে করে তা নয়। আশ্চর্যজনক ফলাফলকে অন্তর্ভুক্ত করার জন্য (যেমন আউটলেটর) আপনার একটি ভারী লেজের সাথে "নমুনা বিতরণ" দরকার (জোসের ফলাফল অতীতের উপাত্তের তুলনায় তার গড় থেকে 3 স্ট্যান্ডার্ড বিচ্যুতির চেয়ে ভাল), সুতরাং এটি আপনাকে আরও ভাল ডেটা ফিট করতে সহায়তা করতে পারে, এবং ভবিষ্যদ্বাণী হিসাবে এটি অ্যাকাউন্ট।
সম্ভাব্যতাবিহীন

আপনি যদি এখানে উপস্থিত সমস্ত পরিশীলিত মন্তব্য ছাড়াও একটি অল্প অল্প শর্টকাট বিবেচনা করেন তবে আউটলিয়ারদের
আউটিলার

উত্তর:


3

আমি মনে করি যে অবশ্যই কোনও বায়েশিয়ান সঙ্কুচিত বা পূর্বে সংশোধন রয়েছে যা পূর্বাভাসে সহায়তা করতে পারে তবে আপনি অন্য কৌশলটিও বিবেচনা করতে চাইতে পারেন ...

ইতিহাসের খেলোয়াড়দের সন্ধান করুন, কেবল গত কয়েক বছর নয়, যারা বেশ কয়েকটি দম্পতির (যারা নাটকীয়ভাবে সম্ভবত 2x বৃদ্ধি পেয়েছে) পরে ব্রেকআউট মরসুম করেছেন এবং দেখুন যে তারা পরের বছরে কী করেছে। পারফরম্যান্স বজায় রাখার সম্ভাবনা হ'ল সঠিক ভবিষ্যদ্বাণী।

এই সমস্যাটি দেখার জন্য বিভিন্ন উপায় রয়েছে তবে এমপিক্টাস যেমন বলেছিলেন, আপনার আরও তথ্যের প্রয়োজন হবে। যদি আপনি কেবল সাম্প্রতিক ডেটা নিয়ে কাজ করতে চান তবে আপনাকে সামগ্রিক লিগের পরিসংখ্যানগুলি, তার বিরুদ্ধে যে কলস রেখেছেন তা দেখতে হবে, এটি একটি জটিল সমস্যা।

এবং তারপরে কেবল বাউটিস্তার নিজস্ব ডেটা বিবেচনা করা হচ্ছে। হ্যাঁ, এটি তাঁর সেরা বছর ছিল তবে এটি 2007 এর পরে প্রথমবারের মতো তার 350 ডলারের বেশি (569) ছিল। আপনি পারফরম্যান্স শতাংশ বৃদ্ধি রূপান্তর বিবেচনা করতে চাইতে পারেন।


3

আপনি একা এই ডেটাতে একটি মডেল ফিট করতে পারেন এবং মিশ্র (মাল্টিলেভেল) মডেলগুলি ব্যবহার করে যে পরিমাণে প্রতিরোধের জন্য অ্যাকাউন্ট রয়েছে সেগুলি পূর্বাভাস পেতে পারেন। এই জাতীয় মডেলগুলির পূর্বাভাসগুলি প্রতিরোধের জন্য অ্যাকাউন্ট করে। এমনকি বেসবল সম্পর্কে কিছুই না জেনেও আমি ফলাফলগুলি খুঁজে পাচ্ছি না আমি মারাত্মকভাবে বিশ্বাসযোগ্য হয়ে উঠছি, যেহেতু আপনি যেমন বলেছিলেন, মডেলটিকে সত্যই প্লেটের উপস্থিতি হিসাবে অন্যান্য বিষয়গুলি বিবেচনা করা উচিত।

আমি মনে করি একটি পোইসন মিশ্র-প্রভাব মডেল লিনিয়ার মিশ্র মডেলের চেয়ে বেশি উপযুক্ত হবে কারণ বাড়ির রান সংখ্যা একটি গণনা। আপনার সরবরাহিত ডেটার দিকে তাকালে , একটি হিস্টোগ্রাম hrদেখায় এটি দৃ positive়ভাবে ইতিবাচকভাবে আঁকানো হয়েছে, যাতে বোঝা যায় যে লিনিয়ার মিশ্রিত মডেলটি ভাল কাজ করে না, এবং লগ-ট্রান্সফর্মিং এইচআর এর আগে বা ছাড়াই যথেষ্ট পরিমাণে শূন্য অন্তর্ভুক্ত করে।

Lme4 প্যাকেজ lmerথেকে ফাংশনটি ব্যবহার করে এখানে কিছু কোড । প্রতিটি প্লেয়ারকে সনাক্ত করতে একটি আইডি ভেরিয়েবল তৈরি করে এবং এমপিটাস তার উত্তরে নির্দেশিত হিসাবে ডেটাটিকে 'দীর্ঘ' ফর্ম্যাটে রুপান্তরিত করেছিলেন, (আমি স্টাটাতে এটি করেছি যেহেতু আমি আর-তে ডেটা ম্যানেজমেন্টে ভাল নই, তবে আপনি এটি একটি ক্ষেত্রে করতে পারেন) স্প্রেডশিট প্যাকেজ):

Year.c <- Year - 2008   # centering y eases computation and interpretation
(M1 <- lmer(HR ~ Year.c + (Year.c|ID), data=baseball.long, family=poisson(log), nAGQ=5))

এটি লগ-লিঙ্কের সাথে এমন একটি মডেল ফিট করে যা বছরের উপর হিট-রেটের ঘনিষ্ঠ নির্ভরশীলতা দেয়, যা খেলোয়াড়দের মধ্যে পৃথক হতে দেয়। অন্যান্য লিঙ্ক ফাংশনগুলি সম্ভব, যদিও পরিচয় লিঙ্কটি নেতিবাচক লাগানো মানগুলির কারণে একটি ত্রুটি দিয়েছে। একটি স্কয়ার্ট লিঙ্কটি ঠিক কাজ করেছে, এবং লগ লিঙ্কের সাথে মডেলের চেয়ে কম বিআইসি এবং এআইসি রয়েছে, তাই এটি আরও ভাল ফিট হতে পারে। ২০১১ সালে হিট-রেটের পূর্বাভাসগুলি নির্বাচিত লিঙ্ক ফাংশনের প্রতি সংবেদনশীল, বিশেষত বাউটিস্তার মতো খেলোয়াড়দের জন্য যাদের হিট-রেট সম্প্রতি বেশ পরিবর্তন হয়েছে।

আমি আশঙ্কা করছি যে এতক্ষণের ভবিষ্যদ্বাণীগুলি আসলে বাস্তবায়িত করতে পারিনি lme4। আমি স্টাটার সাথে আরও পরিচিত, যা ফলাফলের জন্য নিখোঁজ মানগুলির সাথে পর্যবেক্ষণগুলির জন্য ভবিষ্যদ্বাণীগুলি পাওয়া খুব সহজ করে তোলে, যদিও xtmelogit লগ ব্যতীত অন্য কোনও লিঙ্ক ফাংশনের কোনও পছন্দ প্রস্তাব দেয় না, যা বাউটিস্তার জন্য 50 এর পূর্বাভাস দিয়েছে ২০১১ সালে বাড়ি চলে। যেমনটি আমি বলেছিলাম, আমি এটি মারাত্মকভাবে বিশ্বাসযোগ্য বলে মনে করি না। আমি উপরের উপরের lmerমডেলগুলি থেকে কেউ কীভাবে ২০১১ সালের পূর্বাভাস তৈরি করতে পারে সে সম্পর্কে কৃতজ্ঞ থাকব ।

প্লেয়ার-স্তরের ত্রুটির জন্য এআর (1) এর মতো একটি অটোরেগ্রেসিভ মডেলটিও আকর্ষণীয় হতে পারে তবে আমি জানি না কীভাবে পয়সন মিশ্র মডেলের সাথে এই জাতীয় কাঠামো সংযুক্ত করতে হয়।


প্যাকেজ পুনরায় আকার থেকে ফাংশন গলানো ব্যবহার করে, দীর্ঘ বিন্যাসে রূপান্তর করা আর, গলানো (ডেটা, আইডি = 1: 2) এ এক লাইন।
এমপিক্টাস

একটি উত্সাহব্যঞ্জক এক্সটেনশন / এই বিকল্প একটি সঙ্গে একটি Possion স্যাম্পলিং ডিস্ট্রিবিউশনের সাথে একটি হায়ারারকিকাল মডেল মাপসই হয় নমুনা হার প্যারামিটার (প্রতি বছরে 1 রেট), কিন্তু একটি কোশি হার পরামিতি জন্য স্যাম্পলিং বন্টন (স্বাভাবিক বা স্বাভাবিক মিশ্রণ পরিবর্তে)। কচী বিতরণ চরম ঘটনাটি ঘটতে দেয় (বড় হারের প্যারামিটার নমুনা দিয়ে)। একটি মধ্যবর্তী কেস (স্বাভাবিক এবং কচির মধ্যে) টি-বিতরণ। (কৌচি নমুনা দেওয়া সহজ কারণ এটি বিপরীত সিডিএফ পদ্ধতি ব্যবহার করতে পারে)।
সম্ভাব্যতা

2

আপনার খেলোয়াড়দের এবং বাড়ির রান সম্পর্কে ডেটা রয়েছে এমন সময়কালে তাদের বৈশিষ্ট্যগুলির অতিরিক্ত তথ্য প্রয়োজন। প্রথম পদক্ষেপের জন্য কিছু সময়-পরিবর্তিত বৈশিষ্ট্য যুক্ত করুন যেমন খেলোয়াড়দের বয়স বা অভিজ্ঞতা। তারপরে আপনি এইচএলএম বা প্যানেল ডেটা মডেলগুলি ব্যবহার করতে পারেন। আপনাকে ফর্মটিতে ডেটা প্রস্তুত করতে হবে:

    First Last  Year HR Experience Age
1.  Bobby Abreu 2005 15     6      26

সর্বাধিক সাধারণ মডেলটি হবে ( lme ফাংশনটি প্যাকেজ এনএলএম থেকে হয় )

lme(HR~Experience,random=~Experience|Year,data=your_data)

এই মডেলটি প্রচণ্ডভাবে এই ধারণার উপর নির্ভর করবে যে প্রতিটি খেলোয়াড়ের হোম-রান সংখ্যাটি কিছুটা পরিবর্তনশীলতার অনুমতি দেওয়ার জন্য অভিজ্ঞতার উপর নির্ভর করে। এটি সম্ভবত খুব সঠিক হবে না তবে আপনি গড়পড়তা খেলোয়াড়ের তুলনায় জোসে বাউটিস্তার সংখ্যা কতটা কম সম্ভাবনা তা কমপক্ষে একটি অনুভূতি পাবেন। এই প্লেয়ারটির অন্যান্য খেলোয়াড়ের বৈশিষ্ট্য যুক্ত করে আরও উন্নতি করা যেতে পারে।


আমি বলবো না @TMOD যে প্রয়োজন আরো ডেটা, শুধুমাত্র সেই ভবিষ্যৎবাণী যদি @TMOD আরো সঠিক হওয়ার সম্ভাবনাই বেশি ছিল আরো ডেটা। ভবিষ্যদ্বাণী উত্পন্ন করতে পর্যায়ে যথেষ্ট তথ্য রয়েছে।
সম্ভাব্যতাব্লোগিক

@ প্রোব্যাবিলিটিস্লোগিক, হ্যাঁ পূর্বাভাস উত্পন্ন করার জন্য পর্যাপ্ত তথ্য রয়েছে তবে তারপরে মডেলটির কেবল বাধা থাকবে।
এমপিটিকাস

অগত্যা, এই ডেটাতে কেউ একটি এআর (1) বা এআর (2) মডেল ফিট করতে পারে
সম্ভাব্যতা

@ প্রব্যাবিলিসিস্লিক, আহ হ্যাঁ, আপনি ঠিক বলেছেন
এমপিটিকাস

2

আপনি বুক ব্লগ চেক আউট করতে পারেন

টম ট্যাঙ্গো এবং "দ্য বুক: বেসবল ইন পার্সেন্টেজেস প্লেিং" এর অন্যান্য লেখকরা সম্ভবত সেখানে স্যাবেরমেট্রিক্সের সেরা উত্স। বিশেষত, তারা গড় প্রতিরোধকে পছন্দ করে love তারা একটি মৌলিক গ্রহণযোগ্য সিস্টেম (মার্সেল) হিসাবে ডিজাইন করা একটি পূর্বাভাস সিস্টেম নিয়ে এসেছিল এবং এটি প্রায় একচেটিয়াভাবে গড়ের প্রতিরোধের উপর নির্ভর করে।

আমার মাথার শীর্ষে, আমি মনে করি যে একটি পদ্ধতি হ'ল সত্য প্রতিভা অনুমান করার জন্য এই জাতীয় পূর্বাভাসটি ব্যবহার করা হবে এবং তারপরে তার অর্থ প্রতিভাটির চারপাশে একটি উপযুক্ত বিতরণ পাওয়া যাবে। আপনার কাছে একবার হয়ে গেলে, প্রতিটি প্লেটের উপস্থিতি বার্নোল্লি ট্রায়ালের মতো হয়ে যায়, সুতরাং দ্বিপদী বিতরণ আপনাকে বাকী পথে নিয়ে যেতে পারে।


1

এফওয়াইআই, ২০১১ থেকে ২০১৪ সাল পর্যন্ত তিনি 43, 27, 28 এবং 35 এ আঘাত করেছিলেন।

এটি তার 162-গেমের গড় 32 এর খুব কাছাকাছি (যা অবশ্যই সেই মানগুলি অন্তর্ভুক্ত করে), এবং ২০১০ সালে 54 এর নীচে প্রায় 1 এসডি।

ক্রিয়াকলাপের গড়ের প্রতি রিগ্রেশন বলে মনে হচ্ছে: কোলাহলপূর্ণ বিষয়কে মূলধন করে একটি চরম গোষ্ঠী তৈরি করা (এই ক্ষেত্রে 1 জন) তাদের দল থেকে সুযোগ থেকে দূরে সরে যাওয়া।

http://www.baseball-reference.com/players/b/bautijo02.shtml

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.