এলো রেটিং বা পৃষ্ঠা র‌্যাঙ্কিংয়ের কীভাবে আমার সেটটির কোনও অর্থ আছে তা প্রমাণ করবেন?


13

আমি খেলোয়াড়দের একটি সেট আছে। তারা একে অপরের বিরুদ্ধে (জুটিবদ্ধভাবে) খেলে। খেলোয়াড়দের জুড়ি এলোমেলোভাবে বেছে নেওয়া হয়। যে কোনও খেলায় একজন খেলোয়াড় জিততে থাকে এবং অন্য একজন হেরে যায়। খেলোয়াড়রা একে অপরের সাথে সীমিত সংখ্যক গেম খেলেন (কিছু খেলোয়াড় আরও গেম খেলেন, কিছু কম)। সুতরাং, আমার কাছে ডেটা রয়েছে (কার বিরুদ্ধে কে জিতবে এবং কতবার)। এখন আমি ধরে নিয়েছি যে প্রত্যেক খেলোয়াড়ের একটি র‌্যাঙ্কিং রয়েছে যা জয়ের সম্ভাবনা নির্ধারণ করে।

আমি অনুমান করতে চাই যে এই অনুমানটি আসলে সত্য কিনা। অবশ্যই, আমি প্রতিটি খেলোয়াড়ের জন্য গণনা রেটিং এলো রেটিং সিস্টেম বা পেজর্যাঙ্ক অ্যালগরিদম ব্যবহার করতে পারি । তবে রেটিংগুলি গণনা করে আমি প্রমাণ করি না যে সেগুলি (রেটিংগুলি) আসলে আছে বা তাদের অর্থ কিছু আছে।

অন্য কথায়, আমি খেলোয়াড়দের আলাদা আলাদা শক্তি আছে তা প্রমাণ করার (বা পরীক্ষা করার) একটি উপায় থাকতে চাই। আমি এটা কিভাবে করবো?

যোগ করা হয়েছে

আরও নির্দিষ্ট করে বলতে গেলে আমার কাছে 8 জন খেলোয়াড় এবং কেবল 18 টি গেম রয়েছে। সুতরাং, সেখানে অনেকগুলি খেলোয়াড় যারা একে অপরের বিরুদ্ধে খেলেনি এবং সেখানে প্রচুর জুড়ি রয়েছে যা কেবল একবার একে অপরের সাথে খেলেছিল। ফলস্বরূপ, আমি প্রদত্ত জোড়া খেলোয়াড়ের জয়ের সম্ভাবনাটি অনুমান করতে পারি না। আমি আরও উদাহরণস্বরূপ দেখতে পাচ্ছি যে এমন একজন খেলোয়াড় আছেন যিনি games খেলায় times বার জিতেছিলেন। তবে এটি কেবল একটি কাকতালীয় ঘটনা।


আপনি কি নাল কল্পনাটি পরীক্ষা করতে চান যে সমস্ত খেলোয়াড়ের একই শক্তি রয়েছে, বা প্লেয়ার শক্তির মডেলের ফিট পরীক্ষা করতে চান?
onestop

@ অনস্টপ: একই শক্তি থাকা সমস্ত খেলোয়াড় খুব অসম্ভব, তাই না? আপনি এটিকে অনুমান হিসাবে পরামর্শ দিচ্ছেন কেন?
এন্ডোলিথ

উত্তর:


10

আপনার একটি সম্ভাবনার মডেল দরকার।

একটি র‌্যাঙ্কিং সিস্টেমের পিছনে ধারণাটি হ'ল যে কোনও একক সংখ্যক খেলোয়াড়ের দক্ষতাকে যথাযথভাবে চিহ্নিত করে। আমরা এই নম্বরটিকে তাদের "শক্তি" বলতে পারি (কারণ "পদ" ইতিমধ্যে পরিসংখ্যানগুলিতে নির্দিষ্ট কিছু বোঝায়)। আমরা ভবিষ্যদ্বাণী করব যে প্লেয়ার এ প্লেয়ার বিকে পরাজিত করবে যখন শক্তি (এ) শক্তি (বি) ছাড়িয়ে যায়। তবে এই বিবৃতিটি খুব দুর্বল কারণ (ক) এটি পরিমাণগত নয় এবং (খ) দুর্বল খেলোয়াড়ের মাঝে মাঝে শক্তিশালী খেলোয়াড়কে মারধর করার সম্ভাবনার বিষয়টি বিবেচনা করে না। এ বি বি কেবল তাদের শক্তির পার্থক্যের উপর নির্ভর করে এমন সম্ভাবনাটি ধরে নিয়ে আমরা উভয় সমস্যা কাটিয়ে উঠতে পারি যদি এটি হয়, তবে আমরা প্রয়োজনীয় সমস্ত শক্তিকে পুনরায় প্রকাশ করতে পারি যাতে শক্তির পার্থক্য একটি জয়ের লগ প্রতিক্রিয়াগুলির সমান হয়।

বিশেষত, এই মডেলটি হ'ল

logit(Pr(A beats B))=λAλB

logit(p)=log(p)log(1p)λA

এই মডেলটির খেলোয়াড় হিসাবে অনেকগুলি পরামিতি রয়েছে (তবে স্বাধীনতার একটি কম ডিগ্রি রয়েছে, কারণ এটি কেবল আপেক্ষিক শক্তিগুলি সনাক্ত করতে পারে , তাই আমরা একটি নির্বিচার মানেই প্যারামিটারগুলির একটি ঠিক করব)। এটি একধরনের জেনারেলাইজড লিনিয়ার মডেল (বিনোমিল লিঙ্ক সহ দ্বিপদী পরিবারে)।

প্যারামিটারগুলি সর্বোচ্চ সম্ভাবনা দ্বারা অনুমান করা যায় । একই তত্ত্বটি প্যারামিটারের অনুমানের চারপাশে আত্মবিশ্বাসের ব্যবধানগুলি দাঁড় করানোর এবং অনুমানগুলি পরীক্ষা করার জন্য একটি উপায় সরবরাহ করে (যেমন অনুমান অনুযায়ী শক্তিশালী খেলোয়াড় অনুমানযোগ্য দুর্বলতম খেলোয়াড়ের তুলনায় উল্লেখযোগ্যভাবে শক্তিশালী কিনা)।

বিশেষত, গেমগুলির সেটগুলির সম্ভাবনা হ'ল পণ্য

all gamesexp(λwinnerλloser)1+exp(λwinnerλloser).

λ


এই বিশেষ সমস্যাটিতে 18 টি গেম এবং 7 টি নিখরচায় প্যারামিটার রয়েছে। সাধারণভাবে এটি অনেকগুলি পরামিতি: এতটা নমনীয়তা রয়েছে যে সর্বাধিক সম্ভাবনাটিকে বেশি পরিবর্তন না করে প্যারামিটারগুলি বেশ নিখরচায় পরিবর্তিত হতে পারে। সুতরাং, এমএল যন্ত্রপাতি প্রয়োগ সম্ভবত সুস্পষ্ট প্রমাণ করতে পারে, যা সম্ভবত শক্তি অনুমানের উপর আস্থা রাখতে পর্যাপ্ত ডেটা নেই।


2
sA=exp(λA)ABsA/(sA+sB)। (৩) যদি একটি পূর্ণ রাউন্ড-রবিন টুর্নামেন্ট খেলা হয় (যা এখানে হয় না) তবে শক্তির র‌্যাঙ্কিং প্রতিটি খেলোয়াড়ের জয়ের শতাংশের সাথে ঠিক মিলবে। (৪) ধার্মিকতা-এর-ফিটটি গ্রাফের প্রবাহের সাথে সম্পর্কিত যা খেলোয়াড়দের সাথে নোড এবং গেমস হিসাবে প্রান্ত হিসাবে রয়েছে।
কার্ডিনাল

(অবিরত) লেস্টার আর ফোর্ড, জুনিয়র এমনকি একটি আমেরিকায় এই ধারণার উপর ভিত্তি করে একটি মানানসই অ্যালগরিদম নিয়ে আলোচনা করার একটি নিবন্ধও রয়েছে। 1957 সালের ম্যাথ মাসিকের টুকরোটি তাঁর বাবার সম্মানে রচিত।
কার্ডিনাল

4

যদি আপনি নাল কল্পনাটি পরীক্ষা করতে চান যে প্রতিটি খেলোয়াড় প্রতিটি খেলাকেই জিততে বা হারাতে পারে, তবে আমি মনে করি যে আপনি পরাজিতদের বিরুদ্ধে বিজয়ীদের টেবুলেট করে গঠিত কন্টিনজেন্সি টেবিলের প্রতিসাম্যের পরীক্ষা চান ।

ডেটা সেট আপ করুন যাতে আপনার দুটি ভেরিয়েবল, 'বিজয়ী' এবং 'হেরে' থাকে যার সাথে প্রতিটি গেমের জন্য বিজয়ীর আইডি থাকে এবং হেরে থাকে, অর্থাৎ প্রতিটি 'পর্যবেক্ষণ' একটি গেম। তারপরে আপনি বিজয়ী বনাম হেরার একটি কন্টিনজেন্সি টেবিল তৈরি করতে পারেন। আপনার নাল হাইপোথিসিসটি হ'ল আপনি এই টেবিলটি প্রতিসাম্য হিসাবে প্রত্যাশা করবেন (গড়ে বার বার টুর্নামেন্টে)। আপনার ক্ষেত্রে, আপনি একটি 8 × 8 টেবিল পাবেন যেখানে বেশিরভাগ এন্ট্রি শূন্য (প্লেয়ারের সাথে মিলিত হয় না যা কখনও দেখা হয়নি), অর্থাৎ। টেবিলটি খুব কম বিস্ফোরক হবে, সুতরাং অ্যাসিপটিকের উপর নির্ভর করার চেয়ে একটি 'সঠিক' পরীক্ষাটি অবশ্যই অবশ্যই প্রয়োজনীয় হবে।

এই জাতীয় পরীক্ষাটি প্রতিযোগিতার কমান্ড সহ স্টাটাতে উপলব্ধ । এই ক্ষেত্রে বাক্য গঠনটি হ'ল:

symmetry winner loser, exact

সন্দেহ নেই যে এটি অন্যান্য পরিসংখ্যান প্যাকেজগুলিতেও প্রয়োগ করা হয়েছে যার সাথে আমি কম পরিচিত।


(+1) এটি মজার, আমি ঠিক বুঝতে পেরেছিলাম যে এই স্টাটা কমান্ডটি জেনেটিক্সে ট্রান্সমিশন / ডিসঅ্যাকিলিব্রিয়াম পরীক্ষার জন্য ব্যবহার করা যেতে পারে :) আমি এর আগের প্রতিক্রিয়ায় আর প্যাকেজগুলি নিয়ে আলোচনা করেছি, stats.stackexchange.com/questions/5171/…
chl

প্রকৃতপক্ষে, টিডিটি হ'ল উপরে বর্ণিত স্টাটা সহায়তায় আলোচিত একটি অ্যাপ্লিকেশন। এটি এই প্রসঙ্গেই আমি প্রথম এই পরীক্ষায় এসেছি। পূর্ববর্তী Q এর লিঙ্কটির জন্য ধন্যবাদ - দেখে মনে হচ্ছে এটি পোস্ট করার সময় আমি অন্যান্য Qs নিয়ে ব্যস্ত ছিলাম।
onestop

যদিও প্রশ্নটি হাইপোথিসিস টেস্টিংকে বোঝায়, এর জোরের পছন্দটি ফিট প্রশ্নের উত্তমতার উপরে রয়েছে: একটি একক সংখ্যা (স্কেলার) শক্তি কী কার্যকরভাবে খেলোয়াড়দের মধ্যে ম্যাচের ফলাফলের নমুনা দেয়?
whuber

1

আপনি মার্ক গ্লিকম্যানের কিছু প্রকাশনা পরীক্ষা করেছেন? এগুলি প্রাসঙ্গিক বলে মনে হচ্ছে। http://www.glicko.net/

রেটিংগুলির প্রমিত বিচ্যুতিতে জড়িত কোনও গেমের প্রত্যাশিত মান। (এই স্ট্যান্ডার্ড বিচ্যুতিটি বেসিক এলোর একটি নির্দিষ্ট সংখ্যায় স্থির করা হয়েছে এবং গ্লিকো সিস্টেমে পরিবর্তনশীল)। আমি বলেছি ড্রয়ের কারণে জয়ের সম্ভাবনা না হয়ে প্রত্যাশিত মান। আপনার যে ইলো রেটিং রয়েছে তা বোঝার মূল বিষয়গুলি হ'ল অন্তর্নিহিত বিতরণ অনুমান (সাধারণ বা লজিস্টিক, উদাহরণস্বরূপ) এবং মানক বিচ্যুতি ধরে নেওয়া।

এলো সূত্রগুলির লজিস্টিক সংস্করণ পরামর্শ দেয় যে 110 পয়েন্টের রেটিং পার্থক্যের প্রত্যাশিত মান .653, উদাহরণস্বরূপ 1330 সহ খেলোয়াড় এ এবং 1220 সহ খেলোয়াড় বি।

http://en.wikedia.org/wiki/Elo_rating_system (ঠিক আছে, এটি উইকিপিডিয়া রেফারেন্স তবে আমি ইতিমধ্যে এই উত্তরের জন্য অনেক বেশি সময় ব্যয় করেছি।)

সুতরাং এখন আমাদের প্রতিটি খেলোয়াড়ের রেটিংয়ের ভিত্তিতে প্রতিটি গেমের জন্য একটি প্রত্যাশিত মান এবং গেমের উপর ভিত্তি করে একটি ফলাফল রয়েছে।

এই মুহুর্তে, পরবর্তী কাজটি আমি করবো হ'ল নিম্ন থেকে উচ্চের ফাঁকগুলি সাজিয়ে এবং প্রত্যাশিত এবং প্রকৃত ফলাফলগুলি মোট করে গ্রাফিকভাবে এটি পরীক্ষা করে দেখানো। সুতরাং, প্রথম 5 গেমসের জন্য আমাদের মোট পয়েন্ট 2, এবং প্রত্যাশিত পয়েন্ট হতে পারে 1.5। প্রথম 10 গেমের জন্য আমাদের মোট পয়েন্ট 8, এবং 8.8 এর প্রত্যাশিত পয়েন্ট থাকতে পারে etc.

এই দুটি লাইনকে সামগ্রিকভাবে গ্রাফিংয়ের মাধ্যমে (যেমন আপনি কোলমোগোরভ-স্মিমনভ পরীক্ষার জন্য চেয়েছিলেন) আপনি দেখতে পাচ্ছেন যে প্রত্যাশিত এবং আসল সংশ্লেষক মানগুলি একে অপরকে ভাল বা খারাপভাবে অনুসরণ করে কিনা। এটি সম্ভবত অন্য কেউ আরও একটি আনুষ্ঠানিক পরীক্ষা প্রদান করতে পারে।


1

রেটিং পদ্ধতিতে অনুমানের পদ্ধতিটি কতটা সঠিক তা পরীক্ষার জন্য সম্ভবত সবচেয়ে বিখ্যাত উদাহরণটি হলেন দাবা রেটিং - এলো বনাম ওয়ার্ল্ড অফ দ্য ওয়ার্ল্ড অফ দ্য ওয়ার্ল্ড প্রতিযোগিতা কাগল , যার কাঠামোটি ছিল নিম্নলিখিত:

প্রতিযোগীরা 8,631 শীর্ষ খেলোয়াড়ের জন্য সাম্প্রতিক ফলাফলের 65,000 এরও বেশি প্রশিক্ষণের ডেটাসেট ব্যবহার করে তাদের রেটিং সিস্টেমগুলি প্রশিক্ষণ দেয়। অংশগ্রহণকারীরা তারপরে আরও 7,809 গেমের ফলাফলের পূর্বাভাস দেওয়ার জন্য তাদের পদ্ধতিটি ব্যবহার করে।

বিজয়ী ছিলেন এলো ++

তাত্ত্বিকভাবে এটি আপনার প্রয়োজনের জন্য একটি ভাল পরীক্ষার স্কিম বলে মনে হচ্ছে, এমনকি 18 টি ম্যাচ যদি ভাল পরীক্ষার বেস না হয়। এমনকি আপনি বিভিন্ন আলগোরিদিম এর জন্য ফলাফল মধ্যে পার্থক্য পরীক্ষা করতে পারবেন (এখানে একটি ব্যাপার তুলনা মধ্যে rankade , আমাদের র্যাংকিং সিস্টেম, এবং সবচেয়ে সহ পরিচিত এলো , গ্লিকো এবং ট্রুইস্কিল ) এর ।


0

H0

এর জন্য একটি সহজ পরীক্ষাটি খেলানো আগের খেলাগুলির সাথে যে খেলোয়াড় জিতবে তার অনুপাত গণনা করে এবং দ্বি-দ্বি সংযোজক বিতরণ ফাংশনের সাথে তুলনা করে। এটি কোনও প্রকারের প্রভাবের অস্তিত্ব দেখায়।

আপনি যদি আপনার গেমটির জন্য ইলো রেটিং সিস্টেমের গুণমান সম্পর্কে আগ্রহী হন, তবে একটি সহজ পদ্ধতি হ'ল ইও মডেলের ভবিষ্যদ্বাণীপূর্ণ পারফরম্যান্সের জন্য 10-पट ক্রসঅ্যাক্টিফিকেশন চালানো হবে (যা আসলে ধারণা করে যে ফলাফলগুলি আইড নয়, তবে আমি ' এটি উপেক্ষা করবেন) এবং এটি একটি মুদ্রা ফ্লিপের সাথে তুলনা করুন।


আরো নির্দিষ্ট করা. আমার কাছে 8 জন খেলোয়াড় এবং 18 টি গেম রয়েছে। সুতরাং, এমন অনেক জুটি খেলোয়াড় যা একে অপরের সাথে খেলেনি এবং সেখানে প্রচুর জুটি রয়েছে যা একে অপরের সাথে কেবল একটি খেলেছে। ফলস্বরূপ, আমি প্রদত্ত জোড়া খেলোয়াড়ের জয়ের সম্ভাবনাটি অনুমান করতে পারি না। আমি আরও দেখতে পাচ্ছি, উদাহরণস্বরূপ এমন একজন খেলোয়াড় আছেন যা 6 খেলায় times বার জিতেছে। তবে এটি কেবল একটি কাকতালীয় ঘটনা হতে পারে।
রোমান
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.