র‌্যাঙ্কিং অ্যালগরিদমগুলি মূল্যায়নের জন্য মেট্রিক্স


15

আমি র‌্যাঙ্কিং অ্যালগরিদমগুলির জন্য বিভিন্ন আলাদা মেট্রিকগুলি দেখতে আগ্রহী - লার্নিং টু র‌্যাঙ্ক উইকিপিডিয়া পৃষ্ঠায় কয়েকটি তালিকাভুক্ত রয়েছে:

Average গড় গড় নির্ভুলতা (এমএপি);

• ডিসিজি এবং এনডিসিজি;

Ision যথার্থতা @ এন, এনডিসিজি @ এন, যেখানে "@n" বোঝায় যে মেট্রিকগুলি কেবল শীর্ষ এন ডকুমেন্টগুলিতে মূল্যায়ন করা হয়;

Rec পারস্পরিক রেঙ্ক অর্থ;

End কেন্ডল এর ​​তাউ

Ear স্পিয়ারম্যানের রো

Ip প্রত্যাশিত পারস্পরিক র‌্যাঙ্ক

• ইয়ানডেক্সের পাউন্ড

তবে এটি প্রত্যেকের সুবিধাগুলি / অসুবিধাগুলি কী কী হবে বা আপনি যখন একে অপরকে বেছে নিতে পারেন তা আমার কাছে পরিষ্কার নয় (বা যদি কোনও অ্যালগোরিদম এনডিজিসি-তে অন্যের চেয়ে বেশি পারদর্শী হয় তবে এমএপি দিয়ে মূল্যায়ন করার সময় আরও খারাপ হয়)।

আমি এই প্রশ্নগুলি সম্পর্কে আরও জানতে কোথাও যেতে পারি?

উত্তর:


28

আমি আসলে একই উত্তর খুঁজছি, তবে আমার কমপক্ষে আপনার প্রশ্নের আংশিক উত্তর দিতে সক্ষম হওয়া উচিত।

আপনি উল্লেখ করেছেন এমন সমস্ত মেট্রিকের আলাদা আলাদা বৈশিষ্ট্য রয়েছে এবং দুর্ভাগ্যক্রমে, আপনি যেটি বেছে নিতে হবে তা আপনি আসলে কী পরিমাপ করতে চান তার উপর নির্ভর করে depends এখানে কিছু জিনিস যা মনে রাখা ভাল হবে:

  • স্পিয়ারম্যানের আরএও মেট্রিক তালিকার শীর্ষে ত্রুটির সাথে মিলের মতো একই ওজনকে ত্রুটিগুলি দন্ডিত করে, তাই বেশিরভাগ ক্ষেত্রে র্যাঙ্কিংয়ের মূল্যায়নের জন্য এটি ব্যবহার করা মেট্রিক নয়
  • ডিসিজি এবং এনডিসিজি হ'ল কয়েকটি মেট্রিকগুলির মধ্যে একটি যা বাইনারি- ইউনারি ইউটিলিটি ফাংশনটিকে বিবেচনায় রাখে, তাই আপনি রেকর্ডটি কতটা কার্যকর তা বর্ণনা করতে পারবেন না এটি কার্যকর কিনা
  • ডিসিজি এবং এনডিসিজি পজিশনের জন্য ওজন স্থির করেছে, সুতরাং একটি নির্দিষ্ট অবস্থানে থাকা একটি দস্তাবেজের উপরে উল্লিখিত নথিগুলির জন্য সর্বদা স্বাধীনভাবে একই লাভ এবং ছাড় থাকে
  • আপনি সাধারণতঃ পছন্দ করেন NDCG উপর DCG , কারণ এটি প্রাসঙ্গিক নথি সংখ্যা দ্বারা মান normalises
  • এই সমস্যার জন্য এমএপি ক্লাসিক এবং 'গ-টু' মেট্রিক হিসাবে বিবেচিত এবং এটি ক্ষেত্রের একটি মান বলে মনে হচ্ছে।
  • (এন) ডিসিজি সর্বদা নির্ধারিত পরিমাণের রেকর্ডের জন্য গণনা করা উচিত (@ কে), কারণ এটির একটি দীর্ঘ লেজ রয়েছে (র‌্যাঙ্কিংয়ের শেষে মেট্রিককে পক্ষপাতিত্বের শেষে প্রচুর অপ্রাসঙ্গিক রেকর্ড দেওয়া হয়)। এটি এমএপির ক্ষেত্রে প্রযোজ্য নয় ।
  • মিউন রেসিপোকল র‌্যাঙ্ক কেবল প্রথম প্রাসঙ্গিক নথির অবস্থান চিহ্নিত করে, সুতরাং যদি আপনি তালিকায় শীর্ষে যথাসম্ভব প্রাসঙ্গিক ডক্সের বিষয়ে চিন্তা করেন তবে এটি আপনার পছন্দ হওয়া উচিত নয়
  • কেন্ডাল এর টাও শুধুমাত্র বাইনারি ইউটিলিটি ফাংশন পরিচালনা, এটি @k নির্ণিত করা উচিত (অনুরূপ NDCG )

মূল্যবান সংস্থানসমূহ:

  • ইউটিউবে ভিক্টর লাভ্রেনকো বক্তৃতা - এটি কেবল এমএপি বনাম এনডিসিজি পর্বের একটি লিঙ্ক, তবে পুরো বক্তৃতায় আরও অনেক কিছু রয়েছে (কেন্ডালের টাউ সহ)। আপনার অবশ্যই এটি পরীক্ষা করা উচিত, দুর্দান্ত বক্তৃতা!
  • ERR কাগজ

নতুন লিঙ্কের কারণে আরও লিঙ্কগুলি পোস্ট করা যাবে না :) কারও যদি আরও কিছু মন্তব্য বা ধারণা থাকে তবে আমি সেগুলি শুনে খুশি হব!


আমি মনে করি আপনার কাছে আরও লিঙ্ক থাকলে এই উত্তরটি আপডেট করার জন্য আপনার কাছে পর্যাপ্ত পয়েন্ট রয়েছে।
যশ কুমার

5

অনেক ক্ষেত্রে যেখানে আপনি র‌্যাঙ্কিং অ্যালগরিদমগুলি প্রয়োগ করেন (যেমন গুগল অনুসন্ধান, অ্যামাজন পণ্য সুপারিশ) আপনার শত এবং কয়েক হাজার ফলাফল রয়েছে। ব্যবহারকারী কেবল শীর্ষে 20 ডলার বা তার চেয়ে বেশি দেখতে চায়। তাই বাকিগুলি সম্পূর্ণ অপ্রাসঙ্গিক।

k

যদি এটি আপনার অ্যাপ্লিকেশনটির জন্য সত্য হয়, তবে মেট্রিকের সাথে এর সরাসরি প্রভাব রয়েছে:

  1. kk
  2. 2k

kk

র‌্যাঙ্কিংয়ের জন্য শীর্ষ-কে শ্রেণিবদ্ধকরণ নির্ভুলতা

স্থল সত্যের জন্য, কোনও অর্ডার নির্ধারণ করা কঠিন হতে পারে। এবং যদি আপনি কেবল প্রাসঙ্গিক / প্রাসঙ্গিক না পার্থক্য করেন, তবে আপনি আসলে একটি শ্রেণিবিন্যাসের ক্ষেত্রে রয়েছেন!

শীর্ষ-এন যথার্থতা শ্রেণিবদ্ধকরণের জন্য একটি মেট্রিক। দেখুন শীর্ষ-এন সঠিকতার সংজ্ঞা কি?

top-k accuracy=how often was at least one relevant element within the top-k of a ranking query?ranking queries

k

kk[5,20]

k

যথার্থ @ ট

Precision@k=number of relevant items within the top-kk[0,1], higher is better

এটি আপনাকে যা বলে:

  • যদি এটি উচ্চ হয় -> আপনি ব্যবহারকারীকে যা দেখান তার বেশিরভাগই তাদের সাথে প্রাসঙ্গিক
  • যদি এটি কম হয় -> আপনি আপনার ব্যবহারকারীদের সময় নষ্ট করেন। আপনি তাদের যা দেখান তার বেশিরভাগই তাদের সাথে প্রাসঙ্গিক নয়

রিকল @ ট

Recall@k=number of relevant items within the top-ktotal number of relevant items[0,1], higher is better

এর মানে কি:

  • যদি এটি উচ্চ হয়: আপনি আপনার যা দেখান! আপনি তাদের সমস্ত প্রাসঙ্গিক আইটেম দিন।
  • এটি কম থাকলে: প্রাসঙ্গিক আইটেমগুলির মোট পরিমাণের সাথে তুলনা করে, কে ছোট / শীর্ষ কে এর মধ্যে প্রাসঙ্গিক আইটেমগুলি ছোট is এ কারণে, একাকী @ কে স্মরণ করা এতটা অর্থপূর্ণ নাও হতে পারে। যদি এটি একটি উচ্চ সূক্ষ্ম @ কে সঙ্গে সংযুক্ত করা হয়, তবে কে বাড়িয়ে দেওয়া অর্থপূর্ণ হতে পারে।

3

আমাকে সম্প্রতি মাল্টিলেবেল র‌্যাঙ্কিং অ্যালগরিদমগুলি মূল্যায়নের জন্য একটি মেট্রিক বেছে নিতে হয়েছিল এবং এই বিষয়ে পৌঁছেছিলাম, যা সত্যই সহায়ক ছিল। Stpk এর উত্তরে এখানে কিছু সংযোজন দেওয়া হয়েছে, যা একটি পছন্দ করার জন্য সহায়ক ছিল।

  • এমএপি একত্রীকরণের ব্যয়ে বহুমুখী সমস্যার সাথে মানিয়ে নেওয়া যেতে পারে
  • মানচিত্র যখন নেতিবাচক বর্গ অধিকতর ভারী হয় ট এ নির্ণিত করা প্রয়োজন না, কিন্তু multilabel সংস্করণ অভিযোজিত না করা যেতে পারে
  • এমএপি এবং (এন) ডিসিজি উভয়ই র‌্যাঙ্কযুক্ত প্রাসঙ্গিকতার মানগুলির ওজনের গড় হিসাবে পুনরায় লেখা যেতে পারে

বিস্তারিত

আসুন গড় স্পষ্টতা (এপি) উপর দৃষ্টি নিবদ্ধ করা যাক গড় গড় নির্ভুলতা (এমএপি) বেশ কয়েকটি ক্যোয়ারিতে এপিগুলির গড় average যথাযথতা-পুনর্বিবেচনা বক্ররেখার অধীনে অঞ্চল হিসাবে বাইনারি তথ্যগুলিতে এপি যথাযথভাবে সংজ্ঞায়িত করা হয়েছে, যা প্রতিটি ধনাত্মক আইটেমের যথার্থতার গড় হিসাবে পুনরায় লেখা যেতে পারে। ( এমএপিতে উইকিপিডিয়া নিবন্ধটি দেখুন ) সম্ভাব্য সীমাবদ্ধতা হ'ল একে একে যথার্থের গড় হিসাবে সংজ্ঞায়িত করাআইটেম। দুঃখের বিষয়, আমরা সেই দুর্দান্ত সম্পত্তিটি হারাতে পেরেছি যে তালিকার শেষে অবস্থিত নেতিবাচক উদাহরণগুলি এপির মানের উপর কোনও প্রভাব ফেলেনি। (এটি বিশেষত দুঃখজনক হয় যখন কোনও অনুসন্ধান ইঞ্জিনের মূল্যায়ন করতে পজিটিভ উদাহরণগুলির তুলনায় অনেক বেশি নেতিবাচক উদাহরণ থাকে down কয়েকটি ইতিবাচক উদাহরণ সহ প্রশ্নগুলির পক্ষে কঠিন))

অন্যদিকে, এই আনুমানিকের এমন দুর্দান্ত সম্পত্তি রয়েছে যা এটি মাল্টিলেবেল ক্ষেত্রে ভাল জেনারেট করে। প্রকৃতপক্ষে, বাইনারি ক্ষেত্রে, পজিশন কেতে যথাযথতা যথাযথ উদাহরণের প্রাসঙ্গিকতা 1 এবং পজিশন কে এর আগে গড় প্রাসঙ্গিকতা হিসাবেও ব্যাখ্যা করা যেতে পারে, এবং একটি নেতিবাচক উদাহরণের প্রাসঙ্গিকতা 0 এই সংজ্ঞাটি বেশ প্রাকৃতিকভাবে প্রসারিত প্রাসঙ্গিকতার দুটিরও বেশি স্তরের ক্ষেত্রে। এই ক্ষেত্রে, এপি প্রতিটি অবস্থানের প্রাসঙ্গিক গড়ের গড় হিসাবেও সংজ্ঞায়িত করা যেতে পারে।

এই অভিব্যক্তিটি তার বক্তব্যে stpk দ্বারা উদ্ধৃত ভিডিওর স্পিকার দ্বারা চয়ন করা । তিনি এই ভিডিওতে দেখান যে এপিটিকে প্রাসঙ্গিকতার ওজনযুক্ত গড় হিসাবে ওজন হিসাবে আবারও লেখা যেতে পারেk

wkAP=1Klog(Kk)

K

wkDCG=1log(k+1)

এই দুটি এক্সপ্রেশন থেকে, আমরা তা অনুমান করতে পারি - এপি নথিগুলি 1 থেকে 0 পর্যন্ত ওজন করে - ডিসিজি মোট নথির সংখ্যা থেকে স্বতন্ত্রভাবে নথির ওজন করে।

উভয় ক্ষেত্রেই যদি প্রাসঙ্গিক উদাহরণগুলির তুলনায় অনেক বেশি অপ্রাসঙ্গিক উদাহরণ থাকে তবে ধনাত্মক সামগ্রীর মোট ওজন নগণ্য হতে পারে। এপি-র ক্ষেত্রে, নেতিবাচক নমুনাগুলি সাবমল করার জন্য একটি কার্যপ্রণালী হ'ল, তবে কীভাবে সাবমলিংয়ের অনুপাতটি চয়ন করবেন, সেইসাথে এটিকে কোয়েরির উপর নির্ভরশীল করতে হবে বা ইতিবাচক নথির সংখ্যার উপর নির্ভর করে কিনা তা সম্পর্কে আমি নিশ্চিত নই। ডিসিজির জন্য, আমরা এটি কে এ কেটে ফেলতে পারি, তবে একই ধরণের প্রশ্ন ওঠে।

আমি এই বিষয়ে আরও শুনে খুশি হব, যদি এখানে কেউ এই বিষয়ে কাজ করে।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.