দুটি র‌্যাঙ্কিং অ্যালগরিদমকে কীভাবে তুলনা করব?


12

আমি দুটি র‌্যাঙ্কিং অ্যালগরিদম তুলনা করতে চাই। এই অ্যালগরিদমে ক্লায়েন্ট তার অনুসন্ধানে কিছু শর্ত নির্দিষ্ট করে। ক্লায়েন্টের প্রয়োজনীয়তা অনুসারে, এই অ্যালগরিদমের ডেটা বেসের প্রতিটি আইটেমের জন্য একটি স্কোর বরাদ্দ করা উচিত এবং সর্বোচ্চ স্কোর সহ আইটেমগুলি পুনরুদ্ধার করা উচিত।

আমি এই সাইটে আমার প্রশ্নের সাথে সম্পর্কিত বিভিন্ন বিষয় পড়ে নেটটি অনুসন্ধান করেছি। আমার অনুসন্ধান অনুসারে, সর্বাধিক প্রাসঙ্গিক নিবন্ধ যা র‌্যাঙ্কিং অ্যালগরিদমগুলির তুলনা করার জন্য কিছু মেট্রিক সম্পর্কে ব্যাখ্যা করে তা ছিল: ব্রায়ান ম্যাকফি এবং জার্ট আরজি ল্যাঙ্ক্রিয়েট, ম্যাট্রিক লার্নিং টু র‌্যাঙ্ক, আইসিএমএল ২০১০ ( https://bmcfi.github.io/papers/MLr .pdf )। আমি মনে করি যথাযথ @ কে, এমএপি, এমআরআর, এবং এনডিসিজি ব্যবহারের জন্য ভাল মেট্রিক, তবে আমার একটি সমস্যা রয়েছে:

আমার অ্যালগরিদম বাছাইয়ের ফলাফল, সুতরাং আমার ফলাফল তালিকার প্রথম আইটেমটি সর্বোচ্চ স্কোর সহ সেরা, দ্বিতীয় ফলাফলের মধ্যে দ্বিতীয় শীর্ষ স্কোর এবং আরও। আমি আমার সন্ধানের অ্যালগরিদমকে সীমাবদ্ধ করি উদাহরণস্বরূপ 5 টি সেরা ফলাফল খুঁজে পান। ফলাফলগুলি সর্বাধিক শীর্ষ 5 আইটেম। সুতরাং, নির্ভুলতা হবে 1 যখন আমি আমার ফলাফলকে সীমাবদ্ধ রাখি সর্বাধিক ফলাফল খুঁজে পেতে, এটি সেরাটি খুঁজে পায়। আবার, নির্ভুলতা হবে 1. তবে সমস্যাটি হ'ল, এই ফলাফলটি যারা দেখেন তাদের পক্ষে এটি মেনে নেওয়া যায় না।

আমি কি করতে পারি? আমি কীভাবে এই অ্যালগরিদমগুলির তুলনা করতে পারি এবং একটির তুলনায় অন্যটির থেকে ভাল দেখাতে পারি?

উত্তর:


6

যে কোনও সার্চ ইঞ্জিন দ্বারা র‌্যাঙ্কিংয়ের মূল্যায়নের জন্য ব্যবহৃত ডিসকাউন্ট কমুলেটিভ গেইন (ডিসিজি) অন্যতম জনপ্রিয় মেট্রিক। এটি র‌্যাঙ্কিং কোয়ালিটির একটি পরিমাপ। তথ্য পুনরুদ্ধারে, এটি প্রায়শই ওয়েব অনুসন্ধান ইঞ্জিনের কার্যকারিতা পরিমাপ করতে ব্যবহৃত হয়।

এটি নিম্নলিখিত অনুমানের উপর ভিত্তি করে:

  1. সর্বাধিক প্রাসঙ্গিক ডকুমেন্টগুলি আরও বেশি কার্যকর যদি কোনও অনুসন্ধানের ফলাফলের আগে উপস্থিত হয়।
  2. প্রাসঙ্গিক প্রাসঙ্গিক ডকুমেন্টগুলির তুলনায় উচ্চ প্রাসঙ্গিক নথিগুলি বেশি কার্যকর যা প্রাসঙ্গিক নথির চেয়ে ভাল।

ডিসিজির সূত্রটি নিম্নরূপ:

(1)ডিসিজিপি=Σআমি=1পিRআমি2(আমি+ +1)=R1+ +Σআমি=2পিRআমি2(আমি+ +1)

কোথায়:

  • অনুসন্ধান ফলাফলের মধ্যে আমি কোনও নথির ফিরে আসা অবস্থান position
  • Rআমি
  • পি উপর সংমিশ্রণ (ফলাফলের সংখ্যা ফেরত) সুতরাং, জমে থাকা संचयी লাভ ফিরে প্রাপ্ত ফলাফলের কর্মক্ষমতা মেট্রিকগুলি দেয়।

ডিসিজি সিজি (আহরণকারী গেইন) থেকে প্রাপ্ত , এর দ্বারা প্রদত্ত:

(2)সিজিপি=Σআমি=1পিRআমি

সিজিপি

(3)ডিসিজিপি=Σআমি=1পি2Rআমি-12(আমি+ +1)

পিডিসিজিপি

এই সমস্যাটি কাটিয়ে ওঠার জন্য, সাধারণীকৃত ডিসিজি (এনডিসিজি) প্রস্তাব করা হয়েছে is এটি দেওয়া হয়েছে,

এনডিসিজিপি=ডিসিজিপিআমিডিসিজিপি

আমিডিসিজিপিডিসিজিপি

আমিডিসিজিপি=Σআমি=1|আরএল|2Rআমি-12(আমি+ +1)

যেখানে | আরইএল | পি। পজিশন অব কর্পাসে প্রাসঙ্গিকতার সাথে আদেশ করা নথিগুলির তালিকা।

একটি নিখুঁত র‌্যাঙ্কিং অ্যালগরিদমের জন্য,

ডিসিজিপি=আমিডিসিজিপি

যেহেতু এনডিসিজির মানগুলি [0,1] এর মধ্যে সীমাবদ্ধ হয় তাই এই মেট্রিকগুলি ব্যবহার করে ক্রস-কোয়েরি তুলনা সম্ভব।

ত্রুটিগুলি : ১. এনডিসিজি ফলাফলগুলিতে খারাপ ডকুমেন্টগুলি পুনরুদ্ধারে শাস্তি দেয় না। এটি নথির সাথে দায়ী প্রাসঙ্গিকতার মানগুলিকে সামঞ্জস্য করে স্থিরযোগ্য। ২. এনডিসিজি নিখোঁজ দলিলগুলিকে দন্ড দেয় না। পুনরুদ্ধারের আকারটি স্থির করে এবং নিখোঁজ নথিগুলির জন্য সর্বনিম্ন স্কোর ব্যবহার করে এটি ঠিক করা যেতে পারে।

পড়ুন এই nDCG উদাহরণ গণনার এইজন্য জন্য।

উল্লেখ


আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.