সার্চ ইঞ্জিন পক্ষপাতিত্ব সনাক্ত করার কোন উপায় আছে?

অনুসন্ধান ইঞ্জিনগুলি ক্রমবর্ধমান তথ্য দারোয়ান হিসাবে নির্ভর করা হচ্ছে, তবুও ফলাফলগুলি র‌্যাঙ্ক করতে অনুসন্ধান ইঞ্জিনগুলি ব্যবহার করা মানদণ্ডটি ব্যবহারকারীদের কাছে অস্বচ্ছ। কীভাবে ব্যবহারকারীরা নিশ্চিত হতে পারেন যে ফলাফল ফলাফল পক্ষপাতদুষ্ট বা কোনওভাবে ছড়িয়ে দেওয়া নয় অনুসন্ধানের ফলাফলের গুণগত মান ব্যয় করে কিছু আগ্রহের জন্য?

সরকারগুলি নিয়মিত দাবি করে যে অনুসন্ধান প্রদানকারীরা রাজনৈতিকভাবে অবাঞ্ছিত বলে মনে করা ওয়েবসাইটগুলির র‌্যাংকিং সরিয়ে বা কম করে। ব্যবসাগুলি অন্যদের উপার্জন বাড়ানোর জন্য নির্দিষ্ট ফলাফলগুলি বাড়ানোর জন্য সরবরাহকারীদের অর্থ প্রদান করতে পারে। ফায়ারওয়ালগুলি ব্যবহারকারীদের কাছে ফেরত পাঠানোর আগে ফলাফলের সাথে হস্তক্ষেপ করতে পারে।

এমনকি র‌্যাঙ্কিং অ্যালগরিদমগুলিতে আপাতদৃষ্টিতে নিরীহ পরিবর্তনগুলি যে পৃষ্ঠতলে নাও থাকতে পারে তা পক্ষপাতদুষ্ট বলে মনে হচ্ছে, প্রকৃতপক্ষে কিছু সাধারণ বৈশিষ্ট্য ভাগ করে নেওয়ার ওয়েবসাইটগুলিকে ক্ষতি করার জন্য চূড়ান্তভাবে ডিজাইন করা যেতে পারে (প্রকৃত মানের সাথে সম্পর্কিত নয়)।

ওয়েবসাইটের র‌্যাঙ্কিংয়ের পরিবর্তনের জন্য কিছু "গোপন ভেরিয়েবল" (সম্ভবত কোনও রাজনৈতিক অধিভুক্তি) কোনও চালকের কারণ কিনা তা নির্ণয় করে অনুসন্ধানের ইঞ্জিনের পক্ষপাতিত্ব সনাক্ত করা সম্ভব?

একজন গোপনীয় সরবরাহকারী ধীরে ধীরে সময়ের সাথে লক্ষ্যযুক্ত ওয়েবসাইটগুলির র‌্যাঙ্কিং কমিয়ে দিতে পারে (এবং সম্ভবত এলোমেলো ওয়েবসাইটের পাশাপাশি ব্যবহারকারীদেরকে বিভ্রান্ত করতে)। কোনও সরবরাহকারী সনাক্ত না করে কতটা পক্ষপাতিত্ব পরিচয় করিয়ে দিতে পারে তার সীমাবদ্ধতাগুলি কী? অথবা ঘটনাক্রমে উদ্দেশ্যমূলক ফলাফল ("ডেটা স্নোপিং" এর মাধ্যমে) উত্থাপিতভাবে ওজনযুক্ত র‌্যাঙ্কিংয়ের মানদণ্ডটি চূড়ান্তভাবে নির্বাচন করে এই জাতীয় হস্তক্ষেপটি সর্বদা গোপন করা সম্ভব?

যদি র‌্যাঙ্কিংয়ের মানদণ্ডটি জনসম্মুখে করা হয় তবে এর কি কোনও পরিবর্তন হবে? অনুসন্ধানের ইঞ্জিনগুলি কী কী মানদণ্ড ব্যবহার করে তা আমাদের ওপেন-সোর্স দরকার?

এটি আমাকে ফলাফলের কথা মনে করিয়ে দেয় যে কোনও জটিল আর্থিক উপকরণ যেমন সিডিওর মাধ্যমে বিক্রেতার সাথে छेলা-ফেলা হয়েছে কিনা তা সনাক্ত করা ঘন-সাবগ্রাফিক সমস্যা সমাধানের সমতুল্য:

http://www.cs.princeton.edu/~rongge/derivative.pdf

ধন্যবাদ!

ds.algorithms data-mining

— হাত.
সূত্র

এটি একটি দুর্দান্ত প্রশ্ন, তবে আমি কেবল একটি সিটিওরি সম্পর্কিত প্রশ্ন জিজ্ঞাসা করে এটি সংশোধন করব। সর্বাধিক সুস্পষ্ট হ'ল এটি একটি রেফারেন্স অনুরোধ করা এবং জিজ্ঞাসা করা "ইতিমধ্যে কেউ কি এর দিকে নজর রেখেছেন?" আপনি যদি নিশ্চিত হন যে কারও কাছে নেই, তবে "এটি কীভাবে আনুষ্ঠানিকভাবে মডেল করা যায়?" একটি ভাল প্রশ্ন হতে পারে। যদি আপনি চারপাশে অনেকগুলি প্রশ্ন রাখেন, যার মধ্যে কিছুটি সম্ভাব্য নন-সিস্টেরির সাথে সম্পর্কিত রয়েছে, তবে এটি "বাস্তব প্রশ্ন নয়" হিসাবে বন্ধ হয়ে যেতে পারে।

— Artem Kaznatcheev

নোট করুন যে র‌্যাঙ্কিং স্কিমটিকে সর্বজনীন করা স্প্যামারদের দ্বারা আক্রমণ করার জন্য এটি উন্মুক্ত করে। একটি আকর্ষণীয় বৈকল্পিকটি হ'ল: "র্যাঙ্কিংয়ের জন্য কোনও 'সার্বজনীন-কী' সমতুল্য"

— সুরেশ ভেঙ্কট

@ সুরেশভেনক্যাট "র‌্যাঙ্কিং স্কিমটিকে জনসাধারণ বানিয়ে আক্রমণ করার জন্য এটি উন্মুক্ত করে" মনে হচ্ছে আপনি <s> সুরক্ষা </ s> অস্পষ্টতার মধ্য দিয়ে নিরপেক্ষতার পরামর্শ দিচ্ছেন;)।

— Artem Kaznatcheev

না, তবে সে কারণেই আমি র‌্যাঙ্কিং স্কিমগুলির সর্বজনীন-কী সংস্করণগুলি সম্পর্কে জিজ্ঞাসা করেছি।

— সুরেশ ভেঙ্কট

যেহেতু অনুসন্ধান প্রক্রিয়ায় অংশ নেওয়া কোনও পক্ষই দূষিত ব্যবহারকারী বলে মনে করা হচ্ছে, তাই স্বার্থপর ব্যবহারকারীদের সাথে গেম হিসাবে প্রক্রিয়াটি মডেল করা একটি সাধারণ সমাধান। যদি সঠিকভাবে মডেলিং করা হয়, আমরা অনুসন্ধান ইঞ্জিনগুলির পক্ষে এ জাতীয় কাজ করা কি উপকারী কিনা তা আমরা খুঁজে পেতে পারি। তারপরে আমরা এ জাতীয় হস্তক্ষেপ রোধ করার জন্য একটি মেকানিজম ডিজাইন করতে পারি।

— হিলিয়াম

এটি স্পষ্টতই একটি খুব উন্মুক্ত সমাপ্ত প্রশ্ন, তবে বিষয়টিতে থাকার জন্য, এখানে "ন্যায্যতা" ধারণাটি কীভাবে প্রয়োগ করা যায় এবং কীভাবে এটি প্রয়োগ করা যায় সে সম্পর্কে একটি সিএস থিওরি পন্থা রয়েছে।

"সচেতনতার মাধ্যমে ফেয়ারনেস" ডিওয়ার্ক, হার্ড, পিটাসি, রিইনগোল্ড, জেমেল http://arxiv.org/abs/1104.3913

— হারুন রথ
সূত্র