মান প্রকাশ না করে বিতরণ নোডগুলির মধ্যে একটি পারসেন্টাইল অনুমান করা


23

সমাধান করার জন্য আমার কাছে মোটামুটি অনন্য একটি সমস্যা রয়েছে এবং আমি আশা করছি যে এখানকার কেউ আমাকে কীভাবে এটি সেরাভাবে মোকাবেলা করতে পারে সে সম্পর্কে কিছুটা অন্তর্দৃষ্টি দিতে পারেন।


সমস্যা: ধরুন এন সংখ্যার একটি তালিকা এমনভাবে অংশগ্রহণকারীদের মধ্যে এমনভাবে ভাগ করা হয়েছে যাতে কোনও একক অংশগ্রহণকারীই তাদের ভাগ করে নেওয়া সংখ্যার মধ্যে আসলেই জানেন না। সমস্ত অংশগ্রহণকারীরা এন (সংখ্যার তালিকার আকার) এবং তালিকার সমস্ত সংখ্যার যোগফল জানেন, তবে এর চেয়ে বেশি কোনও অগ্রাধিকার নেই।

এক সাথে কাজ করার মাধ্যমে, দু'টি ভাগ করে নেওয়া সংখ্যার সাথে ক এবং বিকে এমনভাবে তুলনা করা সম্ভব যে অংশগ্রহণকারীরা "a <b" বিবৃতিটি সত্য কিনা, তবে এর চেয়ে বেশি কিছু শিখতে পারে। তবে এটি করা অত্যন্ত ব্যয়সাধ্য জিনিস (পড়ুন: একক তুলনা শেষ করতে এটি বেশ কয়েক সেকেন্ড, এমনকি কয়েক মিনিট সময় নিতে পারে)। এই জাতীয় জিনিস কীভাবে সম্ভব তা নিয়ে আরও কিছু তথ্যের জন্য এই পোস্টের শেষে দেখুন।

দিন শেষে, দলগুলি তালিকাতে তালিকাভুক্ত কোন সূচকগুলির সাথে তালিকার "শীর্ষ কে শতাংশ" (কে% যা সবচেয়ে বড়) ভাগ করে নেওয়া সংখ্যার সাথে সামঞ্জস্য করে তা আউটপুট করতে চায়। এটি অবশ্যই বাছাই করে বা "শীর্ষ কে" নির্বাচন অ্যালগরিদম ব্যবহার করে করা যেতে পারে। যাইহোক, এগুলি একটি বিস্ময়কর তুলনা অনেক ব্যবহার করে, যা এড়ানো হবে। (এগুলি হ'ল ও (এন লগ এন) বা ও (এন), মোটামুটি বড় লুকানো ধ্রুবক সহ))

অন্য বিকল্পটি হ'ল এক্স অনুমানের "অনুমান" করা যার জন্য (1-কে)% এক্স এর চেয়ে ছোট এবং কে% আরও বড়। তারপরে আপনি প্রতিটি উপাদানকে এক্স এর সাথে তুলনা করতে পারবেন এবং দেখতে পাবেন যে কতগুলি বড় এবং কতগুলি ছোট। যদি আপনার অনুমানটি ভুল হয়ে থাকে, তবে আপনি সঠিক সমাধানে রূপান্তর না করা পর্যন্ত বাইনারি অনুসন্ধানের মতো কিছু ব্যবহার করে এটি সংশোধন করুন। আপনার অনুমানটি ভাল হলে এটি তুলনায় অনেক কম সময় লাগে।

সুতরাং, আমার প্রশ্নটি হল,

কেবলমাত্র এন এবং যোগফল দেওয়া হয়েছে, এক্স এর "পূর্বাভাস" দেওয়ার সর্বোত্তম উপায় কী?

অবশ্যই এটি অন্তর্নিহিত বিতরণের উপর নির্ভর করবে। বিভিন্ন ব্যবহারের ক্ষেত্রে অন্তর্নিহিত বিতরণ সম্ভবত পৃথক হবে তবে এটি জানা যাবে, তাই আমি সমস্ত সাধারণের জন্য (সাধারণ, অভিন্ন, ক্ষতিকারক, সম্ভবত কিছু অন্যান্য) ভাল সমাধানে আগ্রহী। অন্তর্নিহিত বিতরণ সম্পর্কে ধারণা অনুধাবন করা পদক্ষেপের সংখ্যা হ্রাস করার জন্য "বাইনারি-জাতীয়" অনুসন্ধানটি কীভাবে সেরা করবেন সে সম্পর্কিত পরামর্শগুলি শুনতে আমিও পছন্দ করব।


পরিশিষ্ট: তালিকার প্রতিটি মান শামির গোপন ভাগ করে নেওয়ার প্রকল্পটি ব্যবহারকারীদের মধ্যে ভাগ করা হয়েছে। ধরুন এম অংশগ্রহণকারীদের আছে এবং তালিকা, তারপর দৈর্ঘ্য এন হয় আমি-তম তালিকায় একটি বহুপদী দ্বারা প্রতিনিধিত্ব করা হয় কিছু সসীম ক্ষেত্রের উপর ডিগ্রী এম-1 এফ লাগাতার মেয়াদ সংখ্যা যে ভাগ করা হয়েছে, অন্য সমস্ত এফ থেকে এলোমেলোভাবে নির্বাচিত হয়। জে-তম শেয়ারগুলি তখন ,আমিআমিআমি()1আমিএন। এই অংশটি দেওয়া, অংশগ্রহণকারীর সংখ্যা সম্পর্কে কোনও তথ্য নেই (একটি তথ্য-তাত্ত্বিক অর্থে); প্রকৃতপক্ষে, অংশগ্রহণকারীদের কোনও সঠিক উপসেট ভাগ করা সংখ্যা সম্পর্কে কোনও তথ্য জানার জন্য জ্ঞানকে একত্রিত করতে পারে না। যাইহোক, একটি পরিশীলিত সুরক্ষিত বহু-পক্ষী গণনা কৌশলটি ব্যবহার করে, কোনও তথ্য ভাগ না করেই একটি ভাগ করা মান অন্যের চেয়ে কম কিনা তা নির্ধারণ করা সম্ভব। এই কৌশলটিতে সকল অংশগ্রহণকারীকে সহযোগিতা করা জড়িত, যার কারণে এটি করা এত ব্যয়বহুল এবং সম্ভবতম সংখ্যক বার করা উচিত।


এটি আকর্ষণীয় মনে হচ্ছে, তবে আমি এখনও প্রক্রিয়াটি পুরোপুরি বুঝতে পারি না। আপনি কি স্পষ্ট করে বলতে পারবেন, বিশেষত দ্বিতীয় অনুচ্ছেদটি? কতজন অংশগ্রহণকারী ? কি চেয়ে বড়, কম, বা এর সমান ? প্রতিটি অংশগ্রহণকারী কি সংখ্যার কিছু উপসেট জানেন? একথাও ঠিক যে তারা সব করতে পারবে না শুধু জানি এবং সমষ্টি তারপর সেই দলা তথ্য একটি উপায় যে কোন প্রশ্ন বা সহযোগী জিজ্ঞাসা করতে কোন উপায় নেই যেহেতু। যে ধরণের প্রশ্ন জিজ্ঞাসা করা যেতে পারে তাতে কি কোনও বিধিনিষেধ রয়েছে? আমি আপনার সম্পাদনার অপেক্ষায় রয়েছি এমএন এন একটি < এমএনএনএকটি<

1
যেহেতু এই প্রশ্নটি পরিসংখ্যানের তুলনায় আরও অ্যালগরিদমিক বলে মনে হচ্ছে (এই বিষয়ে স্পষ্টির জন্য একটি অনুরোধ কোনও প্রতিক্রিয়া পাইনি) এবং পরিসংখ্যান সম্প্রদায়টি একটি কার্যকর উত্তর দেয় না, আসুন এটি সেখানে কোনও আগ্রহ তৈরি করে কিনা তা দেখার জন্য টিসিএসে স্থানান্তরিত হোক।
whuber

6
আসল প্রশ্নটি কেবল নিম্নলিখিতটি বলে মনে হচ্ছে: "যদি আমরা বিতরণটি জানি, তবে তুলনামূলক ভিত্তিক নির্বাচন অ্যালগরিদমের নকশায় আমরা কীভাবে এই তথ্যটি কাজে লাগাতে পারি ? অ্যালগরিদমকে যতটা সম্ভব তুলনা করা উচিত (প্রত্যাশায়; ধ্রুবক কারণগুলি) কোন ব্যাপার)। " আমি কি এই অধিকার পেয়েছি?
Jukka Suomela

2
আপনি কি ইয়াওর মিলিয়নেয়ারদের সমস্যা বিবেচনা করেছেন ? এটি অনেক কম গণনার সাথে সুরক্ষিত তুলনা করতে দেয় ।
এমএস দৌস্তি

3
(,এন) এন(এন,এন)<<এন
ম্যাসিমো কাফেরো

উত্তর:


1

আপনি দুটি সম্পর্কিত প্রশ্ন জিজ্ঞাসা করছেন বলে মনে হচ্ছে:

  1. "তালিকার কোন সূচকগুলি শীর্ষের সাথে মিলে যায়"
  2. "শতকরা অনুমান", "একটি নম্বর এক্স যার জন্য ... কে% আরও বড়"

এগুলির জন্য জোড়ের তুলনায় খুব আলাদা সংখ্যক প্রয়োজন হতে পারে।

অন্য একটি দিক যা উল্লেখযোগ্য প্রভাব ফেলতে পারে তা হ'ল তথ্য ভাগ করে নেওয়া। প্রত্যেকে তার প্রাপ্ত নম্বরটি জানে, যোগফলটি জানে এবং তারা অংশ নিয়েছে এমন তুলনাগুলির হ্যাঁ / কোনও ফলাফল নেই However তবে, আপনি আরও বলছেন যে "তালিকাগুলি তালিকার শীর্ষগুলির সাথে সামঞ্জস্য রাখে এমন দলগুলি আউটপুট করতে চায়" সুতরাং আপনি পরামর্শ দিচ্ছেন সূচকগুলি সম্পর্কে কিছু তথ্য ভাগ করা হবে। ঠিক কী ভাগ করা হয়েছে তার উপর নির্ভর করে আপনি আবার খুব আলাদা সমাধান পেতে পারেন।


দুঃখিত, আমি অবশ্যই যথেষ্ট পরিষ্কার ছিল না। তালিকার একক সংখ্যা কেউ জানে না; পরিবর্তে, তাদের প্রত্যেকের কাছে এন "শেয়ারের সংখ্যার" তালিকা রয়েছে (শামিরের গোপন ভাগ করে নেওয়ার প্রকল্পটি ব্যবহার করে, যদি আপনি কোনও সংখ্যার শেয়ারের ধারণাগুলির সাথে পরিচিত না হন)। সুতরাং, যে কোনও একক অংশগ্রহণকারীের মধ্যে কেবলমাত্র একটি অগ্রাধিকার তথ্য হ'ল এন এবং তালিকার সমস্ত সংখ্যার যোগফল। তাদের প্রত্যেকের প্রতিটি সংখ্যা সম্পর্কে কিছুটা তথ্য থাকে তবে সেই নম্বরটি কী তা জানার জন্য পর্যাপ্ত তথ্য নেই।

দুটি সম্পর্কিত প্রশ্ন হিসাবে, দ্বিতীয় প্রশ্ন প্রথমটির একটি কার্যকর সমাধান বোঝায় imp আমি যদি কয়েকটি তুলনা ব্যবহার করে এক্সটি খুঁজে পেতে পারি (আমি যদি যুক্তিসঙ্গত ভাল প্রাথমিক অনুমানটি করতে পারি তবে আমি এটি করতে পারি), তবে আমি এক্স এর চেয়ে বড় সমস্ত মানের সূচকগুলিকে কেবল এন আরও তুলনা ব্যবহার করে দেখতে পাই (এই তুলনাগুলিও কম সস্তা, যেহেতু এক্স এর অংশীদার হওয়ার পরিবর্তে এক্সকে জানার ফলে তুলনামূলক ব্যয় প্রায় 1 তৃতীয়াংশ হ্রাস হয়)) শীর্ষস্থানীয় কে অনুসন্ধান করার জন্য সাধারণ উদ্দেশ্যে অ্যালগরিদমগুলি সাধারণত বড় তালিকার আকারের জন্য আরও অনেক তুলনা ব্যবহার করবে, ধরে নিই আমি লগ ব্যবহার করে এক্স খুঁজে পাব ( এক্স) তুলনা

মূল প্রশ্নের মন্তব্যের উত্তর এবং পরিশিষ্টের জন্য ধন্যবাদ। এখন সমস্যাটি অন্যরকম দেখাচ্ছে।
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.