এক সেটের নমুনা ব্যবহার করে একাধিক সেটের ছেদ আকারের অনুমান করা

আমি একটি অ্যালগরিদম নিয়ে কাজ করছি যা কমপক্ষে 2 টি সেট ছেদ দ্বারা উত্পন্ন একটি সেট আকার গণনা করা প্রয়োজন। আরো নির্দিষ্টভাবে:

z = | A_{0} \cap \dots \cap A_{n} |

$z = \left |A_0 \cap \ldots \cap A_n \right |$

ছেদ করা সেটগুলি এসকিউএল কোয়েরি দ্বারা উত্পাদিত হয় এবং জিনিসগুলি দ্রুত রাখার প্রয়াসে আমি প্রতিটি প্রশ্নের আগে সময়ের একটি গণনা পাই, তারপরে সর্বনিম্ন গণনা (এ টি ) সহ সেটটি নিয়ে এবং সেই আইডিগুলি সীমানা হিসাবে ব্যবহার করি বড় বড় প্রশ্নগুলির বাকি, তাই ছেদ কার্যকরভাবে হয়ে যায়: $A_0$

z = | (A_{0} \cap A_{1}) \cap \dots \cap (A_{0} \cap A_{n}) |

$z = \left |\left ( A_0 \cap A_1 \right ) \cap \ldots \cap \left ( A_0 \cap A_n \right ) \right |$

এমনকি এই কৌশলটি আমাকে চালানোর জন্য বেশ কয়েকটি বড় প্রশ্ন , যেহেতুকখনও কখনও বড় হতে পারে। যে একটি র্যান্ডম নমুনা নিচ্ছে সঙ্গে তার আচরণ আমার ধারণা এবং একটি সঠিক অনুমান ফিরে extrapolating সামনে সেট বাকি সঙ্গে এটি ছেদ । আমার প্রশ্নটি হল: স্যাম্পলিং সম্পর্কে আরও ভাল উপায় এবং তারপরে মানটি ফিরে পাওয়ার জন্য এক্সট্রাপোলেটিং , যা সম্পূর্ণ সঠিক না হলে, একটি অনুমানযোগ্য ত্রুটির পরিসীমা আছে? $\left | A_0 \right |$ $A_0$ $z$ $z$

আমি এখন পর্যন্ত যা চেষ্টা করেছি তা এখানে (সিউডোকোডে, সাজানো):

sample_threshold := 10000
factor := 1
if (len(A0) > sample_treshold) {
    factor = sample_threshold / len(A0)
}

// Take a random sample of size 10000 from A0

// Intersect all the other sets with the A0 sample, then with each other
working_set := A0
for i, a := range A {
    a = intersect(A0, a)
    working_set = intersect(working_set, a)
}

z := len(working_set) * (1 / factor)

এই কোডটি কাজ করে তবে ধারাবাহিকভাবে ওভারসেসিমেট বলে মনে হয় z, কম নমুনার আকারের সাথে উচ্চতর অনুমান পাওয়া যায়। অতিরিক্তভাবে, আমি নিশ্চিত না কীভাবে এটি ছেদ করতে দুটির বেশি সেট দিয়ে স্কেল করবে।

আমি আশা করি এই প্রশ্নটি বোধগম্য হয়েছে, যদি আমি আরও কিছু স্পষ্ট করতে পারি তবে আমাকে জানান। এছাড়াও, যদি এই প্রশ্নটি বিষয়বস্তু থেকে দূরে থাকে বা অন্য কোথাও সম্পর্কিত হয়, তবে দয়া করে আমাকে জানান এবং আমি এটি সরানোতে খুশি।

প্রতি বিল এর মন্তব্য , আমি নমুনা আকার বনাম ত্রুটি প্রদর্শন করা কিছু দ্রুত বিচারের দৌড়ে। প্রতিটি নমুনা আকারের বালতিটি 20 বার চালানো হয়েছিল এবং আপনি দেখতে পাচ্ছেন যে খুব সুন্দর প্রবণতা রয়েছে:

পটভূমি

error sample

— জিমি সাওকজুক
সূত্র

আমি মনে করি প্রতিস্থাপন ছাড়াই সহজ এলোমেলো নমুনা কাজ করা উচিত। আমি বিস্মিত হয়েছি যে আপনি অত্যধিক গুরুত্ব পাচ্ছেন। দেখে মনে হচ্ছে এটি একটি জনসংখ্যার হিসাব করার জন্য একেবারে মানচিত্রের অর্থ এলোমেলো নমুনা থেকে নমুনা ব্যবহার করে mean আপনি জনসংখ্যার সম্ভাব্যতাটি অনুমান করার চেষ্টা করছেন যে একটি উপাদান অন্য এর । আমি একটি সাধারণ উদাহরণ দিয়ে নুডলড করেছি, এবং এটি দুর্দান্ত কাজ করে। আপনি কতটুকু নিশ্চিত যে আপনি অবিচ্ছিন্নভাবে অতিরিক্ত কাজ করছেন? এটি কি 20 এর মধ্যে 15 বারের মতো বা 200 এর মধ্যে 150 বারের মতো হয়েছে? নমুনা কি আসলেই এলোমেলো?

A_{0}

$A_0$

A

$A$

— বিল

@ বিল আমি নমুনা আকার বনাম ত্রুটির একটি প্লট যুক্ত করেছি যা আমি কী দেখছি তা চিত্রিত করে। এটি 20 এর মধ্যে 20 বারের মতো বেশি। এলোমেলো নমুনার হিসাবে এটি এলোমেলো মতো ORDER BY RAND(), যা নিখুঁত নয় তবে এই কাজের জন্য উপযুক্ত হওয়া উচিত।

— জিমি সাউকজুক

@ জিমি সাউসকুক কি "ওয়ার্কিং সেট" কে "ছেদ (এ 0, ক) এর পরিবর্তে সরাসরি" একটি "দিয়ে ছেদ করা ভাল না? কারণ "এ 0" সম্ভবত প্রথম রান করার পরে অ্যালগরিদমের বর্তমান "ওয়ার্কিং সেট" এর চেয়ে বড় হবে ... আমি কি এটি সঠিকভাবে বুঝতে পারি?

আপনি কি নিশ্চিত করতে পারবেন যে আপনি আসলে সেটগুলি বোঝাচ্ছেন এবং মাল্টিসেট নয় (অর্থাত্ সেটে কোনও নকল নেই)? কারণ, যদি এটি থাকে তবে আপনার পদ্ধতি দ্বারা "ছেদ" আকারের আকারটিকে আরও বেশি মূল্যায়ন করা সহজ। ( বিবেচনা করুন যেখানে একই উপাদানটির মাত্র 100 অনুলিপি এবং আপনি তার অর্ধেক নমুনা করেছেন))

A_{0}

$A_0$

— ইন্নুও

এছাড়াও আমি জিজ্ঞাসা করতে পারি যে মূল সেটগুলির আকারের তুলনায় ছেদটির আকারটি খুব ছোট? যদি তা হয় তবে আমার সমস্যাটি আপনার সমস্যার ব্যাখ্যা দেবে I আমি কিছু সিমুলেশন চালিয়েছি (আরও ছোট সেট সহ) এবং আমি খুব সামঞ্জস্য বোধ করছি, ছোট যাই হোক না কেন।

আপনার সেট যদি উপাদানের (অর্থাত, এটি আসলে একটি multiset হয়) পুনরাবৃত্তি করেছেন ছেদ আকার আপনার প্রক্রিয়া দ্বারা একাধিক ক্ষেত্রে করা হবে না, কারণ আপনার স্কেলিং ফ্যাক্টর এবং নমুনা উপাদানের সংখ্যা ব্যবহার অনন্য "ধরনের" নমুনা সংখ্যা নয়। আপনার এলোমেলো নমুনায় সংখ্যার অনন্য উপাদানের অনুপাত হিসাবে সম্পূর্ণ সেট এ টি এর অনন্য উপাদানের সংখ্যার সাথে করে আপনি । $A_0$ $A_0$

— Innuo
সূত্র

হিসাবে Innuo তুলে ধরে , আমার সমস্যা কারণ আমার নমুনা সেটে সদৃশ ছিল , যা সৃষ্ট আমার pseudocode মধ্যে, কম হতে যেটা ঘুরে ফিরে সৃষ্ট চূড়ান্ত বহির্পাতন খুব বেশী হতে হয়েছে কারণ এটি বিপরীত মাধ্যমে উত্পন্ন করা হয়েছিল । সদৃশ অপসারণ এই সমস্যার সমাধান করেছে, এবং এখন অ্যালগোরিদম একটি ডেল্টা বনাম নমুনা আকারের প্লট উত্পন্ন করে যা আমি প্রত্যাশা করি তার রেখাগুলিতে (লাইনগুলি মোট জনসংখ্যার তুলনায় সেই নমুনা আকারের জন্য 95% আত্মবিশ্বাসের স্তরে ত্রুটির মার্জিন নির্দেশ করে) ): $A_0$ factorzfactor

পটভূমি

— জিমি সাওকজুক
সূত্র