এক সেটের নমুনা ব্যবহার করে একাধিক সেটের ছেদ আকারের অনুমান করা


10

আমি একটি অ্যালগরিদম নিয়ে কাজ করছি যা কমপক্ষে 2 টি সেট ছেদ দ্বারা উত্পন্ন একটি সেট আকার গণনা করা প্রয়োজন। আরো নির্দিষ্টভাবে:

z=|A0An|

ছেদ করা সেটগুলি এসকিউএল কোয়েরি দ্বারা উত্পাদিত হয় এবং জিনিসগুলি দ্রুত রাখার প্রয়াসে আমি প্রতিটি প্রশ্নের আগে সময়ের একটি গণনা পাই, তারপরে সর্বনিম্ন গণনা (এ টি ) সহ সেটটি নিয়ে এবং সেই আইডিগুলি সীমানা হিসাবে ব্যবহার করি বড় বড় প্রশ্নগুলির বাকি, তাই ছেদ কার্যকরভাবে হয়ে যায়:A0

z=|(A0A1)(A0An)|

এমনকি এই কৌশলটি আমাকে চালানোর জন্য বেশ কয়েকটি বড় প্রশ্ন , যেহেতুকখনও কখনও বড় হতে পারে। যে একটি র্যান্ডম নমুনা নিচ্ছে সঙ্গে তার আচরণ আমার ধারণা এবং একটি সঠিক অনুমান ফিরে extrapolating সামনে সেট বাকি সঙ্গে এটি ছেদ । আমার প্রশ্নটি হল: স্যাম্পলিং সম্পর্কে আরও ভাল উপায় এবং তারপরে মানটি ফিরে পাওয়ার জন্য এক্সট্রাপোলেটিং , যা সম্পূর্ণ সঠিক না হলে, একটি অনুমানযোগ্য ত্রুটির পরিসীমা আছে?|A0|A0zz


আমি এখন পর্যন্ত যা চেষ্টা করেছি তা এখানে (সিউডোকোডে, সাজানো):

sample_threshold := 10000
factor := 1
if (len(A0) > sample_treshold) {
    factor = sample_threshold / len(A0)
}

// Take a random sample of size 10000 from A0

// Intersect all the other sets with the A0 sample, then with each other
working_set := A0
for i, a := range A {
    a = intersect(A0, a)
    working_set = intersect(working_set, a)
}

z := len(working_set) * (1 / factor)

এই কোডটি কাজ করে তবে ধারাবাহিকভাবে ওভারসেসিমেট বলে মনে হয় z, কম নমুনার আকারের সাথে উচ্চতর অনুমান পাওয়া যায়। অতিরিক্তভাবে, আমি নিশ্চিত না কীভাবে এটি ছেদ করতে দুটির বেশি সেট দিয়ে স্কেল করবে।

আমি আশা করি এই প্রশ্নটি বোধগম্য হয়েছে, যদি আমি আরও কিছু স্পষ্ট করতে পারি তবে আমাকে জানান। এছাড়াও, যদি এই প্রশ্নটি বিষয়বস্তু থেকে দূরে থাকে বা অন্য কোথাও সম্পর্কিত হয়, তবে দয়া করে আমাকে জানান এবং আমি এটি সরানোতে খুশি।


প্রতি বিল এর মন্তব্য , আমি নমুনা আকার বনাম ত্রুটি প্রদর্শন করা কিছু দ্রুত বিচারের দৌড়ে। প্রতিটি নমুনা আকারের বালতিটি 20 বার চালানো হয়েছিল এবং আপনি দেখতে পাচ্ছেন যে খুব সুন্দর প্রবণতা রয়েছে:

পটভূমি


আমি মনে করি প্রতিস্থাপন ছাড়াই সহজ এলোমেলো নমুনা কাজ করা উচিত। আমি বিস্মিত হয়েছি যে আপনি অত্যধিক গুরুত্ব পাচ্ছেন। দেখে মনে হচ্ছে এটি একটি জনসংখ্যার হিসাব করার জন্য একেবারে মানচিত্রের অর্থ এলোমেলো নমুনা থেকে নমুনা ব্যবহার করে mean আপনি জনসংখ্যার সম্ভাব্যতাটি অনুমান করার চেষ্টা করছেন যে একটি উপাদান অন্য এর । আমি একটি সাধারণ উদাহরণ দিয়ে নুডলড করেছি, এবং এটি দুর্দান্ত কাজ করে। আপনি কতটুকু নিশ্চিত যে আপনি অবিচ্ছিন্নভাবে অতিরিক্ত কাজ করছেন? এটি কি 20 এর মধ্যে 15 বারের মতো বা 200 এর মধ্যে 150 বারের মতো হয়েছে? নমুনা কি আসলেই এলোমেলো? A0A
বিল

1
@ বিল আমি নমুনা আকার বনাম ত্রুটির একটি প্লট যুক্ত করেছি যা আমি কী দেখছি তা চিত্রিত করে। এটি 20 এর মধ্যে 20 বারের মতো বেশি। এলোমেলো নমুনার হিসাবে এটি এলোমেলো মতো ORDER BY RAND(), যা নিখুঁত নয় তবে এই কাজের জন্য উপযুক্ত হওয়া উচিত।
জিমি সাউকজুক

@ জিমি সাউসকুক কি "ওয়ার্কিং সেট" কে "ছেদ (এ 0, ক) এর পরিবর্তে সরাসরি" একটি "দিয়ে ছেদ করা ভাল না? কারণ "এ 0" সম্ভবত প্রথম রান করার পরে অ্যালগরিদমের বর্তমান "ওয়ার্কিং সেট" এর চেয়ে বড় হবে ... আমি কি এটি সঠিকভাবে বুঝতে পারি?

আপনি কি নিশ্চিত করতে পারবেন যে আপনি আসলে সেটগুলি বোঝাচ্ছেন এবং মাল্টিসেট নয় (অর্থাত্ সেটে কোনও নকল নেই)? কারণ, যদি এটি থাকে তবে আপনার পদ্ধতি দ্বারা "ছেদ" আকারের আকারটিকে আরও বেশি মূল্যায়ন করা সহজ। ( বিবেচনা করুন যেখানে একই উপাদানটির মাত্র 100 অনুলিপি এবং আপনি তার অর্ধেক নমুনা করেছেন))A0
ইন্নুও

এছাড়াও আমি জিজ্ঞাসা করতে পারি যে মূল সেটগুলির আকারের তুলনায় ছেদটির আকারটি খুব ছোট? যদি তা হয় তবে আমার সমস্যাটি আপনার সমস্যার ব্যাখ্যা দেবে I আমি কিছু সিমুলেশন চালিয়েছি (আরও ছোট সেট সহ) এবং আমি খুব সামঞ্জস্য বোধ করছি, ছোট যাই হোক না কেন।

উত্তর:


3

আপনার সেট যদি উপাদানের (অর্থাত, এটি আসলে একটি multiset হয়) পুনরাবৃত্তি করেছেন ছেদ আকার আপনার প্রক্রিয়া দ্বারা একাধিক ক্ষেত্রে করা হবে না, কারণ আপনার স্কেলিং ফ্যাক্টর এবং নমুনা উপাদানের সংখ্যা ব্যবহার অনন্য "ধরনের" নমুনা সংখ্যা নয়। আপনার এলোমেলো নমুনায় সংখ্যার অনন্য উপাদানের অনুপাত হিসাবে সম্পূর্ণ সেট এ টি এর অনন্য উপাদানের সংখ্যার সাথে করে আপনি ।A0A0


0

হিসাবে Innuo তুলে ধরে , আমার সমস্যা কারণ আমার নমুনা সেটে সদৃশ ছিল , যা সৃষ্ট আমার pseudocode মধ্যে, কম হতে যেটা ঘুরে ফিরে সৃষ্ট চূড়ান্ত বহির্পাতন খুব বেশী হতে হয়েছে কারণ এটি বিপরীত মাধ্যমে উত্পন্ন করা হয়েছিল । সদৃশ অপসারণ এই সমস্যার সমাধান করেছে, এবং এখন অ্যালগোরিদম একটি ডেল্টা বনাম নমুনা আকারের প্লট উত্পন্ন করে যা আমি প্রত্যাশা করি তার রেখাগুলিতে (লাইনগুলি মোট জনসংখ্যার তুলনায় সেই নমুনা আকারের জন্য 95% আত্মবিশ্বাসের স্তরে ত্রুটির মার্জিন নির্দেশ করে) ):A0factorzfactor

পটভূমি

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.