ছেদ করার জন্য ডেটা স্ট্রাকচার?

21

নিম্নলিখিত ক্রিয়াকলাপগুলি সমর্থন করে এমন কোনও সংকলন (সীমাবদ্ধ স্থল সেট) বজায় রাখার কোনও ডেটা কাঠামো রয়েছে কি? কোন sublinear চলমান সময় প্রশংসা করা হবে?

একটি খালি সেট শুরু করুন।
একটি সেটে একটি উপাদান যুক্ত করুন।
দুটি সেট দেওয়া হয়েছে, তারা ছেদ করেছে কিনা তা রিপোর্ট করুন।

data-structures sets

— দাওয়ে হুয়াং
সূত্র

1

এটি একটি খুব সাধারণ প্রশ্ন, কারণ কোনও ডেটা স্ট্রাকচারই সীমাবদ্ধ ডোমেন সহ এই ক্রিয়াকলাপগুলিকে সমর্থন করতে পারে। আপনি একটি সামান্য আরো সুনির্দিষ্ট হতে পারে ? যেমন। আপনার কী জটিলতা দরকার, সেট অপারেশন ইত্যাদি

— অর্জনের

13

প্রতিটি সেট অন্য সেট অস্তিত্ব একটি রেকর্ড বজায় রাখে, এবং আপনি একটি মোট থাকে তাহলে সেট, আপনি সহজেই যে কোন ডাটা স্ট্রাকচার একটি সংগ্রহ জন্য (চালু করতে পারেন যেমন বাইনারি অনুসন্ধান গাছ, ইত্যাদি ) এক মধ্যে তোমাদের আহরণ থাকতে পারে যেখানে সময় মধ্যে দুটি সেট ছেদ করার একটি উপাদান । $s > 0$ $O(\log s)$

পুরোপুরি অর্ডার করা সেট থেকে প্রতিটি সেটের একটি অনন্য শনাক্তকারী থাকা উচিত। যদি আপনি স্পষ্টভাবে আপনার সেটগুলির নাম রাখেন তবে সনাক্তকারীটি কেবল সূচক হতে পারে। $S_1, S_2, \ldots$
আপনার সেটগুলির একটি "রেজিস্ট্রি" প্রয়োগ করা উচিত; একটি ডেটা স্ট্রাকচার যা আপনার সংজ্ঞায়িত সমস্ত সেটের সংগ্রহ বজায় রাখে। সহজ পুনরুদ্ধারের ( যেমন আপনি সেটটি মুছতে চান) এবং সেটের লিনিয়ার-সময় ট্র্যাভারসালকে অনুমতি দেওয়ার জন্য রেজিস্ট্রিটি অনুসন্ধান-গাছের ডেটা কাঠামো হিসাবে প্রয়োগ করা উচিত ।
প্রতিটি সেট অন্য সেটগুলির প্রত্যেকটির একটি "সূচক" বজায় রাখে - সেগুলির অনুলিপি নয় , বরং একটি ডেটা স্ট্রাকচার যা অন্য সেটগুলির লেবেল দ্বারা সূচিযুক্ত হয়। এই সূচকটি বজায় রাখতে ব্যবহৃত হবে, প্রতিটি সেট , এর সমস্ত উপাদানের একটি বাইনারি অনুসন্ধান গাছ । (দুটি সেট এবং সেই অনুসন্ধান গাছের একটি অনুলিপি ভাগ করে) $S_j$ $S_k$ $S_j \cap S_k$ $S_j$ $S_k$

আরম্ভ

একটি সেটের সূচনা নিয়ে গঠিত অপারেশন তার উপাদানের গাছ আরম্ভ করতে, অপারেশন হিসাবে আপনি আরম্ভ (রেজিস্ট্রি থেকে কপি করার) সেট জন্য সূচক , এবং অপারেশনগুলি যখন আপনি অন্য সেটগুলির প্রতিটি সূচকের যুক্ত করতে রেজিস্ট্রিটি অতিক্রম করেন । এর সূচীতে আমরা অনুসন্ধান গাছ তৈরি করি যা উপস্থাপন করে $T = \varnothing$ $O(1)$ $O(s)$ $T$ $O(s \log s)$ $T$ $S_j$ $T$ $T \cap S_j = \varnothing$ অন্যান্য সেট ; আমরা সূচকের জন্য একই পয়েন্টারটি অনুলিপি করি । $S_j$ $S_j$

একটি সেট একটি উপাদান যুক্ত করা $T$

কিছু যোগ করার জন্য যথারীতি সময় লাগে , যেখানে । আমরা সদস্যপদ জন্য পরীক্ষার অন্যান্য সেটের প্রতিটি , যা সময় লাগে $x \in V$ $T$ $O(\log n_T)$ $n_T = |T|$ $x$ $S_1, S_2, \ldots$ যেখানেমহাবিশ্বের আকার (অথবা বৃহত্তম সেট হয় ) এবং রেজিস্ট্রি মধ্যে সেট সংখ্যা। প্রতিটি সেট জন্য যেমন যে , এছাড়াও সন্নিবেশ সেট জন্য সূচক মধ্যে । প্রতিটি যেমন সেট জন্য , এই নেয় সন্ধান করার সময়,

O (\log n_{S_{1}} + \log n_{S_{2}} + \dots) \subseteq O (s \log n),

$O(\log n_{S_1} + \log n_{S_2} + \cdots) \subseteq O(s \log n) ,$

n = | V |

$n = |V|$

S_{j}

$S_j$

s

$s$

S_{j}

$S_j$

x \in S_{j}

$x \in S_j$

x

$x$

S_{j} \cap T

$S_j \cap T$

S_{j}

$S_j$

O (\log s + \log n_{T})

$O(\log s + \log n_T)$

S_{j}

$S_j$ এর সূচক

এবং সন্নিবেশ করতে

মধ্যে

; সমস্ত সেট জুড়ে

এটি সময় নেবে

। আমরা যদি যে অনুমান করা সেট সংখ্যা

অনেক মহাবিশ্বের আকার কম

(যেমন, যদি আমরা অনুমান

), উপাদান সন্নিবেশ জন্য মোট সময় তারপর

T

$T$

x

$x$

S_{j} \cap T

$S_j \cap T$

S_{1}, S_{2}, \dots

$S_1, S_2, \ldots$

O (s \log s + s \log n_{T})

$O(s \log s + s \log n_T)$

S_{j}

$S_j$

V

$V$

s ≪ n

$s \ll n$

O (s \log n)

$O(s \log n)$ ।

আপনি যদি সেটগুলিতে সদৃশ না হয়ে থাকেন, তবে অন্যান্য সেট জন্য সদস্যপদ পরীক্ষা এবং সন্নিবেশকে রেখে আমরা ইতিমধ্যে ক্ষেত্রে সময় বাঁচাতে পারি । ইতিমধ্যে উপস্থিত ক্ষেত্রে "সন্নিবেশ" কেবলমাত্র সময় নেয় । $x \in S$ $T$ $x$ $O(\log n_T)$

মোড় পরীক্ষা

দুটি সেট এবং ছেদ করে কিনা তাড়াতাড়ি মূল্যায়নের জন্য প্রতিটি সেটের সূচকটি যথাযথভাবে বজায় রাখা হয় । একটি সেট জন্য , সহজভাবে সেট তার সূচক চেক করে , আমরা কেবল সময় নির্ধারণ করতে পারি না হোক বা না হোক ছেদ করে , কিন্তু আমরা একটি বাইনারি সমগ্র সেট ধারণকারী গাছ উদ্ধার করতে পারেন । $S_j$ $S_k$ $S_j$ $S_k$ $O(\log s)$ $S_j$ $S_k$ $S_j \cap S_k$

উপাদান অপসারণ

একটি উপাদান মুছে ফেলার জন্য একটি সেট থেকে , আমরা এটা না শুধুমাত্র অনুসন্ধানের জন্য গাছ থেকে অপসারণ নিজেই কিন্তু ছেদ প্রতিটি সেটের জন্য তার সূচক। এটি সময় নেবে , যেখানে । $x$ $T$ $T$ $S_j \cap T$ $S_j$ $O(s \log n_T)$ $n_T = |T|$

বিলোপ সেট করুন

রেজিস্ট্রি অনুসন্ধানের ওভারহেডের কারণে, আপনার যদি অনেক সেট থাকে তবে একবার সেগুলির আর প্রয়োজন হয় না সেগুলি মুছে ফেলা বাঞ্ছনীয়। সমগ্র রেজিস্ট্রি ঢোঁড়ন মাধ্যমে আমরা মুছে ফেলতে পারবেন সব অন্যান্য সেট সূচি থেকে সময় , সার্চ প্রতিনিধিত্বমূলক গাছ মোছার খরচ দ্বারা প্রভাবিত অন্যান্য সেটের প্রতিটি , যেখানে । $S$ $S_j$ $O(sn_T)$ $S_j \cap T$ $S_j$ $n_T = |T|$

মন্তব্য

যদি আপনি কেবলমাত্র ধ্রুবক সেটগুলি প্রয়োগ করার প্রত্যাশা করেন, তবে উপরের রান-সময়গুলি হ্রাস করে:

সূচনা: $O(1)$
উপাদান সন্নিবেশ: $O(\log n)$
ছেদ পরীক্ষা (এবং ছেদটি পুনরুদ্ধার): $O(1)$
উপাদান অপসারণ: $O(\log n_T)$
মুছে ফেলা সেট: $O(n_S)$

যেখানে বৃহত্তম সেটের আকার এবং সেট যা আপনার উপর কাজ করছে। $n$ $n_T = |T|$ $T$

আপনি যদি সেটগুলি আশা করেন, যেখানে আপনার মহাবিশ্ব, আপনি যদি এই লাইনগুলি সাব-লিনিয়ার সময়ে পরিচালনা করতে চান তবে আপনার একটি আলাদা ডেটা স্ট্রাকচারের প্রয়োজন হতে পারে। তবে, আপনার যদি এমন কয়েকটি সেট রয়েছে যার ছেদগুলি আপনি জানেন যে আপনি কখনই পরীক্ষা করতে পারবেন না, তবে আপনি সেটের জন্য সূচকগুলির আকার হ্রাস করতে সক্ষম হবেন (যে কোনও ছেদেলটি আপনি পরীক্ষা করবেন এমন কোনও সেট না করে) বা একাধিক রেজিস্ট্রি ব্যবহার করতে পারেন ( সেটগুলির প্রতিটি সংগ্রহের জন্য একটি যার ছেদটি আপনি পরীক্ষা করতে পারেন)। প্রকৃতপক্ষে, কোনও রেজিস্ট্রি কেবল তখনই কার্যকর যখন আপনি প্রতিটি জোড় সূচকে একে অপরের রেকর্ড রয়েছে কিনা তা নিশ্চিত করার কেন্দ্রীয়ভাবে নিয়ন্ত্রণ চান: এটি কিছু ক্ষেত্রে ব্যবহারিক হতে পারে, একটি সেট , কেবল রেকর্ড করার জন্য $O(|V|)$ $V$ $S$ তদর্থক অন্যান্য সেট সূচকের প্রতিটি নতুন সেট দিয়ে যার ছেদ আপনি আগ্রহী। $T$ $S$

— নীল দে বৌদ্রাপ
সূত্র

6

এমন ডেটা স্ট্রাকচার রয়েছে যা আপনাকে লিনিয়ার সময়ের চেয়ে কম সময়ে এটি করার অনুমতি দেয় এমনকি নিকৃষ্টতম ইনপুটগুলির জন্যও। দেখুন http://research.microsoft.com/pubs/173795/vldb11intersection.pdf (এবং সেখানে কাগজপত্র রেফারেন্স)।

যদি আপনার দুটি সেট এস এবং টি এর একটি বড় ছেদ থাকে এবং আপনার এস এর জন্য একটি অভিধান রয়েছে, এলোমেলো ক্রমে টি এর উপাদানগুলি সন্ধান করা আপনাকে দ্রুত একটি সাধারণ উপাদান দেয়। ছেদ আকার 0 বা 1 হয় যখন সবচেয়ে কঠিন ক্ষেত্রে হয়।

— রাসমুস পগ
সূত্র

3

সাধারণত আপনার পছন্দসই প্রোগ্রামিং ভাষা অনন্য উপাদান সহ একটি ডেটা কাঠামো সমর্থন করবে। সাধারণভাবে তিনটি জনপ্রিয় পন্থা রয়েছে: গাছ, হ্যাশ এবং বিটমাস্ক। গাছের উপাদানগুলি অবশ্যই তুলনীয় হতে হবে, হ্যাশ উপাদানগুলি অবশ্যই হ্যাশযোগ্য এবং বিটমাস্ক উপাদানগুলির অবশ্যই পূর্ণসংখ্যায় রূপান্তর করার কিছু উপায় থাকতে হবে।

একটি ট্রি-সেট ও (লগ এন) এ সন্নিবেশ এবং ওয়ারস্ট কেস ও (এন লগ এন) এ ছেদ করা পরীক্ষাকে সমর্থন করবে।

একটি হ্যাশ-সেট এমোরটাইজড ও (1 * এইচ) -এ সন্নিবেশকে সমর্থন করবে যেখানে 'এইচ' হ্যাশিং অ্যালগরিদমের চলমান সময় এবং ওয়ারস্ট কেস ও (এন) এর ছেদ পরীক্ষা।

বিটমাস্ক সেটগুলি সাধারণত ট্রি- এবং হ্যাশ-সেটগুলির মতো ব্যবহার হয় না।

— কার্ল দামগার্ড আসমুসেন
সূত্র

2

এটি একটি শালীন স্ট্যাক ওভারফ্লো উত্তর হবে তবে এটি কীভাবে এবং কেন কাজ করে সে সম্পর্কে আমরা এখানে কিছু বিশদ চাই ।

— রাফায়েল

3

যদি আপনার ক্ষেত্রে মিথ্যা ইতিবাচক উত্তরগুলির অনুমতি দেয় তবে আমি ব্লুম ফিল্টারটি একটি একক হ্যাশ ফাংশন সহ ব্যবহার করব ।

আপনি নিম্নলিখিত হিসাবে এটি বাস্তবায়ন করতে পারেন:

একটি খালি সেট শুরু করুন

$B$ = বিট অ্যারে $n$ বিটস, সমস্ত 0 এ সেট $n$ সম্ভাব্য উপাদানগুলির সংখ্যা অনুযায়ী চয়ন করা উচিত)

একটি সেটে একটি উপাদান যুক্ত করুন।

$B[hash(element)]=1$

দুটি সেট দেওয়া (বি 1, বি 2), তারা ছেদ করেছে কিনা তা রিপোর্ট করুন।

যদি পরীক্ষা করে দেখুন $B1$ $AND$ $B2$ $=$ $0$

জটিলতা

যদি $n$ খুব বড় নয়, সমস্ত অপারেশন হয় $O(1)$ ।

— গ্রিশা ওয়েইনট্রাব
সূত্র