ডেটা স্ট্রিম অ্যালগরিদমগুলিকে "ভাগ করুন এবং জয় করুন"

12

বিশাল ডেটা স্ট্রিমগুলিতে কাজ করে এমন কি কার্যকরী অ্যালগরিদম রয়েছে এবং তাদের ফলাফলগুলি মোটামুটি ছোট এবং কেউ কোনওভাবে তাদের ফলাফলগুলি মার্জ করে দুটি স্ট্রিমের মিশ্রণের জন্য ফলাফলটি গণনা করতে পারে?

আমি কয়েকটি নাম রাখতে পারি:

সুস্পষ্ট জিনিস যেমন যোগফল, সর্বনিম্ন, সর্বোচ্চ, গণনা, শীর্ষ-কে ইত্যাদি-
পৃথক আইটেম গণনা বা কোয়ান্টাইলগুলি গণনা করে হিস্টোগ্রামগুলির জন্য আনুমানিক তথাকথিত "স্কেচ-ভিত্তিক" স্ট্রিম অ্যালগরিদমগুলি

অন্যরা কী আছে?

(আমি আগ্রহী কারণ আমি বিতরণ ব্যবস্থাগুলি পর্যবেক্ষণের জন্য একটি শখের প্রকল্প লিখছি যার দরকারীতা যেমন অ্যালগোরিদমের উপযোগিতা দ্বারা সরাসরি নির্ধারিত হয়)

ds.algorithms big-list data-streams

— jkff
সূত্র

"বিভাজন এবং বিজয়" / সহযোগী নয় এমন কোনও স্ট্রিমিং অ্যালগরিদম সম্পর্কে ভাবতে আমার পক্ষে আরও কঠিন মনে হয়। হয়তো কোনওরকম রোলিং হ্যাশ ফাংশন ... আপনার কাছে এমন স্ট্রিম অ্যালগরিদমের কোনও প্রাকৃতিক উদাহরণ রয়েছে?

— থমাস আহলে

9

গুহ এট আল। '03 স্ট্রিমিং মডেলটিতে কে-মিডিয়ান ক্লাস্টারিংয়ের জন্য একটি আনুমানিক অ্যালগরিদম দেয়। তাদের অ্যালগোরিদম তথ্যগুলিকে বিচ্ছিন্ন টুকরোগুলিতে ভাগ করে দেয়, প্রতিটি বিচ্ছিন্ন অংশের জন্য ও (কে) কেন্দ্রগুলি সন্ধান করে এবং তারপরে কে কেন্দ্রগুলি পাওয়ার জন্য ফলাফলগুলি একত্রিত করে। এটি আপনার সন্ধানের অ্যালগোরিদমের ধরণ বলে মনে হচ্ছে।

— লেভ Reyzin
সূত্র

7

$\varepsilon$ $\varepsilon$ $i^{\text{th}}$ $(i-1)^{\text{th}}$ -স্তরনের প্রবাহ এবং স্তর 0 মূল স্রোত)। এটি মূলত একটি বিভাজন এবং বিজয়ী কৌশলটির নীচের অংশে রেন্ডারিং। পুনরাবৃত্তি গাছের "প্রান্ত" বরাবর আপডেটগুলি। কাঠামোর ক্ষেত্রে, এটি লেভ দ্বারা উল্লিখিত গুহ এট আল পেপারের সাথে খুব মিল।

— সুরেশ ভেঙ্কট
সূত্র

6

আমি একটি কাগজ পেয়েছি ( "বিতরণ ফ্রিকোয়েন্সি-নির্ভরশীল স্ট্রিম গণনা" ) যা বলছে যে স্ট্রিমের ফ্রিকোয়েন্সি বিতরণের প্রতিটি ফাংশনটি মার্জযোগ্য (যদিও এটি মার্জ অপারেশনের জন্য একটি সুস্পষ্ট এবং দক্ষ নির্মাণ দেয় না )। এবং প্রমাণটি বেশ আকর্ষণীয় বলে মনে হচ্ছে, এতে কিছু রিং তত্ত্ব জড়িত। আগের লেখকটি একই লেখকের ( "ডেটা স্ট্রিমগুলির ফ্রিকোয়েন্সি অনুমানের উপর নিম্ন সীমানা" ) পড়ার প্রয়োজন যার মূল ফলাফলটি এর জন্য ভিত্তি হিসাবে ব্যবহৃত হয়।

এটি আমাকে তৃতীয় হোমোমর্ফিজম উপপাদ্যের কথা মনে করিয়ে দেয় ...

— jkff
সূত্র

আমি মনে করি না গাঙ্গুলি কাগজটি বোঝায় যে একটি বিভাজন এবং বিজয়ী কৌশল স্ট্রিমিংয়ের জন্য কাজ করতে পারে। সেই মডেলটি ম্যাপ্রেডস / এমইউডি মডেলটিকে হ্রাস করবে বলে মনে হচ্ছে, যেখানে ডেটা দিয়ে একাধিক পাস হতে পারে।

— সুরেশ ভেঙ্কট

পড়ার পরে আমার কাছে মনে হয় এটি সর্বোপরি একাধিক পাস ব্যবহার করে না।

— jkff

4

ধারাবাহিক স্ট্রিম ক্যোয়ারী ভাষার উপর গবেষণা কিছু অন্তর্দৃষ্টি দিতে পারে। সেরকম একটি ভাষা হ'ল সিকিউএল , যা আমি বিশ্বাস করি ওরাকল গ্রহণ করেছেন। ভাষাগুলি ফাংশনের স্লাইডিং উইন্ডোগুলিতে (আকারের 1 এর উইন্ডো সহ) গুনতে মঞ্জুরি দেয়। এই ব্যাচেলর থিসিস কিছু উদাহরণ সহ ভাষার সাম্প্রতিক একটি সংক্ষিপ্ত বিবরণ প্রদান করে। এই কাগজটি কিছু স্ট্রিম প্রসেসিং ভাষার একটি ওভারভিউ দেয়, যা অন্যান্য সম্পর্কিত গবেষণার লিঙ্কগুলি সন্ধানের জন্য কার্যকর হওয়া উচিত।

আমি জানি যে এটি সরাসরি আপনার প্রশ্নের উত্তর দেয় না, তবে এটি আপনাকে একই সূচনা পয়েন্ট থেকে প্রস্থানকারী লোকদের গবেষণার সাথে যোগাযোগ করা উচিত।

— ডেভ ক্লার্ক
সূত্র

4

এই প্রশ্নটি আমার কাছে কিছুটা বিজ্ঞপ্তি বলে মনে হচ্ছে। যদি সমস্যাটি আপনার পছন্দ মতো সম্পত্তি থাকে তবে তার জন্য একটি স্কেচ এবং মার্জ ভিত্তিক অ্যালগরিদম রয়েছে। উপরে উল্লিখিত হিসাবে, এখানে ক্লাস্টারিং, আনুমানিকতা এবং কোরসেটের কাজ রয়েছে যা আপনাকে এটি সরবরাহ করে। এছাড়াও, বেশিরভাগ স্ট্রিমিং অ্যালগরিদমগুলি কেবল (ধারণামূলকভাবে) একটি স্ট্রিমকে অন্য স্ট্রিমকে সংশ্লেষ করে স্ট্রিমগুলি মার্জ করার অনুমতি দেয়।

এছাড়াও, আমি নিশ্চিত নই যে শীর্ষ-কে স্ট্রিমিং অ্যালগরিদমগুলি মার্জযোগ্য - তবে আমি ভুল হতে পারি।

— সারিল হার-প্লেড
সূত্র

শীর্ষ-কে তুচ্ছভাবে মার্জযোগ্য: কে আইটেমের দুটি তালিকার একত্রীকরণের জন্য, আপনি সেগুলি মার্জ করে এবং ফলাফলের শেষের আইটেমগুলি গ্রহণ করেন :) তবে, সম্ভবত আপনি "টপ কে সবচেয়ে ঘন ঘন" বলতে চেয়েছিলেন, তবে আমি এটিকে বোঝায় (এটিও একটি দরকারী সমস্যা, উদাহরণস্বরূপ, কোনও ফেসবুক প্রাচীরের মতো বিতরণের গণনার জন্য)

— jkff

3

এটি সম্পর্কে উদ্বিগ্ন হওয়ার জন্য দুঃখিত, তবে আমি ভেবেছিলাম আপনি স্ট্রিমগুলিতে বিতরণ করা অবিচ্ছিন্ন পর্যবেক্ষণ সম্পর্কে কিছু কাজ সন্ধান করতে চাইতে পারেন, যেখানে আপনাকে বেশ কয়েকটি স্ট্রিম সরবরাহ করা হয় এবং যোগাযোগ হ্রাস করার সময় একটি কেন্দ্রীয় পর্যবেক্ষণ সাইটে কিছু সামগ্রিক পরিসংখ্যান পর্যবেক্ষণ করা হয়। মডেলটি আপনার প্রেরণার সাথে নিবিড়ভাবে সম্পর্কিত বলে মনে হচ্ছে। মধ্যে রেফারেন্স তাকান মুথু এর বই । এক কাগজ এই ।

গাঙ্গুলির কাগজটিও খুব আকর্ষণীয়।

— সাশো নিকোলভ
সূত্র