'কে' 'এর জন্য অ্যালগোরিদম প্রায়শই সংখ্যক ঘটে


19

আমি সর্বাধিক দক্ষ (স্ট্রিমিং ??) অ্যালগরিদম সন্ধান করছি যা আমাকে 'কে' বলছে যে কোনও সময়ে কোনও স্ট্রিমে ঘন ঘন ঘটে যাওয়া উপাদানগুলি। এই পোস্টটি: "ভাগ করুন এবং জয় করুন" ডেটা স্ট্রিম অ্যালগরিদমগুলি আমাকে এতে আগ্রহী করেছে।

উদাহরণস্বরূপ, ধরুন এখানে সংখ্যা রয়েছে: (4,3,5,1,6,2,4,3,3,8,9,1) এবং আমি প্রায় 3 টি ঘন ঘন সংখ্যার জন্য জিজ্ঞাসা করি (বলুন), তবে আমার উচিত উত্তর হিসাবে (3,4,1) পান।

আমি অনলাইনে অনুসন্ধানের চেষ্টা করেছি, তবে এমন কোনও জায়গা খুঁজে পেল না যা কোনও দৃষ্টিভঙ্গি দেয় এবং বলে যে এটি সবচেয়ে ভাল। একটি তুচ্ছ সমাধান হ'ল গাদা বা ভারসাম্য বাইনারি গাছ ব্যবহার করা, তবে আমি মনে করি এর থেকে আরও ভাল উপায় আছে এবং আমি এটি জানতে চাইছিলাম যে এটি কোথাও নথিভুক্ত রয়েছে কিনা।

সম্পাদনা: আমি এমন একটি অ্যালগরিদম সন্ধান করছি যা সর্বদা একটি এপ্রোমিক্সেশন অ্যালগরিদমের বিপরীতে সঠিক উত্তর দেয় (যেগুলির মধ্যে অনেকগুলি অনুসন্ধানের ফলাফলগুলিতে পপ আপ হয়) যা কোনও উপায়ে বা অন্য কোনও উপায়ে বিতরণের উপর নির্ভর করে


আসলে এখানে তিন ধরণের অ্যালগরিদম রয়েছে: সঠিক, আনুমানিক এবং "ডেটা নির্ভর"। আপনি সর্বশেষ প্রকারটি বাতিল করেছেন, তবে কী এমন আনুমানিক অ্যালগোরিদম যা ডেটা বিতরণকে অনুমোদনের উপর নির্ভর করে না? আমি যেমনটি ইঙ্গিত করেছি, যদি তা না হয় তবে আপনি স্ট্রিম সেটিংয়ে এই সমস্যার জন্য নিম্ন সীমানা জানার কারণে সমস্যার মধ্যে রয়েছেন।
সুরেশ ভেঙ্কট

1
আমি কৌতূহল ছিলাম যে সীমাবদ্ধ মেমরি (স্ট্রিমিং অ্যালগরিদম) ব্যবহার করে এমন অ্যালগরিদমগুলি আসলে যা করতে চেয়েছিল তা করতে পারে এবং মনে হয় আপনি যেমন উল্লেখ করেছেন তেমন তারা করতে পারে না। এছাড়াও অ স্ট্রিমিংয়ের সঠিক অ্যালগরিদম জানা আছে যা ও (এন) -এর সমস্যা সমাধানের সবচেয়ে খারাপ সময়টির গ্যারান্টিযুক্ত, যা এখানে উল্লিখিত হয়েছে (আপনার প্রদত্ত লিঙ্কটি থেকে করমোড এবং হ্যাডজিলফেরিওয়ের কাগজ দ্বারা উদ্ধৃত করা হয়েছে): citeseerx.ist.psu। এডু / ভিউডোক / সারসংক্ষেপ? ডুই = 10.1.1.106.7889
ধ্রুববার্ড

উত্তর:


20

=1(এন)

এন/


1
+1 টি। আমি মনে করি যে> 50% সময়ের অ্যালগরিদমটি একটি সুপরিচিত (সংখ্যাগরিষ্ঠ উপাদান অ্যালগরিদম) হিসাবে আপনি উল্লেখ করেছেন
ধ্রুববার্ড

2
ধন্যবাদ !! করমোড এবং হাডজিলফেরিওর যে কাগজটি আপনি উল্লেখ করেছেন সেগুলিতে এই কাগজটি উদ্ধৃত করা হয়েছে: citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.106.7889 যার একই কৌশল নিয়ে আমি ভাবছিলাম। এটি 2 লিঙ্কযুক্ত তালিকা বজায় রাখে; এক ফ্রিকোয়েন্সি অনুসারে এবং এর মধ্যে একই ফ্রিকোয়েন্সি সহ সমস্ত উপাদানের অন্য তালিকা।
ধ্রুববার্ড

আপনি কি 50 শতাংশের বেশি অ্যালগরিদমকে বিশদভাবে বর্ণনা করতে পারেন? এবং গুগল ধাঁধা? আপনি এই মুহূর্তে স্পর্শ করেছেন এবং "সুপরিচিত কৌশল" এ পুরোপুরি ব্যয় না করায় আমি এই নিচু যুক্তিটি অনুসরণ করতে পারি না। ধন্যবাদ।

এখানে একটি লিঙ্ক রয়েছে: userweb.cs.utexas.edu/users/misra/scannedPdf.dir/…
সুরেশ ভেঙ্কট

সুরেশ ভেঙ্কটের লিঙ্ক ব্যবহারকারীweb.cs.utexas.edu/users/misra/scannedPdf.dir/… এ এটি একটি মন্তব্য (যথেষ্ট খ্যাতি নয়) : মনে হচ্ছে উপস্থাপিত অ্যালগরিদমের ডেটা দিয়ে দ্বিতীয় পাসের দরকার আছে, যা অনুমোদিত নয় এখানে. আসলে, আমি দেখতে পাচ্ছি না যে ও (1) স্থানের প্রয়োজনীয়তার সাথে এক-পাসের অ্যালগরিদম কীভাবে থাকতে পারে।
টনিকে

2

আমি নীচের বইয়ের 8.1.3 বিভাগ "ডেটা স্ট্রিমে ঘন ঘন-প্যাটার্ন মাইনিং" পড়ারও পরামর্শ দিচ্ছি:

জিয়াউই হান, মিশেল কাম্বার। ডেটা মাইনিং --- ধারণা এবং কৌশল, দ্বিতীয় সংস্করণ, মরগান কাউফম্যান পাবলিশার্স , 2006।

এটি একটি অ্যালগরিদম প্রবর্তন করে , যা লসী কাউন্টিং নামে পরিচিত , যা ঘন ঘন আইটেমগুলি (আইটেমগুলির সমর্থনগুলি কিছুটা মিনি_সপোর্টের উপরে যা হয় ) স্বেচ্ছাসেবী নির্ভুলতার সাথে সংযুক্ত করে।

আপনি যা চান ঠিক তা নয়, তবে আমি ভেবেছিলাম এটি সাহায্য করবে।


সম্ভবত আপনি আমার প্রশ্নে আমাকে এখানে
বেন
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.