মুহুর্তগুলি ব্যবহার করে পূর্ণসংখ্যার একটি স্ট্রিমের জন্য আনুমানিক কোয়ান্টাইলগুলি গণনা করুন?


20

গণিত.স্ট্যাকেক্সচেঞ্জ থেকে স্থানান্তরিত ।

আমি পূর্ণসংখ্যার দীর্ঘ স্ট্রিমটি প্রক্রিয়া করছি এবং প্রচুর ডেটা সঞ্চয় না করে স্ট্রিমের জন্য প্রায় বিভিন্ন পারসেন্টাইল গণনা করতে সক্ষম হতে কয়েক মুহুর্ত ট্র্যাক করার বিষয়টি বিবেচনা করছি। কয়েক মুহুর্ত থেকে শতকরা ভাগ গণনা করার সহজ উপায় কী। এর চেয়ে আরও ভাল কোন পদ্ধতির মধ্যে কেবলমাত্র অল্প পরিমাণে ডেটা সংরক্ষণ করা জড়িত?


2
আপনি কি আপনার স্ট্রিমের বিতরণ বৈশিষ্ট্য সম্পর্কে নির্দিষ্ট কিছু জানেন? উদাহরণস্বরূপ, তারা কি বলে, ইতিবাচক? বেষ্টিত? আপনার দেওয়া অন্য যে কোনও বিবরণ সহায়ক হবে। মুহুর্তগুলি স্ট্রিমের জন্য গণনা করা এবং সঞ্চয় করা বেশ সহজ। এখানে একটি স্ট্রিম থেকে সরাসরি কোয়ান্টাইলের অনুমান সম্পর্কে পূর্ববর্তী প্রশ্নগুলি রয়েছে , যা আপনি সত্যিই যা করার চেষ্টা করছেন বলে মনে হচ্ছে। আপনি তাদের সন্ধান করতে এবং সন্ধান করতে পারেন।
কার্ডিনাল

তারা প্রক্রিয়াজাতকরণের সময়গুলিকে উপস্থাপন করে, তাই এগুলি ইতিবাচক এবং সিস্টেমে কোনও প্রযুক্তিগত সমস্যা বা ওভারলোড না থাকলে বেশিরভাগভাবেই দৃly়ভাবে ক্লাস্টার করা হয়। আমি কোয়ান্টাইল প্রশ্নগুলি সন্ধান করব; তারা যথেষ্ট ভাল হতে পারে। তবুও আমি আগ্রহী যে কীভাবে মুহূর্তগুলি থেকে একটি স্বেচ্ছাসেবী পারসেন্টাইলের সাথে সম্পর্কিত মানটি গণনা করা যায়। আমি জানি যে মুহুর্তগুলি সংরক্ষণ করা সহজ, এটি কীভাবে ব্যবহার করতে হয় যা আমি জানি না।
জন্ড্রি

আপনি এই প্রশ্নটি দেখেছেন ?
কার্ডিনাল

উত্তর:


15

আপনি এটিকে সুস্পষ্টভাবে বর্ণনা করেন না, তবে সমস্যার বিবরণ থেকে মনে হয় আপনি কোয়ান্টাইলের একটি উচ্চ-পক্ষপাতী সেট (উদাঃ 50 তম, 90 তম, 95 তম এবং 99 তম পার্সেন্টাইল) পরে চলেছেন।

যদি এটি হয় তবে করমোড এট আল দ্বারা "ডেটা স্ট্রিমের ওপরে বায়াসড কোয়ান্টাইলের কার্যকর গণনা" এ বর্ণিত পদ্ধতিটি দিয়ে আমি প্রচুর সাফল্য পেয়েছি। এটি একটি দ্রুত অ্যালগরিদম যার স্বল্প স্মৃতি দরকার এবং এটি কার্যকর করা সহজ।

পদ্ধতিটি গ্রিনওয়াল্ড এবং খান্নার পূর্ববর্তী অ্যালগরিদমের উপর ভিত্তি করে তৈরি হয়েছে যা নমুনায় মানগুলির র‌্যাঙ্কের উপরের এবং নিম্ন সীমানার সাথে ইনপুট স্ট্রিমের একটি ছোট নমুনা বজায় রাখে। এটি কয়েক মুহুর্তের সংগ্রহের চেয়ে বেশি স্থানের প্রয়োজন, তবে বিতরণের আকর্ষণীয় লেজ অঞ্চলটি সঠিকভাবে বর্ণনা করার ক্ষেত্রে এটি আরও ভাল।


1
εএনএন

2

এর জন্য আরও সাম্প্রতিক এবং অনেক সহজ অ্যালগরিদম রয়েছে যা চরম কোয়ান্টাইলগুলির খুব ভাল অনুমান সরবরাহ করে।

কুই

Https://github.com/tdunning/t-digest দেখুন

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.