আমি সময়ের ব্যয়বহুল স্কোরগুলির সাথে কাজ করছি (পটভূমিটি কম্পিউটার নেটওয়ার্কগুলিতে বিচ্ছিন্নভাবে সনাক্তকরণ)। প্রতি মিনিটে, আমি স্কোর যা আমাকে বলে যে নেটওয়ার্কের বর্তমান অবস্থা কতটা "অপ্রত্যাশিত" বা অস্বাভাবিক। যত বেশি স্কোর, ততটাই অস্বাভাবিক বর্তমান অবস্থা। 5 এর কাছাকাছি স্কোরগুলি তাত্ত্বিকভাবে সম্ভব তবে প্রায় কখনও হয় না।
এখন আমি একটি অ্যালগরিদম বা এমন একটি সূত্র নিয়ে আসতে চাই যা এই অসঙ্গতি সময় সিরিজের জন্য স্বয়ংক্রিয়ভাবে একটি প্রান্তিক নির্ধারণ করে । অসাধারণ স্কোরটি এই প্রান্তিকের ছাড়িয়ে যাওয়ার সাথে সাথে একটি অ্যালার্ম ট্রিগার হয়ে যায়।
নীচের ফ্রিকোয়েন্সি বিতরণ 1 দিনের চেয়ে বেশি সময় ব্যয় করার জন্য একটি উদাহরণ। যাইহোক, এটি অনুমান করা নিরাপদ নয় যে প্রতিটি অসঙ্গতি সময় সিরিজটি এর মতো দেখতে চলেছে। এই বিশেষ উদাহরণে, .99-কোয়ান্টাইলের মতো একটি অসঙ্গত প্রান্তিকতা বোধগম্য হবে যেহেতু খুব ডানদিকে কয়েকটি স্কোরকে ব্যতিক্রম বলে বিবেচনা করা যেতে পারে।
এবং সময় সিরিজের মতো একই ফ্রিকোয়েন্সি বিতরণ (এটি কেবলমাত্র 0 থেকে 1 পর্যন্ত অবধি সময় সিরিজে কোনও উচ্চতর বিপরীত স্কোর না থাকায়):
দুর্ভাগ্যক্রমে, ফ্রিকোয়েন্সি বিতরণের আকার থাকতে পারে, যেখানে .99-কোয়ান্টাইল কার্যকর নয় । নীচে একটি উদাহরণ। ডান লেজটি খুব কম, সুতরাং .99-কোয়ান্টাইলটি যদি প্রান্তিক হিসাবে ব্যবহৃত হয়, এটির ফলে অনেকগুলি মিথ্যা ধনাত্মক হতে পারে। এই ফ্রিকোয়েন্সি বিতরণটিতে অসঙ্গতি রয়েছে বলে মনে হয় না তাই প্রান্তিকতা প্রায় 0.25 এর কাছাকাছি বিতরণের বাইরে থাকা উচিত।
সংক্ষেপে বলা যায়, এই দুটি উদাহরণের মধ্যে পার্থক্যটি হ'ল প্রথমটিকে ব্যতিক্রমগুলি প্রদর্শিত হয় তবে দ্বিতীয়টি তা দেখায় না।
আমার নিষ্পাপ দৃষ্টিকোণ থেকে, অ্যালগরিদমের এই দুটি ক্ষেত্রে বিবেচনা করা উচিত:
- যদি ফ্রিকোয়েন্সি বিতরণে একটি বড় ডান লেজ থাকে (অর্থাত্ একটি দম্পতি অস্বাভাবিক স্কোর), তবে .99-কোয়ান্টাইলটি একটি ভাল প্রান্তিক হতে পারে।
- যদি ফ্রিকোয়েন্সি বিতরণটির খুব স্বল্প ডান লেজ থাকে (যেমন কোনও অস্বাভাবিক স্কোর না থাকে), তবে প্রান্তিকের বিতরণের বাইরে থাকা উচিত lie
/ সম্পাদনা: এখানে কোনও গ্রাউন্ড সত্য নেই, যেমন লেবেলযুক্ত ডেটা সেট উপলব্ধ। সুতরাং অ্যালগরিদমটি অসাধারণ স্কোরগুলির প্রকৃতির বিরুদ্ধে "অন্ধ"।
এখন আমি নিশ্চিত নই যে এই পর্যবেক্ষণগুলি কীভাবে অ্যালগরিদম বা সূত্রের ক্ষেত্রে প্রকাশ করা যেতে পারে। এই সমস্যাটি কীভাবে সমাধান করা যেতে পারে তার কোনও পরামর্শ আছে? আমি আশা করি যে আমার পরিসংখ্যানগত পটভূমি খুব সীমাবদ্ধ হওয়ায় আমার ব্যাখ্যাগুলি যথেষ্ট।
আপনার সাহায্যের জন্য ধন্যবাদ!