অসাধারণ সনাক্তকরণের জন্য স্বয়ংক্রিয় প্রান্তিক সংকল্প


9

আমি সময়ের ব্যয়বহুল স্কোরগুলির সাথে কাজ করছি (পটভূমিটি কম্পিউটার নেটওয়ার্কগুলিতে বিচ্ছিন্নভাবে সনাক্তকরণ)। প্রতি মিনিটে, আমি স্কোর যা আমাকে বলে যে নেটওয়ার্কের বর্তমান অবস্থা কতটা "অপ্রত্যাশিত" বা অস্বাভাবিক। যত বেশি স্কোর, ততটাই অস্বাভাবিক বর্তমান অবস্থা। 5 এর কাছাকাছি স্কোরগুলি তাত্ত্বিকভাবে সম্ভব তবে প্রায় কখনও হয় না।xt[0,5]

এখন আমি একটি অ্যালগরিদম বা এমন একটি সূত্র নিয়ে আসতে চাই যা এই অসঙ্গতি সময় সিরিজের জন্য স্বয়ংক্রিয়ভাবে একটি প্রান্তিক নির্ধারণ করে । অসাধারণ স্কোরটি এই প্রান্তিকের ছাড়িয়ে যাওয়ার সাথে সাথে একটি অ্যালার্ম ট্রিগার হয়ে যায়।

নীচের ফ্রিকোয়েন্সি বিতরণ 1 দিনের চেয়ে বেশি সময় ব্যয় করার জন্য একটি উদাহরণ। যাইহোক, এটি অনুমান করা নিরাপদ নয় যে প্রতিটি অসঙ্গতি সময় সিরিজটি এর মতো দেখতে চলেছে। এই বিশেষ উদাহরণে, .99-কোয়ান্টাইলের মতো একটি অসঙ্গত প্রান্তিকতা বোধগম্য হবে যেহেতু খুব ডানদিকে কয়েকটি স্কোরকে ব্যতিক্রম বলে বিবেচনা করা যেতে পারে।

এখানে চিত্র বর্ণনা লিখুন

এবং সময় সিরিজের মতো একই ফ্রিকোয়েন্সি বিতরণ (এটি কেবলমাত্র 0 থেকে 1 পর্যন্ত অবধি সময় সিরিজে কোনও উচ্চতর বিপরীত স্কোর না থাকায়):

সময় সিরিজ

দুর্ভাগ্যক্রমে, ফ্রিকোয়েন্সি বিতরণের আকার থাকতে পারে, যেখানে .99-কোয়ান্টাইল কার্যকর নয় । নীচে একটি উদাহরণ। ডান লেজটি খুব কম, সুতরাং .99-কোয়ান্টাইলটি যদি প্রান্তিক হিসাবে ব্যবহৃত হয়, এটির ফলে অনেকগুলি মিথ্যা ধনাত্মক হতে পারে। এই ফ্রিকোয়েন্সি বিতরণটিতে অসঙ্গতি রয়েছে বলে মনে হয় না তাই প্রান্তিকতা প্রায় 0.25 এর কাছাকাছি বিতরণের বাইরে থাকা উচিত।

এখানে চিত্র বর্ণনা লিখুন

সংক্ষেপে বলা যায়, এই দুটি উদাহরণের মধ্যে পার্থক্যটি হ'ল প্রথমটিকে ব্যতিক্রমগুলি প্রদর্শিত হয় তবে দ্বিতীয়টি তা দেখায় না।

আমার নিষ্পাপ দৃষ্টিকোণ থেকে, অ্যালগরিদমের এই দুটি ক্ষেত্রে বিবেচনা করা উচিত:

  • যদি ফ্রিকোয়েন্সি বিতরণে একটি বড় ডান লেজ থাকে (অর্থাত্ একটি দম্পতি অস্বাভাবিক স্কোর), তবে .99-কোয়ান্টাইলটি একটি ভাল প্রান্তিক হতে পারে।
  • যদি ফ্রিকোয়েন্সি বিতরণটির খুব স্বল্প ডান লেজ থাকে (যেমন কোনও অস্বাভাবিক স্কোর না থাকে), তবে প্রান্তিকের বিতরণের বাইরে থাকা উচিত lie

/ সম্পাদনা: এখানে কোনও গ্রাউন্ড সত্য নেই, যেমন লেবেলযুক্ত ডেটা সেট উপলব্ধ। সুতরাং অ্যালগরিদমটি অসাধারণ স্কোরগুলির প্রকৃতির বিরুদ্ধে "অন্ধ"।

এখন আমি নিশ্চিত নই যে এই পর্যবেক্ষণগুলি কীভাবে অ্যালগরিদম বা সূত্রের ক্ষেত্রে প্রকাশ করা যেতে পারে। এই সমস্যাটি কীভাবে সমাধান করা যেতে পারে তার কোনও পরামর্শ আছে? আমি আশা করি যে আমার পরিসংখ্যানগত পটভূমি খুব সীমাবদ্ধ হওয়ায় আমার ব্যাখ্যাগুলি যথেষ্ট।

আপনার সাহায্যের জন্য ধন্যবাদ!


কেবল একটি নোট, প্রথম গ্রাফটি আমার কাছে সাধারণ কিছু মনে হয় না।
এমপিক্টাস

1
@ ক্রিপট্রন, মূল প্রশ্নটি একটি সাউন্ড থ্রেশহোল্ড কী। উদাহরণস্বরূপ, যদি প্রতিটি উত্থাপিত অ্যালার্ম এবং অ-উত্থিত অ্যালার্ম কিছু ব্যয়কে অন্তর্ভুক্ত করে থাকে তবে প্রান্তিকের এমন অংশ বেছে নেওয়া যেতে পারে যা মোট ব্যয়কে হ্রাস করে। তার জন্য আমাদের ব্যয় ডেটা প্রয়োজন। শব্দটির সঠিক সংজ্ঞা ব্যতীত প্রান্তিক বাছাইয়ের জন্য নির্বাচিত পদ্ধতিটি কীভাবে মূল্যায়ন করা যায় তা পরিমাপ করা অসম্ভব।
এমপিক্টাস

@ এমপিক্টাস: আমাকে স্বীকার করতে হবে, "শব্দ" শব্দটি এই প্রসঙ্গে দুর্ভাগ্যজনক কারণ আমার কাছে প্রান্তিকভাবে প্রান্তিকের মূল্যায়ন করার কোনও উপায় নেই (সুতরাং, আমি এটি সম্পাদনা করেছিলাম)। মূলত, থ্রোসোল্ডটি মিথ্যা ধনাত্মককে হ্রাস করতে পারে কারণ তারা নেটওয়ার্ক অ্যানোমালি সনাক্তকরণে মিথ্যা নেতিবাচক চেয়ে অনেক বেশি ব্যয়বহুল।
cryptron

@ ক্রাইপট্রন, ভুয়া পজিটিভ যা আছে তার কোনও তথ্য আপনার কাছে রয়েছে?
এমপিক্টাস

1
আমি আপনার চক্রান্ত দ্বারা বিভ্রান্ত এটি একটি সময় সিরিজ মান গ্রহণ করছে ? অথবা এটি হওয়া উচিত ? (আপনার প্রথম চক্রান্তে এক্স অক্ষটি দেখে)। একটি ট্রাসপ্লট আরও বেশি সহায়ক হবে। উদাহরণস্বরূপ, আপনি কি টেকসই সময়ের জন্য বা সংক্ষিপ্ত বিস্ফোরণে (বা উভয়) উচ্চ স্কোর পেয়েছেন? যদি উভয়ই অন্যজনের চেয়ে আরও বেশি ঝামেলা করে? আপনি যদি তথ্যের জন্য যুক্তিসঙ্গত মডেলটি রাখতে পারেন তবে আপনি লাগানো বিতরণ থেকে তাত্ত্বিক কোয়ান্টাইলগুলি ব্যবহার করতে পারেন, যা আপনাকে নমুনা কোয়ান্টাইলগুলির সাথে চিহ্নিত সমস্যাটি সমাধান করবে। {xt}0<xt50<xt0.5
জেএমএস

উত্তর:


2

আপনি এই আগ্রহের কাগজটি পেতে পারেন । পশ্চিম এবং হ্যারিসনের অনুরূপ মডেলের আরও বিশদ উপস্থাপনা দেখুন । এই ধরণের পর্যবেক্ষণের অন্যান্য উদাহরণও রয়েছে, অনেকগুলি সাম্প্রতিক হলেও এটি আমার হুইলহাউসটি ঠিক নয় :)। নিঃসন্দেহে এই মডেলগুলির যথাযথ বাস্তবায়ন রয়েছে, তবে আমি জানি না যে সেগুলি কীভাবে বন্ধ থাকবে ...

প্রাথমিক ধারণাটি হ'ল আপনার একটি স্যুইচিং মডেল রয়েছে যেখানে কিছু পর্যবেক্ষণ / পর্যবেক্ষণের ক্রম অস্বাভাবিক নেটওয়ার্কের রাজ্যগুলিতে দায়ী করা হয় যখন বাকীগুলি স্বাভাবিক হিসাবে বিবেচিত হয়। এর মতো মিশ্রণটি আপনার প্রথম চক্রান্তে দীর্ঘ ডান লেজের জন্য অ্যাকাউন্ট তৈরি করতে পারে। একটি গতিশীল মডেল আপনাকে রিয়েল-টাইম হিসাবে 8:00 এবং 4:00 এর মতো অস্বাভাবিক লাফিয়ে যাওয়ার বিষয়ে সতর্ক করতে পারে যাতে কোনও সমস্যা অবস্থার সাথে সম্পর্কিত নতুন পর্যবেক্ষণগুলিতে উচ্চ সম্ভাবনা নির্ধারণ করে। ভবিষ্যদ্বাণীকারী, পর্যায়ক্রমিক উপাদানগুলি (সম্ভবত আপনার স্কোর ক্রমবর্ধমান / ক্রিয়াকলাপের সাথে কিছুটা পড়ে) এবং সেই ধরণের জিনিস অন্তর্ভুক্ত করার জন্য এটি সহজেই বাড়ানো যেতে পারে।

সম্পাদনা: আমারও যোগ করা উচিত, এই ধরণের মডেলটি "অর্পিত না হওয়া" এই অর্থে যে ব্যতিক্রমগুলি বড় আকারের শিফট দেখিয়ে বা বৈকল্পিকতা বৃদ্ধি করে ধরা পড়ে। আপনি ডেটা সংগ্রহ করার সময় আপনি আরও তথ্যপূর্ণ পূর্ব বিতরণ দিয়ে মডেলটি উন্নত করতে পারেন। তবে সম্ভবত একবার আপনার যথেষ্ট পরিমাণ ডেটা (এবং নেটওয়ার্ক সমস্যার সাথে মোকাবিলা করার মাধ্যমে হার্ড-উইনড ট্রেনিংয়ের উদাহরণগুলি!) পেয়ে গেলে আপনি কিছু সাধারণ মনিটরিং রুলস (থ্রেশহোল্ডস ইত্যাদি) তৈরি করতে পারেন could


1

বিপর্যয়কে কী বলে তার কোনও 'লেবেলযুক্ত' উদাহরণ রয়েছে? ie একটি নেটওয়ার্ক ব্যর্থতার সাথে সম্পর্কিত মানগুলি, বা এর মতো কিছু?

আপনি যে প্রয়োগটি বিবেচনা করতে পারেন তা হ'ল একটি আরওসি বক্ররেখা, যা থ্রেডহোল্ডগুলি বাছাইয়ের জন্য কার্যকর যা নির্দিষ্ট মানদণ্ডগুলি পূরণ করে, যেমন সত্য ইতিবাচককে সর্বাধিক করে তোলে বা মিথ্যা নেতিবাচকতা হ্রাস করে।

অবশ্যই, একটি আরওসি বক্ররেখা ব্যবহার করার জন্য আপনাকে কোনও উপায়ে আপনার ডেটা লেবেল করা দরকার।


1
দুর্ভাগ্যক্রমে, আমার কাছে কোনও লেবেলযুক্ত ডেটা সেট নেই। কেবলমাত্র অনুমান করা হয়, লম্বা লেজ বা বহিরাগতরা ডেটা সেটে অসংলগ্নতা নির্দেশ করে।
cryptron

@ ক্রিপট্রন আমি দেখতে পাচ্ছি সুতরাং আপনার যা প্রয়োজন তা হ'ল আউটলিয়ারদের ডায়নামিকভাবে সনাক্ত করার একটি উপায়।
Zach 20

হ্যাঁ, এটি সমস্যার একটি অংশ সমাধান করবে।
cryptron

1

"মূল সিরিজ" এর গ্রাফটি কোনও পূর্বনির্ধারিত কাঠামো প্রদর্শন করতে হবে না। গুরুত্বপূর্ণ বিষয়টি হ'ল "উপযুক্ত মডেল সিরিজের অবশিষ্টাংশগুলি" এর গ্রাফটিতে গাউসীয় কাঠামো প্রদর্শিত হয়। এই "গাউস কাঠামো" সাধারণত নিম্নলিখিত এক বা একাধিক "রূপান্তর" সংযুক্ত করে প্রাপ্ত করা যায় 1. একটি অরিমা মডেল 2. স্থানীয় স্তরের শিফট বা স্থানীয় সময় ট্রেন্ডস বা মৌসুমী ডাল বা সাধারণ ডালের জন্য সামঞ্জস্য ৩. প্রমাণিত বৈকল্পিকতা বৈকল্পিকতা শোষণের একটি ভারী বিশ্লেষণ ৪. সম্ভাব্য পাওয়ার ট্রান্সফর্মেশন (লগ ইত্যাদি) নির্দিষ্ট বৈকল্পিক ভিন্নতার সাথে মোকাবিলা করার জন্য time. মডেল / পরামিতিগুলি পরিবর্তিত হতে পারে এমন সময়ে পয়েন্টগুলি সনাক্তকরণ।

হস্তক্ষেপ সনাক্তকরণ সর্বাধিক সাম্প্রতিক ইভেন্টের পরিসংখ্যানগত তাত্পর্য সম্পর্কে একটি বিবৃতি দেবে যা স্বাভাবিকতা বা অসাধারণতাকে নির্দেশ করে


0

আমার পূর্বের উত্তরটিতে ওপি'র প্রতিক্রিয়াতে সে তার ডেটা ওয়েবে পোস্ট করেছে। 6 দিনের জন্য 24 ঘন্টা 24 ঘন্টা প্রতি ঘন্টা 60 রিডিং । যেহেতু এটি সময় সিরিজ ক্রস-বিভাগীয় সরঞ্জামগুলির মতো ডিবিএসসিএএন-তে সীমিত প্রাসঙ্গিকতা রয়েছে কারণ ডেটা অস্থায়ী নির্ভরতা। এই জাতীয় ডেটার সাহায্যে সাধারণত অন্তঃঘন্টা এবং অন্তর্-দিনের কাঠামো সন্ধান করা হয়। এই ধরণের কাঠামো ছাড়াও যে কোনও একমাত্র সময় (নাড়ি) বা পদ্ধতিগতভাবে ডকুমেন্টেড পদ্ধতিতে পদ্ধতিতে পদ্ধতিতে (স্তরের শিফট) হতে পারে এমন অসঙ্গতিগুলি সনাক্তকরণ অনুসরণ করতে পারে (সয়ে, টিওও, চেন ইত্যাদি সাহিত্য দেখুন)। আল।) এই পদ্ধতিগুলি নিম্নলিখিত "ব্যতিক্রমগুলি" পেয়েছে ote দ্রষ্টব্য যে একটি স্তর শিফট মূলত পৃথক "ক্লাস্টারস" এর পরামর্শদাতা। শীর্ষ চিহ্নিত অসঙ্গতি

                                HOUR/MINUTE     TIME

-1

আমার এক বন্ধু আমাকে ক্লাস্টারিং অ্যালগরিদমের দিকে নির্দেশ করার পরে , আমি ডিবিএসসিএন জুড়ে হোঁচট খেয়েছি যা দুটি পূর্বনির্ধারিত পরামিতি অনুসারে এন-ডাইমেনশনাল স্পেসে ক্লাস্টার তৈরি করে। মূল ধারণাটি ঘনত্ব-ভিত্তিক ক্লাস্টারিং, অর্থাৎ ঘন অঞ্চলগুলি ক্লাস্টার গঠন করে form অ্যালগরিদম দ্বারা আউটলিয়াররা পৃথকভাবে ফিরে আসে। সুতরাং, যখন আমার 1-মাত্রিক হিস্টোগ্রামে প্রয়োগ করা হয়, তখন ডিবিএসসিএএন আমাকে জানাতে সক্ষম হয়, আমার অনিয়মিত স্কোরগুলি কোনও বিদেশী রয়েছে কিনা। দ্রষ্টব্য: ডিবিএসসান-এ, আউটলেটর কেবলমাত্র একটি পয়েন্ট যা কোনও ক্লাস্টারের অন্তর্গত নয়। স্বাভাবিক ক্রিয়াকলাপের সময়, আমি প্রত্যাশা করি যে অ্যালগরিদমটি কেবলমাত্র একটি ক্লাস্টার (এবং কোনও বিদেশী নেই) ফলন করবে।

কিছু পরীক্ষা-নিরীক্ষার পরে আমি জানতে পেরেছিলাম যে পরামিতিগুলি ভালভাবে কাজ করে। এর অর্থ এই যে পয়েন্টগুলিকে বহিরাগত হিসাবে দেখাতে সর্বনিম্ন 0.1 থেকে "সাধারণ" ক্লাস্টারের দূরত্ব প্রদর্শন করতে হবে।ϵ0.1

আউটলিয়ারদের সনাক্ত করতে সক্ষম হওয়ার পরে, প্রান্তিকের সন্ধানটি সাধারণ নিয়মে যেমন ফোটে:

  • যদি সেটটি আউটলিয়ারদের দেখায়, "স্বাভাবিক" এবং "আউটলেট" ক্লাস্টারের মধ্যে প্রান্তিক সেট করুন যাতে উভয়ের মার্জিন সর্বাধিক হয়।
  • যদি সেটটি কোনও বহিরাগতদের প্রদর্শন না করে তবে প্রান্তিকের ডানদিক থেকে দূরে সীমাটি একটি মান বিচ্যুতি সেট করুন।

যাইহোক, সমস্ত সহায়ক জবাবের জন্য ধন্যবাদ!


@ ক্রাইপটন কীভাবে ডিবিএসসিএএন স্বতঃসংশ্লিষ্ট সিরিজের সাথে ডিল করে। উদাহরণস্বরূপ একটি সময়ের সিরিজ 1,9,1,9,1,9,5 এর অন্তর্নির্মিত / অস্বাভাবিক মান থাকবে। এটি কি সিরিজের লেভেল শিফটগুলি বা সম্ভাব্য কয়েকটি ট্রেন্ডের সাথে লেনদেন করে? এটি মৌসুমী অটোরগ্রেসিভ ডেটাগুলির সাথে কীভাবে মোকাবেলা করে যেখানে প্রতিমাসের জুন ব্যতীত সিরিজটি "নিয়মিত" হয় এবং প্রতি জুনে সিরিজটি "বড়" হয়। "বড় জুনের মানগুলি" কি বিদেশী হিসাবে চিহ্নিত হয়? উৎসুক !
আইরিশস্টেট

2
@ আইরিশস্ট্যাট মূলত ডিবিএসসিএএন ক্লাস্টারগুলি এন-ডাইমেনশনাল স্পেসে। সুতরাং সময় সিরিজ বিশ্লেষণের জন্য এটি উপযুক্ততা খুব সীমাবদ্ধ। এটি আমার বিশেষ ক্ষেত্রে কাজ করে যেহেতু আমি আমার (1-মাত্রিক) হিস্টোগ্রামে কেবল একটি ক্লাস্টার আশা করি। আপনার প্রশ্নের জবাব দিতে: উপযুক্ত পরামিতি ব্যবহার করার সময়, আপনার উদাহরণের 5 এর মানটি আউটলেটর হিসাবে সনাক্ত করা হবে। আমি মনে করি এটি প্রবণতাগুলির সাথে মোকাবিলা করতে পারে তবে সময় সিরিজ '1, 2, 3, 4, 5, 6, 7, 2' তে 2 এর মানটিকে বহিরাগত হিসাবে বিবেচনা করা হবে না! আমি আশা করি, এটি ডিবিএসসিএএন এর সক্ষমতা এবং সীমাবদ্ধতা সম্পর্কে মোটামুটি ধারণা দেয়।
cryptron

1
@ ক্রিপটন তথ্যের জন্য ধন্যবাদ। এটি আমার কাছে উপস্থিত হয় যে আপনি যখন 1 টি ক্লাস্টার উল্লেখ করেন, তখন আপনার অর্থ 1 এবং কেবল 1 গড়। যদিও আপনার ডেটাতে গড় স্বতঃসংশ্লিষ্টকরণের কোনও পরিবর্তন নেই তবে এটি "সময় সিরিজ" রেন্ডার করে যা সুপারিশ করে যে ডিবিএসসিএন যতটা শব্দহীন থেকে সংকেতকে আলাদা করার জন্য অ্যানমোলাস ডেটার দক্ষ সনাক্তকরণের জন্য চিন্তা করে ততটা কার্যকর হতে পারে না।
আইরিশস্ট্যাট

1
@ ক্রিপটন এটি আমার কাছে মনে হয় যে একটি ক্লাস্টার এই মানগুলির চারপাশে কিছু ছোট বিচ্যুতি নিয়ে 1,1,1,1,2,2,2,2 বলে থাকা সময়ের সিরিজের তুলনায় 1 গড় বোঝায়।
আইরিশস্ট্যাট

2
@ ক্রিপটন আমার মনে হয় আপনি সময় সিরিজের সমস্যার জন্য ক্রস-বিভাগীয় সরঞ্জামটি ব্যবহার করছেন। আসল ডেটা পোস্ট করুন এবং আমি সময় সিরিজ বিশ্লেষণের সাথে আপনাকে
বেমানান
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.