পাইথনের সাথে টাইম সিরিজ অ্যানোমালি সনাক্তকরণ


10

আমার বেশ কয়েকটি সময়-সিরিজের ডেটাসেটগুলিতে অসাধারণ সনাক্তকরণ কার্যকর করতে হবে। আমি এর আগে কখনও করিনি এবং কিছু পরামর্শের আশা করছিলাম। আমি অজগর নিয়ে খুব আরামদায়ক, তাই আমি সমাধানটি এর মধ্যে প্রয়োগ করা পছন্দ করবো (আমার কোডের বেশিরভাগ অংশ আমার কাজের অন্যান্য অংশের জন্য পাইথন) is

ডেটাটির বিবরণ: এটি মাসিক সময়-সিরিজের ডেটা যা কেবল মাত্র 2 বছর বা তার বেশি সময়ে (যেমন কেবল 24-36 সময়সীমার) সংগ্রহ করা শুরু হয়েছিল । মূলত, বেশ কয়েকটি ক্লায়েন্টের জন্য মাসিক ভিত্তিতে বেশ কয়েকটি মেট্রিক পর্যবেক্ষণ করা হচ্ছে।

time_period    client    metric    score
01-2013        client1   metric1   100
02-2013        client1   metric1   119
01-2013        client2   metric1   50
02-2013        client2   metric2   500
...

আমি যা ভাবছি তা এখানে: ডেটাফ্রেমে ডেটা টানুন (পান্ডাস), তারপরে প্রতিটি ক্লায়েন্ট / মেট্রিক জুটির জন্য 6 মাসের গড়ের গণনা করুন। যদি বর্তমান সময়ের মেয়াদটির মান-মাসের গড়ের ভিত্তিতে কিছু প্রান্তিক ছাড়িয়ে যায়, তবে পতাকা তুলুন। সমস্যাটি বরং সহজ বলে মনে হচ্ছে। আমি কেবল নিশ্চিত করতে চাই যে আমি একটি দৃ approach় পদ্ধতি গ্রহণ করছি।

এই ধারণাটি মাংসের জন্য কোনও পরামর্শই প্রশংসিত হবে। আমি জানি প্রশ্নটি কিছুটা বিমূর্ত এবং এর জন্য আমি ক্ষমা চেয়ে নিচ্ছি।



পাইপ.আর.জি. / প্রকল্প / অ্যানোমালি-ডিটেকশন এটি লাইব্রেরিতে পাইথনটিতে অসাধারণ সনাক্তকরণের জন্য তৈরি করা হয়েছে যা টুইটার অ্যানোমালি সনাক্তকরণের অনুরূপ। যেহেতু টুইটার অসাধারণ সনাক্তকরণ কোডটি আর ভাষায়। আপনার সমস্যাটি প্রাসঙ্গিক বিসংবাদযুক্ত। অটো.রিমা মডেলটিও
সরভানান সামিনাথ

উত্তর:


1

আমি মনে করি পরিসংখ্যান প্রক্রিয়া নিয়ন্ত্রণের অনুরূপ একটি কন্ট্রোল চার্ট ইত্যাদির সাথে এখানে কার্যকর হতে পারে।


আমি এটি পড়ব। এই পদ্ধতিটি কি অল্প পরিমাণে ডেটা সহ টাইম সিরিজের জন্য ভাল (যেমন 24 মাস)?
এরিক মিলার

এটি বেশিরভাগ পড়া শেষ। এই পদ্ধতি অনুসারে, সময় সিরিজের জন্য আমার তৃতীয় স্ট্যান্ডার্ড বিচ্যুতি গণনা করা উচিত এবং এই সীমাতে একটি লাইন গ্রাফ করা উচিত। যদি কোনও মান কখনও এই সীমা ছাড়িয়ে যায়, তবে এটি ফ্ল্যাগ করুন। এটি আমি বিবেচনা করেছিলাম এমন একটি পদ্ধতি।
এরিক মিলার

1

পান্ডাস স্টাড ডিভিয়েশন ফাংশন ব্যবহার করে একটি স্ট্যান্ডার্ড বিচ্যুতি থেকে শুরু করে একটি বয়েশিয়ান পদ্ধতি এবং অনেকগুলি মেশিন লার্নিং পদ্ধতির মধ্যে যেমন: ক্লাস্টারিং, এসভিএম, গাউসিয়ান প্রসেস, নিউরাল নেটওয়ার্ক oma

এই টিউটোরিয়ালটি একবার দেখুন: https : //www.datas ज्ञान.com/blog/ python- anomaly- detection

বায়েশিয়ান দৃষ্টিকোণ থেকে আমি ফেসবুক নবীকে পুনরায় স্মরণ করি। এটি টাইম সিরিজের বিশেষজ্ঞ না হয়ে খুব উন্নত ফলাফল দেয় gives এতে মাস, দিন ইত্যাদির উপর কাজ করার বিকল্প রয়েছে এবং "অনিশ্চয়তা বিরতি" অসঙ্গতিতে সহায়তা করে।

অবশেষে, আমি এই উবার ব্লগটিকে অস্বাস্থ্যকর সনাক্তকরণের জন্য নিউরাল নেট (এলএসটিএম) ব্যবহার সম্পর্কে পুনঃসংশোধন করি, এটিতে খুব ভাল অন্তর্দৃষ্টি রয়েছে: https://eng.uber.com/neural-networks/


0

যদি আপনি ধরে নিতে ইচ্ছুক হন যে আপনার ডেটাসেটটি সাধারণত বিতরণ করা হয় তবে আপনি এই বিতরণটির পরিমাণটি অনুমান করতে পারেন এবং দেখতে পারেন যে এটি 95%, 80% ইত্যাদির বাইরে পড়ে কিনা। আমি পাইথন লাইব্রেরিগুলির সাথে খুব বেশি পরিচিত নই তবে আমি নিশ্চিত যে এর জন্য ইতিমধ্যে নির্মিত ফাংশন রয়েছে।


বেশিরভাগ ক্লায়েন্টের জন্য wardর্ধ্বমুখী একটি প্রবণতা রয়েছে। আমি নিশ্চিত না যে আপনি ডেটা এলোমেলো কল করতে পারেন।
এরিক মিলার

2
তারপর এই ক্ষেত্রে না। আমি বিশ্বাস করি আমার এবং আপনার নীচের পদ্ধতিটি এই পরিস্থিতিতে ভালভাবে কাজ করবে। আমি এর আগেও এর মতো কিছু করেছি: একটি ঘূর্ণায়মান এক্স পিরিয়ড চলন্ত গড় নিন, চলমান গড় থেকে বর্তমান মেট্রিক মানকে বিয়োগ করুন। এই অবশিষ্টাংশগুলির স্ট্যান্ডার্ড বিচ্যুতি সীমাগুলি (বা যদি আপনি এই দৃশ্যে জানতে পেরে থাকেন তবে একটি বিষয়গত ইনপুট ব্যবহার করুন) এবং এই সীমার উপরে বা নীচের যে কোনও কিছুকে বিযুক্তি হিসাবে বিবেচনা করা যেতে পারে। কোনও ক্লায়েন্ট হঠাৎ করে স্কোর বৃদ্ধি দেখে এই পদ্ধতিটি ভালভাবে কাজ করবে।
কেভিন পেই
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.