স্কেলেবল আউটলেটর / অ্যানোমালি সনাক্তকরণ


10

আমি হ্যাডোপ, হাইভ, ইলাস্টিক অনুসন্ধান (অন্যদের মধ্যে) ব্যবহার করে একটি বড় ডেটা অবকাঠামো সেটআপ করার চেষ্টা করছি এবং আমি নির্দিষ্ট ডেটাসেটের উপরে কিছু অ্যালগরিদম চালাতে চাই। আমি চাই যে অ্যালগোরিদমগুলি সেগুলি নিজেরাই মাপযোগ্য। এ্যাপাচি মাহুত লাইব্রেরী একটি ভালো বিকল্প আছে বলে মনে হয়, এবং এটি অতিরিক্ত বৈশিষ্ট্যগুলিও উপস্থিত রয়েছে রিগ্রেশন এবং ক্লাস্টারিং কাজের জন্য আলগোরিদিম

আমি যে সন্ধানের জন্য সংগ্রাম করছি তা হ'ল বিযুক্তি বা বহিরাগত সনাক্তকরণের সমাধান।

যেহেতু মাহাউট হাইড মার্কোভ মডেল এবং বিভিন্ন ধরণের ক্লাস্টারিং প্রযুক্তি (কে-মিয়ানস সহ) বৈশিষ্ট্যযুক্ত আমি ভাবছিলাম যে এর মধ্যে যে কোনও একটি ব্যবহার করে সময়-সিরিজে বিদেশি সনাক্ত করতে কোনও মডেল তৈরি করা সম্ভব হবে কিনা? এই বিষয়ে কেউ যদি আমাকে পরামর্শ দিতে পারে তবে আমি কৃতজ্ঞ হব

  1. যদি এটি সম্ভব হয়, এবং যদি এটি হয়
  2. কিভাবে এটি করতে হয়, প্লাস
  3. জড়িত প্রচেষ্টা একটি অনুমান এবং
  4. এই পদ্ধতির নির্ভুলতা / সমস্যাগুলি।

1
এটির উত্তর দেওয়া খুব অস্পষ্ট। সময় সিরিজগুলি কেবল তাদের উপর কে-মানে নিক্ষেপ করতে এবং দরকারী কিছু খুঁজে পেতে খুব আলাদা। এটি আপনার ডেটার উপর খুব বেশি নির্ভর করে।
কিট আছে - অ্যানি-মৌসে

1
আউটিলার সনাক্তকরণের জন্য, ELKI এর অ্যালগরিদমগুলি একবার দেখুন। এটিকে বহিরাগত সনাক্তকরণের সবচেয়ে সম্পূর্ণ সংগ্রহ বলে মনে হচ্ছে।
কিউইট আছে - অ্যানি-মাউস

নতুন ইলাস্টিকের অনুসন্ধান সংস্করণে টাইম সিরিজটির অন্তর্নিহিত সনাক্তকরণ অন্তর্নির্মিত রয়েছে (আমার মনে হয় আপনাকে এক্স-প্যাকটি কিনতে হবে)। আমি নিশ্চিত নই যে তারা কোন অ্যালগরিদম ব্যবহার করছে তবে এটি কোনও অফ-শেল্ফ সমাধান অনুসন্ধানের পক্ষে উপযুক্ত।
tom

উত্তর:


7

আমি কটাক্ষপাত করা হবে টি-হজম অ্যালগরিদম । এটি বড় ডেটা স্ট্রিমিংয়ের জন্য এবং আরও কয়েকটি লাইব্রেরির একটি অংশকে মহাআউটে একীভূত করা হয়েছে । আপনি এই অ্যালগরিদম সম্পর্কে আরও জানতে পারবেন এবং পরবর্তী সংস্থাগুলিতে সাধারণভাবে বড় ডেটা অ্যানোমালি সনাক্তকরণ:

  1. প্রাকটিক্যাল মেশিন শিখছে অসাধারণ সনাক্তকরণ বই book
  2. ওয়েবিনার: অসাধারণ সনাক্তকরণ যখন আপনি কী সন্ধান করতে হবে তা জানেন না
  3. ইলাস্টিকসার্কে অ্যানোমালি ডিটেকশন
  4. অযথা সনাক্তকরণ ব্যবহার করে বিলিয়ন ডলারের জালিয়াতি মারধর: আকুমুলোর সাথে হর্টন ওয়ার্কস ডেটা প্ল্যাটফর্মে আর্গিল ডেটা ব্যবহার করে একটি সিগন্যাল প্রসেসিং পদ্ধতি

টি-ডাইজেস্ট কীভাবে পি-স্কোয়ার অ্যালগোরিদমের সাথে তুলনা করে?
ডেভিড মার্কস

উত্তরের জন্য ধন্যবাদ: চরম কোয়ান্টাইলগুলি গণনা করার জন্য এটি একটি সাধারণ মডেল এবং আমি মনে করি এটি আমার প্রয়োজনীয়তার সাথে খাপ খায়। তবে আরও জটিল সময়-সিরিজের জন্য যাদের প্রায় স্থির বিতরণ নেই, এই পদ্ধতির ব্যর্থতা হতে পারে এবং আমি যখন মনে করি আমাদের মার্কোভ চেইনের মতো অভিযোজিত কিছু প্রয়োজন হবে।
ডাবলবাইট

0

আপনি H2O আর বা পাইথন অনিয়ম সনাক্তকরণ পদ্ধতি এর সাথে সম্পর্কিত আমার প্রতিক্রিয়া পাঠাতে পারেন stackexchange , যেহেতু যে খুব মাপযোগ্য হয়।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.