অ্যানোমালি সনাক্তকরণ: কোন অ্যালগরিদম ব্যবহার করবেন?

প্রসঙ্গ: আমি এমন একটি সিস্টেম বিকাশ করছি যা টাইপস হতে পারে এমন অনর্থক ডেটা ফিল্টার করার জন্য ক্লিনিকাল ডেটা বিশ্লেষণ করে।

আমি এ পর্যন্ত কি করেছি:

প্রশংসনীয়তা প্রমাণের জন্য, আমার এ পর্যন্ত প্রচেষ্টাটি ছিল ডেটা স্বাভাবিক করার এবং তারপরে সেট ডি (= প্রশিক্ষণের সেট) এর ज्ञিত ডেটা পয়েন্টগুলির দূরত্বের ভিত্তিতে পয়েন্ট পি এর জন্য একটি প্লাজিলিটি মান গণনা করা:

সম্ভরপরতা (পি) = \underset{কুই \in ডি}{Σ} গাউস (দূরত্ব (পি, কুই))

$\text{plausibility}(p)=\sum_{q\in D}\text{Gauss}(\text{distance}(p,q))$

সেই পরিমাণের সাথে, আমি তারপরে একটি প্রান্তিক নির্বাচন করতে পারি যা কলুষিত ডেটা থেকে কল্পনাযোগ্য ডেটা পৃথক করে। আমি পাইথন / নপি ব্যবহার করছি।

আমার সমস্যাগুলি:

এই অ্যালগরিদম স্বাধীন মাত্রা সনাক্ত করতে পারে না। আদর্শভাবে, আমি রেকর্ড সম্পর্কে আমার জানা সমস্ত কিছু অ্যালগরিদমের মধ্যে রাখতে পারি এবং এটি নিজেই এটি জানতে দিতে পারি যে এক্স এক্স রেকর্ডের প্রশংসাপত্রকে প্রভাবিত করে না।
অ্যালগরিদম সত্যই বুলেট বা পছন্দসই ইনপুটগুলির মতো বিচ্ছিন্ন মানগুলির জন্য কাজ করে না। এগুলি অবিচ্ছিন্ন মানগুলিতে ম্যাপ করা যেতে পারে, তবে এটি পাল্টা-স্বজ্ঞাত যে 1 টি নির্বাচন করতে 3 নির্বাচন করার চেয়ে নির্বাচন 2 এর কাছাকাছি নির্বাচন করুন।

প্রশ্ন:

এই কাজের জন্য আমার কী ধরণের অ্যালগরিদমগুলি সন্ধান করা উচিত? নিকটতম প্রতিবেশী ভিত্তিক, ক্লাস্টারিং ভিত্তিক এবং পরিসংখ্যানিক পদ্ধতির সহ অনেকগুলি বিকল্প রয়েছে বলে মনে হচ্ছে। এছাড়াও, আমার কাছে জটিলতাগুলি সনাক্ত করার সাথে সম্পর্কিত কাগজপত্রগুলি খুঁজে পেতে সমস্যা হয়।

কোন পরামর্শ অত্যন্ত প্রশংসা করা হয়।

[সম্পাদনা] উদাহরণ:

ধরুন ডেটাটিতে একজন ব্যক্তির উচ্চতা, একজন ব্যক্তির ওজন এবং টাইমস্ট্যাম্প রয়েছে - সুতরাং এটি 3D- ডেটা। ওজন এবং উচ্চতা পারস্পরিক সম্পর্কযুক্ত তবে টাইমস্ট্যাম্প সম্পূর্ণ স্বাধীন। আমি যদি কেবল ইউক্যালিডিয়ান দূরত্ব বিবেচনা করি, তবে আমার বেশিরভাগ ক্রস বৈধতা ডেটা ফিট করার জন্য আমাকে একটি ছোট থ্রোসোল্ড বেছে নিতে হবে। আদর্শভাবে, অ্যালগরিদম কেবল টাইমস্ট্যাম্পের মাত্রা উপেক্ষা করবে, কারণ কোনও রেকর্ড কলুষিতযোগ্য কিনা তা নির্ধারণ করা অপ্রাসঙ্গিক, কারণ টাইমস্ট্যাম্পটি কোনওভাবেই অন্যান্য মাত্রাগুলির সাথে সম্পর্কিত নয়। যেকোন টাইমস্ট্যাম্প প্রশংসনীয়।

অন্যদিকে, টাইমস্ট্যাম্প যে বিষয়ে গুরুত্বপূর্ণ সে ক্ষেত্রে কেউ উদাহরণ তৈরি করতে পারে। উদাহরণস্বরূপ এটি হতে পারে যে মান X এর বৈশিষ্ট্য X এর জন্য নির্ধারিত হয় যখন একটি নির্দিষ্ট তারিখের আগে পরিমাপ করা হয় তবে নির্দিষ্ট তারিখের পরে নয়।

— গেয়র্গ
সূত্র

দয়া করে আমার প্রতিক্রিয়া দেখুন stats.stackexchange.com/questions/97946/changepPoint-in-r যেমন এই উদ্বেগজনক (কিছু লোকের ) প্রশ্নের সাথে আচরণ করে।

— আইরিশস্ট্যাট

Stats.stackexchange.com/questions/213 আপনি যে ধরণের জিনিস খুঁজছেন তা কি হবে?

— হোবার

আমি সন্দেহ করি আপনি বুলিয়ানদের জন্য এই কাজটি করতে পারেন।

— আকসকল

@ তবে আমি নিশ্চিত নই, এটি অপ্রাসঙ্গিক মাত্রাগুলি কীভাবে উপেক্ষা করা যায় তা কভার করে বলে মনে হচ্ছে না।

— গেয়র্গ

যাইহোক, আমি বর্ণিত পদ্ধতির জন্য একটি আনুষ্ঠানিককরণ সন্ধান করতেও আমি সংগ্রাম করছি। আমি যদি আনুষ্ঠানিক শব্দটি জানতাম তবে এটি আমার গবেষণায় সহায়তা করবে। হতে পারে এই অ্যালগরিদমের কোনও ভিন্নতা রয়েছে যা কমপক্ষে স্বতন্ত্র / অপ্রাসঙ্গিক মাত্রা ইস্যুটিকে সম্বোধন করে।

— গেয়র্গ

উত্তর:

অ্যানোমালি ডিটেকশনের একটি সাধারণ সূত্রটি হ'ল অ অসঙ্গতিযুক্ত ডেটার প্রতিটি বৈশিষ্ট্যগুলির জন্য গড় এবং তারতম্য খুঁজে পাওয়া এবং যদি সেই সমস্ত বৈশিষ্ট্যগুলির ভেক্টর তবে বৈশিষ্ট্যগুলির সংমিশ্রণের সম্ভাব্যতা সংজ্ঞায়িত করুন $m$ $x$ $x_i$ $p(x)$

পি (এক্স) = Π_{আমি = 1}^{মি} পি ({এক্স}_{আমি}; μ_{আমি}, σ_{আমি}^{2})

$p(x) = \prod_{i=1}^m{p(x_i;\mu_i,\sigma_i^2})$

যেখানে প্রতিটি গসিয়ান বিতরণ করা হয়: $x_i$ $x_i \sim \mathcal{N(\mu_i,\sigma_i^2)}$

যখনই হয় তখনই অসাধারণতা ঘটে $p(x) < \epsilon$

প্রতিটি এর বিতরণটি আসলে স্বাভাবিক হওয়ার দরকার নেই, তবে এটি কমপক্ষে স্বাভাবিকের মতো হলে ভাল better তবে আপনি যে বৈশিষ্ট্যগুলি ব্যবহার করছেন তা নির্বিচারে; তারা যদি মনে করেন যে একটি বৈশিষ্ট্য সুতরাং উদাহরণস্বরূপ কাঁচা ডেটা থেকে সরাসরি গ্রহণ করা যেতে পারে বা নির্ণিত, ভাল ব্যবহার স্থাপিত হয় তারপর বৈশিষ্ট্য সেট বদলে । $x_i$ $x_i$ $log$ $log(x_i)$ $x_i$

এটি খুবই যদি আপনার আগে থেকেই কি করছেন যদি আপনি নিতে অনুরূপ উপস্থিত হতে পারে । $q = \mu$

নির্ধারণ $\epsilon$

$\epsilon$ $F1$

এফ 1 = \frac{2 * পি R ই গ আমি গুলি আমি ণ এন * আর ই গ একটি ঠ ঠ}{পি R ই গ আমি গুলি আমি ণ এন + + আর ই গ একটি ঠ ঠ}

$F1 = {2*Precision*Recall\over Precision + Recall}$

তবে এফ 1 গণনা করার জন্য আপনাকে জেনে রাখা দরকার যেটি অসাধারণ এবং কোনটি নয়; এটি সত্য ধনাত্মক হয় যখন সিস্টেমটি একটি অমানবিকতার পূর্বাভাস দেয় এবং এটি আসলে একটি অসঙ্গতি হয়, মিথ্যা ধনাত্মকগুলি পূর্বাভাসিত ব্যতিক্রমগুলি ঘটে যা বাস্তবে হয় না এবং তেমন হয়। সুতরাং আপনার যদি না থাকে তবে আপনার অনুমানের দিকে ফিরে যেতে হতে পারে।

পারস্পরিক সম্পর্কযুক্ত বৈশিষ্ট্যগুলির সমস্যা

$m$ $\Sigma$

পি (এক্স) = \frac{1}{(2 π)^{\frac{মি}{2}} (Det Σ)^{1 / 2}} ই^{- \frac{1}{2} (এক্স - μ)^{টি} Σ^{- 1} (এক্স - μ)}

$p(x)= {1\over (2\pi)^{m\over 2}(\det\Sigma)^{1/2}}e^{-{1\over2}(x-\mu)^T\Sigma^{-1}(x - \mu)}$

একই জিনিস সন্ধানের জন্য যায় এবং এই পদ্ধতির একটি অসুবিধাও রয়েছে যা আপনাকে অবশ্যই বিপরীত গণনা করতে হবে । সুতরাং বৈশিষ্ট্যগুলির হিসাবে কমপক্ষে অনেকগুলি নমুনা থাকতে হবে এবং যদি বৈশিষ্ট্যের সংখ্যাটি বড় হয় তবে প্রক্রিয়াটি গণনামূলকভাবে নিবিড় হবে এবং আপনাকে অবশ্যই রৈখিকভাবে নির্ভরশীল বৈশিষ্ট্যগুলি রক্ষা করতে হবে। এই সাবধানবাণীগুলি মনে রাখুন, তবে এটি আপনার সমস্যা না হওয়ার জন্য উপস্থিত হয়। $\epsilon$ $\Sigma$

— waTeim
সূত্র

মাল্টিভিয়ারেট গাউসী বিতরণ সহ আমি ইতিমধ্যে এই পদ্ধতির চেষ্টা করেছি। প্রকৃতপক্ষে, সম্পর্কহীন বৈশিষ্ট্যগুলি এই পদ্ধতির সাথে খুব বেশি সমস্যা নয়। যা আমি পেয়েছি তা হ'ল এই পদ্ধতিটি জটিল মডেলের জন্য উপযুক্ত নয়। উদাহরণস্বরূপ, যদি আমার কাছে F1, F2 বৈশিষ্ট্যযুক্ত 2D ডেটাসেট থাকে তবে এটি প্রায়শই F2 = F1 ^ 3 এর ক্ষেত্রে ঘটে থাকে তবে মাল্টিভারিয়েট গাউসীয় বিতরণ কেবলমাত্র ডেটা ঘিরে একটি উপবৃত্ত আঁকবে এবং খুব মোটামুটিভাবে ডেটা মডেল করবে। সে কারণেই আমি প্রশ্নে বর্ণিত পদ্ধতির জন্য গিয়েছিলাম (যেখানে এক কিউ নয় অনেকগুলি ক্যু রয়েছে)।

— গেয়র্গ

সুতরাং, আরও জটিল ডেটা মডেলগুলি ক্যাপচার করার জন্য মাল্টিভিয়ারেট গাউসিয়ান পদ্ধতির গ্রহণ এবং এটি প্রয়োগ করার কোনও উপায় আছে কি? উদাহরণস্বরূপ, মিশ্রণ মডেলগুলি এই ক্ষেত্রে আমাকে সহায়তা করতে পারে? আমি আমার গবেষণায় তাদের সম্পর্কে কিছুটা পড়েছি, তবে কীভাবে এগুলি প্রয়োগ করতে হবে তা এখনও পুরোপুরি বুঝতে পারিনি।

— গেয়র্গ

(F 1, F 2)

$(F1,F2)$

(F 1, F 2^{1 / 3})

$(F1,F2^{1/3})$

হ্যাঁ, আন্ডারফিটিং হ'ল আমার অর্থ। এবং হ্যাঁ, এটি কার্যকর হবে, তবে আমি আলগোরিদমটি স্বয়ংক্রিয়ভাবে সনাক্ত করতে চাই। আমি ম্যানুয়ালি ফিচারগুলি সংশোধন করতে পারি না, এটি কোনও ক্ষেত্রেই কাজ করা উচিত।

— গেয়র্গ

এখানে একটি উদাহরণ রয়েছে: দুটি প্লট উচ্চতা (এক্স অক্ষ) এবং ওজন (y অক্ষ) এর জন্য ডেটা প্রদর্শন করে (জার্মান ক্যাপশনগুলির জন্য দুঃখিত;))। প্রথম প্লটটি মাল্টিভিয়ারেট গাউসিয়ান পদ্ধতির ফলাফল দেখায়, দ্বিতীয়টিতে প্রশ্নটিতে বর্ণিত পদ্ধতির দ্বিতীয়টি। উভয় ক্ষেত্রেই প্রান্তিক অংশটি এমনভাবে বেছে নেওয়া হয়েছিল যে 97৯% সিভি ডেটা কলুষিত হিসাবে বিবেচিত হয়। দ্বিতীয় পদ্ধতির তথ্য জটিলতার আরও ক্যাপচার করতে সক্ষম। 1: dl.dropboxusercontent.com/u/26034024/anomaly/gauss.png 2: dl.dropboxusercontent.com/u/26034024/anomaly/distance.png

— গেয়র্গ

এই সমস্যাগুলি সমাধান করার জন্য আমার যে প্রকল্পটি প্রয়োজন হয়েছিল আমি প্রায় শেষ করেছি এবং কারও ক্ষেত্রে একই সমস্যা আছে সে ক্ষেত্রে আমি আমার সমাধানটি ভাগ করতে চাই।

প্রথমত, আমি যে পদ্ধতির বর্ণনা করেছি তা কার্নেল ঘনত্বের অনুমানের সাথে খুব মিল । সুতরাং, গবেষণার জন্য এটি জানতে ভাল ছিল ...

স্বতন্ত্র বৈশিষ্ট্য

$||x_1 - x_2||$ $distance(x_1, x_2)$

সতর্কতা অবলম্বন করুন: পারস্পরিক সম্পর্ক সহগ কেবল রৈখিক সম্পর্কগুলি পরিমাপ করতে পারে। বিশদ জন্য লিঙ্কযুক্ত উইকি পৃষ্ঠা দেখুন। যদি ডেটাতে পারস্পরিক সম্পর্কটি লৈখিকভাবে প্রায় অনুমান করা যায় তবে এটি সূক্ষ্মভাবে কাজ করে। যদি তা না হয় তবে এই কাগজের শেষ পৃষ্ঠায় আপনার নজর রাখা উচিত এবং দেখুন যে আপনি কোনও স্কেলিং ফ্যাক্টর নিয়ে আসে তাদের সম্পর্কের পরিমাপটি ব্যবহার করতে পারেন কিনা।

পৃথক মান

আমি বর্ণিত অ্যালগরিদমটি কেবল ধারাবাহিক মানগুলির জন্য ব্যবহার করি। প্রশিক্ষণ সেটটি ফিল্টার করার জন্য পৃথক মান ব্যবহৃত হত। সুতরাং যদি আমার কোনও ব্যক্তির উচ্চতা এবং ওজন থাকে এবং আমি জানতে পারি যে সে মহিলা, তবে আমি কেবলমাত্র অন্যান্য স্ত্রীলোকদের নমুনাগুলি অনাদায়ী পরীক্ষা করতে দেখব।

— গেয়র্গ
সূত্র

অ্যানোমালি সনাক্তকরণ: কোন অ্যালগরিদম ব্যবহার করবেন?

নির্ধারণ εε\epsilon

পারস্পরিক সম্পর্কযুক্ত বৈশিষ্ট্যগুলির সমস্যা

নির্ধারণ $\epsilon$