অ্যানোমালি সনাক্তকরণ: কোন অ্যালগরিদম ব্যবহার করবেন?


10

প্রসঙ্গ: আমি এমন একটি সিস্টেম বিকাশ করছি যা টাইপস হতে পারে এমন অনর্থক ডেটা ফিল্টার করার জন্য ক্লিনিকাল ডেটা বিশ্লেষণ করে।

আমি এ পর্যন্ত কি করেছি:

প্রশংসনীয়তা প্রমাণের জন্য, আমার এ পর্যন্ত প্রচেষ্টাটি ছিল ডেটা স্বাভাবিক করার এবং তারপরে সেট ডি (= প্রশিক্ষণের সেট) এর ज्ञিত ডেটা পয়েন্টগুলির দূরত্বের ভিত্তিতে পয়েন্ট পি এর জন্য একটি প্লাজিলিটি মান গণনা করা:

সম্ভরপরতা(পি)=Σকুইডিগাউস(দূরত্ব(পি,কুই))

সেই পরিমাণের সাথে, আমি তারপরে একটি প্রান্তিক নির্বাচন করতে পারি যা কলুষিত ডেটা থেকে কল্পনাযোগ্য ডেটা পৃথক করে। আমি পাইথন / নপি ব্যবহার করছি।

আমার সমস্যাগুলি:

  1. এই অ্যালগরিদম স্বাধীন মাত্রা সনাক্ত করতে পারে না। আদর্শভাবে, আমি রেকর্ড সম্পর্কে আমার জানা সমস্ত কিছু অ্যালগরিদমের মধ্যে রাখতে পারি এবং এটি নিজেই এটি জানতে দিতে পারি যে এক্স এক্স রেকর্ডের প্রশংসাপত্রকে প্রভাবিত করে না।
  2. অ্যালগরিদম সত্যই বুলেট বা পছন্দসই ইনপুটগুলির মতো বিচ্ছিন্ন মানগুলির জন্য কাজ করে না। এগুলি অবিচ্ছিন্ন মানগুলিতে ম্যাপ করা যেতে পারে, তবে এটি পাল্টা-স্বজ্ঞাত যে 1 টি নির্বাচন করতে 3 নির্বাচন করার চেয়ে নির্বাচন 2 এর কাছাকাছি নির্বাচন করুন।

প্রশ্ন:

এই কাজের জন্য আমার কী ধরণের অ্যালগরিদমগুলি সন্ধান করা উচিত? নিকটতম প্রতিবেশী ভিত্তিক, ক্লাস্টারিং ভিত্তিক এবং পরিসংখ্যানিক পদ্ধতির সহ অনেকগুলি বিকল্প রয়েছে বলে মনে হচ্ছে। এছাড়াও, আমার কাছে জটিলতাগুলি সনাক্ত করার সাথে সম্পর্কিত কাগজপত্রগুলি খুঁজে পেতে সমস্যা হয়।

কোন পরামর্শ অত্যন্ত প্রশংসা করা হয়।

[সম্পাদনা] উদাহরণ:

ধরুন ডেটাটিতে একজন ব্যক্তির উচ্চতা, একজন ব্যক্তির ওজন এবং টাইমস্ট্যাম্প রয়েছে - সুতরাং এটি 3D- ডেটা। ওজন এবং উচ্চতা পারস্পরিক সম্পর্কযুক্ত তবে টাইমস্ট্যাম্প সম্পূর্ণ স্বাধীন। আমি যদি কেবল ইউক্যালিডিয়ান দূরত্ব বিবেচনা করি, তবে আমার বেশিরভাগ ক্রস বৈধতা ডেটা ফিট করার জন্য আমাকে একটি ছোট থ্রোসোল্ড বেছে নিতে হবে। আদর্শভাবে, অ্যালগরিদম কেবল টাইমস্ট্যাম্পের মাত্রা উপেক্ষা করবে, কারণ কোনও রেকর্ড কলুষিতযোগ্য কিনা তা নির্ধারণ করা অপ্রাসঙ্গিক, কারণ টাইমস্ট্যাম্পটি কোনওভাবেই অন্যান্য মাত্রাগুলির সাথে সম্পর্কিত নয়। যেকোন টাইমস্ট্যাম্প প্রশংসনীয়।

অন্যদিকে, টাইমস্ট্যাম্প যে বিষয়ে গুরুত্বপূর্ণ সে ক্ষেত্রে কেউ উদাহরণ তৈরি করতে পারে। উদাহরণস্বরূপ এটি হতে পারে যে মান X এর বৈশিষ্ট্য X এর জন্য নির্ধারিত হয় যখন একটি নির্দিষ্ট তারিখের আগে পরিমাপ করা হয় তবে নির্দিষ্ট তারিখের পরে নয়।


দয়া করে আমার প্রতিক্রিয়া দেখুন stats.stackexchange.com/questions/97946/changepPoint-in-r যেমন এই উদ্বেগজনক (কিছু লোকের ) প্রশ্নের সাথে আচরণ করে।
আইরিশস্ট্যাট

Stats.stackexchange.com/questions/213 আপনি যে ধরণের জিনিস খুঁজছেন তা কি হবে?
হোবার

আমি সন্দেহ করি আপনি বুলিয়ানদের জন্য এই কাজটি করতে পারেন।
আকসকল

@ তবে আমি নিশ্চিত নই, এটি অপ্রাসঙ্গিক মাত্রাগুলি কীভাবে উপেক্ষা করা যায় তা কভার করে বলে মনে হচ্ছে না।
গেয়র্গ

1
যাইহোক, আমি বর্ণিত পদ্ধতির জন্য একটি আনুষ্ঠানিককরণ সন্ধান করতেও আমি সংগ্রাম করছি। আমি যদি আনুষ্ঠানিক শব্দটি জানতাম তবে এটি আমার গবেষণায় সহায়তা করবে। হতে পারে এই অ্যালগরিদমের কোনও ভিন্নতা রয়েছে যা কমপক্ষে স্বতন্ত্র / অপ্রাসঙ্গিক মাত্রা ইস্যুটিকে সম্বোধন করে।
গেয়র্গ

উত্তর:


7

অ্যানোমালি ডিটেকশনের একটি সাধারণ সূত্রটি হ'ল অ অসঙ্গতিযুক্ত ডেটার প্রতিটি বৈশিষ্ট্যগুলির জন্য গড় এবং তারতম্য খুঁজে পাওয়া এবং যদি সেই সমস্ত বৈশিষ্ট্যগুলির ভেক্টর তবে বৈশিষ্ট্যগুলির সংমিশ্রণের সম্ভাব্যতা সংজ্ঞায়িত করুনx এক্স আই পি ( এক্স )মিএক্সএক্সআমিপি(এক্স)

পি(এক্স)=Πআমি=1মিপি(এক্সআমি;μআমি,σআমি2)

যেখানে প্রতিটি গসিয়ান বিতরণ করা হয়:x iN ( μ i , σ 2 i )এক্সআমিএক্সআমি~এন(μআমি,σআমি2)

যখনই হয় তখনই অসাধারণতা ঘটেপি(এক্স)<ε

প্রতিটি এর বিতরণটি আসলে স্বাভাবিক হওয়ার দরকার নেই, তবে এটি কমপক্ষে স্বাভাবিকের মতো হলে ভাল better তবে আপনি যে বৈশিষ্ট্যগুলি ব্যবহার করছেন তা নির্বিচারে; তারা যদি মনে করেন যে একটি বৈশিষ্ট্য সুতরাং উদাহরণস্বরূপ কাঁচা ডেটা থেকে সরাসরি গ্রহণ করা যেতে পারে বা নির্ণিত, ভাল ব্যবহার স্থাপিত হয় তারপর বৈশিষ্ট্য সেট বদলে ।x i l o g l o g ( x i ) x iএক্সআমিএক্সআমি(এক্সআমি)এক্সআমি

এটি খুবই যদি আপনার আগে থেকেই কি করছেন যদি আপনি নিতে অনুরূপ উপস্থিত হতে পারে কুই=μ

নির্ধারণ ε

εএফ1

এফ1=2*পিRআমিগুলিআমিএন*আরএকটিপিRআমিগুলিআমিএন+ +আরএকটি

তবে এফ 1 গণনা করার জন্য আপনাকে জেনে রাখা দরকার যেটি অসাধারণ এবং কোনটি নয়; এটি সত্য ধনাত্মক হয় যখন সিস্টেমটি একটি অমানবিকতার পূর্বাভাস দেয় এবং এটি আসলে একটি অসঙ্গতি হয়, মিথ্যা ধনাত্মকগুলি পূর্বাভাসিত ব্যতিক্রমগুলি ঘটে যা বাস্তবে হয় না এবং তেমন হয়। সুতরাং আপনার যদি না থাকে তবে আপনার অনুমানের দিকে ফিরে যেতে হতে পারে।

পারস্পরিক সম্পর্কযুক্ত বৈশিষ্ট্যগুলির সমস্যা

মিΣ

পি(এক্স)=1(2π)মি2(DetΣ)1/2-12(এক্স-μ)টিΣ-1(এক্স-μ)

একই জিনিস সন্ধানের জন্য যায় এবং এই পদ্ধতির একটি অসুবিধাও রয়েছে যা আপনাকে অবশ্যই বিপরীত গণনা করতে হবে । সুতরাং বৈশিষ্ট্যগুলির হিসাবে কমপক্ষে অনেকগুলি নমুনা থাকতে হবে এবং যদি বৈশিষ্ট্যের সংখ্যাটি বড় হয় তবে প্রক্রিয়াটি গণনামূলকভাবে নিবিড় হবে এবং আপনাকে অবশ্যই রৈখিকভাবে নির্ভরশীল বৈশিষ্ট্যগুলি রক্ষা করতে হবে। এই সাবধানবাণীগুলি মনে রাখুন, তবে এটি আপনার সমস্যা না হওয়ার জন্য উপস্থিত হয়।ΣεΣ


মাল্টিভিয়ারেট গাউসী বিতরণ সহ আমি ইতিমধ্যে এই পদ্ধতির চেষ্টা করেছি। প্রকৃতপক্ষে, সম্পর্কহীন বৈশিষ্ট্যগুলি এই পদ্ধতির সাথে খুব বেশি সমস্যা নয়। যা আমি পেয়েছি তা হ'ল এই পদ্ধতিটি জটিল মডেলের জন্য উপযুক্ত নয়। উদাহরণস্বরূপ, যদি আমার কাছে F1, F2 বৈশিষ্ট্যযুক্ত 2D ডেটাসেট থাকে তবে এটি প্রায়শই F2 = F1 ^ 3 এর ক্ষেত্রে ঘটে থাকে তবে মাল্টিভারিয়েট গাউসীয় বিতরণ কেবলমাত্র ডেটা ঘিরে একটি উপবৃত্ত আঁকবে এবং খুব মোটামুটিভাবে ডেটা মডেল করবে। সে কারণেই আমি প্রশ্নে বর্ণিত পদ্ধতির জন্য গিয়েছিলাম (যেখানে এক কিউ নয় অনেকগুলি ক্যু রয়েছে)।
গেয়র্গ

সুতরাং, আরও জটিল ডেটা মডেলগুলি ক্যাপচার করার জন্য মাল্টিভিয়ারেট গাউসিয়ান পদ্ধতির গ্রহণ এবং এটি প্রয়োগ করার কোনও উপায় আছে কি? উদাহরণস্বরূপ, মিশ্রণ মডেলগুলি এই ক্ষেত্রে আমাকে সহায়তা করতে পারে? আমি আমার গবেষণায় তাদের সম্পর্কে কিছুটা পড়েছি, তবে কীভাবে এগুলি প্রয়োগ করতে হবে তা এখনও পুরোপুরি বুঝতে পারিনি।
গেয়র্গ

(এফ1,এফ2)(এফ1,এফ21/3)

হ্যাঁ, আন্ডারফিটিং হ'ল আমার অর্থ। এবং হ্যাঁ, এটি কার্যকর হবে, তবে আমি আলগোরিদমটি স্বয়ংক্রিয়ভাবে সনাক্ত করতে চাই। আমি ম্যানুয়ালি ফিচারগুলি সংশোধন করতে পারি না, এটি কোনও ক্ষেত্রেই কাজ করা উচিত।
গেয়র্গ

এখানে একটি উদাহরণ রয়েছে: দুটি প্লট উচ্চতা (এক্স অক্ষ) এবং ওজন (y অক্ষ) এর জন্য ডেটা প্রদর্শন করে (জার্মান ক্যাপশনগুলির জন্য দুঃখিত;))। প্রথম প্লটটি মাল্টিভিয়ারেট গাউসিয়ান পদ্ধতির ফলাফল দেখায়, দ্বিতীয়টিতে প্রশ্নটিতে বর্ণিত পদ্ধতির দ্বিতীয়টি। উভয় ক্ষেত্রেই প্রান্তিক অংশটি এমনভাবে বেছে নেওয়া হয়েছিল যে 97৯% সিভি ডেটা কলুষিত হিসাবে বিবেচিত হয়। দ্বিতীয় পদ্ধতির তথ্য জটিলতার আরও ক্যাপচার করতে সক্ষম। 1: dl.dropboxusercontent.com/u/26034024/anomaly/gauss.png 2: dl.dropboxusercontent.com/u/26034024/anomaly/distance.png
গেয়র্গ

3

এই সমস্যাগুলি সমাধান করার জন্য আমার যে প্রকল্পটি প্রয়োজন হয়েছিল আমি প্রায় শেষ করেছি এবং কারও ক্ষেত্রে একই সমস্যা আছে সে ক্ষেত্রে আমি আমার সমাধানটি ভাগ করতে চাই।

প্রথমত, আমি যে পদ্ধতির বর্ণনা করেছি তা কার্নেল ঘনত্বের অনুমানের সাথে খুব মিল । সুতরাং, গবেষণার জন্য এটি জানতে ভাল ছিল ...

স্বতন্ত্র বৈশিষ্ট্য

||এক্স1-এক্স2||আমিগুলিটিএকটিএন(এক্স1,এক্স2)

সতর্কতা অবলম্বন করুন: পারস্পরিক সম্পর্ক সহগ কেবল রৈখিক সম্পর্কগুলি পরিমাপ করতে পারে। বিশদ জন্য লিঙ্কযুক্ত উইকি পৃষ্ঠা দেখুন। যদি ডেটাতে পারস্পরিক সম্পর্কটি লৈখিকভাবে প্রায় অনুমান করা যায় তবে এটি সূক্ষ্মভাবে কাজ করে। যদি তা না হয় তবে এই কাগজের শেষ পৃষ্ঠায় আপনার নজর রাখা উচিত এবং দেখুন যে আপনি কোনও স্কেলিং ফ্যাক্টর নিয়ে আসে তাদের সম্পর্কের পরিমাপটি ব্যবহার করতে পারেন কিনা।

পৃথক মান

আমি বর্ণিত অ্যালগরিদমটি কেবল ধারাবাহিক মানগুলির জন্য ব্যবহার করি। প্রশিক্ষণ সেটটি ফিল্টার করার জন্য পৃথক মান ব্যবহৃত হত। সুতরাং যদি আমার কোনও ব্যক্তির উচ্চতা এবং ওজন থাকে এবং আমি জানতে পারি যে সে মহিলা, তবে আমি কেবলমাত্র অন্যান্য স্ত্রীলোকদের নমুনাগুলি অনাদায়ী পরীক্ষা করতে দেখব।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.