নিউরাল নেটওয়ার্কের সাথে ব্যতিক্রমগুলি সনাক্ত করা


12

আমার কাছে একটি বৃহত বহুমাত্রিক ডেটাসেট রয়েছে যা প্রতিদিন উত্পন্ন হয়।

আগের দিনের তুলনায় কোনও ধরণের 'বিড়ম্বনা' সনাক্ত করার জন্য কী ভাল পন্থা হতে পারে? এটি কি একটি উপযুক্ত সমস্যা যা নিউরাল নেটওয়ার্কগুলির সাথে সমাধান করা যেতে পারে?

কোন পরামর্শ প্রশংসা করা হয়।

অতিরিক্ত তথ্য: কোনও উদাহরণ নেই, সুতরাং পদ্ধতিটি নিজেই ব্যতিক্রমগুলি সনাক্ত করতে পারে

উত্তর:


12

প্রশ্নের সূচনা থেকে, আমি ধরে নিই যে ব্যতিক্রমগুলির কোনও (উদাহরণস্বরূপ) লেবেল নেই no এই অনুমানের সাথে, একটি সম্ভাব্য পদ্ধতির অটোইনকোডারগুলি ব্যবহার করা হবে : নিউরাল নেটওয়ার্কগুলি যা আপনার ডেটা ইনপুট হিসাবে গ্রহণ করে এবং সেই একই ডেটা আউটপুট দেওয়ার প্রশিক্ষণপ্রাপ্ত। ধারণাটি হ'ল প্রশিক্ষণটি নেটকে সুপ্ত ভেরিয়েবলের আকারে ইনপুট ডেটা বিতরণের উপস্থাপনা শিখতে দিয়েছে।

ডেনোইজিং অটোইনকোডার নামে এক ধরণের অটোইনকোডার রয়েছে , যা ইনপুট হিসাবে মূল ডেটার দূষিত সংস্করণ এবং আউটপুট হিসাবে নিরবচ্ছিন্ন মূল ডেটা দিয়ে প্রশিক্ষিত । এটি এমন একটি নেটওয়ার্ক সরবরাহ করে যা শব্দগুলি (অর্থাত্ ডেটা দুর্নীতি) ইনপুটগুলি থেকে সরিয়ে ফেলতে পারে ।

আপনি প্রতিদিনের ডেটা দিয়ে কোনও ডিনোইজিং অটোরকোডারকে প্রশিক্ষণ দিতে পারেন। তারপরে এটি নতুন প্রতিদিনের ডেটাতে ব্যবহার করুন; এইভাবে আপনার কাছে মূল দৈনিক ডেটা এবং সেই একই ডেটার একটি নিরবচ্ছিন্ন সংস্করণ রয়েছে। এরপরে আপনি উভয়কে তুলনামূলকভাবে গুরুত্বপূর্ণ পার্থক্য সনাক্ত করতে পারেন ।

এখানে কীটি আপনার চয়নযোগ্য উল্লেখযোগ্য পার্থক্যের সংজ্ঞা । আপনি ইউক্যালিডিয়ান দূরত্ব গণনা করতে পারেন এবং ধরে নিতে পারেন যে এটি যদি কিছু স্বেচ্ছাসেবী চৌম্বককে ছাড়িয়ে যায় তবে আপনার একটি অসঙ্গতি রয়েছে। আর একটি গুরুত্বপূর্ণ বিষয় হ'ল আপনি যে ধরণের দুর্নীতি প্রবর্তন করেছেন; যুক্তিসঙ্গত অস্বাভাবিকতার জন্য তাদের যতটা সম্ভব কাছাকাছি হওয়া উচিত।

আরেকটি বিকল্প হ'ল জেনারেটাল অ্যাডভারসিয়াল নেটওয়ার্কগুলি ব্যবহার করা । প্রশিক্ষণের উপ-উত্পাদক একটি বৈষম্যমূলক নেটওয়ার্ক যা সাধারণ দৈনিক ডেটা অস্বাভাবিক ডেটা থেকে আলাদা করে দেয়।


4

আমি মনে করি যে আপনার ডেটা প্রকৃতির উপর নির্ভর করে (শ্রেণীবদ্ধ / ধারাবাহিক)। আমি প্রথমে সহজ পদ্ধতি দিয়ে শুরু করব। যারা আমার মনে আসে:

  • আপনি প্রতিটি ভেরিয়েবলের বিতরণকে কোয়ান্টাইল বা কোনও পরিসংখ্যান পরীক্ষার মাধ্যমে তা উল্লেখযোগ্যভাবে পৃথক কিনা তা দেখতে তুলনা করতে পারেন
  • আপনি প্রতিটি লেবেল / বিভাগের উপস্থিতি গণনা করতে এবং তাদের তুলনা করতে পারেন
  • আমি কোনও ধরণের দূরত্ব পরিমাপ নিযুক্ত করার চেষ্টা করব। উদাহরণস্বরূপ আপনি মহালানবিস দূরত্ব গণনা করতে পারেন এবং বড় পরিবর্তনগুলি সন্ধান করতে পারেন
  • বা সত্যিই সহজ কিছু - নতুন এবং পুরানো ডেটার মধ্যে কেবল একটি নিখুঁত পার্থক্য, একটি থ্রেশহোল্ড সেট করুন এবং প্রান্তিক ছাড়িয়ে যাওয়া সমস্ত কিছু প্রতিবেদন করা হবে
  • আপনি কিছু বহুমাত্রিক কৌশলও স্থাপন করতে পারেন - যেমন পারস্পরিক সম্পর্ক ম্যাট্রিক্স, প্রধান উপাদান, গুচ্ছ ইত্যাদি এবং পরিবর্তনগুলি সন্ধান করতে

যদি এগুলির কোনওটিই উপযুক্ত না হয় তবে বিশদ সনাক্তকরণের জন্য বিশেষভাবে পরিসংখ্যান / এমএল মডেলের পুরো শাখা রয়েছে। এসভিএম, টি-এসএনই, বিচ্ছিন্নতা বন, পিয়ার গ্রুপ বিশ্লেষণ , ব্রেক পয়েন্ট বিশ্লেষণ , টাইম সিরিজ (যেখানে আপনি প্রবণতার বাইরে বিদেশীদের সন্ধান করবেন)।

এই পদ্ধতিগুলির সুবিধা রয়েছে যে তারা ধরণের সাদা বাক্স, তাই আপনি বলতে পারেন যে কেউ কেন বিদেশী। এটি আপনার পছন্দ মতো না হওয়া উচিত, অন্যরা এএনএন পদ্ধতির পরামর্শ দিয়েছিল, যা কাজ করবে।


0

আমি একই ধরণের সমস্যা সমাধানের চেষ্টা করছি। আপনার ডেটাসেটটিতে পাঠ্য এবং সংখ্যাসূচক বৈশিষ্ট্যগুলির মিশ্রণ রয়েছে? যদি তাই হয় তবে জটিলতাগুলি সনাক্ত করার জটিলতা বৃদ্ধি পায় (আমি জানি না কী কারণের মাধ্যমে)। যদি আপনার ডেটাসেটটি অভিন্ন হয়, উদাহরণস্বরূপ কেবলমাত্র সংখ্যাসূচক মান রয়েছে, আপনি সম্ভবত একটি আরএনএন ব্যবহার করতে পারেন যা এখনও লেবেলযুক্ত ডেটাসেটের প্রয়োজন তবে এটি নিদর্শনগুলির মতো সময় সিরিজ সনাক্ত করতে পারে (যেহেতু আপনি প্রাক্তনের জন্য বেহাল দিনের মানগুলির সাথে তুলনা উল্লেখ করেছেন)


0

অটেনকোডারগুলি ব্যবহার করে এটি করার একটি সহজ উপায় ("দুর্নীতিগ্রস্ত ডেটা" দিয়ে প্রশিক্ষণ নেওয়া দরকার "অটোইনকোডারগুলি ছাড়া") একটি অটোরকোডারকে প্রশিক্ষণ দেওয়া এবং তারপরে ইনপুট থেকে সারিগুলির আরএমএসই পরীক্ষা করা যা ভালভাবে ডিকোড হয়নি (এটিগুলি যে স্বয়ংক্রিয়কোডারটির পুনর্গঠন করতে খুব কঠিন সময় ছিল)। কিছু সংজ্ঞা দিয়ে যে ডেটা একটি অসাধারণতা উপস্থাপন করবে (অবশ্যই ট্র্যাফিকের স্পাইকের মতো জিনিসগুলির ক্ষেত্রে এটি হবে)।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.