অনলাইন আউটিলার সনাক্তকরণ


10

হাই-থ্রুপুট ইমেজিং পাইপলাইনের অংশ হিসাবে ত্রুটিযুক্ত চিত্রগুলি এবং / অথবা ত্রুটিযুক্ত বিভাগগুলি সনাক্ত করতে আমি স্বয়ংক্রিয়ভাবে বিভাগিত মাইক্রোস্কোপি চিত্রগুলি প্রক্রিয়া করতে চাই। প্রতিটি কাঁচা চিত্র এবং বিভাগকরণের জন্য গণনা করা যেতে পারে এমন অনেকগুলি প্যারামিটার রয়েছে এবং যখন চিত্রটি ত্রুটিযুক্ত হয় তখন এটি "চরম" হয় " উদাহরণস্বরূপ, চিত্রের একটি বুদবুদ ফলাফল হিসাবে সনাক্তকারী "কোষগুলির" একটিতে প্রচুর আকারের আকার বা পুরো ক্ষেত্রের জন্য অস্বাভাবিকভাবে কম কোষের সংখ্যার মতো ব্যতিক্রম হতে পারে। আমি এই ব্যতিক্রমী মামলাগুলি সনাক্ত করার জন্য একটি কার্যকর উপায়ের সন্ধান করছি। আদর্শভাবে, আমি এমন একটি পদ্ধতির পছন্দ করব যাতে নিম্নলিখিত বৈশিষ্ট্যগুলি রয়েছে (মোটামুটি পছন্দসই ক্রমে):

  1. পূর্বনির্ধারিত পরম সংখ্যার প্রয়োজন হয় না (যদিও পূর্বনির্ধারিত শতাংশ ঠিক আছে);

  2. মেমরিতে সমস্ত ডেটা থাকা বা এমনকি সমস্ত ডেটা দেখে নেওয়া প্রয়োজন হয় না; পদ্ধতিটি অভিযোজিত হওয়ার জন্য এটি ঠিক হবে এবং আরও ডেটা দেখায় এর মানদণ্ডটি আপডেট করুন; (স্পষ্টতই, কিছু ছোট সম্ভাবনার সাথে, সিস্টেম পর্যাপ্ত ডেটা দেখার আগে, ব্যতিক্রম হতে পারে এবং মিস করা হবে ইত্যাদি)

  3. সমান্তরালযোগ্য: যেমন প্রথম রাউন্ডে, সমান্তরালভাবে কাজ করে এমন অনেকগুলি নোড অন্তর্বর্তী প্রার্থী বিযুক্তি তৈরি করে, যা প্রথম রাউন্ডটি শেষ হওয়ার পরে নির্বাচনের দ্বিতীয় দফার মধ্য দিয়ে যায়।

আমি যে অসঙ্গতিগুলি খুঁজছি তা সূক্ষ্ম নয়। এগুলি এমন ধরণের যা স্পষ্টভাবে স্পষ্ট হয় যদি কেউ ডেটার একটি হিস্টোগ্রামের দিকে নজর দেয়। তবে প্রশ্নে থাকা ডেটার পরিমাণ এবং চিত্রগুলি তৈরি হবার সাথে সাথে বাস্তব সময়ে এই অসাধারণ সনাক্তকরণের চূড়ান্ত লক্ষ্য, কোনও মানবিক মূল্যায়নকারী দ্বারা হিস্টোগ্রামের পরিদর্শনের প্রয়োজন হবে এমন কোনও সমাধানকে অন্তর্ভুক্ত করে।

ধন্যবাদ!


আমি কি সংশোধন করছি যে আপনার সমস্যাটি মূলত অবিচ্ছিন্ন?
ব্যবহারকারী 60

1
কিছু তথ্য পোস্ট করুন যা আপনার যে সমস্যাটি রয়েছে তা "দেখতে" সহায়তা করতে পারে। আমি আউটলিটারকে হাইলটোগুলি তুলে ধরে হিস্টোগ্রামের সাথে যথেষ্ট পরিচিত এবং একজন মানবিক মূল্যায়নকারী দ্বারা হিস্টোগ্রামগুলি পরিদর্শন করার পরিবর্তে পরিসংখ্যান পদ্ধতিগুলি ব্যবহার করে এই অসামান্য মামলাগুলি সনাক্ত করার কার্যকর উপায় সম্পর্কে আপনাকে কিছু গাইডেন্স সরবরাহ করতে সক্ষম হতে পারি। যদৃচ্ছতা সনাক্ত দেখা একটি সাম্প্রতিক আলোচনা দেখুন stats.stackexchange.com/questions/12955/... আপনি অবশ্যই যদৃচ্ছতা এর নির্ণায়ক লঙ্ঘনের সনাক্ত করতে চেষ্টা করছেন।
আইরিশস্ট্যাট

আপনি কি আমাদের আরও বিস্তারিত জানাতে পারেন? পরামিতিগুলি কি অবিচ্ছিন্ন বা বিযুক্ত? অ-ত্রুটিযুক্ত চিত্রগুলির জন্য প্যারামিটারগুলির কী বিতরণ রয়েছে? গসিয়ান? পরামিতিগুলি কি স্বাধীন বা পারস্পরিক সম্পর্কযুক্ত? মোটামুটিভাবে আপনি প্রতি চিত্র প্রতি কতগুলি পরামিতি বের করেন? আপনার প্রতি সেকেন্ডে কতগুলি চিত্র হ্যান্ডেল করতে সক্ষম হতে হবে (বা চিত্রের জন্য কোন প্রকারের বিলম্বতা গ্রহণযোগ্য?) অযোগ্য ত্রুটিযুক্ত চিত্রগুলির একটি বিশাল ডেটা সেট জুড়ে আপনি কয়েকটি টিপিকাল পরামিতিগুলির জন্য কিছু হিস্টোগ্রাম প্রদর্শন করতে পারেন এবং তারপরে ত্রুটিযুক্ত চিত্রগুলির জন্য সংশ্লিষ্ট হিস্টোগ্রামটি প্রদর্শন করতে পারেন? এটি একটি ভাল সমাধান খুঁজে পেতে সাহায্য করতে পারে।
DW

উত্তর:


3

আপনি কি এক-শ্রেণীর শ্রেণিবদ্ধের মতো কিছু বিবেচনা করেছেন?

আপনার পরিচিত-ভাল ইমেজগুলির একটি প্রশিক্ষণ সেট প্রয়োজন হবে যা শ্রেণিবদ্ধ প্রশিক্ষণ দেওয়ার জন্য ব্যবহৃত হয় যা "আপনার প্রশিক্ষণের সেটের মতো চিত্রগুলি" এবং অন্য কিছুর মধ্যে পার্থক্য করার চেষ্টা করে। ডেভিড ট্যাক্সের একটি থিসিস রয়েছে যা সম্ভবত এই বিষয়ে আপনার প্রয়োজনের চেয়ে বেশি তথ্য থাকতে পারে তবে এটি শুরু করার জন্য ভাল জায়গা হতে পারে।

একটি প্রশিক্ষণ সেট প্রয়োজন ব্যতীত, দেখে মনে হচ্ছে এটি আপনার প্রয়োজনীয়তা মেটাবে:

  • প্যারামিটারগুলি ডেটা থেকে শিখেছে (এখানে কোনও বিজ্ঞাপন-হকারি নেই)

  • আপনি একবার মডেলটি পেয়ে গেলে, ডেটা মেমরির মধ্যে রাখার দরকার নেই।

  • একইভাবে, প্রশিক্ষিত শ্রেণিবদ্ধকারী আপনার যতটা নোড পেয়েছে তেমন চালানো যেতে পারে।

আপনার প্রয়োগের উপর নির্ভর করে আপনি একবারে কোনও পরিষেবাযোগ্য শ্রেণিবদ্ধকে প্রশিক্ষণ দিতে এবং বিভিন্ন ধরণের নমুনা / রঞ্জক / দাগ / ফ্লোরোফোর্স / ইত্যাদির জন্য এটি পুনরায় ব্যবহার করতে সক্ষম হতে পারেন। পর্যায়ক্রমে, আপনি ব্যবহারকারীদের প্রতিটি রানের প্রথম ব্যাচের কিছুটিকে ম্যানুয়ালি রেট দিতে সক্ষম হতে পারেন - আমি কল্পনা করি কোনও মানুষ একটি ভাল ইন্টারফেস দিয়ে কমপক্ষে 5-8 উদাহরণ / মিনিট পরীক্ষা করতে পারে।


2

Http://scholar.google.com/scholar?q=stream+outlier+detection দেখুন

এলওএফ-এর মতো কয়েকটি প্রতিষ্ঠিত পদ্ধতি স্ট্রিমিং প্রসঙ্গে গৃহীত হয়েছে। এমন কোর্স পদ্ধতিও রয়েছে যা স্ট্রিমিং উপায়ে হিস্টোগ্রামগুলি আপডেট করে এবং এইভাবে সুস্পষ্ট এক-মাত্রিক আউটলিয়ারকে পতাকাঙ্কিত করে। আসলেই কি এটি আপনার পক্ষে যথেষ্ট হতে পারে?


1

অনেকগুলি সম্ভাব্য পন্থা রয়েছে, তবে আরও তথ্য ছাড়া আপনার পরিস্থিতিতে সবচেয়ে ভাল কী হতে পারে তা জানা শক্ত।

দেখে মনে হচ্ছে, প্রতিটি চিত্রের জন্য আপনি একটি বৈশিষ্ট্য ভেক্টর পাবেন যা উপাদান । যদি এটি হয় তবে এখানে কয়েকটি মুখ্য প্রার্থীর সমাধান দেওয়া হল:Rn

  • সমস্ত পূর্বের চিত্রগুলির বৈশিষ্ট্য ভেক্টরগুলি তাদের শ্রেণিবদ্ধকরণ সহ ডিস্কে সঞ্চয় করুন। পর্যায়ক্রমে (একবার বলুন) এই ডেটাতে একটি শেখার অ্যালগরিদমকে প্রশিক্ষণ দিন এবং নতুন চিত্রগুলিকে শ্রেণিবদ্ধ করার জন্য ফলিত অ্যালগরিদম ব্যবহার করুন। ডিস্ক স্থান সস্তা; এই সমাধানটি আপনার অনলাইন সেটিং-এ ব্যবহার করা যেতে পারে এমন একটি অফলাইনে শেখার অ্যালগরিদমকে রূপান্তরিত করার জন্য একটি বাস্তববাদী এবং কার্যকর হতে পারে।

  • পূর্ববর্তী চিত্রগুলির এক হাজার (বা 1,000,000) পূর্ববর্তী চিত্রগুলির বৈশিষ্ট্য ভেক্টরগুলিকে তাদের শ্রেণিবদ্ধকরণ সহ সঞ্চয় করুন। পর্যায়ক্রমে এই নমুনায় একটি শেখার অ্যালগরিদমকে প্রশিক্ষণ দিন।

    নোট করুন যে আপনি স্ট্যান্ডার্ড ট্রিকস ব্যবহার করে একটি অনলাইন ফ্যাশনে এই নমুনাটি দক্ষতার সাথে আপডেট করতে পারেন । এটি কেবল তখনই আকর্ষণীয় যদি এর পূর্ববর্তী চিত্রগুলির সমস্ত বৈশিষ্ট্য ভেক্টর (যা কল্পনা করা শক্ত বলে মনে হয় তবে আমার জন্য কে জানে) কেন এটি শক্ত some

  • প্রতিটি ভেক্টরের জন্য, এখনও অবধি দেখা অ-ত্রুটিযুক্ত চিত্রগুলির চলমান গড় এবং মানক বিচ্যুতি সম্পর্কে নজর রাখুন। তারপরে, আপনি যখন কোনও নতুন চিত্র পাবেন, এর বৈশিষ্ট্যগুলির কোনও যদি সেই বৈশিষ্ট্যের গড়ের বাইরে কমপক্ষে স্ট্যান্ডার্ড বিচ্যুতি হয় তবে এটিকে ত্রুটিযুক্ত হিসাবে শ্রেণীবদ্ধ করুন, অন্যথায় এটিকে ত্রুটিযুক্ত হিসাবে শ্রেণীবদ্ধ করুন। আপনি মিথ্যা ধনাত্মক এবং মিথ্যা নেতিবাচকগুলির মধ্যে এবং কাঙ্ক্ষিত ট্রেড অফের উপর ভিত্তি করে নির্বাচন করতে পারেন ।সি এনnccn

    অন্য কথায়, আপনি একটি বজায় রাখা -vector উপায়ে, এবং একটি -vector স্ট্যান্ডার্ড ডেভিয়েশন এর, যেখানে গড় হল তম বৈশিষ্ট্য ভেক্টর এবং যা ফিচার স্ট্যান্ডার্ড ডেভিয়েশন হয়। আপনি যখন একটি নতুন বৈশিষ্ট্য ভেক্টর , আপনি পরীক্ষা করতে হবে for । যদি তা না হয় তবে আপনি এটিকে অ-ত্রুটিযুক্ত হিসাবে শ্রেণিবদ্ধ করেছেন এবং আপনি এবং আপডেট করেন ।μ n σ μ i i σ i x | x i - μ i | সি σ আমি আই μ σnμnσμiiσix|xiμi|cσiiμσ

    এই পদ্ধতিটি ধরে নিয়েছে যে অ-ত্রুটিযুক্ত চিত্রের প্রতিটি পরামিতিগুলিতে একটি গাউসীয় বিতরণ রয়েছে এবং পরামিতিগুলি স্বাধীন। এই অনুমানগুলি আশাবাদী হতে পারে। এই স্কিমের আরও অনেক পরিশীলিত রূপ রয়েছে যা এই অনুমানগুলির প্রয়োজনকে দূর করবে বা কার্য সম্পাদন করবে; আপনাকে ধারণা দেওয়ার জন্য এটি একটি সাধারণ উদাহরণ।

সাধারণভাবে, আপনি অনলাইন অ্যালগরিদম এবং স্ট্রিমিং অ্যালগরিদমগুলিতে নজর দিতে পারেন।


ডিডাব্লু একটি এআরআইএমএ ফিল্টার / মডেল হ'ল "চলমান গড়ের" একটি অপ্টিমাইজেশন যেখানে পদগুলির সংখ্যা (এন) এবং প্রয়োগ করতে হবে এমন নির্দিষ্ট ওজনকে অনুগতভাবে চিহ্নিত করা হয়। একটি বিশেষ এবং স্পষ্টতই অনুমানযোগ্য মডেল হ'ল "চলমান গড়" ব্যবহার করার জন্য "N" ব্যবহারের মানগুলির অনুমান করা এবং তারপরে ওজন একে অপরের সমান বলে ধরে নিরন্তর মিশ্রণ করা।
আইরিশস্ট্যাট

@ আইরিশস্ট্যাট, আমি আপনার মন্তব্যটি বুঝতে পেরেছি কিনা তা নিশ্চিত নন। আমার লেখার বিষয়টি অস্পষ্ট থাকলে আমি আরিমার পরামর্শ দিচ্ছিলাম না, যদিও এটি এমন কিছু বিবেচনা করতে পারে। আমি আরও সহজ কিছু প্রস্তাব দিচ্ছিলাম: এখন পর্যন্ত সমস্ত পর্যবেক্ষণের গড় এবং স্ট্যান্ডার্ড বিচ্যুতি সম্পর্কে নজর রাখুন। প্রতিবার আপনি যখন নতুন পর্যবেক্ষণ দেখবেন, আপনি স্ট্যান্ডার্ড পদ্ধতি সহ গড় এবং মানক বিচ্যুতি (যতক্ষণ না আপনি এ পর্যন্ত দেখা পর্যবেক্ষণের সংখ্যা ট্র্যাক করে রেখেছেন) আপডেট করতে পারবেন। এটি সরল হতে পারে, তবে কেন এটি অনর্থক হবে তা আমি দেখছি না।
DW

0

আপনার প্রশ্নটি থেকে আমি যা বুঝতে পেরেছি সেগুলি থেকে আপনি ভেক্টরগুলির একটি ক্রম পেয়েছেন এবং আপনি বর্তমান ভেক্টরকে আপনি এতদূর দেখা সমস্ত ভেক্টরকে আউটিয়েটার হিসাবে পতাকাঙ্কিত করতে চান। (আমি ধরে নিচ্ছি যে চিত্রের পরামিতিগুলি ভেক্টরের উপাদান।)Rn

যদি আউটলিয়াররা বেশ সুস্পষ্ট হয় তবে একটি সাধারণ কৌশল যা কাজ করবে তা নিম্নলিখিতটি। আপনার ভেক্টর থেকে একটি লোকালটি সংবেদনশীল হ্যাশ ফাংশন তৈরি করুন। (ভ্যাক্টর ভেক্টর যে ধরণের র্যান্ডম হাইপারপ্লেনের সেটের কোন দিকে কাজ করে তার মতো একটি সাধারণ র্যান্ডমাইজড হ্যাশ কাজ করতে পারে This এটি হ্যাশ মান হিসাবে একটি বুলিয়ান ভেক্টরকে উত্পন্ন করবে)) এখন আপনি ভেক্টরগুলি গ্রহণ করার সাথে সাথে আপনি ভেক্টর এবং স্টোরের হ্যাশ মানটি গণনা করুন হ্যাশ মান (হাইপারপ্লেনের ক্ষেত্রে বুলিয়ান ভেক্টর) এবং একটি অভিধানে গণনা করা হয়। আপনি এ পর্যন্ত দেখা মোট মোট ভেক্টর সংখ্যাও সঞ্চয় করেন। যে কোনও সময়ে আপনি প্রদত্ত ভেক্টরকে আউটলেটর হিসাবে পতাকাঙ্কিত করতে পারেন যদি হ্যাশের সাথে এর সংঘর্ষে মোট ভেক্টর সংখ্যা মোটের একটি পূর্বনির্ধারিত শতাংশের চেয়ে কম হয়।

আপনি এটিকে বর্ধিত ফ্যাশনে একটি হিস্টোগ্রাম নির্মাণ হিসাবে দেখতে পারেন। তবে ডেটা অবিচ্ছিন্ন না হওয়ার কারণে আমরা হ্যাশিং ট্রিকটিকে এর মতো আচরণ করার জন্য ব্যবহার করি।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.