অসাধারণ সনাক্তকরণের জন্য স্বয়ংক্রিয় বৈশিষ্ট্য নির্বাচন


11

অসাধারণ সনাক্তকরণের জন্য বৈশিষ্ট্যগুলি স্বয়ংক্রিয়ভাবে নির্বাচন করার সর্বোত্তম উপায় কী?

আমি সাধারণত অ্যানোমালি ডিটেকশনকে এমন একটি অ্যালগোরিদম হিসাবে গণ্য করি যেখানে বৈশিষ্ট্যগুলি মানব বিশেষজ্ঞরা নির্বাচিত করেছেন: আউটপুট পরিসরটি কীভাবে গুরুত্বপূর্ণ (যেমন "অস্বাভাবিক ইনপুট - অস্বাভাবিক আউটপুট" হিসাবে) তাই অনেকগুলি বৈশিষ্ট্য সহ আপনি সংমিশ্রণ করে আরও অনেক ছোট সাবসেট নিয়ে আসতে পারেন বৈশিষ্ট্য.

তবে, ধরে নিই যে সাধারণ ক্ষেত্রে কোনও বৈশিষ্ট্য তালিকা বিশাল হতে পারে, সম্ভবত একটি স্বয়ংক্রিয় শেখা কখনও কখনও পছন্দনীয়। আমি যতদূর দেখতে পাচ্ছি, কিছু চেষ্টা আছে:

  • "অ্যানোমালি ডিটেকশনের জন্য স্বয়ংক্রিয় বৈশিষ্ট্য নির্বাচন" ( পিডিএফ ) যা সমর্থন ভেক্টর ডেটা বিবরণকে সাধারণীকরণ করে
  • "রুফ সেট থিওরি ব্যবহার করে একটি দ্রুত হোস্ট-ভিত্তিক ইন্ট্রুশন ডিটেকশন সিস্টেম" (কোনও পিডিএফ উপলব্ধ নেই?) যা আমার ধারণা, রাফ সেট থিওরি ব্যবহার করে
  • "প্রতিকূল নেটওয়ার্ক ট্র্যাফিকের অসাধারণ সনাক্তকরণের জন্য বিধিগুলি শিখতে" ( পিডিএফ , ভিডিও ) যা পরিসংখ্যানিক পদ্ধতির ব্যবহার করে

তাই এখন আমি আশ্চর্য হয়েছি যে কেউ যদি বলতে পারে - ধরে নিচ্ছে অসাধারণ সনাক্তকরণ এবং সত্যই একটি বিশাল (শত?) বৈশিষ্ট্য সেট:

  1. এই বিশাল বৈশিষ্ট্য সেটগুলি কি আদৌ কোনও অর্থ দেয়? আমরা কি কয়েক ডজনকে বলতে পারি, কেবলমাত্র বৈশিষ্ট্যটি হ্রাস করা উচিত নয় এবং এটিই?
  2. যদি বিশাল বৈশিষ্ট্যাদির সেটগুলি তাৎপর্যপূর্ণ হয়, তবে উপরের কোন একটি পদ্ধতির আরও ভাল ভবিষ্যদ্বাণী দেওয়া হবে এবং কেন? তালিকাভুক্ত এমন কিছু নেই যা আরও ভাল?
  3. ক্লাস্টারিং / র‌্যাঙ্কিং / ইত্যাদির মাধ্যমে মাত্রিকতা হ্রাস বা বৈশিষ্ট্য নির্মাণের তুলনায় তাদের কেন আরও ভাল ফলাফল দেওয়া উচিত?

আপনার লিঙ্কটি আমার জন্য কোনও নির্দিষ্ট প্রশ্ন আনেনি। আপনি সমস্যার সংক্ষিপ্ত বিবরণ দিতে পারেন? উদ্দেশ্য কী? এটি কি তদারকি করা বা নিরীক্ষণযোগ্য শেখার সমস্যা?
অ্যাডামো

প্রশ্নটি ছিল এমএলএসইর যা এখন বন্ধ রয়েছে - স্পষ্টতই অ্যাডমিনরা সমস্ত প্রশ্নের সাথে একীভূত হন নি। সমস্যাটি স্পষ্টভাবে জানাতে আমি এখনই পাঠ্য সম্পাদনা করেছি!
andreister

উত্তর:


1

একটি ব্যবহারিক পদ্ধতির (অন্তত তত্ত্বাবধানের শিক্ষার ক্ষেত্রে) সমস্ত সম্ভাব্য প্রাসঙ্গিক বৈশিষ্ট্য অন্তর্ভুক্ত করা এবং নিয়মিতকরণ (এল 1 এবং / বা এল 2) সহ একটি (সাধারণীকরণ) লিনিয়ার মডেল (লজিস্টিক রিগ্রেশন, লিনিয়ার এসভিএম ইত্যাদি) ব্যবহার করা। ওপেন সোর্স সরঞ্জামগুলি রয়েছে (উদাঃ ভোপাল ওয়াবিট) যা এই ধরণের মডেলের ট্রিলিয়ন উদাহরণ / বৈশিষ্ট্য সংমিশ্রণগুলির সাথে মোকাবিলা করতে পারে তাই স্কেলাবিলিটি কোনও সমস্যা নয় (তদ্ব্যতীত, কেউ সর্বদা সাব-স্যাম্পলিং ব্যবহার করতে পারে)। নিয়ন্ত্রণটি বৈশিষ্ট্য নির্বাচনের সাথে মোকাবেলা করতে সহায়তা করে।


তবে কীভাবে নিরীক্ষণযোগ্য সেটিংসে বৈশিষ্ট্যগুলি নির্বাচন করবেন (লিনিয়ার মডেলগুলি ব্যবহার না করে ইত্যাদি গুরুত্বপূর্ণ বৈশিষ্ট্যগুলি সামনে আনতে হবে)? আমি যে উপায়টি ভাবতে পারি তা হ'ল পিসিএটি কিছু বৈকল্পিকতা ধরে রাখতে এবং ডেটার আকার হ্রাস করতে। তবে আবারও, অসাধারণ সনাক্তকরণের সমস্যায় ডেটা হ্রাস করা বিপজ্জনক বলে মনে হচ্ছে কারণ আপনি ভবিষ্যদ্বাণী করতে চেয়েছিলেন এমন প্রকৃত বিদেশী নিখোঁজ হতে পারে। সুতরাং বিভ্রান্তি।
প্রাক্তন
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.