অসাধারণ সনাক্তকরণের জন্য বৈশিষ্ট্যগুলি স্বয়ংক্রিয়ভাবে নির্বাচন করার সর্বোত্তম উপায় কী?
আমি সাধারণত অ্যানোমালি ডিটেকশনকে এমন একটি অ্যালগোরিদম হিসাবে গণ্য করি যেখানে বৈশিষ্ট্যগুলি মানব বিশেষজ্ঞরা নির্বাচিত করেছেন: আউটপুট পরিসরটি কীভাবে গুরুত্বপূর্ণ (যেমন "অস্বাভাবিক ইনপুট - অস্বাভাবিক আউটপুট" হিসাবে) তাই অনেকগুলি বৈশিষ্ট্য সহ আপনি সংমিশ্রণ করে আরও অনেক ছোট সাবসেট নিয়ে আসতে পারেন বৈশিষ্ট্য.
তবে, ধরে নিই যে সাধারণ ক্ষেত্রে কোনও বৈশিষ্ট্য তালিকা বিশাল হতে পারে, সম্ভবত একটি স্বয়ংক্রিয় শেখা কখনও কখনও পছন্দনীয়। আমি যতদূর দেখতে পাচ্ছি, কিছু চেষ্টা আছে:
- "অ্যানোমালি ডিটেকশনের জন্য স্বয়ংক্রিয় বৈশিষ্ট্য নির্বাচন" ( পিডিএফ ) যা সমর্থন ভেক্টর ডেটা বিবরণকে সাধারণীকরণ করে
- "রুফ সেট থিওরি ব্যবহার করে একটি দ্রুত হোস্ট-ভিত্তিক ইন্ট্রুশন ডিটেকশন সিস্টেম" (কোনও পিডিএফ উপলব্ধ নেই?) যা আমার ধারণা, রাফ সেট থিওরি ব্যবহার করে
- "প্রতিকূল নেটওয়ার্ক ট্র্যাফিকের অসাধারণ সনাক্তকরণের জন্য বিধিগুলি শিখতে" ( পিডিএফ , ভিডিও ) যা পরিসংখ্যানিক পদ্ধতির ব্যবহার করে
তাই এখন আমি আশ্চর্য হয়েছি যে কেউ যদি বলতে পারে - ধরে নিচ্ছে অসাধারণ সনাক্তকরণ এবং সত্যই একটি বিশাল (শত?) বৈশিষ্ট্য সেট:
- এই বিশাল বৈশিষ্ট্য সেটগুলি কি আদৌ কোনও অর্থ দেয়? আমরা কি কয়েক ডজনকে বলতে পারি, কেবলমাত্র বৈশিষ্ট্যটি হ্রাস করা উচিত নয় এবং এটিই?
- যদি বিশাল বৈশিষ্ট্যাদির সেটগুলি তাৎপর্যপূর্ণ হয়, তবে উপরের কোন একটি পদ্ধতির আরও ভাল ভবিষ্যদ্বাণী দেওয়া হবে এবং কেন? তালিকাভুক্ত এমন কিছু নেই যা আরও ভাল?
- ক্লাস্টারিং / র্যাঙ্কিং / ইত্যাদির মাধ্যমে মাত্রিকতা হ্রাস বা বৈশিষ্ট্য নির্মাণের তুলনায় তাদের কেন আরও ভাল ফলাফল দেওয়া উচিত?