আমার লক্ষ্য হ'ল প্রবেশের সনাক্তকরণের উদ্দেশ্যে ক্লাস্টারিং / অ্যানোমালি সনাক্তকরণ ব্যবহার করে নেটওয়ার্ক লগগুলি (যেমন, অ্যাপাচি, সিসলগ, অ্যাক্টিভ ডিরেক্টরি সুরক্ষা নিরীক্ষণ এবং এই জাতীয়) বিশ্লেষণ করা।
লগগুলি থেকে আমার কাছে অনেকগুলি পাঠ্য ক্ষেত্র রয়েছে যেমন আইপি ঠিকানা, ব্যবহারকারীর নাম, হোস্টনেম, গন্তব্য পোর্ট, উত্স বন্দর, এবং আরও (মোট 15-20 ক্ষেত্রগুলিতে)। লগগুলিতে কিছু আক্রমণ আছে কিনা তা আমি জানি না এবং সবচেয়ে সন্দেহজনক ঘটনাগুলি (আউটলিয়ার) হাইলাইট করতে চাই।
সাধারণত, অসঙ্গতি সনাক্তকরণটি কম সম্ভাবনা / ফ্রিকোয়েন্সি সহ অসঙ্গতি হিসাবে চিহ্নিত করে। যাইহোক, লগ রেকর্ডের অর্ধেক ক্ষেত্রে ক্ষেত্রগুলির অনন্য সংমিশ্রণ রয়েছে। সুতরাং, ডেটাসেটের অর্ধেক রেকর্ডের সর্বনিম্ন সম্ভাব্য ফ্রিকোয়েন্সি থাকবে।
যদি আমি ক্লাস্টারিংয়ের উপর ভিত্তি করে বিশৃঙ্খলা সনাক্তকরণ ব্যবহার করি (উদাহরণস্বরূপ, ক্লাস্টারগুলি সন্ধান করুন এবং তারপরে সমস্ত ক্লাস্টার কেন্দ্র থেকে দূরে অবস্থিত পয়েন্টগুলি নির্বাচন করুন), আমার বিভিন্ন পয়েন্টের মধ্যে দূরত্ব সন্ধান করতে হবে। যেহেতু আমার 15-20 ক্ষেত্র রয়েছে তাই এটি একটি বহুমাত্রিক স্থান হবে, যেখানে ডাইমেনশনগুলি ব্যবহারকারীর নাম, পোর্ট, আইপি ঠিকানা এবং অন্যান্য। তবে মহালানোবিস দূরত্ব কেবলমাত্র বিতরণ করা বৈশিষ্ট্যগুলিতে প্রয়োগ করা যেতে পারে। এর অর্থ হ'ল ডেটা পয়েন্টগুলির মধ্যে দূরত্ব সন্ধানের এবং ক্লাস্টারগুলি তৈরি করার কোনও উপায় নেই ...
উদাহরণস্বরূপ, আসুন কল্পনা করুন যে আমার কাছে 20 টি রেকর্ডের ডেটাসেটে এলিস, বব, ক্যারল, ডেভ, ইভ এবং ফ্র্যাঙ্ক রয়েছে। তারা ডাটাবেস নিম্নলিখিত সংখ্যক ঘটনা থাকতে পারে: 2,5,2,5,1,5। যদি আমি কেবল সংখ্যায় ব্যবহারকারীর নাম ম্যাপ করি, যেমন
Alice --> 1
Bob --> 2
Carol --> 3
Dave --> 4
Eve --> 5
Frank --> 6
তারপরে, ব্যবহারকারীর নামগুলির জন্য আমার সম্ভাব্যতা বন্টন নীচের মত দেখতে পাবেন:
পি (1) = 0.1, পি (2) = 0.25, পি (3) = 0.1, পি (4) = 0.25, পি (5) = 0.05, পি (6) = 0.25
অবশ্যই এটি কোনও সাধারণ বিতরণ নয়, এবং এটিও খুব একটা বোঝায় না, যেহেতু আমি কোনও ভিন্ন উপায়ে ব্যবহারকারীর নাম ম্যাপ করতে পারি ...
সুতরাং, ব্যবহারকারীর নাম, ক্রিয়া, পোর্ট নম্বর, আইপি ঠিকানা ইত্যাদির মতো ক্ষেত্রগুলির সরল ম্যাপিং সংখ্যায় কিছুই আনতে পারে না।
অতএব, আমি জিজ্ঞাসা করতে চাই, কীভাবে পাঠ্য ক্ষেত্রগুলি প্রক্রিয়াজাত করা হয় / বৈশিষ্ট্যগুলি প্রায়শই নিরীক্ষণযোগ্য অসঙ্গতি / বহিরাগত সনাক্তকরণ সম্ভব করার জন্য তৈরি করা হয়?
সম্পাদনা: ডেটা স্ট্রাকচার।
অ্যাক্টিভ ডিরেক্টরি ইভেন্টগুলি থেকে তথ্য সহ ডাটাবেস টেবিলটিতে আমার প্রায় 100 কলাম রয়েছে। এই 100 টি কলাম থেকে আমি সর্বাধিক গুরুত্বপূর্ণ (আমার দৃষ্টিকোণ থেকে) নির্বাচন করি: সাবজেক্টউজার, টার্গেট ইউজার, সোর্সপ্যাড্রেস, সোর্স হস্টনাম, সোর্সপোর্ট, কম্পিউটার, গন্তব্যপ্রেম ঠিকানা, গন্তব্যহোস্টনাম, গন্তব্যস্থান, কর্ম, অবস্থান, ফাইলপথ, ইভেন্টআইডি, উইকডে, ডেটাইম।
ইভেন্টগুলি অ্যাক্টিভ ডিরেক্টরি ইভেন্টগুলি হয়, যেখানে ইভেন্টআইডিডি লগ-ইন করে কী সংজ্ঞা দেয় (যেমন, কার্বেরোসের টিকিট তৈরি, ব্যবহারকারী লগন, ব্যবহারকারী লগঅফ ইত্যাদি)।
ডেটা নমুনা নীচের মত দেখাচ্ছে:
+ + ------------------------------------------------- -------------------------------------------------- -------------------------------------------------- -------------------------------------------------- -------------------------------------------------- - + + | আইডি | সাবজেক্টউজার | টার্গেট ব্যবহারকারী + + ------------------------------------------------- -------------------------------------------------- -------------------------------------------------- -------------------------------------------------- -------------------------------------------------- - + + | 171390673 | |? |? |? |? | domaincontroller1.domain.com | 1.1.1.1 | domaincontroller1.domain.com |? | / প্রমাণীকরণ / যাচাই করুন | / সাফল্য |? | 4624 | 1 | 61293 | + + ------------------------------------------------- -------------------------------------------------- -------------------------------------------------- -------------------------------------------------- -------------------------------------------------- - + + | 173348232 |? |? |? |? |? | domaincontroller2.domain.com | 2.2.2.2 | domaincontroller2.domain.com |? | / প্রমাণীকরণ / যাচাই করুন | / সাফল্য |? | 4624 | 1 | 61293 | + + ------------------------------------------------- -------------------------------------------------- -------------------------------------------------- -------------------------------------------------- -------------------------------------------------- - + + | 180176916 | |? |? |? |? | domaincontroller2.domain.com | 2.2.2.2 | domaincontroller2.domain.com |? | / প্রমাণীকরণ / যাচাই করুন | / সাফল্য |? | 4624 | 1 | 61293 | + + ------------------------------------------------- -------------------------------------------------- -------------------------------------------------- -------------------------------------------------- -------------------------------------------------- - + + | 144144725 |? | জন.ডো | ৩.৩.৩.৩ | ডোমেনকন্ট্রোলার ৩.ডোমেন.কম | ২৪০ | | ডোমেনকন্ট্রোলার ৩.ডোমন.কম | ৩.৩.৩.৪ | ডোমেইনকন্ট্রোলার ৩.ডোমেন.কম?? | / প্রমাণীকরণ / যাচাই করুন | / সাফল্য |? | 4624 | 3 | 12345 | | + + ------------------------------------------------- -------------------------------------------------- -------------------------------------------------- -------------------------------------------------- -------------------------------------------------- - + +
সব মিলিয়ে আমার প্রায় দেড় মিলিয়ন ইভেন্ট রয়েছে। বিভিন্ন ইভেন্টের বিভিন্ন ক্ষেত্র পূরণ করা থাকে এবং সমস্ত ইভেন্ট ব্যবহারকারীর লগন / লগঅফের সাথে সম্পর্কিত নয়।