অসাধারণ সনাক্তকরণের জন্য বৈশিষ্ট্যগুলি কীভাবে প্রস্তুত / নির্মাণ করবেন (নেটওয়ার্ক সুরক্ষা ডেটা)


9

আমার লক্ষ্য হ'ল প্রবেশের সনাক্তকরণের উদ্দেশ্যে ক্লাস্টারিং / অ্যানোমালি সনাক্তকরণ ব্যবহার করে নেটওয়ার্ক লগগুলি (যেমন, অ্যাপাচি, সিসলগ, অ্যাক্টিভ ডিরেক্টরি সুরক্ষা নিরীক্ষণ এবং এই জাতীয়) বিশ্লেষণ করা।

লগগুলি থেকে আমার কাছে অনেকগুলি পাঠ্য ক্ষেত্র রয়েছে যেমন আইপি ঠিকানা, ব্যবহারকারীর নাম, হোস্টনেম, গন্তব্য পোর্ট, উত্স বন্দর, এবং আরও (মোট 15-20 ক্ষেত্রগুলিতে)। লগগুলিতে কিছু আক্রমণ আছে কিনা তা আমি জানি না এবং সবচেয়ে সন্দেহজনক ঘটনাগুলি (আউটলিয়ার) হাইলাইট করতে চাই।

সাধারণত, অসঙ্গতি সনাক্তকরণটি কম সম্ভাবনা / ফ্রিকোয়েন্সি সহ অসঙ্গতি হিসাবে চিহ্নিত করে। যাইহোক, লগ রেকর্ডের অর্ধেক ক্ষেত্রে ক্ষেত্রগুলির অনন্য সংমিশ্রণ রয়েছে। সুতরাং, ডেটাসেটের অর্ধেক রেকর্ডের সর্বনিম্ন সম্ভাব্য ফ্রিকোয়েন্সি থাকবে।

যদি আমি ক্লাস্টারিংয়ের উপর ভিত্তি করে বিশৃঙ্খলা সনাক্তকরণ ব্যবহার করি (উদাহরণস্বরূপ, ক্লাস্টারগুলি সন্ধান করুন এবং তারপরে সমস্ত ক্লাস্টার কেন্দ্র থেকে দূরে অবস্থিত পয়েন্টগুলি নির্বাচন করুন), আমার বিভিন্ন পয়েন্টের মধ্যে দূরত্ব সন্ধান করতে হবে। যেহেতু আমার 15-20 ক্ষেত্র রয়েছে তাই এটি একটি বহুমাত্রিক স্থান হবে, যেখানে ডাইমেনশনগুলি ব্যবহারকারীর নাম, পোর্ট, আইপি ঠিকানা এবং অন্যান্য। তবে মহালানোবিস দূরত্ব কেবলমাত্র বিতরণ করা বৈশিষ্ট্যগুলিতে প্রয়োগ করা যেতে পারে। এর অর্থ হ'ল ডেটা পয়েন্টগুলির মধ্যে দূরত্ব সন্ধানের এবং ক্লাস্টারগুলি তৈরি করার কোনও উপায় নেই ...

উদাহরণস্বরূপ, আসুন কল্পনা করুন যে আমার কাছে 20 টি রেকর্ডের ডেটাসেটে এলিস, বব, ক্যারল, ডেভ, ইভ এবং ফ্র্যাঙ্ক রয়েছে। তারা ডাটাবেস নিম্নলিখিত সংখ্যক ঘটনা থাকতে পারে: 2,5,2,5,1,5। যদি আমি কেবল সংখ্যায় ব্যবহারকারীর নাম ম্যাপ করি, যেমন

Alice --> 1
Bob --> 2
Carol --> 3
Dave --> 4
Eve --> 5
Frank --> 6

তারপরে, ব্যবহারকারীর নামগুলির জন্য আমার সম্ভাব্যতা বন্টন নীচের মত দেখতে পাবেন:

পি (1) = 0.1, পি (2) = 0.25, পি (3) = 0.1, পি (4) = 0.25, পি (5) = 0.05, পি (6) = 0.25

অবশ্যই এটি কোনও সাধারণ বিতরণ নয়, এবং এটিও খুব একটা বোঝায় না, যেহেতু আমি কোনও ভিন্ন উপায়ে ব্যবহারকারীর নাম ম্যাপ করতে পারি ...

সুতরাং, ব্যবহারকারীর নাম, ক্রিয়া, পোর্ট নম্বর, আইপি ঠিকানা ইত্যাদির মতো ক্ষেত্রগুলির সরল ম্যাপিং সংখ্যায় কিছুই আনতে পারে না।

অতএব, আমি জিজ্ঞাসা করতে চাই, কীভাবে পাঠ্য ক্ষেত্রগুলি প্রক্রিয়াজাত করা হয় / বৈশিষ্ট্যগুলি প্রায়শই নিরীক্ষণযোগ্য অসঙ্গতি / বহিরাগত সনাক্তকরণ সম্ভব করার জন্য তৈরি করা হয়?

সম্পাদনা: ডেটা স্ট্রাকচার।

অ্যাক্টিভ ডিরেক্টরি ইভেন্টগুলি থেকে তথ্য সহ ডাটাবেস টেবিলটিতে আমার প্রায় 100 কলাম রয়েছে। এই 100 টি কলাম থেকে আমি সর্বাধিক গুরুত্বপূর্ণ (আমার দৃষ্টিকোণ থেকে) নির্বাচন করি: সাবজেক্টউজার, টার্গেট ইউজার, সোর্সপ্যাড্রেস, সোর্স হস্টনাম, সোর্সপোর্ট, কম্পিউটার, গন্তব্যপ্রেম ঠিকানা, গন্তব্যহোস্টনাম, গন্তব্যস্থান, কর্ম, অবস্থান, ফাইলপথ, ইভেন্টআইডি, উইকডে, ডেটাইম।

ইভেন্টগুলি অ্যাক্টিভ ডিরেক্টরি ইভেন্টগুলি হয়, যেখানে ইভেন্টআইডিডি লগ-ইন করে কী সংজ্ঞা দেয় (যেমন, কার্বেরোসের টিকিট তৈরি, ব্যবহারকারী লগন, ব্যবহারকারী লগঅফ ইত্যাদি)।

ডেটা নমুনা নীচের মত দেখাচ্ছে:

+ + ------------------------------------------------- -------------------------------------------------- -------------------------------------------------- -------------------------------------------------- -------------------------------------------------- - + +
| আইডি | সাবজেক্টউজার | টার্গেট ব্যবহারকারী
+ + ------------------------------------------------- -------------------------------------------------- -------------------------------------------------- -------------------------------------------------- -------------------------------------------------- - + +
| 171390673 | |? |? |? |? | domaincontroller1.domain.com | 1.1.1.1 | domaincontroller1.domain.com |? | / প্রমাণীকরণ / যাচাই করুন | / সাফল্য |? | 4624 | 1 | 61293 |
+ + ------------------------------------------------- -------------------------------------------------- -------------------------------------------------- -------------------------------------------------- -------------------------------------------------- - + +
| 173348232 |? |? |? |? |? | domaincontroller2.domain.com | 2.2.2.2 | domaincontroller2.domain.com |? | / প্রমাণীকরণ / যাচাই করুন | / সাফল্য |? | 4624 | 1 | 61293 |
+ + ------------------------------------------------- -------------------------------------------------- -------------------------------------------------- -------------------------------------------------- -------------------------------------------------- - + +
| 180176916 | |? |? |? |? | domaincontroller2.domain.com | 2.2.2.2 | domaincontroller2.domain.com |? | / প্রমাণীকরণ / যাচাই করুন | / সাফল্য |? | 4624 | 1 | 61293 |
+ + ------------------------------------------------- -------------------------------------------------- -------------------------------------------------- -------------------------------------------------- -------------------------------------------------- - + +
| 144144725 |? | জন.ডো | ৩.৩.৩.৩ | ডোমেনকন্ট্রোলার ৩.ডোমেন.কম | ২৪০ | | ডোমেনকন্ট্রোলার ৩.ডোমন.কম | ৩.৩.৩.৪ | ডোমেইনকন্ট্রোলার ৩.ডোমেন.কম?? | / প্রমাণীকরণ / যাচাই করুন | / সাফল্য |? | 4624 | 3 | 12345 | |
+ + ------------------------------------------------- -------------------------------------------------- -------------------------------------------------- -------------------------------------------------- -------------------------------------------------- - + +

সব মিলিয়ে আমার প্রায় দেড় মিলিয়ন ইভেন্ট রয়েছে। বিভিন্ন ইভেন্টের বিভিন্ন ক্ষেত্র পূরণ করা থাকে এবং সমস্ত ইভেন্ট ব্যবহারকারীর লগন / লগঅফের সাথে সম্পর্কিত নয়।


"তবে, মহালানোবিসের দূরত্ব কেবলমাত্র বিতরণ করা বৈশিষ্ট্যগুলিতে প্রয়োগ করা যেতে পারে।" আসলে, উপবৃত্তাকার আকারের। আপনি কি আপনার ডেটা সেটের প্রথম কয়েকটি লাইন পোস্ট করতে পারেন (বা কিছু জাল নম্বর তবে আসল জিনিসটির মতো একই বৈশিষ্ট্য রয়েছে)?
ব্যবহারকারী 60

আমি ধরে নিয়েছি যে উপবৃত্তাকার আকারের অর্থ দুটি ভিন্ন বিতরণযোগ্য বৈশিষ্ট্যগুলির ভিন্ন ভিন্ন গড় এবং মানক বিচ্যুতি, তবে এখনও সাধারণভাবে বিতরণ করা হয় means
আন্দ্রে স্যাপেইগিন

না, উপবৃত্তাকার আকারের অর্থ 2D তে ফুটবলের ছায়ার মতো আকারের, 3 ডি একটি ফুটবল এবং সাধারণভাবে ডি মাত্রিক জায়গাতে একটি ডি-ডাইমেনশন ফুটবল।
ব্যবহারকারী 60

কৌতূহল এর বাইরে. আপনি কি কিছু ডেটা / আপনি যে ডেটাসেটের সাথে কাজ করছেন তা ভাগ করে নিতে পারেন? এটি কি পাবলিক / একাডেমিক গবেষণা সেট?
সাবালবা

দুর্ভাগ্যক্রমে, এটি কোনও সর্বজনীন ডেটাসেট নয় এবং আমি এটি ভাগ করতে পারছি না। তবে হানিনেট ( old.honeynet.org/scans/scan34 ) থেকে একটি বিখ্যাত কেডিডিসাপ 1999 ডাটাसेट, বা স্ক্যান 34 ডেটাসেট থাকতে হবে । উভয় ডেটাসেটের বিশ্লেষণের জন্য লগ (নেটওয়ার্ক ট্র্যাফিক নয়) রয়েছে (অ্যাপাচি, স্নোর্ট, সিসলগ, ইত্যাদি)। আমার যে ডেটাসেটে রয়েছে, বেশিরভাগ লগই সক্রিয় ডিরেক্টরি লগ। আমি নিশ্চিত না যে বিশ্লেষণের জন্য কোনও সার্বজনীন এডি / উইন্ডোজ ইভেন্টগুলি উপলভ্য আছে কিনা (এর আগে আমি বাস্তবের অনুপস্থিতির কারণে স্ব-উত্পন্ন ডেটাসেট ব্যবহার করেছি)। এছাড়াও, আমার কাছে থাকা ডেটাসেটটি খুব বড় (150 টি মিও রেকর্ডস)।
আন্দ্রে স্যাপেইগিন

উত্তর:


2

আমি স্পষ্টতই অনাদায়ী সনাক্তকরণের বিশেষজ্ঞ নই । তবে এটি একটি আকর্ষণীয় অঞ্চল এবং এখানে আমার দুটি সেন্ট। প্রথমে আপনার নোটটি বিবেচনা করে বিবেচনা করুন যে "মহালানোবিস দূরত্ব কেবলমাত্র বিতরণ করা বৈশিষ্ট্যগুলিতে প্রয়োগ করা যেতে পারে"। আমি এমন কিছু গবেষণা জুড়ে ছুটে এসেছি যে যুক্তি দেয় যে অ-সাধারণ ডেটার ক্ষেত্রে এখনও এই মেট্রিকটি ব্যবহার সম্ভবএই কাগজ এবং এই প্রযুক্তিগত প্রতিবেদনটি নিজের জন্য দেখুন ।

আমিও আশা করি আপনি দরকারী নিম্নলিখিত পাবেন সম্পদ উপর তত্ত্বাবধান ছাড়াই অনিয়ম সনাক্তকরণ (এডি) মধ্যে আইটি নেটওয়ার্কের নিরাপত্তা প্রসঙ্গ , বিভিন্ন পন্থা ও পদ্ধতি ব্যবহার করছে: এই কাগজ , একটি উপস্থাপনা জ্যামিতিক কাঠামো তত্ত্বাবধান ছাড়াই বিজ্ঞাপনের জন্য; এই কাগজটি , যা ঘনত্ব ভিত্তিক এবং গ্রিড ভিত্তিক ক্লাস্টারিং পদ্ধতির ব্যবহার করে; এই উপস্থাপনা স্লাইডগুলি , যা AD এর জন্য স্ব-সংগঠিত মানচিত্র ব্যবহারের কথা উল্লেখ করে ।

পরিশেষে, আমি আপনাকে আমার নিম্নলিখিত উত্তরগুলির দিকে একবার নজর দেওয়ার পরামর্শ দিচ্ছি, যা আমি বিশ্বাস করি যে বিষয়টি প্রাসঙ্গিক এবং এইভাবে সহায়ক হতে পারে: ক্লাস্টারিং পদ্ধতির উত্তর, দূরত্ব-ভিত্তিক ক্লাস্টারিংয়ের উত্তর এবং এর জন্য সফ্টওয়্যার বিকল্পগুলির উত্তর খ্রি


1
লিঙ্কগুলির জন্য আপনাকে ধন্যবাদ, তারা খুব দরকারী। (1) আপনি উল্লিখিত প্রথম কাগজটি খুব আকর্ষণীয়। দেখে মনে হচ্ছে পরে মহালানোবিস দূরত্ব প্রয়োগ করতে বিতরণটিকে স্বাভাবিক রূপান্তর করা সম্ভব। আমি এটি getোকা চেষ্টা করব। (২) আপনি কি জানেন যে অন্য কিছু পন্থা রয়েছে যেমন, কাজিনের দূরত্বের মতো কিছু মিলের ব্যবস্থা, যা দূরত্বগুলিতে কাজ করে না? (3) আপনি উল্লিখিত উপস্থাপনা স্লাইডগুলি তবে লগগুলিতে নয়, নেটওয়ার্ক ট্র্যাফিক প্যাকেটে মনোনিবেশ করা হয়েছে।
আন্দ্রে স্যাপেইগিন

1
অন্যান্য পদ্ধতির বিষয়ে, আমি নিম্নলিখিত 2 সম্পর্কে ভেবেছিলাম: (1) এক-শ্রেণীর এসভিএম বৈশিষ্ট্যগুলির মধ্যে পারস্পরিক সম্পর্ক খুঁজে বের করতে পারে, যদি উচ্চ-বহু-মডেল ব্যবহার করা হয়; (২) বাক্য হিসাবে লগ লাইনগুলিকে হুমকি দেয় এবং তাদের গোষ্ঠী / গোষ্ঠীর সাথে কাজিনের মিলকে ব্যবহার করে। প্রথমটি আমি ইতিমধ্যে বাস্তবায়নের চেষ্টা করেছি, তবে এটি ইতিমধ্যে 1 সিপিইউতে এক সপ্তাহেরও বেশি সময় ধরে চলেছে (আমি প্রথম ডেটা প্রথমার্ধে একটি মডেলকে প্রশিক্ষণ দিয়েছি এবং দ্বিতীয়টিতে প্রয়োগ করি Then তারপরে বিপরীতে)। দ্বিতীয় পদ্ধতিটি একটি উচ্চ-মাত্রিক স্থান বোঝায় (উদাহরণস্বরূপ, ব্যবহারকারীর প্রতিটি পৃথক মান একটি বৈশিষ্ট্য হবে)।
আন্দ্রে স্যাপেইগিন

1
@ অ্যান্ড্রেসেপেইগিন: যদি আপনার বর্তমান প্রচেষ্টা'র ফলাফল যথেষ্ট ভাল না হয়, তবে আমি যে কাগজপত্রগুলি উল্লেখ করেছি তাতে উল্লিখিত কিছু অন্যান্য পদ্ধতির চেষ্টা করতে পারেন। এই ধারণা ছিল। আরও একটি জিনিস - গ্রাফ ল্যাব ওপেন সোর্স এমএল সফ্টওয়্যারটি ব্যবহার করে দেখুন (এর কয়েকটি এখন ডেটো হিসাবে চিহ্নিত করা হয়েছে): dato.com/products/create/open_source.html । গ্রাফ ল্যাব সফ্টওয়্যারটি কেবল উচ্চ প্রসেসর কোরই নয়, প্রসেসর এবং এমনকি মেশিনগুলিতেও উচ্চ-কর্মক্ষমতা এবং খুব স্কেলযোগ্য।
আলেকসান্ডার ব্লেক

1
@ অ্যান্ড্রেসেপেইগিন: আমার বিশ্ববিদ্যালয়ের সহকর্মীর একটি কাগজ সবেমাত্র আমার রিসার্চগেট স্ট্রিমে উঠে গেছে। আমি মনে করি এটি আপনার পক্ষে খুব সহায়ক হতে পারে (অনুপ্রবেশ সনাক্ত করতে এএনএন পদ্ধতির ব্যবহার করে - শীতল এনকগ এমএল লাইব্রেরির মাধ্যমে, যার মধ্যে তিনি স্রষ্টা এবং প্রধান অবদানকারী - এনকোগ মাল্টিকোর এবং জিপিইউয়ের মাধ্যমেও স্কেবলযোগ্য)। এখানে কাগজটি রয়েছে: রিসার্চগেট.নাট / প্রোফাইলে / জেফ_হিটন / প্রজাতন্ত্র /এনকোগের জন্য এখানে তথ্য: হিটোনরিসার্চ . com / encog
আলেকসান্ডার ব্লেক

1
যে কেউ আমার উত্তরে অনুগ্রহ অর্জন করেছে: আমি আপনার উদারতার প্রশংসা করি পাশাপাশি মানের উত্তরের প্রতি আমার প্রচেষ্টাকে স্বীকৃতি জানাই।
আলেকসান্দ্র ব্লেক 21 '14

3

প্রথমত, আমি মনে করি এমন কিছু জিনিস রয়েছে যা থেকে আপনাকে নিজেকে পদত্যাগ করতে হতে পারে।

এই সমস্যাটিতে আমি দেখতে পেলাম এমন একটি কঠিন প্রতিবন্ধকতা হ'ল আপনার সম্ভবত বেশ উচ্চতর ভুয়া পজিটিভ হারের জন্য প্রস্তুত হওয়া উচিত। যতদূর আমি জানি, রেকর্ডগুলির বেজ রেট একটি নেটওয়ার্কের অবিচ্ছিন্ন অংশ হয়ে ওঠা বেশ কম (উদ্ধৃতি আবশ্যক)। যুক্তির স্বার্থে একে 1000: 1 টি প্রতিকূলতা বলি। তারপরেও যদি আপনি এমন একটি প্যাটার্ন পর্যবেক্ষণ করেন যা রেকর্ডটি একটি অনুপ্রবেশ হিসাবে 100 গুণ বেশি হওয়ার সম্ভাবনা থাকে তবে যদি এটি বৈধ হয় তবে বেইস রুল বলে যে উত্তরীয় প্রতিক্রিয়া 10: 1 হ'ল ট্র্যাফিক এখনও আইনসম্মত।

অন্য সমস্যাটি হ'ল কিছু অনুপ্রবেশ নীতিগতভাবেও সনাক্ত করা শক্ত । উদাহরণস্বরূপ, যদি কেউ সামাজিকভাবে তাদের আমার কম্পিউটারটি দেওয়ার জন্য ইঞ্জিনিয়ার করে, এবং তারপরে তারা এই পরিষেবাদিতে লগইন করে এবং একটি শীর্ষ গোপন ফাইল ডাউনলোড করে যা আমি কাজ করে যাচ্ছিলাম, এটি খুঁজে পাওয়া বেশ কঠিন হবে। মূলত, পর্যাপ্ত নির্ধারিত আক্রমণকারী তাদের অনুপ্রবেশমূলক আচরণটি সিস্টেমের স্বাভাবিক আচরণের কাছে প্রায় নির্বিচারে করতে পারে।

তদুপরি, আপনার বিরোধীরা পরিসংখ্যানগত প্রক্রিয়া নয়, বুদ্ধিমান, তাই আপনি যদি কিছু প্যাটার্ন সনাক্ত করতে এবং এটি বন্ধ করতে শুরু করেন তবে তারা কেবল সে ধরণের অনুসরণ না করে সাড়া দিতে পারে। এ কারণেই, উদাহরণস্বরূপ, আপনি সমস্ত অক্ষরের মধ্যে ফাঁকা স্থান সহ প্রচুর স্প্যাম বার্তা দেখতে পাবেন (আপনাকে " V I A G R A" বা যা কিছু অফার করছে)। স্প্যাম ফিল্টারগুলি বুঝতে পেরেছিল যে স্ট্রিং "ভায়াগ্রা" স্প্যামি, তাই আক্রমণকারীরা সবেমাত্র অন্য কিছু করতে শুরু করেছিল।

এ কারণে, আমি মনে করি যে কোন ধরণের অনুপ্রবেশগুলি সনাক্ত করতে সক্ষম হওয়ার জন্য এটি চেষ্টা করার উপযুক্ত বলে আপনি মনে করেন এটি সম্পর্কে খুব কঠোরভাবে চিন্তা করা ভাল। এখানে অবশ্যই কম-ঝুলন্ত ফল রয়েছে, তাই নিখুঁতকে ভালদের শত্রু হতে দিন এবং এমন একটি অ্যালগোরিদম নিয়ে আসার চেষ্টা করবেন না যা সমস্ত অনুপ্রবেশ সনাক্ত করতে পারে।


সেই দিকে, আসুন কম ঝুলন্ত ফল সম্পর্কে কথা বলা যাক। এখানে, আমি মনে করি আপনার বিশ্লেষণের ইউনিটটি পৃথক রেকর্ড থেকে রেকর্ডের একটি গ্রুপে স্থানান্তর করা আপনার পক্ষে ফলদায়ক হতে পারে ।

উদাহরণস্বরূপ, আপনি বলেছিলেন যে সমস্ত রেকর্ডের অর্ধেকটিতে ক্ষেত্রগুলির অনন্য সংমিশ্রণ রয়েছে। তবে সম্ভবত, উদাহরণস্বরূপ, বেশিরভাগ সোর্স আইপি একাধিক রেকর্ডে উপস্থিত হয় - এটি অনুরোধের অন্যান্য ক্ষেত্র যা সংমিশ্রণটি পরিবর্তন করে এবং অনন্য করে তুলছে। আপনি যদি আইপি দ্বারা অনুরোধগুলি গোষ্ঠীভুক্ত করেন তবে আপনি এই জাতীয় প্রশ্ন জিজ্ঞাসা করতে পারেন:

  • কিছু আইপি কি অস্বাভাবিকভাবে অনেক ব্যবহারকারী (বা অস্বাভাবিক কিছু) হিসাবে প্রমাণীকৃত বলে মনে হচ্ছে?
  • কিছু আইপি-তে কী অস্বাভাবিক সংখ্যক প্রমাণীকরণ ব্যর্থতা থাকে?
  • কিছু আইপি-র অ্যাক্সেসের সময়গুলির অস্বাভাবিক প্যাটার্ন থাকে (উদাহরণস্বরূপ, তাদের টাইমজোনটিতে সকাল 3 টার কাছাকাছি প্রচুর ক্রিয়াকলাপ, বা সারা দিন প্রতি 1 সেকেন্ডের জন্য অনুরোধ করা হয়)?

আপনি অন্যান্য গোষ্ঠীগুলির জন্য একই ব্যবহার করতে পারেন, যেমন ব্যবহারকারীর নাম:

  • তারা যখন সমস্ত অনুরোধের জন্য একই কম্পিউটার ব্যবহার করত তখন কি এই ব্যবহারকারী কোনও আলাদা কম্পিউটার থেকে প্রমাণীকরণ করছেন?
  • এই ব্যবহারকারীটি হঠাৎ এমন ফাইল সিস্টেমের কোনও অংশটিকে স্পর্শ করছে যা তারা আগে কখনও স্পর্শ করেনি?

আমি কোনও অফ-শেল্ফ শ্রেণিবদ্ধ সম্পর্কে জানি না যা এটির পক্ষে বিশেষভাবে উপযুক্ত বলে মনে হয়, কারণ আপনার ব্যবহারকারীর সম্ভাব্য আচরণ এত বৈচিত্র্যময় এবং আপনি সম্ভবত বেশিরভাগ সময়ের সাথে আচরণের পরিবর্তনে আগ্রহী । এর অর্থ আপনি সম্ভবত প্রতিটি ব্যবহারকারী / আইপি / ভবিষ্যতে যা কিছু করার সম্ভাবনা রয়েছে তার কোনও ধরণের মডেল তৈরি করতে চান এবং এই মডেল থেকে কোনও বিচ্যুতিকে পতাকাঙ্কিত করতে চান। আপনার ব্যবহারকারীদের বিভিন্ন আচরণের ধরণ থাকলে তা বেশ নিবিড় প্রক্রিয়া!

এই অসুবিধার কারণে, আমি মনে করি আপাতত যে ধরণের অনুসন্ধান-মোড বিশ্লেষণের উপরে উল্লিখিত হয়েছে তা করা আরও উত্পাদনশীল হতে পারে। এটি আপনাকে কী ধরণের ধরণের সর্বাধিক আকর্ষণীয় সে সম্পর্কে অবহিত করবে এবং তারপরে আপনি সেই নিদর্শনগুলি সনাক্ত করতে অভিনব পরিসংখ্যান সংক্রান্ত অ্যালগোরিদম ব্যবহার শুরু করতে পারেন।


2
আপনার উত্তরের জন্য ধন্যবাদ, এটি একটি ভাল পয়েন্ট। আমি যেমন বুঝতে পেরেছি আপনি অসাধারণ সনাক্তকরণের চেয়ে আরও সাধারণ বিশ্লেষণে মনোনিবেশ করার প্রস্তাব দিচ্ছেন। প্রযুক্তিগত (শিল্প) দৃষ্টিকোণ থেকে, আপনি ঠিক বলেছেন। তবে, আমি একটি গবেষণা করছি এবং মেশিন লার্নিং বিশ্লেষণে ফোকাস করতে চাই। আপনার প্রস্তাবিত ক্যোয়ারী-ভিত্তিক বিশ্লেষণ আমরা ইতিমধ্যে সম্পাদন করেছি (আপনি যে প্রস্তাবিত প্রশ্নের তুলনায় একেবারে অভিন্ন নয়, তবে অনুরূপ) ... এটি করার জন্য আরও একটি যুক্তি হ'ল বর্তমানে অনেক উদ্যোগ 'সাধারণ' ছাড়াও অযৌক্তিক সনাক্তকরণের চেষ্টা করে ( আরও সহজ, তবে এখনও কমপ্লেস করে) প্রশ্ন এবং নিয়ম ...
অ্যান্ড্রে স্যাপেইগিন

2

আমি মনে করি যে প্রথম স্থানে আপনার একটি ডেটাসেট থাকা দরকার যা কোনও আক্রমণ ছাড়াই সময়ের জন্য ডেটা রেকর্ড করে । এই ডেটাসেটটিতে এমন আচরণগুলি ক্যাপচার করা উচিত যা সাধারণভাবে আচরণ করা কোনও সিস্টেমের অন্তর্নিহিত। আমি এই বিষয়টিটিতে জোর দিয়ে বলতে চাই যে এটি কোনও টীকাগুলির ডেটাসেট থাকার কথা নয়।

এরপরে, আমি মেট্রিক্সের সমস্ত (বা উপসেট) এক সাথে যুক্ত করার চেষ্টা করব। এই নতুন মেট্রিকটিতে "আশ্চর্য" পরিমাণটি প্রতিফলিত হওয়া উচিত। উদাহরণস্বরূপ, স্বল্পমূল্য বলতে সিস্টেমটি সাধারণত চালিত হয়, উচ্চ মানের পিক / মালভূমি মানে কিছু দ্রুত পরিবর্তন হয়। এখানে আমি CUSUM বা শেওহার্ট চার্ট শৈলী চার্ট সম্পর্কে চিন্তা করছি।

আপনি কি উপলব্ধ ডেটার কয়েকটি উদাহরণ সরবরাহ করতে পারেন? এটি কি মূলত স্ট্রিং, সংখ্যা, 1/0 সূচক?


1

কোনও সম্ভাবনা হ'ল কোনও আক্রমণ ছাড়াই কিছু ব্যাকগ্রাউন্ড ডেটা দেওয়া বৈশিষ্ট্যগুলির মধ্যে একটি বয়েসিয়ান নেটওয়ার্ক শিখতে হবে। বায়সিয়ান নেটওয়ার্ক শেখা দরকারী কারণ এটি বৈশিষ্ট্যের মধ্যে শর্তাধীন স্বাধীনতা আনে। অতএব, আপনি বৈশিষ্ট্যগুলির প্রতিটি এবং সম্ভাব্য সংমিশ্রণের সাথে ডিল করছেন না। উদাহরণস্বরূপ, যদি বৈশিষ্ট্য A B এবং C কে প্রভাবিত করে এবং B এবং C একসাথে D কে প্রভাবিত করে, তবে আপনি কেবলমাত্র A B কে কীভাবে প্রভাবিত করেন, কীভাবে C কে প্রভাবিত করে এবং কীভাবে B এবং C সম্মিলিতভাবে D. কে প্রভাবিত করে তার একটি মডেল শিখবেন এই মডেলটির জন্য আরও কম প্রয়োজন হবে will সম্পূর্ণ সম্ভাব্যতা বিতরণের চেয়ে প্যারামিটার এবং বায়সিয়ান নেটওয়ার্কগুলি কেবলমাত্র পুরো যৌথ সম্ভাব্যতা বিতরণ সংরক্ষণের পরিবর্তে ব্যবহৃত হয় তা প্রাথমিক কারণ। কোনও বেয়েসিয়ান নেটওয়ার্ক প্রদত্ত অস্বাভাবিকতার জন্য পরীক্ষার জন্য, শিখে নেওয়া বায়েশিয়ান নেটওয়ার্ক মডেল ব্যবহার করে আগত ডেটাপয়েন্টের সম্ভাবনা গণনা করুন। সম্ভাবনা খুব কম হলে,


সমস্যাটি হ'ল আক্রমণ ছাড়াই ডেটা নমুনা পাওয়া অত্যন্ত জটিল। ডেটাসেটটিতে কিছু আক্রমণ আছে কিনা তা প্রায়শই কেউ জানেন না।
আন্দ্রে স্যাপেইগিন

0

আমি ভেবেছিলাম যে বেন কুহানের প্রতিক্রিয়াটি বাস্তববাদী এবং অন্তর্দৃষ্টিপূর্ণ ছিল।

এখন আমার নিজস্ব ব্যাকগ্রাউন্ডে পাঠ্য শ্রেণীবিন্যাস, বিশেষজ্ঞ সিস্টেম, ক্লাস্টারিং এবং সুরক্ষা অন্তর্ভুক্ত রয়েছে। এই পটভূমিটি দেওয়া, আমি ভাবতে চাই যে কথোপকথনে আমার কিছু যুক্ত হতে পারে। তবে বেন কুহানের পূর্ববর্তী বিবৃতি হাইলাইট করে যে সোজা পদ্ধতিগুলি অনেকগুলি মিথ্যা ধনাত্মকতা তৈরি করতে পারে। আইটি কর্মীরা, যখন অনেকগুলি মিথ্যা ইতিবাচকতার মুখোমুখি হন, সাধারণত "টিউন আউট" হন কারণ তাদের কাছে সমস্ত সময় মিথ্যা ইতিবাচক তাড়া করার সময় নেই have

তো এখন কি করা?

অবশ্যই তাদের আক্রমণগুলির সাথে লগগুলি সহায়ক হতে পারে তবে তারপরে আমাদের কাছে ক্যাচ -২২ থাকে যদি না কোনও সংখ্যক সংস্থাগুলি আক্রমণ সম্পর্কিত ডেটা ভাগ করে দেয়। কিছু সিলিকন ভ্যালি স্টার্ট-আপগুলি এ জাতীয় হুমকি ভাগ করে নেওয়ার চেষ্টা করছে, আমরা আর কী করব?

একটি সম্ভাব্য পন্থা হ'ল নেটওয়ার্কের সিমুলেশন তৈরি করা এবং তারপরে সিমুলেশনের বিরুদ্ধে আক্রমণ তৈরির উপায় খুঁজে বের করা। এটি হ'ল ধরুন আমরা একটি সিমুলেশন তৈরি করি যেখানে কালো টুপি (এছাড়াও সিমুলেটেড) সাদা টুপিগুলির আগে থেকে জানা যায় না। এই আক্রমণগুলি দেওয়া, আমরা এরপরে অ্যালগরিদম তৈরির চেষ্টা করতে পারি যা এই আক্রমণগুলি আবিষ্কার করতে পারে। যদি কালো টুপিগুলি সাদা টুপিগুলি থেকে স্বাধীনভাবে পরিচালনা করে, তবে আমাদের কাছে একটি আসল লড়াই হবে। আক্রমণকারীরা যদি সিস্টেমে প্রবেশ করে বা সনাক্ত না করে, তবে সাদা টুপিগুলি কিছুটা হলেও ব্যর্থ হয়েছিল।

কালো টুপি দলের সুরক্ষা বিশ্লেষকরা যখন তাদের সাফল্যের জন্য পুরস্কৃত হন (ব্রিচ বা অন্বেষণ করা আক্রমণ) তখন কারও কাছে একটি উত্সাহমূলক কাঠামো থাকতে পারে। একইভাবে, সাদা টুপি নিয়ে গঠিত গোষ্ঠীটি ব্রাইচ বন্ধ করা এবং / অথবা আক্রমণ সনাক্ত করার জন্য পুরস্কৃত হয়।

এই ব্যবস্থা সম্পর্কে নিখুঁত কিছুই নেই। স্পষ্টতই আসল কালো টুপি "বন্ধুত্বপূর্ণ" কালো টুপি দলের প্রতিভা ছাড়িয়ে যেতে পারে। তা সত্ত্বেও, যার কাছে ন্যায্য পরিমাণে বিশ্লেষণ রয়েছে, আমার কাছে মনে হয়েছে যে কালো টুপি সম্পর্কে আরও ভাল বোঝা ছাড়াই সাদা টুপিগুলির সাফল্যের পরিমাণ নির্ধারণ করা খুব কঠিন। নীচে লাইন এটি। আমরা যদি জানতে না পারি যে আসল কালো টুপিগুলি কী করছে, তার পরের সেরাটি হ'ল বন্ধুত্বপূর্ণ কালো টুপি।

আমি একটি বরং অস্বাভাবিক ধারণা আছে। মনে করুন বন্ধুত্বপূর্ণ কালো টুপি এবং সাদা টুপি ছাড়াও একটি ধূসর টুপি রয়েছে। ধূসর টুপি বলতে কী বোঝায়? ধারণাটি সহজ। ধূসর টুপিগুলিকে বন্ধুত্বপূর্ণ কালো টুপিগুলি কী করছে এবং সাদা টুপিগুলি দেখার অনুমতি দেওয়া হয়। কিন্তু কেন?

মনে করুন যে বন্ধুত্বপূর্ণ কালো টুপিগুলি এ, বি এবং সি পদ্ধতির সাহায্যে আক্রমণ শুরু করে এবং সাদা টুপি এই তিনটি পদ্ধতির কোনওটিই আবিষ্কার করে না । হ্যাঁ, ধূসর টুপিগুলি বন্ধুত্বপূর্ণ কালো টুপি উভয় কী করছে এবং সেই সাথে সাদা টুপি কী করছে তা দেখার ক্ষমতাপ্রাপ্ত এবং তারা এই অনিচ্ছুক আক্রমণগুলি আবিষ্কার করতে কোন নীতিগুলি ব্যবহার করা যেতে পারে তা বিবেচনা করার চেষ্টা করে। গ্রে হ্যাট এই ধরনের নীতি খুঁজে বের করে, তাহলে গ্রে হ্যাট দলের তারপর সাদা টুপি দলের সঙ্গে এই নীতির ভাগ করে নিতে পারেন ছাড়া বিস্তারিতভাবে সঠিক হামলার বর্ণনা।

আশাবাদী ধূসর টুপি দল দ্বারা সরবরাহ করা এই "ইঙ্গিতগুলি" সাদা টুপি দলকে খুব বেশি কিছু না প্রকাশ করে সঠিক দিকের দিকে ঠেলে দেয়।

প্রতিক্রিয়া হিসাবে, আমি যদি আমার প্রতিক্রিয়াটি নির্দিষ্ট কৌশল সম্পর্কে সত্যই না হয় তবে আমি ক্ষমাপ্রার্থী। অবশ্যই আমার প্রতিক্রিয়া নির্দিষ্ট কৌশল সম্পর্কে নয় about তবে আমার অভিজ্ঞতায়, মেশিন লার্নিংয়ে অনেকগুলি সমস্যা - সুরক্ষা সহ - প্রায়শই ব্যর্থ হয় কারণ ডেটা অপ্রতুল। সাদা টুপি, ধূসর টুপি এবং কালো টুপি ব্যবহার করে এই পদ্ধতিটি এমন ডেটা তৈরিতে সহায়তা করতে পারে যা কোনও সুরক্ষা সংস্থাকে (বা আইটি কর্মীরা) কেবল তাদের প্রতিরক্ষার কার্যকারিতা মঞ্জুর করতে পারে না, তবে একটি সাংগঠনিক কাঠামো সরবরাহ করে যা হোয়াইট টুপি দলকে ধাক্কা দেয় hes ক্রমে তাদের প্রতিরক্ষা এবং তাদের তদারকি উন্নত করতে।

আমি যে পদ্ধতির পরামর্শ দিচ্ছি তা যদি আসল হয় তবে আমার সত্যিই কোনও ধারণা নেই। আমি ধূসর টুপি সম্পর্কে কখনও শুনিনি, তবে আমি আসলেই মনে করি যে সাদা দলকে খুব বেশি না প্রকাশ করে এগিয়ে নিয়ে যেতে ধূসর টুপিগুলির ভূমিকা সমালোচনা হতে পারে।


দ্রষ্টব্য: আমার "ধূসর টুপি" শব্দটি এখানে ব্যবহারের মান নয়। Http://www.howtogeek.com/157460/hacker-hat-colors-explained-black-hat- white- hat- and- gray- hat / দেখুন । সুতরাং এর পরিবর্তে সম্ভবত "স্ট্রিপ টুপি" ব্যবহার করা উচিত।

তবে এখনও ধারণাটি একই রয়েছে: একটি স্ট্রিপ টুপি বন্ধুত্বপূর্ণ কালো টুপি এবং ডিফেন্ডারদের (সাদা টুপি) কাজের মধ্যস্থতা করতে সহায়তা করতে পারে, যাতে সাদা টুপিগুলির সাথে নির্দিষ্ট ধারণা এবং ইঙ্গিতগুলি ন্যায়সঙ্গতভাবে ভাগ করা যায়।


1
দেখে মনে হচ্ছে আপনি দুর্ঘটনাক্রমে একটি দ্বিতীয় অ্যাকাউন্ট তৈরি করেছেন - সেগুলিকে কীভাবে মার্জ করবেন তা এখানে দেখুন । এটি আপনাকে নিজের পোস্টগুলি সম্পাদনা করতে দেবে।
সিলভারফিশ

0

যেহেতু আমি মূল প্রশ্নটি পোস্ট করেছি, তাই আমি এই বিষয় নিয়ে অনেক গবেষণা করেছি এবং এখন উত্তর হিসাবে আমার ফলাফলগুলি সরবরাহ করতে পারি।

প্রথমত, আমাদের ল্যাবে, আমরা একটি এসআইইএম সিস্টেম বিকাশ করি যা অসাধারণ সনাক্তকরণ অ্যালগরিদমগুলি ব্যবহার করে। সিস্টেম এবং অ্যালগরিদমের বিবরণ আমার কাগজে পাওয়া যায় বড়-স্কেল নেটওয়ার্কগুলিতে সুরক্ষা ইভেন্টগুলির জটিল বিশ্লেষণের জন্য একটি সিস্টেমের দিকে

এর বাইরে ক্রস ভ্যালিডেটেড সম্পর্কিত একই প্রশ্নের উত্তরে আমি কীভাবে এই জাতীয় ডেটা মোকাবেলা করতে পারি তার একটি সংক্ষিপ্তসারগুলি লিখেছিলাম wrote

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.