লগ ফাইল বিশ্লেষণ: মান অংশ থেকে তথ্য অংশ বের করা

10

আমি আমাদের পণ্যগুলির একটিতে বেশ কয়েকটি লগ ফাইলে একটি ডেটা সেট তৈরি করার চেষ্টা করছি।

বিভিন্ন লগ ফাইলগুলির নিজস্ব বিন্যাস এবং নিজস্ব সামগ্রী রয়েছে; আমি তাদের সফলভাবে একসাথে গ্রুপ করেছি, কেবলমাত্র এক ধাপ বাকি ...

আসলে, লগ "বার্তা" সেরা তথ্য। আমার কাছে এই সমস্ত বার্তাগুলির বিস্তৃত তালিকা নেই এবং সেগুলির উপর ভিত্তি করে হার্ড কোড করা খারাপ ধারণা because কারণ সেই তালিকাটি প্রতিদিন পরিবর্তন হতে পারে।

আমি যা করতে চাই তা হ'ল মূল্য পাঠ্য থেকে পৃথক পৃথক করা (উদাহরণস্বরূপ: "লোড করা ফাইল XXX" হয়ে যায় (পরিচয়: "লোড করা ফাইল", মান: "XXX"))। দুর্ভাগ্যক্রমে, এই উদাহরণটি সহজ, এবং বাস্তব বিশ্বে বিভিন্ন লেআউট এবং কখনও কখনও একাধিক মান থাকে।

আমি স্ট্রিং কার্নেলগুলি ব্যবহার করার কথা ভাবছিলাম, তবে এটি ক্লাস্টারিংয়ের উদ্দেশ্যে করা হয়েছে ... এবং এখানে ক্লাসটিং প্রযোজ্য নয় (আমি বিভিন্ন ধরণের বার্তা এবং ইভেন্টের সংখ্যা জানি না, এটি খুব বেশি হবে))।

যদি আপনার কোন ধারণা আছে?

আপনার সাহায্যের জন্য ধন্যবাদ.

PS: যারা প্রোগ্রাম করেন তাদের পক্ষে এটি বোঝা আরও সহজ হতে পারে। ধরা যাক কোডটিতে লগগুলি প্রিন্টফ ("ব্লেবলা% s", "এক্সএক্সএক্সএক্সএক্স") রয়েছে -> আমি "ব্লেবলা" এবং "এক্সএক্সএক্সএক্স" আলাদা করতে চাই

text-mining clustering

— মাইকেল হুরম্যান
সূত্র

আপনি কি উদাহরণগুলির একটি প্রতিনিধি নির্বাচন প্রদান করতে পারেন যা আলগোরিদমকে বিশ্লেষণের জন্য প্রয়োজনীয় আইটেমগুলির বিভিন্নতা প্রদর্শন করে?

— এমরে

2

এটি করার একশ উপায় আছে। আপনাকে কী কী সরঞ্জাম বা ভাষা ব্যবহার করতে হবে সে সম্পর্কে কিছুটা ধারণা দিন this এটিতে কি কোনও তথ্য বিজ্ঞানের দিক রয়েছে? লগ পার্সিংয়ের মতো মনে হচ্ছে।

— শন ওভেন

3

প্রক্রিয়াটির ট্রেস হিসাবে প্রতিটি স্ট্রিং বিবেচনা এবং আলফা-অ্যালগরিদম প্রয়োগ সম্পর্কে কীভাবে? এটি আপনাকে একটি গ্রাফ দেবে এবং একটি বৃহত সংখ্যার বহি-প্রান্তের নোডগুলি সম্ভবত মানগুলিতে নির্দেশ করবে।

আপনি এই নোডগুলি চিহ্নিত করতে পারেন এবং প্রতিটি নতুন স্ট্রিংয়ের জন্য এই অঞ্চলগুলিতে পৌঁছানো অবধি গ্রাফটিকে পার্স / ট্র্যাভার্স করতে পারেন।

— জুয়ান লেনি
সূত্র

অনেক ধন্যবাদ. আমি আলফা-অ্যালগোরিদম জানতাম না। আমি সেই দিকটি যাচাই করব।

— মাইকেল Hooreman

2

এটি কোনও ডেটা সায়েন্সের সমস্যা বলে মনে হচ্ছে না। তবে ঠিক এটি করার জন্য খুব সুন্দর সরঞ্জাম রয়েছে, চেকআউট: লগস্ট্যাশ, ফ্লুম এবং ফ্লুটেড। আসলে আপনি যদি ইলাস্টিকসন্ধানের লোকদের কাছ থেকে দ্রুত এবং "স্মার্ট" উপায় চেকআউট কিবানাতে ফিল্টার করতে সক্ষম হন তবে ( http://www.elasticsearch.org/overview/kibana )। খুব কার্যকর পদ্ধতিতে আপনার সমস্যা সমাধানের জন্য এই সরঞ্জামগুলি যথেষ্ট।

— Javierfdr
সূত্র

আমার যদিও বৈশিষ্ট্যটি নিষ্কাশন করা তথ্য বিজ্ঞানের অংশ। ঠিক আছে, এটি কেবল একটি মতামত ;-) আরও সিরিয়ালি, আমি সহজ স্ট্যান্ডার্ড লগ ফাইলগুলির বিষয়ে কথা বলছি না, তবে একটি খুব নির্দিষ্ট সফ্টওয়্যার থেকে কাস্টমগুলি নিয়েছি। সুতরাং, এটি সত্যই প্রসঙ্গে

— ext

1

আপনি যদি কেবল পাঠ্য এবং সংখ্যাসূচক তথ্য পৃথক করার চেষ্টা করছেন তবে নিয়মিত প্রকাশ বা এমনকি স্ট্রিং বিভাজনের উপর ভিত্তি করে একটি সমাধান রয়েছে।

আপনি এমনকি প্রথম সংখ্যার চরিত্রটি সন্ধান করার মতো কিছু করতে পারেন এবং তার ঠিক আগে অর্ধেক অংশে পাঠ্যটি বিভক্ত করেছিলেন।

নিয়মিত প্রকাশের সাথে আপনি সমস্ত সংখ্যার অক্ষর মেলতে পারেন যা প্রত্যেকে অনুসরণ করে। প্যাটার্নটি ([0-9]+)বিশ্বব্যাপী পতাকা সহ থাকবে। এটি সংখ্যার সমস্ত দলের সাথে মেলে এবং আপনি তাদের সাথে পরে যা কিছু করতে পারেন তা করতে পারেন।

রেজেজেক্স টেস্টার সেই জিনিসগুলি নিয়ে চারপাশে খেলতে ভাল।

— LauriK
সূত্র

ধন্যবাদ লরিক দুর্ভাগ্যক্রমে কেবল সংখ্যা নয়, এবং ভবিষ্যতের বার্তাগুলি কী হবে তাও আমি জানি না। সুতরাং, আমার সত্যই এআই দরকার।

— মাইকেল Hooreman