কোনও এসকিউএল টেবিলে স্বয়ংক্রিয়ভাবে বিড়ম্বনা সনাক্তকরণের সরঞ্জামগুলি?


10

আমার কাছে একটি বড় এসকিউএল টেবিল রয়েছে যা মূলত একটি লগ। ডেটাটি বেশ জটিল এবং আমি সমস্ত ডেটা আমাকে না বুঝে ব্যতিক্রমগুলি সনাক্ত করার জন্য কোনও উপায় অনুসন্ধান করার চেষ্টা করছি। অ্যানোমালি সনাক্তকরণের জন্য আমি প্রচুর সরঞ্জাম পেয়েছি তবে তাদের বেশিরভাগের জন্য "মিডল ম্যান" প্রকারের প্রয়োজন, যেমন ইলাস্টিক অনুসন্ধান, স্প্লঙ্ক ইত্যাদি require

এমন কোনও সরঞ্জাম কি কেউ জানেন যে একটি এসকিউএল টেবিলের বিরুদ্ধে চালাতে পারে যা একটি স্বয়ংক্রিয়ভাবে বেসলাইন তৈরি করে?

এটি অলস শোনায় তবে প্রতিটি ইভেন্টের ধরণটি কী বলে এবং প্রতিটি ইভেন্টের সাথে অন্যান্য ক্ষেত্রগুলি কীভাবে যায় তা শিখেছি এবং আমি সত্যিকারের সমস্যার বিষয়ে সতর্ক করতে সক্ষম হওয়ার কাছাকাছি বোধ করি না individual অর্থপূর্ণ উপায়. টেবিলটিতে ৪১ টি কলাম রয়েছে এবং সবেমাত্র 500 মিলিয়ন সারি (3 বছরের ডেটা) টিপুন।


আসলেই নয়, তবে প্রতিটি কলাম অনুসারে বাছাই করা এবং ন্যূনতম এবং সর্বাধিক মানগুলির দিকে তাকানো এবং হাস্যকর মানগুলির জন্য সতর্কতা স্থাপন করা সহায়ক হতে পারে।
ব্যারি কার্টার

যদি এটি অত্যাধুনিক না হয় তবে আপনি মিলিনরেগ চলন্ত উইন্ডো লিনিয়ার রিগ্রেশন ব্যবহার করতে পারেন এবং এইভাবে বড় বিচ্যুতি সনাক্ত করতে পারেন।
দিয়েগো

উত্তর:


3

আপনি যদি এসকিউএল দৃষ্টিকোণ থেকে এটির কাছে যেতে চান তবে বিস্তৃতভাবে আমি এমন কোনও শ্রেণিবদ্ধকরণের ভেরিয়েবলগুলি সনাক্ত করতে পারি যা বিভিন্ন আচরণের কারণ হয়। তারপরে কয়েকটি বিশ্লেষণ ভেরিয়েবলের উপর নীচের মতো কিছু সম্পাদন করুন।

SELECT ClassificationVar1, 
    ClassificationVar2, 
    MIN(AnalysisVar1) as Min_AnalysisVar1, 
    MAX(AnalysisVar1) as Max_AnalysisVar1, 
    MEAN(AnalysisVar1) as Mean_AnalysiVar1, 
    STDEV(AnalysisVar1) as Std_AnalysisVar1,
    MIN(AnalysisVar2) as Min_AnalysisVar2, 
    MAX(AnalysisVar2) as Max_AnalysisVar2, 
    MEAN(AnalysisVar2) as Mean_AnalysiVar2, 
    STDEV(AnalysisVar2) as Std_AnalysisVar2,
    etc.
    FROM YourDataFile
GROUP BY ClassificationVar1, ClassificationVar2
ORDER BY ClassificationVar1, ClassificationVar2

আমি অতি সাম্প্রতিক বছরের মূল্যবান ডেটা বলার জন্য এটি এক-অফ অনুশীলন হিসাবে সম্পাদন করব, তারপরে গতির দৃষ্টিকোণ থেকে, ব্যতিক্রমী ডেটা ফ্ল্যাগ আপ করার জন্য আপনার প্রয়োজন হিসাবে নিয়মিত আমি এটি চালিয়ে যাব।

আরও ভাল পদ্ধতির, সম্ভবত, যার অর্থ নতুন প্রযুক্তি শেখা হ'ল এইচডিএফএস / স্পার্ক তখন পিআইজি / পাইথন / আর সমাধান solution তবে এইচডিএফএস / স্পার্কের কিছু সমাধান রয়েছে যা লগ বিশ্লেষণ করতে বাক্স থেকে বেরিয়ে আসে। 500 মিলিয়ন রেকর্ডগুলি সম্ভবত এসকিউএল, এমনকি টেবিল বিভাজন এবং কলাম সূচীকরণের সাথে পারফরম্যান্স সমস্যার সীমাতে পৌঁছে যাচ্ছে।


আমার জানা উচিত ছিল এটি প্রযুক্তিগতভাবে আন্তঃব্যবস্থা Caché é এটি এসকিউএল টেবিল হিসাবে সমস্ত শ্রেণিকে প্রকাশ করে। বিবেকহীনতার জন্য আমি এইভাবে আমার সমস্ত প্রতিবেদন করি।
শয়তানের অ্যাডভোকেট

3

আপনার যদি এসকিউএল কোডের প্রয়োজন হয় যা কোনও স্বেচ্ছাসেবীর ছকটির বিপরীতে বিভিন্ন আউটলেট সনাক্তকরণ পদ্ধতি চালায় তবে আমার সিরিজ নিবন্ধ এবং কোডের নমুনাগুলি দেখুনএসকিউএল সার্ভারের দিকে তাকাতে। আমি গ্রুব'স টেস্ট, জেড-স্কোরস এবং সংশোধিত জেড-স্কোরস, আন্তঃরৈখিক রেঞ্জ, ডিক্সনের কিউ-টেস্ট, জিইএসডি, টিটজেন-মুর টেস্ট, পিয়ের্সের মানদণ্ড, চৌভেনেটের মানদণ্ড, সংশোধিত থম্পসন টাউ টেস্ট, কুকের দূরত্ব, মহালানোবিসের কয়েকটি প্রাথমিক কোড সরবরাহ করছি provide দূরত্ব, বেনফোর্ডের আইন এবং বিভিন্ন ভিজ্যুয়াল প্লট। দয়া করে মনে রাখবেন যে আমি এটিতে একজন অপেশাদার এবং এটি আমার পুরানো কোডগুলির মধ্যে কিছু, তাই আমি নিশ্চিত যে সংশোধন প্রয়োজন হবে; এটি অন্ততপক্ষে একটি সূচনা পয়েন্ট সরবরাহ করে যাতে আপনি যে কোনও ডাটাবেস সারণীর জন্য অনুমতি পেয়েছেন তার বিরুদ্ধে এই পরীক্ষাগুলি চালাতে পারেন। এটি টি-এসকিউএল-তেও রয়েছে, সুতরাং আপনি যদি পিএইচ / এসকিউএল বা অন্য কোনও ব্র্যান্ডের এসকিউএল ব্যবহার করছেন তবে আপনার যদি কোডটি অন্য কোনও প্ল্যাটফর্মের মতো ওরাকল বা মাইএসকিএল হতে থাকে তবে আপনাকে কোড সামঞ্জস্য করতে হবে। এটি আপনাকে শুরু করা উচিত। সময়সূচীতে নিয়মিত সঞ্চালনের জন্য সবেমাত্র কিনকগুলি কাজ করে এবং সঞ্চিত পদ্ধতিগুলি সেট করে এবং আপনি যেতে ভাল। রুটিন সম্পর্কে আপনার কোনও প্রতিক্রিয়া থাকলে আমাকে জানান, আমি সবসময় আমার এসকিউএল লেখার উন্নতি করতে চাই।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.