ভৌগোলিকভাবে বিতরণ, দোষ-সহনশীল এবং "বুদ্ধিমান" অ্যাপ্লিকেশন / হোস্ট মনিটরিং সিস্টেম


12

গ্রিটিংস,

আমি সংগ্রহকারীদের মতামত জিজ্ঞাসা করতে এবং বিতরণ করা মনিটরিং সিস্টেমগুলি দেখতে চাই, আপনি কী ব্যবহার করবেন এবং আমার বাক্সগুলি টিক দিতে পারে সে সম্পর্কে আপনি কী জানেন?

প্রয়োজনীয়তাগুলি বেশ জটিল;

  • ব্যর্থতার কোনও একক পয়েন্ট নয়। সত্যিই। আমি মারাত্মক মারাত্মক! একক / একাধিক নোড ব্যর্থতা, উভয়ই 'মাস্টার' এবং 'কর্মী' সহ্য করতে সক্ষম হতে হবে এবং আপনি ধরে নিতে পারেন যে কোনও নিরীক্ষণ অবস্থানের ("সাইট") এতে একাধিক নোড নেই বা একই নেটওয়ার্কে রয়েছে। সুতরাং এটি সম্ভবত ডিআরবিডি বা কিপালাইভের মতো traditionalতিহ্যবাহী এইচএ কৌশলগুলি এড়িয়ে যায়।

  • বিতর্কিত যুক্তিযুক্ত, আমি একাধিক নেটওয়ার্কে একাধিক ডাটাসেন্ট্রেস এবং একাধিক মহাদেশে 5+ নোড স্থাপন করতে চাই। আমি আমার গ্রাহকদের দৃষ্টিকোণ থেকে আমার নেটওয়ার্ক এবং অ্যাপ্লিকেশনগুলির "বার্ডস আই" দৃষ্টিভঙ্গি চাই, আপনার কাছে 50+ নোড, এমনকি 500+ নোড থাকা অবস্থায় পর্যবেক্ষণের যুক্তির জন্য বোনাস পয়েন্টগুলিও কমে যাবে না।

  • বলপার্কের পরিসংখ্যানগুলির জন্য হোস্ট প্রতি 1500-2500 হোস্ট এবং 30 হোস্টের জন্য 30 টি পরিষেবা গণ্য করার জন্য মোটামুটি যুক্তিসঙ্গত হোস্ট / পরিষেবা চেকগুলি, একটি লা নাগিওগুলি পরিচালনা করতে সক্ষম হতে হবে। সত্যিই খুব ভাল লাগবে যদি আরও মনিটরিং নোড যোগ করা আপনাকে তুলনামূলকভাবে রৈখিকভাবে স্কেল করার অনুমতি দেয়, সম্ভবত 5 বছরের মধ্যে আমি 5000 হোস্ট এবং হোস্ট প্রতি 40 টি পরিষেবা পর্যবেক্ষণ করতে চাইছি! 'বিতরিত যুক্তি' সম্পর্কে আমার নোট থেকে উপরের দিকে যুক্ত করা ভাল লাগবে:

    • সাধারণ পরিস্থিতিতে, এই চেকগুলি অবশ্যই monitoring n বা n% মনিটরিং নোডের উপর চলতে হবে।
    • যদি কোনও ব্যর্থতা ধরা পড়ে, অন্য of n বা n% নোডের জন্য চেকগুলি চালান, ফলাফলগুলি সংযুক্ত করুন এবং তারপরে সতর্কতা জারির জন্য মানদণ্ড পূরণ হয়েছে কিনা তা সিদ্ধান্ত নিতে তাদের ব্যবহার করুন।
  • গ্রাফ এবং পরিচালনা বান্ধব বৈশিষ্ট্য। আমাদের আমাদের এসএলএগুলি ট্র্যাক করতে হবে এবং আমাদের 'অত্যন্ত উপলব্ধ' অ্যাপ্লিকেশনগুলি 24x7 আপ রয়েছে কিনা তা কিছুটা কার্যকর useful আদর্শভাবে আপনার প্রস্তাবিত সমাধানটি ন্যূনতম ত্রুটিযুক্ত "বক্সের বাইরে" প্রতিবেদন করা উচিত।

  • বিস্কোক চেকগুলি বিকাশের জন্য অবশ্যই একটি শক্ত এপিআই বা প্লাগইন সিস্টেম থাকতে হবে।

  • সতর্কতা সম্পর্কে বুদ্ধিমান হওয়ার প্রয়োজন। আমি চাই না অগত্যা জানেন যে (ভোর 3 টায় SMS এর মাধ্যমে!) চাই যে এক পর্যবেক্ষণ নোড reckons আমার কোর রাউটার ডাউন। আমি না জানেন যে যদি তাদের মধ্যে সংজ্ঞায়িত শতাংশ চান একমত যে কিছু ভীতু চলছে;) মূলত আমি এখানে কথা বলছি "কোরাম" যুক্তি, বা বিতরণ পাগলামীর মানসিক সুস্থতা প্রয়োগের হয়!

আমি বাণিজ্যিক এবং ওপেন সোর্স উভয় বিকল্প বিবেচনা করতে রাজি আছি, যদিও আমি কয়েক মিলিয়ন পাউন্ড মূল্যের সফটওয়্যারটি পরিষ্কার করতে পছন্দ করব :-) আমি এই সমস্ত বাক্সগুলিকে টিকিয়ে রাখে না এমন কিছু নাও থাকতে পারে তা গ্রহণ করতে আমি আগ্রহী, তবে সম্মিলিত জিজ্ঞাসা করতে চেয়েছিলেন যে।

নোডগুলি এবং তাদের স্থান নির্ধারণের বিষয়ে চিন্তা করার সময়, মনে রাখবেন এগুলির বেশিরভাগ এলোমেলো আইএসপি নেটওয়ার্কগুলিতে ডেডিকেটেড সার্ভার হবে এবং এইভাবে আমার নিয়ন্ত্রণের বাইরে চলে of বিজিপি ফিড এবং অন্যান্য জটিল নেটওয়ার্কিং এন্টিক্সের উপর নির্ভর করে এমন সমাধানগুলি সম্ভবত উপযুক্ত হবে না।

আমার এও উল্লেখ করা উচিত যে আমি অতীতে নাগিওস, জাবিবিক্স এবং বন্ধুদের সহ বেশিরভাগ ওপেন সোর্স ফ্লেভারকে মূল্যায়ন করেছি, মোতায়েন করেছি বা ভারী ব্যবহার করেছি / কাস্টমাইজ করেছি - এগুলি আসলে খারাপ সরঞ্জাম নয় তবে তারা পুরোপুরি সমতল হয় " বিতরণ "দিক, বিশেষত আমার প্রশ্নে আলোচিত যুক্তি এবং 'বুদ্ধিমান' সতর্কতার সাথে।

প্রয়োজনীয় যে কোনও পয়েন্ট পরিষ্কার করে খুশি। চিয়ার্স ছেলেরা এবং gals :-)


2
এটি সত্যিই অদ্ভুত, আমি একই ধরণের প্রশ্ন জিজ্ঞাসা করতে চলেছিলাম। এই সপ্তাহে আমাদের সাইটের আউটেজ সম্পর্কে গ্রাহকদের কিছু অভিযোগ ছিল, তবে কেবলমাত্র নির্দিষ্ট জায়গা থেকে। আমাদের সতর্কতা ব্যবস্থাগুলি এই সমস্যাগুলি সনাক্ত করে নি। আমরা আমাদের সরবরাহকারীর সাথে যোগাযোগ করেছি এবং তারা নিশ্চিত করেছে যে তাদের কিছুতে হাড়ের কিছু সমস্যা ছিল। সুতরাং আমি একটি সমাধান আগ্রহী। ধন্যবাদ!
স্প্ল্যাটনে

এবং চূড়ান্ত সমাধান কি ছিল?
ew white

উত্তর:


4

সত্যিই উত্তর নয়, তবে কিছু পয়েন্টার:

  • নাগিওস @ সোনারম্যান স্যাচগুলি সম্পর্কে উপস্থাপনাটি স্পষ্টত একবার দেখুন । তারা আপনার উল্লেখ করা সমস্যার মুখোমুখি হয়েছিল - অতিরিক্ত কাজ, স্কেলাবিলিটি: হাজার হাজার হোস্ট, এছাড়াও স্বয়ংক্রিয় কনফিগারেশন জেনারেশন।

  • আমার রিডানড্যান্ট নাগিওস সেটআপ ছিল তবে অনেক ছোট স্কেল - ৮০ টি সার্ভার, মোট k ১ কে পরিষেবা। একটি ডেডিকেটেড মাস্টার সার্ভার, একটি গোলাম সার্ভার নিয়মিত বিরতিতে দিনে কয়েকবার মাস্টার থেকে কনফিগারেশন টানছে। উভয় সার্ভার একই মেশিনগুলির পর্যবেক্ষণ কভার করেছিল, তাদের একে অপরের মধ্যে স্বাস্থ্য ক্রস চেক ছিল। আমি বেশিরভাগ কাস্টম পণ্য নির্দিষ্ট পরীক্ষার জন্য কাঠামো হিসাবে কাঠামো হিসাবে ব্যবহার করেছি ['কৃত্রিম প্রবাহ নিয়ন্ত্রণ' করায় ক্রোন জবদের গোছা চালাচ্ছে, এসকিএল-এ লগইন করা হয়েছে, এনআরপি প্লাগইনস ওয়ার্ক পরীক্ষা / শেষ x মিনিটের মধ্যে সাফল্যের জন্য ব্যর্থ হয়েছে]। সব খুব সুন্দরভাবে কাজ করেছে।

  • আপনার কোরাম যুক্তিটি ভাল শোনাচ্ছে - আমার 'কৃত্রিম প্রবাহের' সাথে কিছুটা মিল - মূলতঃ এগিয়ে যান, নিজেকে বাড়িয়ে তোলেন; -]। এবং এনআরপি ঠিক কীভাবে কাজ করছে তা এক ধরণের পতাকা [বা টাইমস্ট্যাম্প-স্ট্যাটাস সহ এসকিউএল ডিবি] পরীক্ষা করে দেখুন।

  • আপনি সম্ভবত স্কেল করার জন্য কিছু স্তরক্রম তৈরি করতে চাইবেন - আপনার কাছে এমন কিছু নোড থাকবে যা অন্যান্য নোডের ওভারভিউ সংগ্রহ করে, প্রথম বিন্দু থেকে উপস্থাপনাটি দেখুন look প্রতিটি একক চেকের জন্য ডিফল্ট নাগিওসকে আরও বেশি পরিমাণে পর্যবেক্ষণ করা পরিষেবার ওভারকিল দেওয়া হয়।

কিছু প্রশ্নের উত্তর দিতে:

  • আমার ক্ষেত্রে পরিবেশের দ্বারা নিরীক্ষণ করা হ'ল টিপিকাল মাস্টার-স্লেভ সেটআপ [প্রাথমিক স্কিল বা অ্যাপ্লিকেশন সার্ভার + হট স্ট্যান্ডবাই], কোনও মাস্টার-মাস্টার নয়।
  • আমার সেটআপটিতে 'হিউম্যান ফিল্টারিং ফ্যাক্টর' জড়িত - সমাধানকারী গ্রুপ যারা এসএমএসের বিজ্ঞপ্তির জন্য 'ব্যাকআপ' ছিল। ইতিমধ্যে টেকনিশিয়ানদের একটি গ্রুপ দেওয়া হয়েছিল যাদের অন্যান্য কারণে 24/5 শিফট ছিল, তারা অতিরিক্ত কাজ হিসাবে তাদের উপর খুব বেশি চাপ না ফেলে 'নাগিও মেলগুলি পরীক্ষা করে' পেয়েছে। এবং তারা নিশ্চিত করে যে ডিবি-অ্যাডমিনস / এটি-অপস / অ্যাপ্লিকেশন-অ্যাডমিনদের ওয়্যার আসলেই উঠেছে এবং সমস্যা সমাধানের বিষয়টি নিশ্চিত করার দায়িত্বে রয়েছে; -]
  • আমি জাব্বিক্স সম্পর্কে প্রচুর ভাল জিনিস শুনেছি - ট্র্যাডগুলি সতর্ক করতে এবং পরিকল্পনা করার জন্য, তবে কখনও এটি ব্যবহার করিনি। আমার জন্য munin শুধু একটি অতিরিক্ত চেক - কৌতুক আছে, আমি প্লাগইন আছে যদি 'কোনো লাল' [সমালোচনামূলক] সার্ভারের munin তালিকায় রঙ পরীক্ষণ সহজ nagios গভীর ক্ষত হয়েছে। আপনি মুনিনড আরআরডি-ফাইলগুলি থেকে পর্যবেক্ষণ করা মেশিনে আপনার পাঠানো প্রশ্নের সংখ্যা হ্রাস করতে মানগুলি ভালভাবে পড়তে পারেন।

1
@astinus - বুদ্ধিমান সতর্কতার জন্য আমি কাস্টম বিজ্ঞপ্তি স্ক্রিপ্ট ব্যবহার করেছি। আমি মেল / পেজারের মাধ্যমে নাগিওগুলিকে বিজ্ঞাপিত করে নির্ভর করে আমি মেসেজটি ফিফো কিতে সংরক্ষণ করেছিলাম এবং গ্রাহকরা যে কাস্টম লজিকের ভিত্তিতে বার্তা প্রেরণ করেছিলেন [কল কল শিডিউল ইত্যাদির উপর ভিত্তি করে] অতিরিক্তভাবে প্রতি ঘন্টা পাঠানো হয়েছে এমন এমএসএসের কিছু সীমা ছিল অল্প সময়ে 50 টি হাসি পায় না। আমি বৃহত্তর স্কেলগুলিতে অনুরূপ পন্থাগুলি দেখতে পাই - নাজিওসগুলি হ'ল কঙ্কাল এবং লোকেদের চারপাশের স্ক্রিপ্ট এবং আসলে এর বৈশিষ্ট্যগুলি কম এবং কম ব্যবহার করে।
pQd

1
শ্রেণিবিন্যাস সম্পর্কিত, এই মুহুর্তে আমার কাছে যা রয়েছে তা সম্পূর্ণরূপে "মডিউলার" নাগিওস সেটআপ যেখানে আপনার ইত্যাদি / ডিরেক্টরিতে একটি 'কোর' কনফিগারেশন রয়েছে যা সমস্ত হোস্টে ভাগ করা (এবং অভিন্ন) এবং তারপর ইত্যাদি / মডিউল / $ NAME (যেমন) : মেল, ওয়েব, নেটওয়ার্ক, ডিএনএস) যা সার্ভারের মধ্যে 100% বহনযোগ্য। সিএফজি_ডির সাথে অন্তর্ভুক্ত করুন) আপনি যে কোনও মডিউল-নির্দিষ্ট কমান্ড, প্লাগইন এবং সমস্ত কিছু সেই ডিরেক্টরিতে রেখেছেন । তৈরি করা> 1 সার্ভারটি সেই চেকগুলি চালানো বেশ সহজ কারণ আপনি কেবলমাত্র যত নাগিও বাক্সে মডিউলটি প্রয়োজন হিসাবে অনুলিপি করেছেন তবে আবার সতর্কতার যুক্তি সমস্যার কারণ ঘটায় :-)
নিক্সেক

1
@ astinus # 2। আমার ক্ষেত্রে কনফিগার প্রতিলিপি মাস্টার-> স্লেভ প্রতি 6 ঘন্টা অন্তর্ভুক্ত। যদি মাস্টার মাত্র মারা যায় [বিদ্যুৎ বিভ্রাট ইত্যাদি] - স্লেভ মাস্টার মরে যাওয়ার বিষয়ে [সার্ভারের মধ্যে ক্রসচেক] সম্পর্কে সবাইকে সতর্ক করবে। কেউ অন্য দৃশ্যের কল্পনা করতে পারে - যখন ভুল কনফিগারেশনের কারণে মাস্টার মারা যায়। যদি এটি কনফিগারেশনের সাথে স্লেভের সাথে সিঙ্কের 5 মিনিট পর্যন্ত হয় - তবে বিজ্ঞপ্তি হবে। যদি এটি কনফিগার সিঙ্কের ঠিক আগে হয় - দুর্ভাগ্যক্রমে আমরা মনিটরিং সিস্টেমটি না পেয়ে শেষ করি। 'প্রহরী কে দেখবে'? ভাল হতে পারে অন্য একটি খুব সহজ নাগিওস।
pQd

1
@ পিকিউডি - আকর্ষণীয়, আমি সম্মত হই যে কাস্টম নোটিফিকেশন স্ক্রিপ্টগুলিতে যুক্তি বাস্তবায়ন করা সম্ভবত পন্থা। যাইহোক 2+ হোস্টের নকল বিজ্ঞপ্তিগুলি এড়ানোর জন্য এটি খুব জটিল হয়ে ওঠে, যখন আপনি 50 টি পর্যবেক্ষণ হোস্ট বলছেন এবং এখনও আমি কাউকে দেখতে পাচ্ছি না (জনসমক্ষে) তাদের ভাগ করা যুক্তিটিকে খরগোশ বা অ্যামাজনের মতো সঠিক 'বার্তা' পাসিং সিস্টেমে রেখেছি SQS।
নিক্সেগেক

1
@ অ্যাস্টিনাস # 3 আমার ক্ষেত্রে এটি ছিল 'লেভেল 8' [আইসো ওসি মডেলের] সমাধান: প্রাথমিক নাগিওরা 24 +5 'রেজোলভার গ্রুপ' তে কল + মেইলে এসএমএস পাঠাচ্ছিল, যখন ২ য় নাগিও কেবল মেলিং করছিল ' সমাধানকারী গ্রুপ '। এটি বাড়ানোর আগে ডুপ্লিকেটগুলি ফিল্টার করা সেই গোষ্ঠীর উপর নির্ভর করে;
pQd

1

আপনি যা শোনার জন্য জিজ্ঞাসা করছেন তা শিনকেন নাগিওদের জন্য কী করেছে like

শিনকেন হলেন একটি নাগিওস পুনর্লিখন।

  • আধুনিক ভাষা (পাইথন)
  • আধুনিক বিতরণ প্রোগ্রামিং কাঠামো (পাইরো)
  • মনিটরিং রিয়েলम्स (মাল্টি-টেন্যান্সি), এইচএ, অতিরিক্ত
  • লাইভস্ট্যাটাস এপিআই
  • নাগিওস প্লাগইন সামঞ্জস্যপূর্ণ
  • নেটিভ এনআরপিই বাস্তবায়ন
  • ব্যবসায়ের ব্যবসায়িক সমালোচনা
  • ব্যবসায়ের বিধিগুলি অবজেক্টের স্থলে (ক্লাস্টার বা পুলের উপলব্ধতার ব্যবস্থাপনায়) প্রয়োগ করা যেতে পারে
  • গ্রাফিং গ্রাফাইট বা আরআরডিটোল ভিত্তিক পিএনপি 4নাগিস ব্যবহার করতে পারে
  • স্থিতিশীল এবং বড় পরিবেশে স্থাপন করা হচ্ছে
  • বড় ডিপ্লোয়মেন্টগুলি রিপোর্ট করার জন্য এটি স্প্লঙ্কের সাথে জুটি বাঁধার কথা বিবেচনা করতে পারে বা গ্রাফাইটে সন্ধান করতে পারে যেখানে আরআরডিটোল ভাল উপযুক্ত নয়।

এটি চিন্তার জন্য খাদ্য হওয়া উচিত।

চিয়ার্স

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.