কিভাবে অপ্রত্যাশিত লিনাক্স সার্ভার শাট ডাউন তদন্ত করবেন?


16

ডেবিয়ান 6 এর সাথে রেড 10 এ 4xSSD সহ একটি নতুন শিওন 55XX সার্ভারে, সার্ভারটি তৈরি হওয়ার পরে আমি দুই সপ্তাহের মধ্যে 2 টি এলোমেলো শাট ডাউন অনুভব করেছি। শাট ডাউন করার আগে ব্যান্ডউইথ লগগুলিতে তাকানো কোনও অস্বাভাবিক কিছু নির্দেশ করে না। সার্ভার লোডটি সাধারণত খুব কম থাকে (প্রায় 1) এবং এটি খুব দূরে সংঘর্ষে রয়েছে the সার্ভারটি ডাউন হয়ে যাওয়ার সময় কোনও বিদ্যুত বিভ্রাট বলে মনে হয় না।

আমি জানি যে আমি / var / লগটি দেখি তবে নিশ্চিত নয় যে আমার কোন লগগুলি তদন্ত করা উচিত এবং আমার কী সন্ধান করা উচিত। তাই আপনার ইঙ্গিতগুলির প্রশংসা করুন।


সমস্যাটি কি খুঁজে পেয়েছেন?
চেরোভিম

উত্তর:


11

প্রথমে, আমাকে জিজ্ঞাসা করতে হবে: "শাটডাউন"? আপনি কী বোঝাতে চেয়েছেন যে মেশিনটি রিবুট হয় বা এটি আসলে থামে? যদি এটি বন্ধ হয়ে যায় তবে এটি হয় ভুল কনফিগার করা হয়েছে (সম্ভবত বিআইওএস-এ) বা কোনও কিছু সক্রিয়ভাবে মেশিনটি বন্ধ করে দিচ্ছে (অর্থাত্ 0 0)।

যদি তা না হয় তবে আপনার প্রাথমিক প্রার্থী / var / log / syslog এবং /var/log/kern.log হবে কারণ আপনার সমস্যাটি কার্নেল প্যানিক বা সফ্টওয়্যার দ্বারা চালিত হার্ডওয়্যার-ফল্টের মতো মনে হচ্ছে। অবশ্যই, যদি সার্ভারটি কিছু পরিষেবা চালায় (যেমন অ্যাপাচি) আপনাকে খুব ক্লুও দিতে পারে।

প্রায়শই, এই জাতীয় পরিস্থিতিতে লগ এন্ট্রি উত্পন্ন হয় তবে মেশিনটির সমস্যা হওয়ায় এটি ডিস্কে এন্ট্রি লিখতে সক্ষম হবে না। যদি বাক্সটি একত্রিত হয়, তবে সম্ভাবনা হ'ল এটি কোলো অংশীদার দ্বারা সিরিয়াল কনসোলের সাথে সংযুক্ত। সেখান থেকে আমি যদি লগগুলিতে কোনও সন্দেহজনক কিছু না পাই তবে আমি দেখতে চাই।

যদি মেশিনটি সিরিয়াল কনসোলের সাথে সংযুক্ত না থাকে এবং লগটিতে কিছুই না থাকে তবে আপনি নেটওয়ার্কের মাধ্যমে কোনও সিসলগ অন্য কোনও বাক্সে প্রেরণ বিবেচনা করতে পারেন। সম্ভবত নেটওয়ার্ক ইন্টারফেসটি কিছুটা বেশি সময় বেঁচে থাকতে পারে এবং লগ বার্তাগুলি সিসলগ সার্ভারে পড়তে পারে। Rsyslog বা syslog-ng এ দেখুন।

হালনাগাদ:

আমি নীচে @ জোহান এর সাথে একমত থামার সর্বাধিক সম্ভাব্য কারণ হ'ল প্রসেসরের তাপমাত্রা নজরদারি। Lmsensors বা smartctl (সাধারণত সবচেয়ে সহজ) এর মাধ্যমে বাক্সে তাপমাত্রা পরীক্ষা / চক্রান্ত করার চেষ্টা করুন। আমি দেখতে পেয়েছি যে সংগ্রহ করা সময়ের সাথে সাথে প্রচুর পরিমাণে ভেরিয়েবলের ট্র্যাক রাখতে অতুলনীয়। এটি আইপিএমআই এবং এলএম-সেন্সর এবং এইচডিডিটেম্প উভয়ই করতে পারে। এছাড়াও, কিছু বায়োস: এসএস লগ তাপমাত্রা হোল ইভেন্টগুলি।


মেশিনটি বন্ধ হয়ে গেল এবং আমি ম্যানুয়ালি এটি শুরু করার জন্য সমর্থনটি বলার ঠিক পরে প্রাণ ফিরে পেল।
আলফিশ

তাপমাত্রা যদি সমস্যা হয় তবে ট্রেন্ডগুলি চিহ্নিত করার জন্য সময়ের সাথে তাপমাত্রা-ডেটা ট্র্যাক করতে মুনিন ইনস্টল করুন।
পখমরে

+1 তাপমাত্রা সম্পর্কিত সমস্যাগুলি। একটি ডেটাসেন্টারে আমার সার্ভারগুলির একটিতে একই জিনিস ছিল - দেখা যাচ্ছে যে তারা সিস্টেমটি তৈরি করার সময় তারা কোনও সিপিইউ অনুরাগীর সাথে সংযোগ করতে ভুলে গিয়েছিল।
অনুদান

9

প্রথমে, আপনি পরীক্ষা করতে চান /var/log/syslog। আপনি যদি নিশ্চিত না জন্য চেহারা কি হন, তাহলে আপনি শব্দের জন্য তাকালে শুরু করতে পারেন error, panicএবং warning

grep -i error /var/log/syslog

আপনার যদি সিস্টেম গ্রাফ উপলব্ধ থাকে (যেমন মুনিন)। এগুলি পরীক্ষা করে দেখুন এবং অস্বাভাবিক নিদর্শনগুলি দেখুন। আপনার যদি মুনিন ইনস্টল না থাকে তবে এটি ইনস্টল করার ধারণা হতে পারে ( apt-get install munin munin-node)

আপনার সিস্টেম ক্র্যাশের সাথে সম্পর্কিত যে কোনও আকর্ষণীয় বার্তাগুলির জন্য আপনার রুট-মেলও পরীক্ষা করা উচিত।

অন্যান্য লগফাইলে আপনার যাচাই করা উচিত হ'ল অ্যাপ্লিকেশন ত্রুটি-লগ। যেমন /var/log/apache2/error.logবা অচেনা iliar এগুলির মধ্যে এমন তথ্য থাকতে পারে যা আপনাকে সমস্যার দিকে নিয়ে যায়।


6

আমার অভিজ্ঞতায় প্রায়শই অতিরিক্ত গরমের কারণে একটি "অপ্রত্যাশিত থাম" দেখা দেয়। Lm_sensors এর মাধ্যমে আপনার তাপমাত্রা এবং ফ্যানের গতি পরীক্ষা করুন এবং নিশ্চিত করুন যে তারা ভাল।

সম্প্রতি আমাদের একই প্যাটার্নটি ছিল: সমর্থনটি ম্যানুয়ালি এটি শুরু করার এক ঘন্টা পরে একটি সার্ভার থামিয়েছিল। এই ঘন্টা পরে সিপিইউ তাপমাত্রা BIOS (iirc 60 বা 70 ° C) এর মধ্যে কনফিগার করা প্রান্তকে আঘাত করে এবং সিস্টেমটি থামিয়ে দেয়। এই সমস্ত ঝামেলা যেখানে একটি ভাঙ্গা সিপিইউ ফ্যান দ্বারা সৃষ্ট। ফ্যান প্রতিস্থাপনের পরে সবকিছু স্বাভাবিক অবস্থায় ফিরে আসে।


2

/ Var / লগ ডিরেক্টরিতে (এবং এটির উপ-ডিরেক্টরিগুলি) বেশ কয়েকটি লগ ফাইল রয়েছে

/var/log/boot

এবং

/var/log/boot.log

উপরের ফাইলগুলি দিয়ে শুরু করুন।


এবং "কি" জন্য দেখুন?
পিয়ের.ভ্রিয়েন্স

এটি ব্যর্থতার ধরণের উপর নির্ভর করে। বেশিরভাগ ক্ষেত্রে, মূল কারণটি কার্নেল ক্রাশ, একটি শক্তি ব্যর্থতা বা অত্যধিক উত্তেজিত সিপিইউ শাটডাউন যার অর্থ লগ ফাইলগুলিতে একটি এন্ট্রি লিখতে এবং এটি ডিস্কে ফ্লাশ করার মতো কেউ নেই, সুতরাং সেখানে কোনও বার্তা থাকবে না ।
এসডমিন

1

শাটডাউনটি কীভাবে ট্রিগার করেছিল তা যাচাই করার দুটি উপায় রয়েছে, প্রথমে হার্ডওয়্যারের যে কোনও সমস্যার জন্য আউট-অফ-ব্যান্ড ম্যানেজমেন্ট কনসোলটি পরীক্ষা করে দেখুন, আমি এসএনএমপি কনফিগার করতে এবং ইমেলগুলি গ্রহণ করতে বা কোনও সতর্কতার জন্য মনিটরিং সফ্টওয়্যারটিতে ট্র্যাপগুলি যুক্ত করার পরামর্শ দেব would

তারপরে অপারেটিং সিস্টেমের মাধ্যমে আপনি /var/log/messages(রেডহ্যাট ভিত্তিক ডিগ্রোস) বা /var/log/syslog( ডাবিয়ান ভিত্তিক ডিস্ট্রোস) চেক করতে পারেন ।


0

কোনও সমস্যা দেখা দিলে ডিস্ক সাবসিস্টেমটি প্রভাবিত হওয়ার পক্ষে যথেষ্ট জটিল, কারণ আপনি নিজের লগ ফাইলগুলিতে খুব কমই পেয়ে যাবেন।

সিরিয়াল কনসোল লগ ইন করার চেষ্টা করুন। লাইনগুলি তুলতে এটির জন্য কিছু ক্যাবলিং এবং অন্য সিস্টেমের প্রয়োজন, তবে সমস্যাটি ধরার জন্য আপনার আরও ভাল সম্ভাবনা রয়েছে।

অবশ্যই যদি আপনার নোডে ওরাকল এর ALOM / ILOM এর মতো বিল্ট-ইন ম্যানেজমেন্ট সিস্টেম থাকে তবে আপনি সেখানে সম্ভাব্য সমস্যাগুলি এবং লগ ফাইলগুলিও পরীক্ষা করতে পারেন।


-1

সিস্টেমটি এটি পরবর্তী কমান্ডগুলির সাথে নিচে চলেছে এমন সত্য সম্পর্কে জানতে পারে কিনা তা আপনি আবিষ্কার করতে পারেন

sudo last -1x reboot
sudo last -1x shutdown

যদি কোনও তথ্য => না থাকে তবে এটি শক্তি বা অন্য কোনও বাহ্যিক ক্ষতি হতে পারে

আপনার কাছে যদি তথ্য => পুনরায় বুট / শাটডাউন সময়ের চারপাশে লগগুলিতে অনুসন্ধান করুন

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.