কীভাবে সিস্টেম ক্রাশের কারণ নির্ধারণ করবেন?


10

আমার সার্ভারটি সপ্তাহে একবারে ক্র্যাশ হয়ে যায় এবং এর কারণ কী তা নিয়ে কোনও ধরণের ইঙ্গিত ছাড়েনি। আমি যাচাই করে দেখেছি /var/log/messagesএবং এটি কোনও সময়ে রেকর্ডিং বন্ধ করে দেয় এবং আমি যখন হার্ড রিবুট করি তখন কম্পিউটার পোস্টের তথ্য থেকে শুরু হয়।

আমি যা পরীক্ষা করতে পারি বা এমন কোনও সফ্টওয়্যার ইনস্টল করতে পারি যা কারণ নির্ধারণ করতে পারে?

আমি CentOS 7 চালাচ্ছি।

এখানে আমার একমাত্র ত্রুটি / সমস্যা /var/log/dmesg: https://paste.netcoding.net/cosisiloji.log

[    3.606936] md: Waiting for all devices to be available before autodetect
[    3.606984] md: If you don't use raid, use raid=noautodetect
[    3.607085] md: Autodetecting RAID arrays.
[    3.608309] md: Scanned 6 and added 6 devices.
[    3.608362] md: autorun ...
[    3.608412] md: considering sdc2 ...
[    3.608464] md:  adding sdc2 ...
[    3.608516] md: sdc1 has different UUID to sdc2
[    3.608570] md:  adding sdb2 ...
[    3.608620] md: sdb1 has different UUID to sdc2
[    3.608674] md:  adding sda2 ...
[    3.608726] md: sda1 has different UUID to sdc2
[    3.608944] md: created md2
[    3.608997] md: bind<sda2>
[    3.609058] md: bind<sdb2>
[    3.609116] md: bind<sdc2>
[    3.609175] md: running: <sdc2><sdb2><sda2>
[    3.609548] md/raid1:md2: active with 3 out of 3 mirrors
[    3.609623] md2: detected capacity change from 0 to 98520989696
[    3.609685] md: considering sdc1 ...
[    3.609737] md:  adding sdc1 ...
[    3.609789] md:  adding sdb1 ...
[    3.609841] md:  adding sda1 ...
[    3.610005] md: created md1
[    3.610055] md: bind<sda1>
[    3.610117] md: bind<sdb1>
[    3.610175] md: bind<sdc1>
[    3.610233] md: running: <sdc1><sdb1><sda1>
[    3.610714] md/raid1:md1: not clean -- starting background reconstruction
[    3.610773] md/raid1:md1: active with 3 out of 3 mirrors
[    3.610854] md1: detected capacity change from 0 to 20970405888
[    3.610917] md: ... autorun DONE.
[    3.610999] md: resync of RAID array md1
[    3.611054] md: minimum _guaranteed_  speed: 1000 KB/sec/disk.
[    3.611119] md: using maximum available idle IO bandwidth (but not more than 200000 KB/sec) for resync.
[    3.611180] md: using 128k window, over a total of 20478912k.
[    3.611244]  md1: unknown partition table
[    3.624786] EXT3-fs (md1): error: couldn't mount because of unsupported optional features (240)
[    3.627095] EXT2-fs (md1): error: couldn't mount because of unsupported optional features (244)
[    3.630284] EXT4-fs (md1): INFO: recovery required on readonly filesystem
[    3.630341] EXT4-fs (md1): write access will be enabled during recovery
[    3.819411] EXT4-fs (md1): orphan cleanup on readonly fs
[    3.836922] EXT4-fs (md1): 24 orphan inodes deleted
[    3.836975] EXT4-fs (md1): recovery complete
[    3.840557] EXT4-fs (md1): mounted filesystem with ordered data mode. Opts: (null)

উত্তর:


6

আপনি যদি crashkernel/kdumpইনস্টল ও সক্ষম করে থাকেন তবে crashইউটিলিটিটি ব্যবহার করে সহজেই আপত্তিজনকভাবে ক্র্যাশ করা কার্নেলটি পরীক্ষা করতে পারবেন । উদাহরণস্বরূপ, অনুমান করে আপনি যে কার্নেল ডাম্প ক্র্যাশ করেছেন সেগুলি নীচে সংরক্ষণ করা হয়েছে /var/crash: crash /var/crash/2009-07-17-10\:36/vmcore /usr/lib/debug/lib/modules/uname -r /vmlinux

একটি লুক দিন এখানে এবং এখানে যোগ বিস্তারিত জানার জন্য।


ক্র্যাশকারেল / কেডম্প /dev/md1 not foundচালানোর সময় grub2-probeএবং ইনস্টল ও কনফিগার করার সময় আমি ত্রুটিটি মেরামত করেছি এবং / যখন এটি আবার ক্র্যাশ হয় তখন ফিরে রিপোর্ট করব।
ব্রায়ান গ্রাহাম

5

আপনি dmesg ফাইলটি পরীক্ষা করতে পারেন /var/log/dmesgযা কার্নেল বার্তাগুলি লগ করছে। বার্তাগুলি লগ কেবল পরিষেবা এবং অ্যাপ্লিকেশন বার্তাগুলি লগইন করা হয় এবং আপনার যদি কার্নেল ত্রুটি থাকে তবে পরিষেবাগুলি এবং অ্যাপ্লিকেশনগুলি কেবল চলমান বন্ধ করবে, তবে কার্নেল ত্রুটিটি এখনও ডেমেসে লগইন রয়েছে।


আমি dmesg এবং dmesg.old পরীক্ষা করেছি, উভয়ই কেবল স্টার্টআপ তথ্য (প্রায় 4.8 সেকেন্ড) ধারণ করে। কেবলমাত্র "সমস্যা" আমি দেখতে পাচ্ছি এটি হ'ল স্টার্টআপ ডিস্ক বা রাইড ড্রাইভগুলিতে কিছু ভুল আছে তবে সিস্টেম এটি ঠিক করে এবং নির্বিশেষে কাজ করে। লিঙ্কের জন্য প্রধান পোস্ট পরীক্ষা করুন।
ব্রায়ান গ্রাহাম

2
  • বায়োস মেমরি পরীক্ষা
  • বায়োস হার্ড ড্রাইভ পরীক্ষা
  • স্মার্ট ড্রাইভ লগ চেক করুন smartctl /dev/sda -a
  • স্মার্ট ড্রাইভ পরীক্ষা
  • dmesg -wHএকটি উইন্ডো চলমান ছেড়ে

আমি সমস্ত 3 ড্রাইভে স্মার্ট ড্রাইভ পরীক্ষা চালিয়েছি, সেগুলি নিরবিচ্ছিন্ন। আমি dmesg -wHএকটি উইন্ডোতে দৌড়াচ্ছি (আমি ধরে নিলাম এটি ক্র্যাশ না হওয়া অবধি; এবং এসএসএইচ-এর উপর ক্র্যাশের পরে আউটপুটটি পড়তে পারি)। আমার মেশিনে শারীরিক অ্যাক্সেস নেই, আমি কী আমার হোস্টকে বায়োস মেমরি এবং হার্ড ড্রাইভ পরীক্ষা চালাতে বলি?
ব্রায়ান গ্রাহাম
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.