আমি কীভাবে লিনাক্সে ইসিসি ত্রুটি সম্পর্কে অবহিত করব?


23

ইসিসি মেমরি দিয়ে সজ্জিত একটি লিনাক্স মেশিন যখন কোনও স্মৃতি ব্যর্থতা স্বীকার করে, তখন আমি কীভাবে বিজ্ঞপ্তি করব? আমি সংশোধনযোগ্য এবং সংশোধনযোগ্য উভয় ত্রুটিতে আগ্রহী।

  • যদি কোনও বার্তা dmesg / syslog এ লেখা হয় তবে এটি ইতিমধ্যে ভাল, তবে আমি কী সন্ধান করব তা জানতে আগ্রহী
  • অতিরিক্ত ডেমন ইনস্টল করা (হার্ড ড্রাইভের জন্য স্মার্টমনটোলগুলির মতো) গ্রহণযোগ্য
  • নাগিওস / আইসিংগা পর্যবেক্ষণ অন্য উপায় হবে way
  • সমস্ত মেশিনের নজরদারি করা উচিত নয় আইপিএমআই

সুদের সিস্টেমগুলির সুপারমাইক্রো বোর্ডগুলি রয়েছে (এক্স 9 এসসিএম-এফ), এইচপি এন 54 এল মাইক্রোসার্ভার সম্পর্কিত আমি কেবল কৌতুহলী, তবে খুব বেশি যত্ন নিই না। সমস্ত সিস্টেম ডেবিয়ান বা উবুন্টু লিনাক্স চালায়।


দয়া করে সার্ভারের ধরণ এবং মেক / মডেল, ওএস বিতরণ সংস্করণ এবং অন্য কোনও প্রাসঙ্গিক হার্ডওয়্যার বিশদ বর্ণনা করুন।
ew white

2
আমি জানতাম না যে এটি রিপোর্ট করা হয়েছিল ...
হাফগগার

সিসলগ mcelogপর্যবেক্ষণ করার সময় দৌড়ানোর পথে মনে হয়।
জেনস এরাত

উত্তর:


6

লিনাক্স কার্নেল সমর্থন এরার ডিটেকশন এন্ড কারেকশন ( EDAC দ্বারা ) কিছু চিপসেট বৈশিষ্ট্যগুলিও উপস্থিত রয়েছে। ইসিসি সহ একটি সমর্থিত সিস্টেমে আপনার মেমরি কন্ট্রোলারের অবস্থা সিএসএফএসের মাধ্যমে অ্যাক্সেসযোগ্য:

/sys/devices/system/edac/mc

এই অবস্থানগুলির নীচে ডিরেক্টরি ট্রি আপনার হার্ডওয়ারের সাথে মিলিত হওয়া উচিত, যেমন:

/sys/devices/system/edac/mc/mc0/csrow2/power
/sys/devices/system/edac/mc/mc0/csrow0/power
/sys/devices/system/edac/mc/mc0/dimm2/power
/sys/devices/system/edac/mc/mc0/dimm0/power
/sys/devices/system/edac/mc/mc1/power
...

আপনার হার্ডওয়ারের উপর নির্ভর করে আপনাকে স্পষ্টভাবে ডান এডাক ড্রাইভার, সিএফ লোড করতে হবে:

find /lib/modules/$(uname -r) -name '*edac*'

edac-utilsপ্যাকেজ একটি কমান্ড লাইন ফ্রন্টএন্ড এবং যে ডেটা, যেমন ব্যবহার করার জন্য একটি লাইব্রেরি উপলব্ধ করা হয়:

edac-util -rfull          
mc0:csrow0:mc#0memory#0:CE:0
mc0:csrow2:mc#0memory#2:CE:0
mc0:noinfo:all:UE:0
mc0:noinfo:all:CE:0
mc1:noinfo:all:UE:0
mc1:noinfo:all:CE:0

আপনি এমন কোনও ক্রোন-জব সেটআপ করতে পারেন যা পর্যায়ক্রমে eac-utilআপনার মনিটরিং সিস্টেমে ফলাফলগুলি কল করে এবং ফিড দেয়, যেখানে আপনি পরে কিছু বিজ্ঞপ্তি কনফিগার করতে পারেন।

এগুলি ছাড়াও দৌড়াদৌড়ি mcelogসাধারণত একটি ভাল ধারণা। সিস্টেমে নির্ভর করে তবে সংশোধনযোগ্য / সংশোধনযোগ্য ইসিসি ত্রুটিগুলি সম্ভবত মেশিন চেক ব্যতিক্রম ( এমসিই ) হিসাবেও রিপোর্ট করা হয়েছে । আমি বলতে চাইছি উচ্চতর তাপমাত্রার কারণে সিপিইউ থ্রটলিংয়ের এমনকি সংক্ষিপ্ত সময়কালে এমসিই হিসাবে রিপোর্ট করা হয়েছে।


9

mcelogমেমরি নিয়ামককে নিরীক্ষণ করবে এবং মেমরি ত্রুটির ঘটনাগুলি সিসলোগে প্রতিবেদন করবে এবং কিছু কনফিগারেশনে খারাপ মেমরি পৃষ্ঠাগুলি অফলাইন করতে পারে । এটি অবশ্যই মেশিন চেক ব্যতিক্রমগুলি এবং বিভিন্ন ধরণের অন্যান্য হার্ডওয়্যার ত্রুটিগুলি নিরীক্ষণের জন্য ব্যবহৃত সাধারণ ব্যবহার ছাড়াও।

বেশিরভাগ লিনাক্স ডিস্ট্রিবিউশনের একটি ডেমন হিসাবে চালানোর জন্য একটি পরিষেবা সেট আপ করা হয়, যেমন EL 6 এর জন্য:

chkconfig mcelog on
service mcelog start

উবুন্টু আর সমর্থন করেন না। ইনস্টলেশন ত্রুটি দেয়।
দিমিডাক


হ্যাঁ, থ্যাঙ্কস আমি দেখেছি, যদি আমি ভুল না করে তবে এটি উবুন্টু 18 সম্পর্কে কথা বলে তবে এটি উবুন্টু 14 তেও কাজ করে না।
দিমিডাক

@ ডিমিডাক এটি একটি আলাদা সমস্যা এবং এখানে প্রাসঙ্গিক নয়। আপনার যদি সাহায্যের প্রয়োজন হয় তবে আপনি এটি সম্পর্কে একটি নতুন প্রশ্ন জিজ্ঞাসা করতে পারেন।
মাইকেল হ্যাম্পটন

যে লোকটি প্রশ্নটি পোস্ট করেছে সে বলছে "সমস্ত সিস্টেমগুলি ডেবিয়ান বা উবুন্টু চালায়" এবং আপনার উত্তর এটির জন্য কার্যকর হয় না। সুতরাং এটি বেশ প্রাসঙ্গিক ...
ডিমিডাক

6

এটি আপনার সার্ভারের হার্ডওয়ারের উপর নির্ভর করে। একটি হোয়াইটবক্স বা একটি সুপার মাইক্রো সিস্টেম ডেল, এইচপি বা আইবিএম এর চেয়ে আলাদাভাবে এটি পরিচালনা করবে ...

হাই-এন্ড সার্ভারগুলির মান-যুক্ত বৈশিষ্ট্যগুলির মধ্যে একটি হ'ল হার্ডওয়্যার / ওএস সংহতকরণের একটি স্তর রয়েছে। উন্নত সার্ভারগুলি ম্যানেজমেন্ট এজেন্ট এবং / অথবা-অফ-ব্যান্ড ম্যানেজমেন্ট সলিউশন (আইএলও, ডিআরএসি, আইপিএমআই) এর অংশ হিসাবে আপনি যা খুঁজছেন তা প্রতিবেদন করবে।

আপনার হার্ডওয়্যার প্ল্যাটফর্মের নেটিভ সরঞ্জামগুলি ব্যবহার করা উচিত।

লিনাক্স এবং এইচপি ম্যানেজমেন্ট এজেন্টগুলির দ্বারা চালিত এইচপি প্রোলিয়েন্ট সার্ভারের অংশ:

Trap-ID=6056
ECC Memory Correctable Errors  detected.

এবং

Trap-ID=6052
Advanced ECC Memory  Engaged

বা আরও গুরুতর

Trap-ID=6029
A correctable memory log entry indicates a memory module needs to be
replaced.

বা সবচেয়ে খারাপ ... 6 দিনের জন্য ত্রুটি উপেক্ষা করে সার্ভারটি খারাপ র‌্যামের কারণে ক্রাশ না হওয়া অবধি

0004 Repaired       22:21  12/01/2008 22:21  12/01/2008 0001
LOG: Corrected Memory Error threshold exceeded (Slot 1, Memory Module 1)

0007 Repaired       02:58  12/07/2008 02:58  12/07/2008 0001
LOG: POST Error: 201-Memory Error Single-bit error occured during 
memory initialization, 
Board 1, DIMM 1. Bank containing DIMM(s) has been disabled.

0008 Repaired       19:31  12/08/2009 19:31  12/08/2009 0001
LOG: ASR Detected by System ROM

এগুলি লগ করা হয়েছিল, এবং এসএনএমপি ট্র্যাপগুলি এবং ইমেলগুলি প্রেরণ করা হয়েছিল।

জেনারিক্যালি, আপনি কার্নেল রিং বাফারে মেশিন চেক ব্যতিক্রমগুলি দেখতে পাবেন, যাতে আপনি mcelog পরীক্ষা করতে dmesgবা চালাতে পারেন । আইপিএমআই ছাড়াই সুপারমাইক্রো গিয়ারের সাথে আমার অভিজ্ঞতাগুলিতে, যা সমস্ত কিছু ধরেনি, এবং আমার এখনও র‌্যামের ত্রুটিগুলি ফাটল ধরে আছড়ে পড়েছিল এবং আক্রমণের কারণ ঘটেছে। দুর্ভাগ্যক্রমে, এটি সিস্টেম মোতায়েনের আগে প্রত্নতাত্ত্বিক র‍্যাম বার্ন-ইন নীতিগুলি নিয়েছিল।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.