আমার কাছে সান এক্স 2200-এম 2 সার্ভারের একটি গাদা আছে। এই সার্ভারগুলির ইসিসি মেমরি রয়েছে।
এর মধ্যে কয়েকটি সার্ভারে আমি ইলমতে "সংশোধনযোগ্য ইসিসি ত্রুটি সনাক্ত করা" সম্পর্কে সতর্কতা পাচ্ছি, যেমন:
# ssh regress11 ipmitool sel elist
1 | 05/20/2010 | 14:20:27 | Memory CPU0 DIMM2 | Correctable ECC | Asserted
2 | 05/20/2010 | 14:33:47 | Memory CPU0 DIMM2 | Correctable ECC | Asserted
... অন্যদের চেয়ে কিছু বেশি ঘন ঘন।
এই নির্দিষ্ট সিস্টেমে কার্নেলটি EDAC ত্রুটিগুলিও ছুঁড়ে দিচ্ছে, যদিও ELOM এর চেয়ে অনেক বেশি ফ্রিকোয়েন্সি সহ ইসিসি ইভেন্টগুলি রেকর্ড করছে:
EDAC k8 MC0: general bus error: participating processor(local node response), time-out(no timeout) memory transaction type(generic read), mem or i/o(mem access), cache level(generic)
MC0: CE page 0x42a194, offset 0x60, grain 8, syndrome 0xf654, row 4, channel 1, label "": k8_edac
MC0: CE - no information available: k8_edac Error Overflow set
EDAC k8 MC0: extended error code: ECC chipkill x4 error
EDAC k8 MC0: general bus error: participating processor(local node response), time-out(no timeout) memory transaction type(generic read), mem or i/o(mem access), cache level(generic)
MC0: CE page 0x48cb94, offset 0x10, grain 8, syndrome 0xf654, row 5, channel 1, label "": k8_edac
MC0: CE - no information available: k8_edac Error Overflow set
EDAC k8 MC0: extended error code: ECC chipkill x4 error
এখন যদি সার্ভারটি সংশোধনযোগ্য ইসিসি সনাক্ত করছে, সিস্টেমটি পুনরায় সেট করে, তাই পরিষ্কারভাবে এটি খারাপ এবং চিহ্নিত লাঠিটি বা জোড়াটি সরিয়ে / প্রতিস্থাপনের ফলে সমস্যাটিকে সংশোধন করে।
তবে আমি ভাবছি যে ত্রুটিটি যদি সঠিক হয় তবে তারপরে তাত্ক্ষণিক সমস্যা নেই - আমি এটিকে সতর্কতা হিসাবে বিবেচনা করতে পারি এবং যদি কোনও অনিষ্টযোগ্য ত্রুটি ঘটতে শুরু করে তবে লাঠি / জোড় টানতে প্রস্তুত থাকতে পারি?