এমসিই বার্তা থেকে ত্রুটিযুক্ত মেমরি মডিউলটি কীভাবে সন্ধান করবেন?


11

সার্ভারে কোন মেমরি মডিউলটি খারাপ তা খুঁজে পেতে আমি এমসিই বার্তাটি বোঝার চেষ্টা করছি। এই বার্তাটি /var/log/kern.logএকটি সার্ভারে উপস্থিত হয় যা আজ দু'বার জমে যায়।

Apr 13 22:39:22 mbox kernel: [36247975.116860] sbridge: HANDLING MCE MEMORY ERROR
Apr 13 22:39:22 mbox kernel: [36247975.116867] CPU 0: Machine Check Exception: 0 Bank 5: 8c00004000010090
Apr 13 22:39:22 mbox kernel: [36247975.116869] TSC 0 ADDR 4a0d75900 MISC 21405cdc86 PROCESSOR 0:206d7 TIME 1428957562 SOCKET 0 APIC 0
Apr 13 22:39:22 mbox kernel: [36247975.951013] EDAC MC0: 1 CE memory read error 

আমি খারাপ মেমরির মডিউলটি সন্দেহ করি। সার্ভারটি 2x Xeon E5-2650 যা 8x8Go মেমরি মডিউল (প্রতিটি সিপিইউর জন্য 8 মেমরি স্লট) সহ

এখানে থেকে মেমরি মডিউল জনসংখ্যা lshw:

 *-memory:0
      description: System Memory
      physical id: 2d
      slot: System board or motherboard
    *-bank:0
         description: DIMM DDR3 1333 MHz (0,8 ns)
         product: 9965516-197.A
         vendor: Kingston
         physical id: 0
         serial: B83AE5C2
         slot: P1_DIMMA1
         size: 8GiB
         width: 64 bits
         clock: 1333MHz (0.8ns)
    *-bank:1
         description: DIMM Synchronous [empty]
         product: Dimm1_PartNum
         vendor: Dimm1_Manufacturer
         physical id: 1
         serial: Dimm1_SerNum
         slot: P1_DIMMA2
         width: 64 bits
    *-bank:2
         description: DIMM DDR3 1333 MHz (0,8 ns)
         product: 9965516-048.A
         vendor: Kingston
         physical id: 2
         serial: EC309238
         slot: P1_DIMMB1
         size: 8GiB
         width: 64 bits
         clock: 1333MHz (0.8ns)
    *-bank:3
         description: DIMM Synchronous [empty]
         product: Dimm4_PartNum
         vendor: Dimm4_Manufacturer
         physical id: 3
         serial: Dimm4_SerNum
         slot: P1_DIMMB2
         width: 64 bits
    *-bank:4
         description: DIMM DDR3 1333 MHz (0,8 ns)
         product: 9965516-048.A
         vendor: Kingston
         physical id: 4
         serial: E9305438
         slot: P1_DIMMC1
         size: 8GiB
         width: 64 bits
         clock: 1333MHz (0.8ns)
    *-bank:5
         description: DIMM Synchronous [empty]
         product: Dimm7_PartNum
         vendor: Dimm7_Manufacturer
         physical id: 5
         serial: Dimm7_SerNum
         slot: P1_DIMMC2
         width: 64 bits
    *-bank:6
         description: DIMM DDR3 1333 MHz (0,8 ns)
         product: 9965516-048.A
         vendor: Kingston
         physical id: 6
         serial: E7305738
         slot: P1_DIMMD1
         size: 8GiB
         width: 64 bits
         clock: 1333MHz (0.8ns)
    *-bank:7
         description: DIMM Synchronous [empty]
         product: Dimm10_PartNum
         vendor: Dimm10_Manufacturer
         physical id: 7
         serial: Dimm10_SerNum
         slot: P1_DIMMD2
         width: 64 bits
 *-memory:1
      description: System Memory
      physical id: 3f
      slot: System board or motherboard
    *-bank:0
         description: DIMM DDR3 1333 MHz (0,8 ns)
         product: 9965516-197.A
         vendor: Kingston
         physical id: 0
         serial: B63A08C3
         slot: P2_DIMME1
         size: 8GiB
         width: 64 bits
         clock: 1333MHz (0.8ns)
    *-bank:1
         description: DIMM Synchronous [empty]
         product: Dimm1_PartNum
         vendor: Dimm1_Manufacturer
         physical id: 1
         serial: Dimm1_SerNum
         slot: P2_DIMME2
         width: 64 bits
    *-bank:2
         description: DIMM DDR3 1333 MHz (0,8 ns)
         product: 9965516-048.A
         vendor: Kingston
         physical id: 2
         serial: EA309638
         slot: P2_DIMMF1
         size: 8GiB
         width: 64 bits
         clock: 1333MHz (0.8ns)
    *-bank:3
         description: DIMM Synchronous [empty]
         product: Dimm4_PartNum
         vendor: Dimm4_Manufacturer
         physical id: 3
         serial: Dimm4_SerNum
         slot: P2_DIMMF2
         width: 64 bits
    *-bank:4
         description: DIMM DDR3 1333 MHz (0,8 ns)
         product: 9965516-048.A
         vendor: Kingston
         physical id: 4
         serial: E7305938
         slot: P2_DIMMG1
         size: 8GiB
         width: 64 bits
         clock: 1333MHz (0.8ns)
    *-bank:5
         description: DIMM Synchronous [empty]
         product: Dimm7_PartNum
         vendor: Dimm7_Manufacturer
         physical id: 5
         serial: Dimm7_SerNum
         slot: P2_DIMMG2
         width: 64 bits
    *-bank:6
         description: DIMM DDR3 1333 MHz (0,8 ns)
         product: 9965516-048.A
         vendor: Kingston
         physical id: 6
         serial: E7305B38
         slot: P2_DIMMH1
         size: 8GiB
         width: 64 bits
         clock: 1333MHz (0.8ns)
    *-bank:7
         description: DIMM Synchronous [empty]
         product: Dimm10_PartNum
         vendor: Dimm10_Manufacturer
         physical id: 7
         serial: Dimm10_SerNum
         slot: P2_DIMMH2
         width: 64 bits
 *-memory:2 UNCLAIMED
      physical id: 7
 *-memory:3 UNCLAIMED
      physical id: 9

আপনি খেয়াল করতে পারেন, # 5 ব্যাঙ্কে কোনও মেমরি মডিউল নেই যা। সুতরাং আমার প্রশ্ন: আপনি কি এই বার্তাটি মেমরির ব্যর্থতা সম্পর্কে সম্মত হন? এবং যদি তা হয় তবে আমি প্রতিস্থাপন করতে হবে যে মডিউলটি আমি খুঁজে পেতে পারি?

উত্তর:


10

এই ত্রুটিগুলি EDAC থেকে আসছে - ডিভাইসের ত্রুটি সনাক্তকরণ এবং সংশোধন edac_mc শ্রেণি।

আপনি যে ইভেন্টগুলি গ্রহণ করছেন তা হ'ল সিই ইভেন্টগুলি (সংশোধনযোগ্য ত্রুটি)। এগুলি ইঙ্গিত দেয় যে কোনও ডিআইএমএম ব্যর্থ হতে শুরু করেছে।

কোন মেমরি সারি বা চ্যানেল এটি উল্লেখ করেছে সে সম্পর্কে EDAC কোনও সুনির্দিষ্ট তথ্য জানায় নি তাই এটি ব্যর্থ হওয়া অবধি কোনটি প্রতিস্থাপন করা উচিত তা বলা মুশকিল।

তবে এক নজরে দেখুন: / sys / ডিভাইস / সিস্টেম / এডাক / এমসি / এমসি * এবং এটি আপনাকে যে সারি / ডি্মমটি হতে পারে এটি ত্রুটিযুক্ত হতে পারে a

উদাহরণ স্বরূপ

ls -s /sys/devices/system/edac/mc/mc0 total 0 0 ce_count 0 csrow1 0 csrow4 0 csrow7 0 reset_counters 0 size_mb 0 ce_noinfo_count 0 csrow2 0 csrow5 0 device 0 sdram_scrub_rate 0 ue_count 0 csrow0 0 csrow3 0 csrow6 0 mc_name 0 seconds_since_reset 0 ue_noinfo_count

ce_count ক্ষেত্রটি দেখুন।

পাশের নোটে:

সিস্টেমটি এখনও চালিয়ে যেতে পারে তবে কম সুরক্ষার সাথে। প্রতিরোধক রক্ষণাবেক্ষণ এবং মেমরি ডিআইএমএমগুলির সিইগুলি প্রদর্শনকারীগুলির প্র্যাকটিভ অংশ প্রতিস্থাপনটি ভয়ঙ্কর ইউই (অবিচ্ছিন্ন ত্রুটি) ইভেন্ট এবং সিস্টেম 'প্যানিকস' এর সম্ভাবনা হ্রাস করতে পারে।

এডাক সম্পর্কিত আরও তথ্য এখানে:

https://www.kernel.org/doc/Documentation/edac.txt


বা রিবুট করুন এবং গ্রুব বুট স্ক্রিনে স্মৃতিচারণ করুন এবং এটি আপনাকে আরও কিছু তথ্য দিতে পারে।
কামগার

আজ সকালে আর কোনও এমসিই বার্তা নেই (সার্ভারে কোনও শারীরিক অ্যাক্সেস নেই), এটি এডাক চেক করার জন্য অপেক্ষা করছে, ভাল ধারণা!
ম্যাটগ

1

এটি এমস্লগ ইনস্টল করতে এবং এটি ডেমন হিসাবে চালাতে সহায়তা করতে পারে, এটি আরও ভাল প্রতিবেদন সরবরাহ করতে সহায়তা করতে পারে। তারা এখনও ক্রিপ্টিক তবে ক্রিমপিট ডিআইএমএম সন্ধানের জন্য আরও কিছু তথ্য রয়েছে।

মেসলগ অতিরিক্ত মেমরির ত্রুটিগুলি সহ পৃষ্ঠাগুলি অক্ষম করে রিয়েল-টাইম সমস্যাগুলি পরিচালনা করতে পারে এবং মেশিনটি পুনরুদ্ধার না করা অবধি আপনাকে মেশিনটিকে দীর্ঘতর রাখার আরও সুযোগ দেয়।


ধন্যবাদ, এটি আমিই করেছি তবে প্রথম পোস্টের পরে আর কোনও ত্রুটি নেই। আমরা সমস্ত ডিআইএমএম প্রতিস্থাপন করার সিদ্ধান্ত নিয়েছি।
ম্যাটগ

কখনও কখনও ত্রুটিগুলি ক্ষণস্থায়ী ক্ষণস্থায়ী হয় এবং কখনও কখনও এগুলিকে খুব সুনির্দিষ্ট জায়গাগুলিতে বাঁধা হয় যা খুব কমই স্পর্শ করা হয়। ত্রুটিগুলি যদি পুনরাবৃত্তি না করে তবে আমি ব্যক্তিগতভাবে ডিমগুলি প্রতিস্থাপন এবং নিরীক্ষণ চালিয়ে থাকতাম না, তবে প্রতিস্থাপনটিও বৈধ।
বারুচ এমনকি

1

কিছু বিক্রেতারা বলেছেন যে একটি নির্দিষ্ট সময়কালে বেশ কয়েকটি সংশোধনযোগ্য ত্রুটি কোনও ক্ষতি হয় না।

উদাহরণস্বরূপ, নিচের ইভেন্টগুলির মধ্যে একটি ঘটলে ওরাকল একটি ডিআইএমএম প্রতিস্থাপন করে বলে:

  • 24 টিরও বেশি সংশোধনযোগ্য ত্রুটি (সিই) একক ডিআইএমএম থেকে 24 ঘন্টার মধ্যে উত্পন্ন হয় এবং অন্য কোনও ডিআইএমএম আরও সিই দেখায় না।

  • ভুল সংশোধনযোগ্য মেমরি ত্রুটি (ইউসিই) এর কারণে ডিআইএমএম BIOS এর অধীনে মেমরি পরীক্ষায় ব্যর্থ হয়।

  • ইউসিইগুলি ঘটে এবং তদন্তে দেখা যায় যে ত্রুটিগুলির উত্স স্মৃতি থেকে হয়েছিল।

24 ঘন্টা 24 ত্রুটি লক্ষ্য করুন।

https://docs.oracle.com/cd/E19150-01/820-4213-11/dimms.html

এছাড়াও,

যদি একাধিক ডিআইএমএম একাধিক সিই অনুভব করে থাকে তবে সিইএসের অন্যান্য সম্ভাব্য কারণগুলি কোনও ডিআইএমএম প্রতিস্থাপনের আগে যোগ্য সান সাপোর্ট বিশেষজ্ঞ দ্বারা বাতিল করতে হবে।

শেষ পয়েন্টে, এইচপি অনুরূপ কিছু বলেছে যে এটি কেবলমাত্র সার্ভার ফার্মওয়্যার হতে পারে যা মেমরির ত্রুটিকে ভুলভাবে আবিষ্কার করে। তারা বলে অনেক ক্ষেত্রে ফার্মওয়্যার আপগ্রেড মিথ্যা ইতিবাচক সতর্কতাগুলি ঠিক করে দেয়। এটি বিশেষত সত্য যদি আপনি বিভিন্ন ডিআইএমএম থেকে এমসিই পেতে শুরু করেন।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.