কোন স্মৃতিতে সিই ত্রুটি রয়েছে তা আমি কীভাবে আবিষ্কার করতে পারি?


12

ইন /var/log/kern.log:

kernel: [13291329.657499] EDAC MC0: 48 CE error on CPU#0Channel#2_DIMM#0 (channel:2 slot:0 page:0x0 offset:0x0 grain:8 syndrome:0x0)

এটি edacলগ, মেমরির একটিতে ceত্রুটি রয়েছে।

আমি এডাক ডক পড়েছি

Dual channels allows for 128 bit data transfers to the CPU from memory.
Some newer chipsets allow for more than 2 channels, like Fully Buffered DIMMs
(FB-DIMMs). The following example will assume 2 channels:


            Channel 0   Channel 1
    ===================================
    csrow0  | DIMM_A0   | DIMM_B0 |
    csrow1  | DIMM_A0   | DIMM_B0 |
    ===================================

    ===================================
    csrow2  | DIMM_A1   | DIMM_B1 |
    csrow3  | DIMM_A1   | DIMM_B1 |
    ===================================

এবং ত্রুটি চ্যানেলটি সন্ধান করুন:

$ grep "[0-9]" /sys/devices/system/edac/mc/mc*/csrow*/ch*_ce_count
/sys/devices/system/edac/mc/mc0/csrow0/ch0_ce_count:0
/sys/devices/system/edac/mc/mc0/csrow0/ch1_ce_count:0
/sys/devices/system/edac/mc/mc0/csrow0/ch2_ce_count:144648966
/sys/devices/system/edac/mc/mc0/csrow1/ch0_ce_count:0
/sys/devices/system/edac/mc/mc1/csrow0/ch0_ce_count:0
/sys/devices/system/edac/mc/mc1/csrow0/ch1_ce_count:0
/sys/devices/system/edac/mc/mc1/csrow0/ch2_ce_count:0
/sys/devices/system/edac/mc/mc1/csrow1/ch0_ce_count:0
/sys/devices/system/edac/mc/mc1/csrow1/ch1_ce_count:0

এবং এটি হওয়া উচিত mc0/csrow0/ch2, ডক হিসাবে, ডিআইএমএম হওয়া উচিত এবং এটির DIMM_C0দ্বারা পাওয়া যেতে পারে dmidecode:

তবে আমি এই ডিআইএমএমটি খুঁজে পাচ্ছি না, তাই কোন স্মৃতিতে সমস্যা আছে তা আমি জানি না:

$ dmidecode -t memory | grep 'Locator: PROC'
        Locator: PROC 1 DIMM 2A
        Locator: PROC 1 DIMM 1D
        Locator: PROC 1 DIMM 4B
        Locator: PROC 1 DIMM 3E
        Locator: PROC 1 DIMM 6C
        Locator: PROC 1 DIMM 5F
        Locator: PROC 2 DIMM 2A
        Locator: PROC 2 DIMM 1D
        Locator: PROC 2 DIMM 4B
        Locator: PROC 2 DIMM 3E
        Locator: PROC 2 DIMM 6C
        Locator: PROC 2 DIMM 5F

এখানে 12 টি স্লট রয়েছে এবং 9 টি স্লটে মেমরি রয়েছে।

তাহলে আমি কীভাবে জানব যে কোন স্মৃতিতে সমস্যা আছে?


সাপ্লিমেন্ট:

System Information
        Manufacturer: HP
        Product Name: ProLiant DL180 G6

এটি কোন ধরণের সার্ভার? সার্ভার উত্পাদনকারী এবং মডেল।
ew white

@ নতুন, হাই, আমি সিস্টেম তথ্য দিয়ে প্রশ্ন আপডেট করেছি।
ট্যাঙ্কি উ

আপনি কোন অপারেটিং সিস্টেম চালাচ্ছেন?
ew

@ নতুন হোয়াইট ওএস হ'ল Ubuntu 12.04, কার্নেলটি হ'ল3.10.20
ট্যাঙ্কি উ

ওহ, আমি দুঃখিত ... উবুন্টু সত্যিই এই হার্ডওয়্যারটিতে সমর্থিত নয় , তাই আপনি আরএইচইএল / সেন্টস / ডেবিয়ান / সুএসই ব্যবহার না করে এটি সঠিকভাবে পর্যবেক্ষণ করার ক্ষমতা হারাচ্ছেন ...
ইয়ে

উত্তর:


8

আপনার সমস্যা DIMM সম্ভবত - Locator: PROC 1 DIMM 5F

সিপিইউ # 0 চ্যানেল # 2_ডিম # 0 এর অর্থ:

PROC 1, 
1D,2A = Channel 0  
3E,4B = Channel 1
5F,6C = Channel 2

5F = DIMM 0
6C = DIMM 1

সম্পাদনা:

প্রশ্ন জিজ্ঞাসা করার সময়, আরও তথ্য সর্বদা আরও ভাল ... সার্ভার প্রস্তুতকারক এবং মডেল থাকা এটিকে সহজতর করত:

এইচপি প্রোলিয়েন্ট ডিএল 180 জি 6 কুইপস্পেকসের স্মৃতি চিত্রটি এখানে :

এখানে চিত্র বর্ণনা লিখুন

আমার পরামর্শ যে সিপিইউ স্লট # 1 এ ডিআইএমএম সঠিক ... তবে এটি এইচপি হার্ডওয়্যার। আপনার অনুমান করার দরকার নেই !!

আপনার এইচপির পরিচালনা এজেন্টগুলি ব্যবহার করা উচিত, যেহেতু তারা হার্ডওয়্যার স্বাস্থ্য এবং স্থিতি সম্পর্কে প্ল্যাটফর্ম-নির্দিষ্ট বিশদটি সতর্ক করতে এবং সরবরাহ করতে পারে ...

[root@veloce ~]# hpasmcli
HP management CLI for Linux (v2.0)
Copyright 2008 Hewlett-Packard Development Group, L.P.

--------------------------------------------------------------------------
This server ProLiant DL180 G6  , is a Proliant 100 Series Server.
NOTE: Some hpasmcli commands may not be supported on 100 series servers.
      Type 'help' to get a list of all top level commands.
--------------------------------------------------------------------------
hpasmcli> show dimm
Cartridge #:    0
Processor #:    1
Module #:       2
Present:        Yes
Form Factor:    fh
Memory Type:    5h
Size:           4096 MB
Speed:          1333 MHz
Status:         N/A

Cartridge #:    0
Processor #:    1
Module #:       1
Present:        Yes
Form Factor:    fh
Memory Type:    5h
Size:           4096 MB
Speed:          1333 MHz
Status:         N/A

Cartridge #:    0
Processor #:    1
Module #:       4
Present:        Yes
Form Factor:    fh
Memory Type:    5h
Size:           4096 MB
Speed:          1333 MHz
Status:         N/A

Cartridge #:    0
Processor #:    1
Module #:       6
Present:        Yes
Form Factor:    fh
Memory Type:    5h
Size:           4096 MB
Speed:          1333 MHz
Status:         N/A

ধন্যবাদ, কোন রিলিজড ডকুমেন্ট কি আছে?
ট্যাঙ্কি উ

@ ট্যাঙ্কিও হ্যাঁ, উপরে দেখুন।
ew

PROC1 DIMM 5Fকোনও স্মৃতি নেই o সুতরাং আপনার মানে স্লটটি সত্যই নিশ্চিত নয়? আমার একটি এইচপি ডেব মিরর যুক্ত করা উচিত এবং hpamscliসঠিক ডিআইএমএম পাওয়ার জন্য ইনস্টল করা উচিত ?
ট্যাঙ্কি উ

আমি ইনস্টল আছে hp-health, এবং Statusহয় N/Aআপনার আটকানো আউটপুট হিসাবে একই।
ট্যাঙ্কি উ

hplog -vএইচপি আইএমএল লগ এন্ট্রি পরীক্ষা করতে চালান ।
ew
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.