হার্ড রিসেটিং লিঙ্ক ব্যতিক্রম ইমাস্ক 0x50 স্যাক্ট 0x0 এসইআর 0x4090800 ক্রিয়া 0xe হিমায়িত


8

নিম্নলিখিত পরিস্থিতি:

কার্নেল সহ একটি উত্পাদনশীল লিনাক্স ডেবিয়ান 7 সার্ভার 3.2.0-4-amd64 #1 SMP Debian 3.2.68-1+deb7u2 x86_64 GNU/Linux

উত্পাদনকারী: Supermicro পণ্যের নাম: X10SLL-F সংস্করণ:1.02

সটা নিয়ামক: Intel Corporation Lynx Point 6-port SATA Controller 1 [AHCI mode] (rev 04)

2 এক্স এসএসডি, 2 এক্স এইচডি

প্রতিটি ড্রাইভ সাটা রেভ 3 (6.0 জিবি / গুলি) করতে পারে

hdparm -I /dev/sd[a-d]|egrep "Model|speed|Transport"
    Model Number:       TOSHIBA THNSNH128GBST                   
    Transport:          Serial, ATA8-AST, SATA 1.0a, SATA II Extensions, SATA Rev 2.5, SATA Rev 2.6, SATA Rev 3.0
       *    Gen1 signaling speed (1.5Gb/s)
       *    Gen2 signaling speed (3.0Gb/s)
       *    Gen3 signaling speed (6.0Gb/s)
       *    SMART Command Transport (SCT) feature set
    Model Number:       TOSHIBA THNSNH128GBST                   
    Transport:          Serial, ATA8-AST, SATA 1.0a, SATA II Extensions, SATA Rev 2.5, SATA Rev 2.6, SATA Rev 3.0
       *    Gen1 signaling speed (1.5Gb/s)
       *    Gen2 signaling speed (3.0Gb/s)
       *    Gen3 signaling speed (6.0Gb/s)
       *    SMART Command Transport (SCT) feature set
    Model Number:       ST2000VX000-1CU164                      
    Transport:          Serial, SATA Rev 3.0
       *    Gen1 signaling speed (1.5Gb/s)
       *    Gen2 signaling speed (3.0Gb/s)
       *    Gen3 signaling speed (6.0Gb/s)
       *    SMART Command Transport (SCT) feature set
    Model Number:       ST2000VX000-1CU164                      
    Transport:          Serial, SATA Rev 3.0
       *    Gen1 signaling speed (1.5Gb/s)
       *    Gen2 signaling speed (3.0Gb/s)
       *    Gen3 signaling speed (6.0Gb/s)
       *    SMART Command Transport (SCT) feature set

কার্নেল বার্তাগুলি (কমপক্ষে আমার কাছে) সমস্ত 4 টি ড্রাইভের সাথে একটি সমস্যা প্রস্তাব করে, যার ফলে আমি বিশ্বাস করতে পারি যে এটি সটা নিয়ামক যার দোষ হতে পারে।

ata1: exception Emask 0x50 SAct 0x0 SErr 0x4090800 action 0xe frozen
ata1: irq_stat 0x00400040, connection status changed
ata1: SError: { HostInt PHYRdyChg 10B8B DevExch }
ata1: hard resetting link
ata2: exception Emask 0x50 SAct 0x0 SErr 0x4090800 action 0xe frozen
ata2: irq_stat 0x00400040, connection status changed
ata2: SError: { HostInt PHYRdyChg 10B8B DevExch }
ata2: hard resetting link
ata4: exception Emask 0x50 SAct 0x0 SErr 0x4090800 action 0xe frozen
ata4: irq_stat 0x00400040, connection status changed
ata4: SError: { HostInt PHYRdyChg 10B8B DevExch }
ata4: hard resetting link
ata3: exception Emask 0x50 SAct 0x0 SErr 0x4090800 action 0xe frozen
ata3: irq_stat 0x00400040, connection status changed
ata3: SError: { HostInt PHYRdyChg 10B8B DevExch }
ata3: hard resetting link
ata3: SATA link up 1.5 Gbps (SStatus 113 SControl 310)
ata2: SATA link up 1.5 Gbps (SStatus 113 SControl 310)
ata4: SATA link up 1.5 Gbps (SStatus 113 SControl 310)
ata1: SATA link up 1.5 Gbps (SStatus 113 SControl 310)
ata4.00: ACPI cmd f5/00:00:00:00:00:00 (SECURITY FREEZE LOCK) filtered out
ata4.00: ACPI cmd b1/c1:00:00:00:00:00 (DEVICE CONFIGURATION OVERLAY) filtered out
ata2.00: ACPI cmd f5/00:00:00:00:00:00 (SECURITY FREEZE LOCK) filtered out
ata2.00: ACPI cmd b1/c1:00:00:00:00:00 (DEVICE CONFIGURATION OVERLAY) filtered out
ata1.00: ACPI cmd f5/00:00:00:00:00:00 (SECURITY FREEZE LOCK) filtered out
ata1.00: ACPI cmd b1/c1:00:00:00:00:00 (DEVICE CONFIGURATION OVERLAY) filtered out
ata3.00: ACPI cmd f5/00:00:00:00:00:00 (SECURITY FREEZE LOCK) filtered out
ata3.00: ACPI cmd b1/c1:00:00:00:00:00 (DEVICE CONFIGURATION OVERLAY) filtered out
ata2.00: ACPI cmd f5/00:00:00:00:00:00 (SECURITY FREEZE LOCK) filtered out
ata2.00: ACPI cmd b1/c1:00:00:00:00:00 (DEVICE CONFIGURATION OVERLAY) filtered out
ata1.00: ACPI cmd f5/00:00:00:00:00:00 (SECURITY FREEZE LOCK) filtered out
ata1.00: ACPI cmd b1/c1:00:00:00:00:00 (DEVICE CONFIGURATION OVERLAY) filtered out
ata2.00: configured for UDMA/33
ata2: EH complete
ata1.00: configured for UDMA/33
ata1: EH complete
ata3.00: ACPI cmd f5/00:00:00:00:00:00 (SECURITY FREEZE LOCK) filtered out
ata3.00: ACPI cmd b1/c1:00:00:00:00:00 (DEVICE CONFIGURATION OVERLAY) filtered out
ata4.00: ACPI cmd f5/00:00:00:00:00:00 (SECURITY FREEZE LOCK) filtered out
ata4.00: ACPI cmd b1/c1:00:00:00:00:00 (DEVICE CONFIGURATION OVERLAY) filtered out
ata3.00: configured for UDMA/33
ata3: EH complete
ata4.00: configured for UDMA/33
ata4: EH complete

আমি ইতিমধ্যে কী বের করেছিলাম (বা বিশ্বাস করে ফেলেছি)

আদেশগুলি SECURITY FREEZE LOCKএবং DEVICE CONFIGURATION OVERLAYইস্যুটি গুরুত্বপূর্ণ নয়।

প্রায় 20 বাগেরপোর্ট এবং প্রচুর ডকুমেন্টেশন পড়ার সময় কয়েকটি সংযুক্ত কিছু এনসিকিউ নিষ্ক্রিয় করার পরামর্শ দিয়েছিল, যা আমি করেছি।

প্রথমে একটি ডিভাইসের জন্য, 1 দিন অপেক্ষা করার পরে ত্রুটিটি এটি আবারও পুনরায় ঘটে কিনা তা পরীক্ষা করে দেখুন এবং আমি সমস্ত 4 টি ডিভাইসের জন্য এটিকে অক্ষম করেছিলাম

echo "1" >/sys/block/sdc/device/queue_depth

পরিস্থিতির কোনও সুস্পষ্ট পরিবর্তন নেই।

https://ata.wiki.kernel.org/index.php/Libata_error_messages

https://wiki.archlinux.org/index.php/Solid_State_Drives#Resolving_NCQ_errors

অন্যরা স্যাটা কেবল বা এমনকি বোর্ড + ড্রাইভের মধ্যে একটি অসামঞ্জস্যতার পরামর্শ দেয়।

তবে যেহেতু আমার মনে হয় সমস্যাটি কেবল একটি ড্রাইভে রয়েছে এবং এটি 4 টিতে জনপ্রিয় হয়ে উঠেছে, বা সমস্ত 4 টি ডিভাইসে সমস্যাটি নিয়ে আমি সমস্যাটি আরও চিহ্নিত করতে অক্ষম।

যেহেতু এটি কোনও প্রোডাকশন সার্ভার তাই এই সার্ভারটি রক্ষণাবেক্ষণের জন্য নিচে রাখে (ওরফে বায়োস / কার্নেল প্যারাম পরিবর্তনগুলি) সম্ভব তবে আমি যদি সম্ভব হয় তবে এটি প্রতিরোধ করতে চাই।

হোস্টারের মতে এটি পাওয়ার ম্যানেজমেন্ট সম্পর্কিত হতে পারে:

https://bugzilla.kernel.org/show_bug.cgi?id=74961 https://bugs.launchpad.net/ubuntu/+source/linux/+bug/1318218

echo "medium_power" >/sys/class/scsi_host/host0/link_power_management_policy 

পরিবর্তনের আগে এটি সেট করা হয়েছিল max_performance

এটি কোনও উপকারে আসেনি।

এইচডিডি / এসডিডিগুলির স্মার্ট মানগুলি ঠিক আছে, খুব স্পষ্ট কিছু নয়।

মনে রাখবেন যে ইউডিএমএ মানটি এখন কেবল 33 টি।

সার্ভার বুট করার সময় এটি ছিল সাটা লিঙ্কের গতির মান:

[    3.161850] ata6: SATA link down (SStatus 0 SControl 300)
[    3.161867] ata2: SATA link up 6.0 Gbps (SStatus 133 SControl 300)
[    3.161882] ata4: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
[    3.161894] ata1: SATA link up 6.0 Gbps (SStatus 133 SControl 300)
[    3.161907] ata5: SATA link down (SStatus 0 SControl 300)

পরিস্থিতি কেবলমাত্র এইচডিডি-তে উচ্চ লোডের কারণে ঘটতে পারে, আমি এখনও এটি পরীক্ষা করি নি কারণ এটি সার্ভারের কার্য সম্পাদনে স্পষ্টত প্রভাব ফেলবে।

এসএসডিগুলিতে কোনও বোঝা নেই, এগুলি মাউন্ট করা হলেও কোনও প্রক্রিয়া ব্যবহার করে না।

যতদূর আমি বলতে পারি র‌্যামটি ইসিসি।

dmidecode -t 17
# dmidecode 2.11
SMBIOS 2.7 present.

Handle 0x0023, DMI type 17, 34 bytes
Memory Device
    Array Handle: 0x0022
    Error Information Handle: Not Provided
    Total Width: 72 bits
    Data Width: 64 bits
    Size: 8192 MB
    Form Factor: DIMM
    Set: None
    Locator: P1-DIMMA1
    Bank Locator: P0_Node0_Channel0_Dimm0
    Type: DDR3
    Type Detail: Synchronous
    Speed: 1600 MHz
    Manufacturer: Samsung
    Serial Number: 373A6427
    Asset Tag: 9876543210
    Part Number: M391B1G73QH0-CK0  
    Rank: 2
    Configured Clock Speed: 1600 MHz

পরবর্তী কাজটি করার মত ধারণার অভাব হওয়ায় আমি অতিরিক্ত তথ্য দিতে পারি কিনা দয়া করে আমাকে জানান।


সরাসরি বিক্রেতা সুপারমাইক্রোকে জিজ্ঞাসা করুন, হোস্টার যদি না দেয় তবে তারা সাহায্য করতে পারে।
ডেনিস নোল্টে

1
লক্ষ করুন যে সিস্টেমটি 1.5 জিবিপিএসে পুনর্বিবেচনা করছে। 1.5 জিবিপিএস জোর করে দেখুন এবং দেখুন এটি সিস্টেমটিকে স্থিতিশীল করে তোলে কিনা। এটি একটি ডেটা পয়েন্ট। কীভাবে করবেন সে সম্পর্কে একটি সংক্ষিপ্ত লিখনআপের জন্য Askubuntu.com/a/146290/11751 ব্যবহার করে দেখুন।
একটি সিভিএন

উত্তর:


4

আপনার সার্ভারের অভিজ্ঞতাটি হ'ল ড্রাইভের সাথে যোগাযোগের ক্ষেত্রে কিছু সমস্যা হওয়ার পরে নিম্ন লিঙ্ক গতিতে মূলত একটি Sata পুনর্চালনা।

এই কারণগুলি এখানে কাজ করতে পারে (সম্ভাবনার দ্বারা আদেশ)

  1. খুব হাই-লেটেন্সি আইওপিএস অপারেশনগুলি (যেমন: এসএসডি কন্ট্রোলারের আবর্জনা সংগ্রহের কারণে সৃষ্ট) এর ফলে এসএটিএ কমান্ডের মেয়াদ উত্তীর্ণ হয়। আপনার ড্রাইভ কি সাটা ট্রিম কমান্ড সমর্থন করে? যদি তা হয় তবে দৌড়াতে চেষ্টা করুন fstrim /। এটি কিছু পরিবর্তন করে?
  2. খারাপ মাদারবোর্ড / স্মৃতি: আপনার স্মৃতি ইসিসি সুরক্ষিত? যদি না হয় এবং আপনি যদি পারেন তবে একটি বর্ধিত (2+ ঘন্টা) মেমস্টেস্ট 86 + পরীক্ষার সেশন চালান
  3. হার্ডওয়্যার / সফ্টওয়্যার ড্রাইভারের বেমানান
  4. খারাপ Sata নিয়ামক: যদিও বেশ সম্ভাবনা নেই, আপনি এটি সম্পূর্ণরূপে বাদ দিতে পারবেন না
  5. খারাপ Sata কেবল / ড্রাইভ: চারটি ড্রাইভ যেহেতু আপনাকে সমস্যা দেয় তাই এটি খুব কমই

এসএসডি (গুলি) বর্তমানে ব্যবহারে নেই, মনে হচ্ছে ইসিসি ব্যবহৃত হয়েছে। dmidecode -t17 থেকে: মোট প্রস্থ: 72 বিট ডেটা প্রস্থ: 64 বিট
ডেনিস নোল্টে

3

সুপার মাইক্রো সাপোর্ট অনুসারে ত্রুটি বোর্ডের মধ্যে রয়েছে:

উদ্ধৃতি:

This board may need ECO 16238 update.
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.