জেডএফএস চেকসাম ত্রুটিগুলি, আমি কখন ড্রাইভটি প্রতিস্থাপন করব?


9

আমি জেডএফএসে মোটামুটি নতুন এবং আমার 8 ড্রাইভ সহ একটি সাধারণ মিররড স্টোরেজ পুল সেটআপ রয়েছে। কয়েক সপ্তাহ চলার পরে, একটি ড্রাইভ মনে হয়েছিল যে অনেক ত্রুটি ঘটেছে, তাই আমি এটি প্রতিস্থাপন করেছি।

আরও কয়েক সপ্তাহ যেতে পারে এবং এখন আমি পুলের চারপাশে ছোট ত্রুটিগুলি ক্রপ করে দেখছি ( zpool statusনীচের আউটপুটটি দেখুন)। আমি এই সম্পর্কে উদ্বিগ্ন করা উচিত? ত্রুটিটি ড্রাইভটি প্রতিস্থাপন করা দরকার নির্দেশ করে কিনা তা আমি কীভাবে নির্ধারণ করতে পারি?

# zpool status
  pool: storage
 state: ONLINE
status: One or more devices has experienced an unrecoverable error.  An
        attempt was made to correct the error.  Applications are unaffected.
action: Determine if the device needs to be replaced, and clear the errors
        using 'zpool clear' or replace the device with 'zpool replace'.
   see: http://zfsonlinux.org/msg/ZFS-8000-9P
  scan: scrub repaired 22.5K in 1h18m with 0 errors on Sun Jul 10 03:18:42 2016
config:

        NAME        STATE     READ WRITE CKSUM
        storage     ONLINE       0     0     0
          mirror-0  ONLINE       0     0     0
            enc-a   ONLINE       0     0     2
            enc-b   ONLINE       0     0     0
          mirror-1  ONLINE       0     0     0
            enc-c   ONLINE       0     0     0
            enc-d   ONLINE       0     0     2
          mirror-2  ONLINE       0     0     0
            enc-e   ONLINE       0     0     2
            enc-f   ONLINE       0     0     1
          mirror-3  ONLINE       0     0     0
            enc-g   ONLINE       0     0     0
            enc-h   ONLINE       0     0     3

errors: No known data errors

জেডএফএস সাহায্যে আমাকে "ডিভাইসটি প্রতিস্থাপন করা দরকার কিনা তা নির্ধারণ করুন ..." করতে বলেছেন তবে কীভাবে এটি করবেন তা নিশ্চিত নই। আমি রেফারেন্স করা নিবন্ধটি পড়েছিলাম যা সহায়ক ছিল তবে ঠিক চূড়ান্ত নয়।

আমি প্রভাবিত ড্রাইভগুলির জন্য স্মার্ট পরীক্ষার ফলাফলগুলির দিকে নজর রেখেছি, এবং আমার দিকে কিছুই ছাপেনি (সমস্ত পরীক্ষা ত্রুটি ছাড়াই শেষ হয়েছিল), তবে আমি স্মার্ট ডেটাও পোস্ট করতে পারি যদি এটি সহায়ক হয়।

আপডেট: میمেমেস্ট 8686+ এ পুনরায় বুট করার প্রস্তুতি নেওয়ার সময়, আমি কনসোলে প্রচুর ত্রুটি লক্ষ্য করেছি। আমি সাধারণত এসএসএইচ করে থাকি, তাই আমি তাদের আগে দেখিনি। আমার কোন লগটি পরীক্ষা করা উচিত ছিল তা আমি নিশ্চিত নই, তবে পুরো স্ক্রিনটি এমন দেখতে ত্রুটিগুলিতে ভরা ছিল (আমার সঠিক ত্রুটির রেখা নয়, আমি এটি অন্য ফোরাম থেকে অনুলিপি করেছি):

blk_update_request: I/0 error, dev sda, sector 220473440

কিছু গুগলিংয়ের থেকে দেখে মনে হচ্ছে যে এই ত্রুটিটি কোনও খারাপ ড্রাইভের সূচক হতে পারে তবে আমার পক্ষে বিশ্বাস করা শক্ত যে তারা সকলেই একবারে এই জাতীয়ভাবে ব্যর্থ হচ্ছে। এখান থেকে কোথায় যাবেন ভাবনা?

আপডেট 2: আমি এই জেডএল ইস্যুটি জুড়ে এসেছি বলে মনে হচ্ছে এটি আমার সমস্যার সাথে সম্পর্কিত হতে পারে। ওপিটির মতো আমি এইচডিপর্মটি আমার ড্রাইভগুলি স্পিন-ডাউন করতে ব্যবহার করছি এবং আমি একই রকম জেডএফএস চেকসাম ত্রুটি এবং blk_update_requestত্রুটিগুলি দেখছি । আমার মেশিনটি এখনও মেমেটেস্টে চলছে, তাই আমি এই মুহুর্তে আমার কার্নেল বা জেডএফএস সংস্করণটি পরীক্ষা করতে পারি না, তবে এটি কমপক্ষে সম্ভাবনার মতো দেখায়। আমি এই একই প্রশ্নটি দেখেছি যা হতাশাবোধের এক ধরণের। জেডএফএস এবং স্পিনিং ড্রাইভগুলি নিয়ে সমস্যাগুলি কি কেউ জানেন?

আপডেট 3: এলএসআই কন্ট্রোলারে কোনও মিলহীন ফার্মওয়্যার এবং ড্রাইভার সংস্করণ কি এ জাতীয় ত্রুটির কারণ হতে পারে? দেখে মনে হচ্ছে যে আমি 20.100.00.00 এর ড্রাইভার সংস্করণ এবং 17.00.01.00 এর ফার্মওয়্যার সংস্করণ চালাচ্ছি। কার্ডে আপডেট হওয়া ফার্মওয়্যারটি ফ্ল্যাশ করার চেষ্টা করা কি কার্যকর হবে?

# modinfo mpt2sas
filename:       /lib/modules/3.10.0-327.22.2.el7.x86_64/kernel/drivers/scsi/mpt2sas/mpt2sas.ko
version:        20.100.00.00
license:        GPL
description:    LSI MPT Fusion SAS 2.0 Device Driver
author:         Avago Technologies <MPT-FusionLinux.pdl@avagotech.com>
rhelversion:    7.2
srcversion:     FED1C003B865449804E59F5

# sas2flash -listall
LSI Corporation SAS2 Flash Utility
Version 20.00.00.00 (2014.09.18) 
Copyright (c) 2008-2014 LSI Corporation. All rights reserved 

    Adapter Selected is a LSI SAS: SAS2308_2(D1) 

Num   Ctlr            FW Ver        NVDATA        x86-BIOS         PCI Addr
----------------------------------------------------------------------------

0  SAS2308_2(D1)   17.00.01.00    11.00.00.05    07.33.00.00     00:04:00:00

আপডেট 4:dmesg আউটপুটটিতে আরও কিছু ত্রুটি ধরা পড়ে । আমি নিশ্চিত না যে এগুলি কী ঘটেছে, তবে এলএসআই নিয়ামকের ফার্মওয়্যার আপডেট করার প্রস্তুতির জন্য অ্যারেতে সমস্ত ড্রাইভ আনমাউন্ট করার পরে আমি সেগুলি লক্ষ্য করেছি। ফার্মওয়্যার আপডেটটি সমস্যার সমাধান করেছে কিনা তা দেখার জন্য আমি কিছুটা অপেক্ষা করব তবে এর মধ্যে ত্রুটিগুলি এখানে রয়েছে। আমি তাদের সত্য বলতে চাই না।

[87181.144130] sd 0:0:2:0: [sdc] FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_OK
[87181.144142] sd 0:0:2:0: [sdc] CDB: Write(10) 2a 00 35 04 1c d1 00 00 01 00
[87181.144148] blk_update_request: I/O error, dev sdc, sector 889461969
[87181.144255] sd 0:0:3:0: [sdd] FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_OK
[87181.144259] sd 0:0:3:0: [sdd] CDB: Write(10) 2a 00 35 04 1c d1 00 00 01 00
[87181.144263] blk_update_request: I/O error, dev sdd, sector 889461969
[87181.144371] sd 0:0:4:0: [sde] FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_OK
[87181.144375] sd 0:0:4:0: [sde] CDB: Write(10) 2a 00 37 03 87 30 00 00 08 00
[87181.144379] blk_update_request: I/O error, dev sde, sector 922978096
[87181.144493] sd 0:0:5:0: [sdf] FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_OK
[87181.144500] sd 0:0:5:0: [sdf] CDB: Write(10) 2a 00 37 03 87 30 00 00 08 00
[87181.144505] blk_update_request: I/O error, dev sdf, sector 922978096
[87191.960052] sd 0:0:6:0: [sdg] FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_OK
[87191.960063] sd 0:0:6:0: [sdg] CDB: Write(10) 2a 00 36 04 18 5c 00 00 01 00
[87191.960068] blk_update_request: I/O error, dev sdg, sector 906238044
[87191.960158] sd 0:0:7:0: [sdh] FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_OK
[87191.960162] sd 0:0:7:0: [sdh] CDB: Write(10) 2a 00 36 04 18 5c 00 00 01 00
[87191.960179] blk_update_request: I/O error, dev sdh, sector 906238044
[87195.864565] sd 0:0:0:0: [sda] FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_OK
[87195.864578] sd 0:0:0:0: [sda] CDB: Write(10) 2a 00 37 03 7c 68 00 00 20 00
[87195.864584] blk_update_request: I/O error, dev sda, sector 922975336
[87198.770065] sd 0:0:1:0: [sdb] FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_OK
[87198.770078] sd 0:0:1:0: [sdb] CDB: Write(10) 2a 00 37 03 7c 88 00 00 20 00
[87198.770084] blk_update_request: I/O error, dev sdb, sector 922975368

আপডেট 5: আমি এলএসআই কন্ট্রোলারের জন্য ফার্মওয়্যার আপডেট করেছি, তবে জেডএফএস ত্রুটিগুলি পরিষ্কার করার পরে এবং স্ক্রাবিংয়ের পরে, আমি একই আচরণ দেখছি (কয়েকটি ড্রাইভের মধ্যে ছোট্ট চেকসাম ত্রুটি)। পরবর্তী পদক্ষেপটি ড্রাইভগুলিতে ফার্মওয়্যারটি আপডেট করা হবে।

আপডেট 6: আমি কিছু ফোরামে পড়ার পরে পিসিআই রাইজারকে প্রতিস্থাপন করেছি যে ইউ-এনএএস এনএসসি800 কেসযুক্ত অন্যান্য লোকেরা সরবরাহিত রাইজার নিয়ে সমস্যা করেছে। চেকসাম ত্রুটির কোনও প্রভাব ছিল না। আমি এইচডিডি ফার্মওয়্যার আপডেটটি বন্ধ করে দিচ্ছি কারণ প্রক্রিয়াটি এমন একটি ব্যথা, তবে আমি অনুমান করি যে এটি চুষতে এবং বুটযোগ্য ডস ফ্ল্যাশ ড্রাইভ তৈরির সময়।

আপডেট 7: আমি সিগেট ড্রাইভের তিনটিতে ফার্মওয়্যার আপডেট করেছি। অন্যান্য ড্রাইভে হয় ফার্মওয়্যার আপডেট উপলব্ধ ছিল না বা আমি এটি পেতে সক্ষম হইনি (ওয়েস্টার্ন ডিজিটাল আমাকে বলেছিল যে আমার ড্রাইভের জন্য কোনও ফার্মওয়্যার আপডেট নেই)। কোনও প্রাথমিক স্ক্রাবের পরে কোনও ত্রুটি পপ আপ করা হয়নি, তবে আমি সমস্যার সমাধান করার আগে বলার আগে এটি কমপক্ষে এক বা দুই সপ্তাহ আগে দেব। আমার কাছে এটি অত্যন্ত অসম্ভব বলে মনে হয় যে তিনটি ড্রাইভে থাকা ফার্মওয়্যারটি পুরো পুলটিকে এভাবে প্রভাবিত করতে পারে।

আপডেট 8: চেকসাম ত্রুটিগুলি আগের মতোই ফিরে এসেছে। আমি মাদারবোর্ডের জন্য ফার্মওয়্যার আপডেটটি সন্ধান করতে পারি তবে এই মুহুর্তে আমার খুব ক্ষতি হচ্ছে। অবশিষ্ট শারীরিক উপাদানগুলি (কন্ট্রোলার, ব্যাকপ্লেন, ক্যাবলিং) প্রতিস্থাপন করা কঠিন / ব্যয়বহুল হবে, এবং আমি ঠিক 100% নিশ্চিত নই যে এটি আমার সেটআপে কোনও সমস্যা নয় (জেডএফএস + লিনাক্স + এলইউকেএস + নিষ্ক্রিয় ড্রাইভ স্পিনিং)। অন্য কোন ধারণা স্বাগত।

আপডেট 9: এখনও এটিকে ট্র্যাক করার চেষ্টা করছি। আমি এই প্রশ্নটি জুড়ে এসেছি যা আমার পরিস্থিতির সাথে কিছু মিল রয়েছে। সুতরাং, আমি এগিয়ে গিয়ে জিপুলটি পুনরায় বিল্ড করেছিলাম ashift=12তা দেখার ফলে এটি সমস্যার সমাধান করবে কিনা (ভাগ্য নেই)। তারপরে, আমি বুলেটটি বিট করেছিলাম এবং একটি নতুন নিয়ামক কিনেছি। আমি সবেমাত্র একটি সুপার মাইক্রো এওসি-এসএএস 2 এলপি-এমভি 8 এইচবিএ কার্ড ইনস্টল করেছি । এটি সমস্যার সমাধান করে কিনা তা দেখার জন্য আমি এক বা দুই সপ্তাহ সময় দেব।

আপডেট 10: কেবল এটি বন্ধ করতে। নতুন এইচবিএ কার্ড প্রবেশের প্রায় 2 সপ্তাহ হয়েছে এবং এটি জিন্সিংয়ের ঝুঁকিতে, এর পরে আমার কোনও চেকসাম ত্রুটি ছিল না। যারা আমাকে এটিকে বাছাই করতে সহায়তা করেছেন তাদের প্রত্যেককে একটি বিশাল ধন্যবাদ।


2
আপনি আমাদের সম্পর্কে হার্ডওয়্যার সম্পর্কে আরও বলতে পারেন? একাধিক ড্রাইভে এই ত্রুটিগুলি থাকার কারণে ডিস্ক সমস্যার চেয়ে ব্যাক প্লেন / নিয়ামক / ক্যাবলিংয়ের সমস্যাটি আরও বেশি ইঙ্গিত পাওয়া যায়।
ew

আমি এটা ভাবিনি। ড্রাইভগুলি একটি ইউ-নাস এনএসসি -800 চ্যাসিসে রয়েছে যা এসটিএ / এসএএস ব্যাকপ্লেনে একটি বিল্ট সহ আসে। এটি একটি এলএসআই এসএএস 9207-8i এইচবিএ -তে 2 মিনি- সাস সংযোগকারীগুলির মাধ্যমে সংযুক্ত । এটি একটি পিসিআই রাইজারের মাধ্যমে সংযুক্ত যা চ্যাসিসের সাথে একটি সুপার মাইক্রো এমবিডি-এক্স 10 এসডিভি -4 সি তে এসেছিল
ডোমিনিক পি

1
তোমার র‌্যাম ঠিক আছে? যখন মেমরির মডিউলটি খারাপ ছিল আমারও একই রকম ত্রুটি হয়েছিল - কোনও ডিস্ক ত্রুটি নেই, তবে সমস্ত ড্রাইভে কিছুটা (কম) পরিমাণে চেকসাম ত্রুটি রয়েছে।
ব্যবহারকারী 121391

1
এটি সম্ভবত সম্ভবত কন্ট্রোলার এই মুহূর্তে স্পষ্টভাবে সুস্পষ্ট। আসলে এটি "আপডেট 4" দিয়ে কিছুক্ষণ আগে অত্যন্ত স্পষ্টভাবে প্রকাশ পেয়েছিল।
মাইকেল হ্যাম্পটন

1
আপনি @ hak8or স্বাগতম। এই সাইটের লোকেরা আমাকে এতটা সাহায্য করেছে, তাই আমার উদাহরণটি শুনে অন্য কারওর পক্ষে সহায়ক হতে পারে it's
ডোমিনিক পি

উত্তর:


6

একাধিক ড্রাইভ জুড়ে এই ত্রুটিগুলি থাকা ডিস্ক বা র‌্যাম ইস্যুর চেয়ে ব্যাক প্লেন / কন্ট্রোলার / ক্যাবলিং সমস্যাটিকে আরও ইঙ্গিত করে।


সাহায্যের জন্য ধন্যবাদ. এই মুহুর্তে আমি সমস্ত উপাদানগুলি সরিয়ে নিতে পারছি না। আমি কীভাবে এটি সংকুচিত করতে পারি বা সম্ভবত সবচেয়ে বেশি অপরাধী হতে পারে সে সম্পর্কে আপনার কোনও পরামর্শ আছে?
ডোমিনিক পি

সমস্ত প্রভাবিত উপাদানগুলির ফার্মওয়্যার আপডেটগুলি চেষ্টা করুন। এই Sata ডিস্ক হয়?
ew

করবেন, ধন্যবাদ। আমি কন্ট্রোলারের ফার্মওয়্যার আপডেট দিয়ে শুরু করব কারণ আমি অন্য কোথাও দেখেছি যে ফার্মওয়্যার এবং ড্রাইভার সংস্করণগুলি মিলিত হওয়া উচিত (আমার প্রশ্নের আপডেট 3 দেখুন)। হ্যাঁ, এগুলি সমস্ত 1 টিবি সাটা ডিস্ক, এবং আমার মনে আছে যে smartctlআমি ব্যবহার করছি এমন কয়েকটি সিগেট ডিস্কের জন্য একটি ফার্মওয়্যার আপডেট উপলব্ধ ছিল, তাই আমি সেগুলিও আপডেট করব।
ডোমিনিক পি

7

আমার থাম্বের সাধারণ নিয়মটি হ'ল যদি ত্রুটিগুলি অপ্রত্যাশিতভাবে বাড়তে থাকে তবে ডিস্কটি প্রতিস্থাপন করা দরকার; যদি এটি স্থিতিশীল থাকে তবে কিছু ক্ষণস্থায়ী অবস্থা থাকতে পারে যা ত্রুটি সৃষ্টি করেছিল এবং সিস্টেমটি যে পরিস্থিতিগুলির কারণে সমস্যার সৃষ্টি করেছিল তা পুনরুত্পাদন করছে না।

কয়েকটি চেকসাম ত্রুটি অগত্যা ড্রাইভের সাথে যান্ত্রিকভাবে খারাপ কিছু ইঙ্গিত করে না (বিট পচা ঘটে, অন্যান্য ফাইল সিস্টেমগুলি না করে জেডএফএস কেবল এটি সনাক্ত করতে ঘটে), তবে যদি এই ত্রুটিগুলি এক ঘন্টার মধ্যে ঘটে থাকে তবে এটি একটি তারা এক বছরের মধ্যে ঘটেছে তার চেয়ে অনেক বেশি পরিস্থিতি।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.