3 ওয়ার RAID6 অ্যারে কখনও কখনও ঝুলন্ত থাকে। সনাক্ত না হওয়া ভাঙা ডিস্ক?


13

আমাদের কাছে 3Ware 9650SE 8-ড্রাইভ RAID নিয়ামক সহ 5 টি ডিস্ক RAID6 অ্যারে সহ সমস্ত লিনাক্স ভার্চুয়াল মেশিন হোস্ট হিসাবে অভিনয় করে একটি ডেবিয়ান সার্ভার রয়েছে। সমস্যাগুলি ঘটতে থাকে এবং আমি সন্দেহাতীতভাবে ভাঙা ডিস্কটিকে সন্দেহ করি।

আমাদের এখন বেশ কয়েকটি ক্র্যাশ হয়েছে যেখানে হোস্ট এবং সমস্ত অতিথি উভয়ই বলছেন যে IO সিস্টেমটি 120 সেকেন্ড বা তারও বেশি সময় অবরুদ্ধ ছিল। আমরা একটি ত্রুটিযুক্ত RAID নিয়ামককে সন্দেহ করেছি, তবে আমরা এটিকে অভিন্ন ফার্মওয়্যারের সাথে একটি অভিন্ন হিসাবে প্রতিস্থাপন করেছি, যা এটি ঠিক করে নি। আমি ভাবিনি এটি হবে, কারণ একটি দ্বিতীয় RAID1 অ্যারে সঠিকভাবে কাজ করে চলেছে।

প্রায় এক সপ্তাহ আগে (রবিবার), যখন এটি অভিনয় করছিল, অটো যাচাইকরণের পরিমাণ ছিল% 66%। গত রাতে (শুক্রবার সকালে) ছিল 67% at বুট করার আগে এবং পরে উভয়ই এবং উভয়ই সমস্যায় পড়ার সময়। আমি যখন যাচাইকরণটি বন্ধ করে দিই তখন tw_cli /c0/u0 stop verifyজিনিসগুলি আবার প্রতিক্রিয়াশীল হয়ে ওঠে।

আমার সন্দেহ হয় এটি প্রায়% 66% এ ডিস্কের ত্রুটিতে আটকে গিয়েছিল। শনিবার থেকে একটি অটো যাচাই শুরু হয়:

# tw_cli /c0 show verify
/c0 basic verify weekly preferred start: Saturday, 12:00AM

এবং শুক্রবারের মধ্যে সাধারণত দীর্ঘ হয়ে যায়। রবিবার কীভাবে% 66% এবং শুক্রবার ছিল% 67%, এটি কাকতালীয় হওয়ার সম্ভাবনা কম।

'স্মার্টলেট -এ -ডি 3 ওয়ারওয়্যার, 0 / dev / twa0' এবং সমস্ত ড্রাইভের 'স্মার্টক্টেল-লম্বা' (দীর্ঘ স্মার্ট সেলফ টেস্ট) কোনও ত্রুটি প্রকাশ করেনি। না হয় tw_cli /c0 show alarms

আমার সন্দেহ হয়েছিল যে কোনও ডিস্কটি এমনভাবে ভেঙে গেছে যা সনাক্ত করা শক্ত, তবে আমি প্রতিটি ড্রাইভ একের পর এক অ্যারে থেকে বের করে এখান থেকে একটি 'একক' অ্যারে তৈরি করে এবং জিরো দিয়ে পূর্ণ করেছি। কোনও ডিস্ক ত্রুটি দেখায় নি।

নাকি অন্য কোন পরামর্শ?

সম্পাদনা:

এই লেআউট:

# tw_cli /c0 show

Unit  UnitType  Status         %RCmpl  %V/I/M  Stripe  Size(GB)  Cache  AVrfy
------------------------------------------------------------------------------
u0    RAID-6    OK             -       -       256K    5587.9    RiW    OFF    
u1    SPARE     OK             -       -       -       1863.01   -      OFF    
u2    RAID-1    OK             -       -       -       1862.63   RiW    ON     

VPort Status         Unit Size      Type  Phy Encl-Slot    Model
------------------------------------------------------------------------------
p0    OK             u0   1.82 TB   SATA  0   -            ST32000542AS        
p1    OK             u0   1.82 TB   SATA  1   -            ST32000542AS        
p2    OK             u0   1.82 TB   SATA  2   -            ST32000542AS        
p3    OK             u0   1.82 TB   SATA  3   -            ST32000542AS        
p4    OK             u0   1.82 TB   SATA  4   -            ST32000542AS        
p5    OK             u1   1.82 TB   SATA  5   -            WDC WD2002FYPS-02W3 
p6    OK             u2   1.82 TB   SATA  6   -            WDC WD2002FYPS-02W3 
p7    OK             u2   1.82 TB   SATA  7   -            WDC WD2002FYPS-02W3 

Name  OnlineState  BBUReady  Status    Volt     Temp     Hours  LastCapTest
---------------------------------------------------------------------------
bbu   On           Yes       OK        OK       OK       0      xx-xxx-xxxx

প্রশ্নে ইউনিটটি u0।

edit2:

tw_cli / c0 শো চিত্রটি আকর্ষণীয় কিছু দেখায় (সম্পাদনা 3: এটি নির্দোষ নয়, আমি জানতে পেরেছি যে smartctl -a -d 3ware,X /dev/twa0যেখানে এক্সটি অবৈধ বন্দর যেখানে ফোন করে এটি ঘটেছিল ):

QueueAtaPassthrough() called with invalid TargetHandle: 0x17, portHandle: 0xFF

Legacy opcode=0xB1 error=0x10E

E=010E T=14:15:51     : Invalid operation for specified port
E=010E T=14:15:51 U=0 : Return error status to host
Error, Unit 23: Invalid operation for specified port
(EC:0x10e, SK=0x05, ASC=0x24, ASCQ=0x00, SEV=01, Type=0x70)
No additional sense data
Error, Unit 23: 0x10E OVERRIDDEN due to invalid sense buffer descriptor
sense buffer: len=0, address=0x414ca2c7c
Send AEN (code, time): 0031h, 06/21/2013 14:26:16
Synchronize host/controller time
(EC:0x31, SK=0x00, ASC=0x00, ASCQ=0x00, SEV=04, Type=0x71)

আমি এগুলি অনেক পেয়েছি। যদিও এর অর্থ কী তা আমার কোনও ধারণা নেই। এটি কোন ইউনিট বা পোর্ট তা আমিও তৈরি করতে পারি না। (edit3: আমি এখন জানি, এটি নিরীহ)।

আমার সম্পাদনা 3 দেওয়া, আমি আবার স্কোয়ারে ফিরে এসেছি। কোনও কিছুই ডিস্ক ভাঙ্গা ইঙ্গিত করে না, ব্যতীত যাচাইকরণ 66% এ স্থগিত হয় এবং অ্যারেটি হ্যাং হয়ে যায়, যা কখনও কখনও এলোমেলোভাবে ঘটে। আমি আশা করি যাচাই করলে ত্রুটিটি খুঁজে পাওয়া যায় ...


কি এইচডিডি? তারা কি সরকারীভাবে সমর্থিত?
grs

আমি লেআউটটি যুক্ত করেছি। ডিস্কগুলি ST32000542AS। তারা সমর্থিত, তবে আরও বেশি, সার্ভারটি 3 বছর ধরে ভাল কাজ করেছে।
হাফগ্গার

আমি কিছু ডাব্লুডি ড্রাইভের সাথে এক পর্যায়ে ভেরিরিয়ি ধীরে ধীরে পরিণত হয়েছিল। কেবলমাত্র এইচডিপিআরএম (দুঃখজনকভাবে এখানে অযোগ্য নয়) আমাকে সাধারণ 80 ~ 100 এমবি / সেকেন্ডের পরিবর্তে ~ 300KB / s (হ্যাঁ কে!) এর একটি আউটপুট দেখায় showed
বেনিয়ামিন সোনট্যাগ

1
এন্টারপ্রাইজ এবং ডেস্কটপ ড্রাইভের ডিস্কের মধ্যে পার্থক্য হ'ল তারা বাগগুলি কার্যকর করে। যদি এন্টারপ্রাইজ ড্রাইভগুলি কোনও ত্রুটির সম্মুখীন হয়, তবে ডিস্কটি আক্রমণ থেকে বেরিয়ে আসে। (যেমন সংস্থাগুলিতে ডেটা সংরক্ষণের ঝুঁকির প্রতি সংবেদনশীল এবং এর জন্য অর্থ দিতে আগ্রহী) যদি কোনও ডেস্কটপ ড্রাইভ ত্রুটি পূরণ করে তবে সমস্ত সময়সীমা শেষ না হওয়া পর্যন্ত এটি স্থায়ী হওয়ার চেষ্টা করবে। (ব্যবহারকারী হিসাবে একটি ড্রাইভ, এবং তাদের কাছে যে ডেটা পৌঁছানো প্রয়োজন, এবং যদি তারা একবারে ডিস্কগুলি পড়ে যায় তবে প্রস্তুতকারকটি খুব বেদনাদায়ক হয়ে উঠবেন) স্পষ্টতই এসটি 32000542 এএসএস শান্ত এবং অর্থনৈতিক ডেস্কটপ সংস্করণ ডিস্কগুলি। উদাহরণস্বরূপ goo.gl/rWb5lj
রেনবো-

প্রকৃতপক্ষে, সম্প্রতি, এই সার্ভারটি হঠাৎ করে মূল সমস্যার চেয়ে আলাদা এবং আরও মারাত্মকভাবে স্তব্ধ হয়ে গেছে এবং লগগুলি একটি RAID পোর্টে একটি সময়সীমা দেখিয়েছে। সময়সীমাটি এন্টারপ্রাইজ ড্রাইভগুলির একটিতে ছিল (যার মধ্যে এখন এই সার্ভারটির বেশি রয়েছে)।
হাফগার সাত

উত্তর:


1

2 টি জিনিস যা এখনও পর্যন্ত উত্থাপিত হয়নি:

  1. এটি কি সটা রেড নিয়ামক? যদি তা হয় তবে স্যাটা কেবলগুলি বার্ধক্যজনিত এবং এগুলি প্রতিস্থাপনের ফলে এ জাতীয় সমস্যাগুলি সহজেই সমাধান হতে পারে। বেশিরভাগ সময় এটির চেষ্টা করা যেতে পারে যখন ডিস্ক ত্রুটি, ল্যাগ, সময়সীমা ঘটে তবে স্মার্ট মানগুলি ঠিক থাকে এবং ড্রাইভ সমস্ত স্ব-পরীক্ষায় পাস করে। দুর্ভাগ্যক্রমে একটি ভাল Sata তারের বিক্রেতার সন্ধান করা কঠিন।
  2. 3 ওয়্যার রেড নিয়ামকরা আজকাল পুরানো এবং অসমর্থিত। আপনি ফার্মওয়্যার আপগ্রেড বা খুচরা যন্ত্রাংশ পাবেন না। আপনার কন্ট্রোলার মারা গেলে RAID মেলানো নিয়ামক এবং ফার্মওয়্যার ব্যতীত অপরিবর্তনযোগ্য হতে পারে। তখন একটি ব্যয়বহুল ডেটা পুনরুদ্ধার প্রয়োজন needed

0

এই সমস্যাটি পড়ার ত্রুটির মুখোমুখি হওয়া এবং পুরো অ্যারেটিকে অবরুদ্ধ করার কারণে হতে পারে যতক্ষণ না এটি হয় সেক্টরটি পুনরায় প্রকাশ করতে পরিচালিত করে অথবা RAID নিয়ামকটি ধরে না নিই যে ড্রাইভটি মারা গেছে এবং অ্যারে থেকে এটি বুট করে ছাড়বে, এটিকে "ডিগ্রডড" হিসাবে চিহ্নিত করবে (এটি সম্পূর্ণরূপে প্রশ্নাবলীর মধ্যে রয়েছে) এটি প্রায়শই ঘটতে পারে যদি কোনও ডিস্কটি মারা যেতে শুরু করে তবে এখনও স্মার্ট পাস করে। বেশিরভাগ ভোক্তা ডিস্ক চিরকাল পড়ার চেষ্টা চালিয়ে যাবেন।

ত্রুটি পুনরুদ্ধার নিয়ন্ত্রণ নামক কিছু ব্যবহার করে এই সমস্যাটি RAID এর জন্য নির্দিষ্ট কিছু ড্রাইভে সমাধান করা হয়েছে । ডাব্লুডি এই টিএলআর কল করে। সাইট থেকে:

RAID-specific time-limited error recovery (TLER) - Pioneered by WD, this feature prevents drive fallout caused by the extended hard drive error-recovery processes common to desktop drives.

মূলত, এটি একটি ডিস্ককে বলে যে এটি যদি সেক্টরটি পড়তে না পারে তবে x সেকেন্ড পরে ছেড়ে দিতে। এটি একটি RAID- এ দুর্দান্ত কারণ ডেটা অন্য ডিস্ক থেকে পুনরুদ্ধার হতে পারে।

আমি যা পড়েছি তা থেকে, ST32000542AS ERC এর কোনও রূপ প্রয়োগ করে না যাতে তাদের মধ্যে কেউ পুরো অ্যারেটিকে ব্লক করতে পারে। WD2002FYPS আসলে ডাব্লুডির টিএলআর বাস্তবায়িত করে যাতে তারা এই সমস্যার কারণ না করে।


0

কেবল এটি নিশ্চিত করার জন্য, আপনার ফার্মওয়্যার সংস্করণটি কী?

আমার একটি সমস্যা হয়েছে যা আপনি বর্ণনা করছেন - যা নিম্নলিখিত বিবরণগুলি পূরণ করার সময় অনেকটা শোনাচ্ছে:

  • 3ware 96xx সিরিজ নিয়ামক
  • RAID 6
  • 256 কে ডোরাকাটা আকার
  • ফার্মওয়্যার সংস্করণ <v4.10.00.021 *

সেই সময়টিতে কোনও ফার্মওয়্যার ফিক্স পাওয়া যায় নি তাই আমি 256k থেকে 64k স্ট্রাইপ আকারে স্থানান্তরিত করেছি যা সমস্যার সমাধানও করেছে। আপনি যথাযথ হিসাবে চেষ্টা করতে পারেন, যদিও এটি অবশ্যই সম্পূর্ণ হতে কয়েক দিন সময় নেবে।

পরে আমি 256k দিয়ে নতুন ফার্মওয়্যারটি (* 4.10.00.021 বলে মনে করেছি ঠিক হয়ে গেছে) চেষ্টা করেছিলাম এবং কবজির মতো কাজ করেছি। 4.10.00.027 সর্বশেষতম সংস্করণ।


আমাদের আর সমস্যা নেই। যাচাই সর্বদা সফল। যাইহোক আমরা কয়েক মাস আগে একটি সম্পূর্ণ সার্ভার হ্যাং পেয়েছিলাম (কোনও সমস্যার দীর্ঘকাল পরে)। ডেমসগ বলেছিল যে ডিস্কের সময়সীমা শেষ হয়েছে। আমি জানি না কেন নিয়ামক এটি লাথি মারেনি, তবে এটি স্পষ্টভাবে অবনমিত হিসাবে চিহ্নিত না করেও আমি এটি প্রতিস্থাপন করেছি। এবং, অন্য ডিস্কগুলি তখন থেকেও প্রতিস্থাপন করা হয়েছে। সুতরাং এটি সম্ভবত এটি একটি ডিস্ক সমস্যা ছিল।
হাফগগার

0

আমার কাছে 3 ওয়্যার নিয়ামক এবং সিগেট ড্রাইভগুলির সাথে সমস্যা ছিল। একটি সূক্ষ্ম ফার্মওয়্যার বেমানান। আমি স্যামসাং ড্রাইভে স্যুইচ করেছি, সমস্যার সমাধান হয়েছে।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.