আমাদের কাছে 3Ware 9650SE 8-ড্রাইভ RAID নিয়ামক সহ 5 টি ডিস্ক RAID6 অ্যারে সহ সমস্ত লিনাক্স ভার্চুয়াল মেশিন হোস্ট হিসাবে অভিনয় করে একটি ডেবিয়ান সার্ভার রয়েছে। সমস্যাগুলি ঘটতে থাকে এবং আমি সন্দেহাতীতভাবে ভাঙা ডিস্কটিকে সন্দেহ করি।
আমাদের এখন বেশ কয়েকটি ক্র্যাশ হয়েছে যেখানে হোস্ট এবং সমস্ত অতিথি উভয়ই বলছেন যে IO সিস্টেমটি 120 সেকেন্ড বা তারও বেশি সময় অবরুদ্ধ ছিল। আমরা একটি ত্রুটিযুক্ত RAID নিয়ামককে সন্দেহ করেছি, তবে আমরা এটিকে অভিন্ন ফার্মওয়্যারের সাথে একটি অভিন্ন হিসাবে প্রতিস্থাপন করেছি, যা এটি ঠিক করে নি। আমি ভাবিনি এটি হবে, কারণ একটি দ্বিতীয় RAID1 অ্যারে সঠিকভাবে কাজ করে চলেছে।
প্রায় এক সপ্তাহ আগে (রবিবার), যখন এটি অভিনয় করছিল, অটো যাচাইকরণের পরিমাণ ছিল% 66%। গত রাতে (শুক্রবার সকালে) ছিল 67% at বুট করার আগে এবং পরে উভয়ই এবং উভয়ই সমস্যায় পড়ার সময়। আমি যখন যাচাইকরণটি বন্ধ করে দিই তখন tw_cli /c0/u0 stop verify
জিনিসগুলি আবার প্রতিক্রিয়াশীল হয়ে ওঠে।
আমার সন্দেহ হয় এটি প্রায়% 66% এ ডিস্কের ত্রুটিতে আটকে গিয়েছিল। শনিবার থেকে একটি অটো যাচাই শুরু হয়:
# tw_cli /c0 show verify
/c0 basic verify weekly preferred start: Saturday, 12:00AM
এবং শুক্রবারের মধ্যে সাধারণত দীর্ঘ হয়ে যায়। রবিবার কীভাবে% 66% এবং শুক্রবার ছিল% 67%, এটি কাকতালীয় হওয়ার সম্ভাবনা কম।
'স্মার্টলেট -এ -ডি 3 ওয়ারওয়্যার, 0 / dev / twa0' এবং সমস্ত ড্রাইভের 'স্মার্টক্টেল-লম্বা' (দীর্ঘ স্মার্ট সেলফ টেস্ট) কোনও ত্রুটি প্রকাশ করেনি। না হয় tw_cli /c0 show alarms
।
আমার সন্দেহ হয়েছিল যে কোনও ডিস্কটি এমনভাবে ভেঙে গেছে যা সনাক্ত করা শক্ত, তবে আমি প্রতিটি ড্রাইভ একের পর এক অ্যারে থেকে বের করে এখান থেকে একটি 'একক' অ্যারে তৈরি করে এবং জিরো দিয়ে পূর্ণ করেছি। কোনও ডিস্ক ত্রুটি দেখায় নি।
নাকি অন্য কোন পরামর্শ?
সম্পাদনা:
এই লেআউট:
# tw_cli /c0 show
Unit UnitType Status %RCmpl %V/I/M Stripe Size(GB) Cache AVrfy
------------------------------------------------------------------------------
u0 RAID-6 OK - - 256K 5587.9 RiW OFF
u1 SPARE OK - - - 1863.01 - OFF
u2 RAID-1 OK - - - 1862.63 RiW ON
VPort Status Unit Size Type Phy Encl-Slot Model
------------------------------------------------------------------------------
p0 OK u0 1.82 TB SATA 0 - ST32000542AS
p1 OK u0 1.82 TB SATA 1 - ST32000542AS
p2 OK u0 1.82 TB SATA 2 - ST32000542AS
p3 OK u0 1.82 TB SATA 3 - ST32000542AS
p4 OK u0 1.82 TB SATA 4 - ST32000542AS
p5 OK u1 1.82 TB SATA 5 - WDC WD2002FYPS-02W3
p6 OK u2 1.82 TB SATA 6 - WDC WD2002FYPS-02W3
p7 OK u2 1.82 TB SATA 7 - WDC WD2002FYPS-02W3
Name OnlineState BBUReady Status Volt Temp Hours LastCapTest
---------------------------------------------------------------------------
bbu On Yes OK OK OK 0 xx-xxx-xxxx
প্রশ্নে ইউনিটটি u0।
edit2:
tw_cli / c0 শো চিত্রটি আকর্ষণীয় কিছু দেখায় (সম্পাদনা 3: এটি নির্দোষ নয়, আমি জানতে পেরেছি যে smartctl -a -d 3ware,X /dev/twa0
যেখানে এক্সটি অবৈধ বন্দর যেখানে ফোন করে এটি ঘটেছিল ):
QueueAtaPassthrough() called with invalid TargetHandle: 0x17, portHandle: 0xFF
Legacy opcode=0xB1 error=0x10E
E=010E T=14:15:51 : Invalid operation for specified port
E=010E T=14:15:51 U=0 : Return error status to host
Error, Unit 23: Invalid operation for specified port
(EC:0x10e, SK=0x05, ASC=0x24, ASCQ=0x00, SEV=01, Type=0x70)
No additional sense data
Error, Unit 23: 0x10E OVERRIDDEN due to invalid sense buffer descriptor
sense buffer: len=0, address=0x414ca2c7c
Send AEN (code, time): 0031h, 06/21/2013 14:26:16
Synchronize host/controller time
(EC:0x31, SK=0x00, ASC=0x00, ASCQ=0x00, SEV=04, Type=0x71)
আমি এগুলি অনেক পেয়েছি। যদিও এর অর্থ কী তা আমার কোনও ধারণা নেই। এটি কোন ইউনিট বা পোর্ট তা আমিও তৈরি করতে পারি না। (edit3: আমি এখন জানি, এটি নিরীহ)।
আমার সম্পাদনা 3 দেওয়া, আমি আবার স্কোয়ারে ফিরে এসেছি। কোনও কিছুই ডিস্ক ভাঙ্গা ইঙ্গিত করে না, ব্যতীত যাচাইকরণ 66% এ স্থগিত হয় এবং অ্যারেটি হ্যাং হয়ে যায়, যা কখনও কখনও এলোমেলোভাবে ঘটে। আমি আশা করি যাচাই করলে ত্রুটিটি খুঁজে পাওয়া যায় ...