প্রস্তাবনা:
আমি একটি কোড-বানর যা ক্রমশ আমার ছোট সংস্থার জন্য সিসএডমিন দায়িত্ব গ্রহণ করা। আমার কোডটি আমাদের পণ্য এবং ক্রমবর্ধমান আমরা সাস হিসাবে একই অ্যাপ্লিকেশন সরবরাহ করি।
প্রায় 18 মাস আগে আমি আমাদের সার্ভারগুলি প্রিমিয়াম হোস্টিং কেন্দ্রিক বিক্রেতার কাছ থেকে একটি স্তর চতুর্থ ডেটা সেন্টারে একটি বেয়ারবোনস র্যাক পুশারে স্থানান্তরিত করেছি। (আক্ষরিক অর্থে রাস্তা জুড়ে net
হোস্টিং সংস্থা থেকে আমাদের লিজ নেওয়া সরাসরি সংযুক্ত স্টোরেজটি প্রতিস্থাপনের জন্য, আমি সুপার মাইক্রো চ্যাসিস, 3 ওয়্যার রেড কার্ড, উবুন্টু 10.04, দুই ডজন সাটা ডিস্ক, ডিআরবিডি এবং এর উপর ভিত্তি করে একটি 9 টিবি টু-নোড এনএএস তৈরি করেছি। এটি সমস্ত প্রেমের সাথে তিনটি ব্লগ পোস্টে নথিভুক্ত করা হয়েছে: একটি নতুন 9 টিবি সটা রেড 10 এনএফএসভি 4 এনএএস গঠন এবং পরীক্ষণ: প্রথম খণ্ড , দ্বিতীয় খন্ড এবং তৃতীয় অংশ ।
আমরা একটি ক্যাসিট মনিটরিং সিস্টেমও সেটআপ করি। সম্প্রতি আমরা স্মার্ট মানগুলির মতো আরও বেশি সংখ্যক ডেটা পয়েন্ট যুক্ত করছি।
আমি ছাড়া এই সব কাজ করতে পারে না সন্ত্রস্ত boffins এ ServerFault । এটি একটি মজাদার এবং শিক্ষামূলক অভিজ্ঞতা হয়েছে। আমার বস খুশি (আমরা বালতি বোঝা $$$ রক্ষা করেছি) , আমাদের গ্রাহকরা খুশি (স্টোরেজ ব্যয় হ্রাস পাচ্ছে) , আমি খুশি (মজা, মজা, মজাদার) ।
গতকাল পর্যন্ত।
আউটেজ এবং পুনরুদ্ধার:
মধ্যাহ্নভোজের কিছু সময় পরে আমরা আমাদের অ্যাপ্লিকেশন থেকে অলস পারফরম্যান্সের প্রতিবেদন পেতে শুরু করেছি, অন অন ডিমান্ড স্ট্রিমিং মিডিয়া সিএমএস। প্রায় একই সময় আমাদের ক্যাকটি পর্যবেক্ষণ সিস্টেম ইমেলের একটি বরফ ঝলক প্রেরণ করে। আরও বলার সতর্কতাগুলির মধ্যে একটি হ'ল আইওস্যাট অপেক্ষা করার একটি গ্রাফ।
পারফরম্যান্স এতটাই হ্রাস পেয়েছে যে পিংডম "সার্ভার ডাউন" বিজ্ঞপ্তি প্রেরণ শুরু করে। সামগ্রিক বোঝা মাঝারি ছিল, ট্র্যাফিক স্পাইক ছিল না।
অ্যাপ্লিকেশন সার্ভারগুলিতে, এনএএস এর এনএফএস ক্লায়েন্টগুলিতে লগ ইন করার পরে, আমি নিশ্চিত করেছিলাম যে প্রায় সব কিছুই অত্যন্ত বিরতিহীন এবং অত্যন্ত দীর্ঘ IO অপেক্ষার সময় ভোগ করছে। এবং একবার আমি নিজেই প্রাথমিক এনএএস নোডের উপরে pedুকলাম, সমস্যা অ্যারের ফাইল সিস্টেম নেভিগেট করার চেষ্টা করার সময় একই বিলম্ব প্রকট হয়েছিল।
সময় ব্যর্থ হয়েছে, যে ভাল গিয়েছিল। 20 মিনিটের মধ্যে সমস্ত কিছুই পুরোপুরি ব্যাক আপ এবং পুরোপুরি চলার বিষয়ে নিশ্চিত হয়ে গেছে।
ময়নাতদন্তের:
যেকোন এবং সমস্ত সিস্টেমের ব্যর্থতার পরে আমি ব্যর্থতার কারণ নির্ধারণ করতে একটি ময়না তদন্ত করি। প্রথম জিনিসটি আমি বাক্সে ফিরে এসে লগগুলি পর্যালোচনা করা শুরু করলাম। এটি সম্পূর্ণরূপে অফলাইন ছিল। ডেটা সেন্টারে ভ্রমণের সময়। হার্ডওয়্যার রিসেট, ব্যাকআপ আন এবং চলমান।
ইন /var/syslog
আমি এই ভীতিকর খুঁজছেন এন্ট্রি পাওয়া যায়নি:
Nov 15 06:49:44 umbilo smartd[2827]: Device: /dev/twa0 [3ware_disk_00], 6 Currently unreadable (pending) sectors
Nov 15 06:49:44 umbilo smartd[2827]: Device: /dev/twa0 [3ware_disk_07], SMART Prefailure Attribute: 1 Raw_Read_Error_Rate changed from 171 to 170
Nov 15 06:49:45 umbilo smartd[2827]: Device: /dev/twa0 [3ware_disk_10], 16 Currently unreadable (pending) sectors
Nov 15 06:49:45 umbilo smartd[2827]: Device: /dev/twa0 [3ware_disk_10], 4 Offline uncorrectable sectors
Nov 15 06:49:45 umbilo smartd[2827]: Num Test_Description Status Remaining LifeTime(hours) LBA_of_first_error
Nov 15 06:49:45 umbilo smartd[2827]: # 1 Short offline Completed: read failure 90% 6576 3421766910
Nov 15 06:49:45 umbilo smartd[2827]: # 2 Short offline Completed: read failure 90% 6087 3421766910
Nov 15 06:49:45 umbilo smartd[2827]: # 3 Short offline Completed: read failure 10% 5901 656821791
Nov 15 06:49:45 umbilo smartd[2827]: # 4 Short offline Completed: read failure 90% 5818 651637856
Nov 15 06:49:45 umbilo smartd[2827]:
তাই আমি অ্যারেতে থাকা ডিস্কগুলির জন্য ক্যাকটি গ্রাফগুলি পরীক্ষা করতে গিয়েছিলাম। এখানে আমরা দেখতে পাই যে, হ্যাঁ, ডিস্ক 7 সিসলগ যেমন বলছে ঠিক তেমনই পিছলে চলেছে। তবে আমরা আরও দেখতে পাই যে ডিস্ক 8 এর স্মার্ট রিড এরোস ওঠানামা করছে।
সিস্লগ-এ ডিস্ক 8 সম্পর্কে কোনও বার্তা নেই। আরও মজার বিষয় হ'ল ডিস্ক 8-এর জন্য ওঠানাময় মানগুলি উচ্চ আইও অপেক্ষা সময়ের সাথে সরাসরি সম্পর্কিত হয়! আমার ব্যাখ্যাটি হ'ল:
- ডিস্ক 8 একটি বিজোড় হার্ডওয়ার ত্রুটিটি ভোগ করছে যা ফলস্বরূপ দীর্ঘ ক্রিয়াকলাপের সময় দেয়।
- কোনওভাবে ডিস্কে এই ত্রুটিযুক্ত শর্তটি পুরো অ্যারেটিকে লক করছে
সম্ভবত আরও সঠিক বা সঠিক বিবরণ থাকতে পারে তবে নেট ফলাফলটি হয়েছে যে একটি ডিস্ক পুরো অ্যারের কার্যকারিতা প্রভাবিত করছে।
প্রশ্নসমুহ)
- কোনও হার্ডওয়্যার SATA RAID-10 অ্যারেতে থাকা একটি সিঙ্গেল ডিস্ক কীভাবে পুরো অ্যারেটিকে স্ক্রাইচিং থামাতে পারে?
- আমি কি ভাবতে ভাবছি না যে RAID কার্ডটি এটিকে মোকাবেলা করা উচিত ছিল?
- আমি কীভাবে কোনও একক দুর্ব্যবহারকারী ডিস্ককে পুরো অ্যারে প্রভাবিত করা থেকে আটকাতে পারি?
- আমি কিছু অনুপস্থিত করছি?