I / O আমার সফ্টওয়্যার RAID6 প্রায়শই প্রায় 30 সেকেন্ডের জন্য জমাটবদ্ধ হয় যার পরে সবকিছু স্বাভাবিক হয়ে যায় to
ফ্রিজ শেষ হয়ে যাওয়ার পরে এটিকে সিসলগে লাগানো হয়:
Mar 14 18:43:57 server kernel: [35649.816060] sd 5:0:23:0: [sdy] CDB: Read(10): 28 00 6c 52 68 58 00 04 00 00
Mar 14 18:43:58 server kernel: [35651.149020] mptbase: ioc0: LogInfo(0x31140000): Originator={PL}, Code={IO Executed}, SubCode(0x0000) cb_idx mptscsih_io_done
Mar 14 18:43:58 server kernel: [35651.151962] mptscsih: ioc0: task abort: SUCCESS (rv=2002) (sc=ffff8807b02dfe80)
Mar 14 18:43:58 server kernel: [35651.151967] mptscsih: ioc0: attempting task abort! (sc=ffff88002a7f30c0)
Mar 14 18:43:58 server kernel: [35651.151972] sd 5:0:23:0: [sdy] CDB: Read(10): 28 00 6c 52 6c 58 00 04 00 00
Mar 14 18:43:58 server kernel: [35651.151981] mptscsih: ioc0: task abort: SUCCESS (rv=2002) (sc=ffff88002a7f30c0)
Mar 14 18:43:58 server kernel: [35651.151984] mptscsih: ioc0: attempting task abort! (sc=ffff8804120e5ec0)
Mar 14 18:43:58 server kernel: [35651.151988] sd 5:0:23:0: [sdy] CDB: Read(10): 28 00 6c 52 70 58 00 04 00 00
Mar 14 18:43:58 server kernel: [35651.151996] mptscsih: ioc0: task abort: SUCCESS (rv=2002) (sc=ffff8804120e5ec0)
Mar 14 18:43:58 server kernel: [35651.151999] mptscsih: ioc0: attempting task abort! (sc=ffff880154afb280)
Mar 14 18:43:58 server kernel: [35651.152020] sd 5:0:23:0: [sdy] CDB: Read(10): 28 00 6c 52 74 58 00 04 00 00
Mar 14 18:43:58 server kernel: [35651.152029] mptscsih: ioc0: task abort: SUCCESS (rv=2002) (sc=ffff880154afb280)
আমি ত্রুটিটি গুগল করেছিলাম এবং কেউ 3.0 জিবিএসের পরিবর্তে 1.5 জিবিপিএস ব্যবহার করার পরামর্শ দিয়েছেন trying ব্যবহার করে lsiutil
আমি লিঙ্কের গতি পরিবর্তন করেছি:
# lsiutil -p 1 -i
Firmware Settings
-----------------
SAS WWID: 500605b002c0f680
Multi-pathing: Disabled
SATA Native Command Queuing: Enabled
SATA Write Caching: Enabled
SATA Maximum Queue Depth: 32
Device Missing Report Delay: 0 seconds
Device Missing I/O Delay: 0 seconds
Phy Parameters for Phynum: 0 1 2 3 4 5 6 7
Link Enabled: Yes Yes Yes Yes Yes Yes Yes Yes
Link Min Rate: 1.5 1.5 1.5 1.5 1.5 1.5 1.5 1.5
Link Max Rate: 1.5 1.5 1.5 1.5 1.5 1.5 1.5 1.5
SSP Initiator Enabled: Yes Yes Yes Yes Yes Yes Yes Yes
SSP Target Enabled: No No No No No No No No
Port Configuration: Auto Auto Auto Auto Auto Auto Auto Auto
Target IDs per enclosure: 1
Persistent mapping: Enabled
Physical mapping type: None
Target ID 0 reserved for boot: No
Starting slot (direct attach): 0
Target IDs (physical mapping): 8
Interrupt Coalescing: Enabled, timeout is 16 us, depth is 4
তাতে কোনও লাভ হয়নি।
আমি 'ডিভাইস মিসিং আই / ও বিলম্ব' 32 এ পরিবর্তনের চেষ্টা করেছি That
আমি 30 থেকে 100 এবং তারপরে 3 / এ / sys / শ্রেণী / scsi_device / * / ডিভাইস / সময়সীমা পরিবর্তন করার চেষ্টা করেছি All সমস্ত ব্যর্থ।
$ uname -a
Linux server 3.2.0-0.bpo.1-amd64 #1 SMP Sat Feb 11 08:41:32 UTC 2012 x86_64 GNU/Linux
$ grep LSISAS1068E /var/log/messages
Mar 13 15:47:44 server kernel: [ 21.082363] scsi5 : ioc0: LSISAS1068E B3, FwRev=01210000h, Ports=1, MaxQ=483, IRQ=45
$ modinfo mptscsih
filename: /lib/modules/3.2.0-0.bpo.1-amd64/kernel/drivers/message/fusion/mptscsih.ko
version: 3.04.20
license: GPL
description: Fusion MPT SCSI Host driver
author: LSI Corporation
srcversion: 85D42A00FEBA3C95555E3AF
depends: scsi_mod,mptbase
intree: Y
vermagic: 3.2.0-0.bpo.1-amd64 SMP mod_unload modversions
$ cat /sys/block/sdae/device/model
ST3000DM001-9YN1
$ cat /sys/block/sdae/device/rev
CC4C
সমস্যাটি খুব কমই ঘটে যদি কেবল পড়া বা লেখার কাজ থাকে: আমি কোনও সমস্যা ছাড়াই 1 টিবি পড়তে বা লিখতে পারি। সমস্যাটি মনে হয় যখন পড়া এবং লেখার উভয় অপারেশন রয়েছে। একটি রেইড On-তে ঘটে থাকে যদি আপনি স্ট্রাইপ আকারের চেয়ে ছোট ফাইল লেখেন এবং আপনার কাছে ইতিমধ্যে স্ট্রাইপ ক্যাশেড না রয়েছে (সেক্ষেত্রে নতুন চেকসাম গণনা করার জন্য স্ট্রাইপটি পড়তে হবে)।
সিস্টেমটি ভার্চুয়াল মেশিন নয়।
কি সমস্যা সৃষ্টি করা হয়? আমি কীভাবে 30 সেকেন্ডের জমাট থেকে মুক্তি পাব?
সম্পাদনা করুন: অতিরিক্ত পরীক্ষা করা
আমি একটি দুর্দান্ত পরীক্ষার সেট পেয়েছি যা সমস্যার উত্সাহিত করে বলে মনে হচ্ছে। এটিতে ফাইল রয়েছে যা স্ট্রাইপের আকারের চেয়ে ছোট এবং এইভাবে প্যারিটির পুনঃব্যবস্থাপনা জোর করে বাধ্যতামূলকভাবে লেখার সাথে মিলিত প্রচুর পাঠকে বাধ্য করে।
আমাকে অবশ্যই স্বীকার করতে হবে যে আমি মনে করি না যে সারি শিডিউলারের এই সমস্যার উপর কোনও প্রভাব ফেলবে। আমি ভৃল ছিলাম. এটি পরিষ্কার যে deadline
এটি অন্যদের চেয়ে অনেক খারাপ। যদিও তাদের কেউই সমস্যাটি সমাধান করেন না।
# cat /sys/block/sdaa/queue/scheduler
noop deadline [cfq]
সময়সূচী পরিবর্তন করার noop
কারণে 100-120 সেকেন্ড পরে সমস্যা দেখা দেয়।
parallel echo noop \> {} ::: /sys/block/sd*/queue/scheduler
সময়সূচী পরিবর্তন করার deadline
কারণে 20-30 সেকেন্ড পরে সমস্যা দেখা দেয়।
parallel echo deadline \> {} ::: /sys/block/sd*/queue/scheduler
সময়সূচী পরিবর্তন করার cfq
কারণে 120-300 সেকেন্ড পরে সমস্যা দেখা দেয়।
parallel echo cfq \> {} ::: /sys/block/sd*/queue/scheduler
Edit2
যেহেতু শিডিয়ুলারের একটি প্রভাব রয়েছে আমি ভাবছি যদি সময়সীমার মধ্যে অনেকগুলি অনুরোধের কারণে সমস্যা হয়। আমি কি একরকম প্রতি সেকেন্ডে প্রেরিত অনুরোধের সংখ্যা থ্রোট্ট করতে পারি?