আমি একটি নগ্যিং সম্পর্কিত কয়েকটি বাগ রিপোর্ট এবং প্রশ্নগুলি (স্ট্যাকেক্সচেঞ্জ এবং অন্য কোথাও) দেখেছি "BUG: soft lockup - CPU#<n> stuck for <dt>s!"
। এখন পর্যন্ত আমি কী করব বা চেষ্টা করব সে সম্পর্কে কোনও ধারণা খুঁজে পাইনি (বরং, আমি যে চিহ্নগুলি খুঁজে পেয়েছি এবং অনুসরণ করেছি সেগুলি এটিকে থামিয়ে দেয়নি)। আমি এই সম্পর্কে আরও উদ্বিগ্ন কারণ:
- এই ইভেন্টগুলির ফ্রিকোয়েন্সি মনে হচ্ছে ইদানীং বৃদ্ধি পেয়ে ধীরে ধীরে বেড়েছে (প্রতি মাসে 700 এর বেশি),
yum update
এবং রিবুট এটি কিছুক্ষণের জন্য কিছুটা কমিয়ে দিয়েছে তবে আমি আবার কিছু লকআপগুলি আবার হতে শুরু করে দেখেছি,- বেশ কয়েকটি প্রক্রিয়া (যদি পুরো হোস্ট না হয় তবে তা বলা শক্ত), অবশ্যই আমার সমস্ত ইন্টারেক্টিভ শেলগুলি যখন কিছু ঘটে তখন কিছু সময়ের জন্য হিমায়িত হয়,
- এটি সম্পর্কিত কিনা তা সম্পর্কে আমি নিশ্চিত নই, তবে আমি এনটিপিডি সম্পর্কিত প্রচুর লগ / বার্তাগুলি ঘড়ি আপডেট করতে সক্ষম হচ্ছি না।
নীচে একটি উদ্ধৃতি $(grep 'soft lockup' /var/log/messages*)
:
Mar 22 10:02:35 localhost kernel: BUG: soft lockup - CPU#15 stuck for 10s! [kjournald:1048]
Mar 22 10:02:36 localhost kernel: BUG: soft lockup - CPU#0 stuck for 10s! [postgres:5372]
Mar 22 10:02:36 localhost kernel: BUG: soft lockup - CPU#8 stuck for 10s! [postgres:5368]
Mar 22 10:02:37 localhost kernel: BUG: soft lockup - CPU#0 stuck for 10s! [postgres:5372]
Mar 22 10:02:37 localhost kernel: BUG: soft lockup - CPU#8 stuck for 10s! [postgres:5368]
Mar 22 10:02:38 localhost kernel: BUG: soft lockup - CPU#0 stuck for 10s! [postgres:5372]
Mar 22 10:02:38 localhost kernel: BUG: soft lockup - CPU#8 stuck for 10s! [postgres:5368]
Mar 22 10:02:39 localhost kernel: BUG: soft lockup - CPU#0 stuck for 10s! [postgres:5372]
Mar 22 10:02:39 localhost kernel: BUG: soft lockup - CPU#8 stuck for 10s! [postgres:5368]
Mar 22 10:02:40 localhost kernel: BUG: soft lockup - CPU#15 stuck for 25s! [swapper:0]
Mar 22 15:42:16 localhost kernel: BUG: soft lockup - CPU#8 stuck for 25s! [kjournald:1048]
Mar 22 18:22:13 localhost kernel: BUG: soft lockup - CPU#15 stuck for 10s! [postgres:21356]
Mar 22 18:22:20 localhost kernel: BUG: soft lockup - CPU#7 stuck for 10s! [java:8653]
Mar 22 18:22:20 localhost kernel: BUG: soft lockup - CPU#8 stuck for 72s! [kjournald:1048]
Mar 22 21:21:37 localhost kernel: BUG: soft lockup - CPU#12 stuck for 29s! [kjournald:1048]
Mar 22 21:22:07 localhost kernel: BUG: soft lockup - CPU#12 stuck for 27s! [kjournald:1048]
Mar 23 02:01:47 localhost kernel: BUG: soft lockup - CPU#8 stuck for 10s! [kblockd/8:276]
Mar 23 02:02:22 localhost kernel: BUG: soft lockup - CPU#8 stuck for 34s! [kblockd/8:276]
এটি এলোমেলো প্রক্রিয়াগুলির সাথে ঘটে এবং এটি ভার্চুয়াল হোস্টের 16 "কোর" জুড়ে বেশ ভাল বিতরণ করা হয়েছে।
হোস্টটি হ'ল AWS EC2 "cc1.4xlarge" উদাহরণ, "EC2 CentOS 5.5 GPU HVM AMI (ড্রাইভার 260.19.29) (ami-42a2532b)" নামক একটি এএমআই রয়েছে। এটি জেনের সাথে ভার্চুয়ালাইজড বলে মনে হচ্ছে।
cat /etc/redhat-release
ফলন CentOS release 5.9 (Final)
। 'free'
21 গিগাবাইট র্যাম রিপোর্ট করে।
প্রধান dmesg
হলেন:
Linux version 2.6.18-348.3.1.el5 (mockbuild@builder10.centos.org) (gcc version 4.1.2 20080704 (Red Hat 4.1.2-54)) #1 SMP Mon Mar 11 19:39:25 EDT 2013
Command line: ro root=/dev/VolGroup00/LogVol00 rhgb quiet console=tty0 console=ttyS0,115200n8
BIOS-provided physical RAM map:
BIOS-e820: 0000000000010000 - 000000000009fc00 (usable)
BIOS-e820: 000000000009fc00 - 00000000000a0000 (reserved)
BIOS-e820: 00000000000e0000 - 0000000000100000 (reserved)
BIOS-e820: 0000000000100000 - 00000000c0000000 (usable)
BIOS-e820: 00000000fc000000 - 0000000100000000 (reserved)
BIOS-e820: 0000000100000000 - 00000005dd800000 (usable)
DMI 2.4 present.
DMI: Xen HVM domU, BIOS 3.4.3-2.6.18 08/29/2012
ACPI: RSDP (v002 Xen ) @ 0x00000000000ea020
ACPI: XSDT (v001 Xen HVM 0x00000000 HVML 0x00000000) @ 0x00000000fc0062b0
ACPI: FADT (v004 Xen HVM 0x00000000 HVML 0x00000000) @ 0x00000000fc005ee0
ACPI: MADT (v002 Xen HVM 0x00000000 HVML 0x00000000) @ 0x00000000fc005fe0
ACPI: SRAT (v001 Xen HVM 0x00000000 HVML 0x00000000) @ 0x00000000fc0060c0
ACPI: SLIT (v001 Xen HVM 0x00000000 HVML 0x00000000) @ 0x00000000fc006240
ACPI: HPET (v001 Xen HVM 0x00000000 HVML 0x00000000) @ 0x00000000fc006270
ACPI: DSDT (v002 Xen HVM 0x00000000 INTL 0x20090220) @ 0x(null)
নিম্নলিখিত শো সাম্প্রতিক সময়ের এই "নরম লকআপ" র ক্রমসঞ্চিত COUNT (রেডলাইন যখন আমি গত করেনি yum update
দ্বারা অনুসরণ reboot
):
।
নিম্নলিখিত শো স্থিতিকালের হিস্টোগ্রাম (কতকাল হোস্ট আটকে): ।