"বিইউজি: সফট লকআপ - সিপিইউ # 0 17163091968 এর জন্য আটকে আছে" কীভাবে ঠিক করবেন?


14

আপডেট: আমি বার্তার শিরোনাম আপডেট করেছি, কারণ আমি এই সঠিক সময়ের পরিমাণ নিয়ে সম্প্রতি এই সমস্যাগুলি আরও দেখেছি 17163091968s। এটি এই পৃষ্ঠাগুলি সন্ধান করতে লক্ষণগুলি তদন্তকারীদের সহায়তা করা উচিত। নীচে আমার (স্ব-স্বীকৃত উত্তর দেখুন)।


আমার কাছে একটি ভিএমওয়্যার ভিস্পিয়ার ডাটাসেন্টারে in৪-বিট উবুন্টু 10.04 এলটিএস ভিএম এর গুচ্ছ রয়েছে। ভিএমওয়্যার সরঞ্জাম ইনস্টল করা আছে (vSphere ক্লায়েন্ট "ওকে" বলে)।

সিসলগে নীচের ত্রুটিটি নিয়ে আমি ভিএম এর কয়েকটি হ্যাং কয়েকবার ঝুলিয়ে দেখেছি। ভিএসফিয়ার থেকে পরিস্থিতি যাচাই করার সময়, কনসোলটি কালো ছিল, এবং "রিবুট গেস্ট" কমান্ড কিছুই করেনি, তাই আমাকে ভিএম শক্তিচক্র করতে হয়েছিল।

Dec  1 11:44:15 s0 kernel: [18446744060.007150] BUG: soft lockup - CPU#0 stuck for 17163091988s! [jed:26674]
Dec  1 11:44:15 s0 kernel: [18446744060.026854] Modules linked in: btrfs zlib_deflate crc32c libcrc32c ufs qnx4 hfsplus hfs minix ntfs vfat msdos fat jfs xfs exportfs reiserfs xt_tcpudp iptable_filter ip_tables x_tables acpiphp fbcon tileblit font bitblit softcursor ppdev vga16fb psmouse parport_pc shpchp vgastate i2c_piix4 lp parport serio_raw intel_agp floppy mptspi mptscsih vmw_pvscsi e1000 mptbase
Dec  1 11:44:15 s0 kernel: [18446744060.026899] CPU 0:
Dec  1 11:44:15 s0 kernel: [18446744060.026900] Modules linked in: btrfs zlib_deflate crc32c libcrc32c ufs qnx4 hfsplus hfs minix ntfs vfat msdos fat jfs xfs exportfs reiserfs xt_tcpudp iptable_filter ip_tables x_tables acpiphp fbcon tileblit font bitblit softcursor ppdev vga16fb psmouse parport_pc shpchp vgastate i2c_piix4 lp parport serio_raw intel_agp floppy mptspi mptscsih vmw_pvscsi e1000 mptbase
Dec  1 11:44:15 s0 kernel: [18446744060.026920] Pid: 26674, comm: jed Not tainted 2.6.32-30-server #59-Ubuntu VMware Virtual Platform
Dec  1 11:44:15 s0 kernel: [18446744060.026922] RIP: 0033:[<00007f92e03d2ce6>]  [<00007f92e03d2ce6>] 0x7f92e03d2ce6
Dec  1 11:44:15 s0 kernel: [18446744060.026930] RSP: 002b:00007fff6069b770  EFLAGS: 00000202
Dec  1 11:44:15 s0 kernel: [18446744060.026932] RAX: 00007f92e27e7e10 RBX: 00007f92e06d5e40 RCX: 0000000000020000
Dec  1 11:44:15 s0 kernel: [18446744060.026933] RDX: 00007f92e27e7e10 RSI: 0000000000020209 RDI: 0000000000000002
Dec  1 11:44:15 s0 kernel: [18446744060.026934] RBP: ffffffff81013cae R08: 0000000000000001 R09: 0000000000000000
Dec  1 11:44:15 s0 kernel: [18446744060.026935] R10: 00007f92e06d6398 R11: 0000000000000870 R12: 00000000000000c0
Dec  1 11:44:15 s0 kernel: [18446744060.026937] R13: 00007f92e299dca0 R14: 0000000000000020 R15: 00007f92e06d5e40
Dec  1 11:44:15 s0 kernel: [18446744060.026939] FS:  00007f92e105b700(0000) GS:ffff880009c00000(0000) knlGS:0000000000000000
Dec  1 11:44:15 s0 kernel: [18446744060.026940] CS:  0010 DS: 0000 ES: 0000 CR0: 0000000080050033
Dec  1 11:44:15 s0 kernel: [18446744060.026941] CR2: 00007ff12ea15000 CR3: 0000000267067000 CR4: 00000000000006f0
Dec  1 11:44:15 s0 kernel: [18446744060.026968] DR0: 0000000000000000 DR1: 0000000000000000 DR2: 0000000000000000
Dec  1 11:44:15 s0 kernel: [18446744060.026989] DR3: 0000000000000000 DR6: 00000000ffff0ff0 DR7: 0000000000000400
Dec  1 11:44:15 s0 kernel: [18446744060.026991] Call Trace:

(কোনও চিহ্ন নেই - এটিই শেষ লাইন))

আমার আর অন্য ত্রুটি আছে বলে মনে হয় না, তবে আমি নিশ্চিত যে উপরে বর্ণিত প্রক্রিয়াটি ( jed) অন্যান্য ডাম্পগুলির চেয়ে আলাদা ছিল।

  • কি এই সমস্যা সৃষ্টি করতে পারে?

  • কীভাবে এটিকে রোধ করা যায়?

কিছু অতিরিক্ত তথ্য:

  • মানটি 17163091988কিছুটা (পাং উদ্দেশ্যে) সন্দেহজনক - এটি 1111111111000000000000000000010100বাইনারি হয়। সম্ভবত ত্রুটিটি 20 সেকেন্ড ( 10100বাইনারি) বলার চেষ্টা করেছিল ?

  • আমি নিশ্চিত নই যে সমস্যাটি সর্বশেষ 10.04 কার্নেল (2.6.32-35) দিয়ে অব্যাহত রয়েছে কিনা।

  • আমি task ... blocked for more than 120 secondsসমস্যাগুলিও দেখেছি - সম্ভবত তারা সম্পর্কিত হতে পারে?

  • ভিএসফিয়ার ক্লায়েন্ট ভিএম এর জন্য কোনও সতর্কতা বা মাইগ্রেশন সংক্রান্ত কাজগুলি দেখায় না।


কিছু ভুল টাইমকিপিং হতে পারে? আপনি খেলতে পারেন clocksource। এছাড়াও সিপিইউগুলির সি-রাজ্যগুলি একটি ভাল অনুমান।
SaveTheRbtz

উত্তর:


12

সমস্ত মন্তব্যকারীদের ধন্যবাদ। আমি মনে করি আমি উত্তরটি খুঁজে পেয়েছি। কমপক্ষে উবুন্টুর কার্নেল সংস্করণ 2.6.32-30-সার্ভারে একটি টাইমকিপিং বাগ রয়েছে বলে মনে হচ্ছে। বাগ (200) প্রায়শই 200..210 দিনের একটি আপটাইম পৌঁছায় মেশিনগুলিকে মেরে ফেলে। প্রকৃতপক্ষে থামার সীমাটি পৌঁছানোর সাথে সাথে ঘটে না, তবে কিছু অপারেশন দ্বারা চালিত হয়েছে (আমার ক্ষেত্রে apt-get install ...:)।

এনবি: 200 দিন প্রায় 2 ^ 32 বার 1/250 সেকেন্ড হয়, এবং 250 কনফিগ_এইচজেডের ডিফল্ট মান।

আপাতত, সাম্প্রতিক কার্নেলের মধ্যে সমস্যাটি স্থির হয়েছে কিনা সে সম্পর্কে আমি ডেটা খুঁজে পাইনি। আমি জানি যে এটি কোনও পুরানো কার্নেল (2.6.32-26-সার্ভার) এর সাথে প্রভাব ফেলবে বলে মনে হচ্ছে না। এই সমস্ত তথ্য থেকে আমি অনুমান করি যে এটি যদি এখনও স্থির না করা হয় তবে এটি এড়ানো যায়:

  • প্রতি 190 দিন মেশিনগুলি বুট করুন (যে কোনও উপায়ে কার্নেল আপগ্রেড করার জন্য ভাল ধারণা)
  • CONFIG_HZ 100 এ সামঞ্জস্য করুন এবং এভাবে প্রতি 497 দিন এটি তৈরি করুন। তবে এটির বেশিরভাগ অপ্রত্যাশিত পার্শ্ব প্রতিক্রিয়া হতে পারে বিশেষত ভার্চুয়াল পরিবেশে। এবং এটি সমস্যার সমাধান করে না ।

উবুন্টুর জন্য এখানে একটি বাগ রিপোর্ট রয়েছে


ভাল সন্ধান - বিস্মিত হয় যদি এটি
ডিবিয়ানের দিকে চালিত হয়

কৌতূহলের বাইরে: আপনি কি ভিএমওয়্যারের মাধ্যমে এনটিপি বা টাইম সিঙ্ক্রোনাইজেশন ব্যবহার করছেন? এটি ধ্রুবক সময় শিফট বা এর মতো কিছু বলে মনে হচ্ছে .. সিস্লোগে সময় পরিবর্তন করার জন্য লগইন এন্ট্রি থাকা উচিত।
পৌষ

আমি সবেমাত্র এমন কিছু দেখতে পেয়েছি যা ডিবিয়ানের সাথে সম্পর্কিত বলে মনে হয়, ২.6.৩২-৫- এএমডি 6464 কার্নেল দুটি নরম লক আপ দেখায় যা "অদ্ভুতভাবে" সম্পাদন করছে
জেমস

5

এটি আসলে একটি কার্নেল বাগ যা নিম্নলিখিত কার্নেল কমিট দ্বারা স্থির হয়েছে:

http://git.kernel.org/?p=linux/kernel/git/tip/tip.git;a=commit;h=4cecf6d401a01d054afc1e5f605bcbfe553cb9b9

আপনি নিম্নলিখিত শিরোনামের জন্য LKML অনুসন্ধান করতে পারেন (২ টির বেশি লিঙ্ক পোস্ট করতে পারবেন না): [স্থিতিশীল] ২.6.৩২.২১ - আপটাইম সম্পর্কিত ক্র্যাশ?

এবং এটি এলপি # বাগ যা কার্নেলের সংশোধন করে:

https://bugs.launchpad.net/ubuntu/+source/linux/+bug/902317

লুসিড-আপডেটে সর্বশেষতম কার্নেল আপগ্রেড করার জন্য এই সমস্যাটি ভাল করা উচিত।

আছে HTH


2

এটি কি এমন হতে পারে যে ভার্চুয়ালাইজেশন হোস্টের কিছু পাওয়ার-সেভিং বৈশিষ্ট্য রয়েছে ("গ্রিন আইটি") সক্ষম হয়েছে যা অবিকৃত কোরগুলি কম-শক্তি / স্লিপ মোডে প্রেরণ করতে পারে, যা সেই কোরটি ব্যবহার করে ভিএমগুলিতে আকর্ষণীয় বিঘ্ন ঘটায়? আমি শুনেছি এটি মূলত হাইপারভি পরিবেশে কোনও সমস্যা হয়ে দাঁড়িয়েছিল তবে এটি দেখার বিষয় হতে পারে।


1

যদি অন্য কেউ এটির সন্ধান করে তবে কার্নেল আপগ্রেড আমার জন্য একই সমস্যাটি স্থির করেছে। আমার একটি জেবিওডি ছিল যা একটি এসএএস 3 নিয়ন্ত্রকের মাধ্যমে সিস্টেমে সংযুক্ত ছিল যা এই সিপিইউ সফটলক ত্রুটিগুলি বুটে ফেলেছিল।

আমার উবুন্টু 14.04.2 কার্নেল সংস্করণ ছিল 3.16.0-30, এবং "অ্যাপটি-আপ আপগ্রেড" করার ফলে কার্নেলটি আমার কাছে শেষ হয়েছিল 3.16.0-49, এবং এটি সমস্যার সমাধান করেছে।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.