"পাওয়ার সীমা নোটিফিকেশন" RHEL6 সহ 12G ডেল সার্ভারগুলিতে ক্লোবার্বিং


9

সার্ভার: পাওয়ারেডেজ আর 620
ওএস: আরএইচএল 6.4
কার্নেল: 2.6.32-358.18.1.el6.x86_64

আমি আমার উত্পাদন পরিবেশে অ্যাপ্লিকেশন অ্যালার্মের অভিজ্ঞতা নিচ্ছি। ক্রিটিকাল সিপিইউ ক্ষুধার্ত প্রক্রিয়াগুলি সংস্থান থেকে সঞ্চারিত হচ্ছে এবং একটি প্রক্রিয়াজাতকরণ ব্যাকলগ তৈরি করছে। সমস্যাটি সম্প্রতি প্রকাশিত ক্লাস্টারে 12 তম জেনারেশন ডেল সার্ভারগুলিতে (r620s) চলছে। কাছাকাছি হিসাবে আমি বলতে পারি, এই ঘটনাকেই দৃষ্টান্ত শিখর CPU- র ব্যবহার পর্যন্ত মিলে হয়, মধ্যে "ক্ষমতা সীমা প্রজ্ঞাপন" স্প্যাম বিপুল পরিমাণে দ্বারা অনুষঙ্গী dmesg। এর মধ্যে একটি ঘটনার একটি অংশ:

Nov  7 10:15:15 someserver [.crit] CPU12: Core power limit notification (total events = 14)
Nov  7 10:15:15 someserver [.crit] CPU0: Core power limit notification (total events = 14)
Nov  7 10:15:15 someserver [.crit] CPU6: Core power limit notification (total events = 14)
Nov  7 10:15:15 someserver [.crit] CPU14: Core power limit notification (total events = 14)
Nov  7 10:15:15 someserver [.crit] CPU18: Core power limit notification (total events = 14)
Nov  7 10:15:15 someserver [.crit] CPU2: Core power limit notification (total events = 14)
Nov  7 10:15:15 someserver [.crit] CPU4: Core power limit notification (total events = 14)
Nov  7 10:15:15 someserver [.crit] CPU16: Core power limit notification (total events = 14)
Nov  7 10:15:15 someserver [.crit] CPU0: Package power limit notification (total events = 11)
Nov  7 10:15:15 someserver [.crit] CPU6: Package power limit notification (total events = 13)
Nov  7 10:15:15 someserver [.crit] CPU14: Package power limit notification (total events = 14)
Nov  7 10:15:15 someserver [.crit] CPU18: Package power limit notification (total events = 14)
Nov  7 10:15:15 someserver [.crit] CPU20: Core power limit notification (total events = 14)
Nov  7 10:15:15 someserver [.crit] CPU8: Core power limit notification (total events = 14)
Nov  7 10:15:15 someserver [.crit] CPU2: Package power limit notification (total events = 12)
Nov  7 10:15:15 someserver [.crit] CPU10: Core power limit notification (total events = 14)
Nov  7 10:15:15 someserver [.crit] CPU22: Core power limit notification (total events = 14)
Nov  7 10:15:15 someserver [.crit] CPU4: Package power limit notification (total events = 14)
Nov  7 10:15:15 someserver [.crit] CPU16: Package power limit notification (total events = 13)
Nov  7 10:15:15 someserver [.crit] CPU20: Package power limit notification (total events = 14)
Nov  7 10:15:15 someserver [.crit] CPU8: Package power limit notification (total events = 14)
Nov  7 10:15:15 someserver [.crit] CPU10: Package power limit notification (total events = 14)
Nov  7 10:15:15 someserver [.crit] CPU22: Package power limit notification (total events = 14)
Nov  7 10:15:15 someserver [.crit] CPU15: Core power limit notification (total events = 369)
Nov  7 10:15:15 someserver [.crit] CPU3: Core power limit notification (total events = 369)
Nov  7 10:15:15 someserver [.crit] CPU1: Core power limit notification (total events = 369)
Nov  7 10:15:15 someserver [.crit] CPU5: Core power limit notification (total events = 369)
Nov  7 10:15:15 someserver [.crit] CPU17: Core power limit notification (total events = 369)
Nov  7 10:15:15 someserver [.crit] CPU13: Core power limit notification (total events = 369)
Nov  7 10:15:15 someserver [.crit] CPU15: Package power limit notification (total events = 375)
Nov  7 10:15:15 someserver [.crit] CPU3: Package power limit notification (total events = 374)
Nov  7 10:15:15 someserver [.crit] CPU1: Package power limit notification (total events = 376)
Nov  7 10:15:15 someserver [.crit] CPU5: Package power limit notification (total events = 376)
Nov  7 10:15:15 someserver [.crit] CPU7: Core power limit notification (total events = 369)
Nov  7 10:15:15 someserver [.crit] CPU19: Core power limit notification (total events = 369)
Nov  7 10:15:15 someserver [.crit] CPU17: Package power limit notification (total events = 377)
Nov  7 10:15:15 someserver [.crit] CPU9: Core power limit notification (total events = 369)
Nov  7 10:15:15 someserver [.crit] CPU21: Core power limit notification (total events = 369)
Nov  7 10:15:15 someserver [.crit] CPU23: Core power limit notification (total events = 369)
Nov  7 10:15:15 someserver [.crit] CPU11: Core power limit notification (total events = 369)
Nov  7 10:15:15 someserver [.crit] CPU13: Package power limit notification (total events = 376)
Nov  7 10:15:15 someserver [.crit] CPU7: Package power limit notification (total events = 375)
Nov  7 10:15:15 someserver [.crit] CPU19: Package power limit notification (total events = 375)
Nov  7 10:15:15 someserver [.crit] CPU9: Package power limit notification (total events = 374)
Nov  7 10:15:15 someserver [.crit] CPU21: Package power limit notification (total events = 375)
Nov  7 10:15:15 someserver [.crit] CPU23: Package power limit notification (total events = 374)

একটি সামান্য গুগল ফু প্রকাশ করেছে যে এটি সাধারণত সিপিইউতে গরম চলছে বা ভোল্টেজের নিয়ন্ত্রণের সাথে জড়িত। ক্লাস্টারের সমস্ত সার্ভারের জন্য তাপমাত্রা সেন্সরগুলি ঠিকঠাক চলছে, পাওয়ার ক্যাপ নীতি আইডিআরএসি-তে অক্ষম রয়েছে এবং আমার সিস্টেম প্রোফাইলটি এই সার্ভারের সমস্তটিতে "পারফরম্যান্স" এ সেট করা আছে:

# omreport chassis biossetup | grep -A10 'System Profile'
System Profile Settings
------------------------------------------
System Profile                                    : Performance
CPU Power Management                              : Maximum Performance
Memory Frequency                                  : Maximum Performance
Turbo Boost                                       : Enabled
C1E                                               : Disabled
C States                                          : Disabled
Monitor/Mwait                                     : Enabled
Memory Patrol Scrub                               : Standard
Memory Refresh Rate                               : 1x
Memory Operating Voltage                          : Auto
Collaborative CPU Performance Control             : Disabled

আমি অনলাইনে যা কিছু পেতে পারি তা এখানে আমাকে চেনাশোনাতে চালাচ্ছে। হ্যাক কি চলছে?


1
এফওয়াইআই, এই সমস্যাটি মূললাইন কার্নেল ৩.১১ এ সংশোধন করা হয়েছে । এটি "সাধারণ" অ-সমালোচনামূলক ইভেন্টটির জন্য কার্নেল বিঘ্নিত হ্যান্ডলারটি ট্রিগার করার কারণে। উপরে লিখিত প্রতিশ্রুতি এই হ্যান্ডলারটিকে অক্ষম করে।
টোটার

উত্তর:


8

এটি ভোল্টেজ নিয়ন্ত্রণ নয় যা পারফরম্যান্স সমস্যা তৈরি করে, তবে ডিবাগিং কার্নেল বাধা দেয় যা এটি দ্বারা ট্রিগার করা হচ্ছে।

রেডহেটের পক্ষ থেকে কিছু ভুল তথ্য দেওয়া সত্ত্বেও, লিঙ্কযুক্ত সমস্ত পৃষ্ঠা একই ঘটনার উল্লেখ করছে to পারফরম্যান্স প্রোফাইলের সাথে বা ছাড়াই ভোল্টেজের নিয়ন্ত্রণ ঘটে, সম্ভবত টার্বো বুস্ট বৈশিষ্ট্যটি সক্ষম হওয়ার কারণে । কারণ নির্বিশেষে, এই ভোল্টেজের ওঠানামাগুলি কার্নেল 2.6.32-358.18.1.el6.x86_64 এ ডিফল্টরূপে সক্ষম হওয়া পাওয়ার-সীমা কার্নেল বাধাগুলির সাথে খারাপভাবে ইন্টারঅ্যাক্ট করছে।

নিশ্চিত করা ওয়ার্কআরাউন্ডস:

  • সর্বাধিক প্রকাশিত রেডহাট কার্নেল (২.rading.৩২-৩৫৮.২৩.২.el6) এ আপগ্রেড করা এই ডিবাগটিকে অক্ষম করে এবং কার্য সম্পাদন সমস্যাটি দূর করে।
  • নিম্নলিখিত কার্নেল প্যারামিটারগুলি যুক্ত করা grub.confPLNs অক্ষম করবে:clearcpuid=229

ফ্লেকি ওয়ার্কারাউন্ডস:

  • "পারফরম্যান্স" এর একটি সিস্টেম প্রোফাইল সেট করা। এটি স্বয়ংক্রিয়ভাবে আমাদের সার্ভারগুলিতে PLN গুলি অক্ষম করার জন্য যথেষ্ট ছিল না। আপনার মাইলেজ পরিবর্তিত হতে পারে.

খারাপ কর্মক্ষেত্র:

  • এসিপিআই সম্পর্কিত মডিউলগুলি কালো তালিকাভুক্ত করা হচ্ছে। আমি এটি কয়েকটি ফোরামের থ্রেডে দেখেছি। অসুস্থ-পরামর্শ দেওয়া, তাই করবেন না

আপনি কি নতুন-মোতায়েন করা সিস্টেমে আপডেটগুলি চালাচ্ছেন না?
ইয়েওয়াইট

এই সার্ভারগুলি ker কার্নেল আপডেটগুলি লাইভ হওয়ার ঠিক আগে স্থাপন করা হয়েছিল। নতুন আরপিএম 16 অক্টোবর উপলব্ধ করা হয়েছিল ।
অ্যান্ড্রু বি

রেড হ্যাট থেকে গ্রার। ভাল লাগছে।
ইয়েভাইট

আপডেটের পরেও এই সমস্যাটি কয়েক সপ্তাহ পরে আমার কাছে পুনরায় উত্থিত হয়েছিল (কার্নেলের ২.6.৩২-৪31১.১7.১.el6.x86_64)। এবার এ থেকে মুক্তি পেতে আমাদের ক্লিয়ারকপিউড ব্যবহার করে PLN গুলি অক্ষম করতে হয়েছিল। এই ইস্যুটি আমাকে ইতিমধ্যে এত মাথাব্যথার কারণ করেছে! এবং আমাদের কাছে কেবল একটি 12 জি ডেল সার্ভার রয়েছে (এবং এটি এর কারণে এটি কেবলমাত্র একটাই থাকবে)।
মার্টিজন

1
@ মার্তিজজন আমরা বর্তমানে আপ করছি 2.6.32-431.11.2.el6.x86_64এবং সমস্যাটি অনুভব করছি না। অনেকগুলি ক্লাস্টার, উচ্চ বোঝা ইত্যাদি Red এটা সম্ভব হয় যে রেডহাট পাঁচ দিন আগে এই আপডেটটি প্রকাশ করার সময় কোনও রিগ্রেশন পীড়িত হয়েছিল। আমি কী জানি তা আমি আপনাকে জানাব এবং উত্তরটি আপডেট করব যদি আমি এটির ক্ষেত্রে আবিষ্কার করি।
অ্যান্ড্রু বি
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.