উচ্চ লোডের কারণে সার্ভারটি ঝুলতে এবং ত্রুটিটি "120 সেকেন্ডেরও বেশি সময় অবরুদ্ধ" থাকতে পারে?


17

বর্তমানে কয়েকটি ভিএম এবং 'বেয়ারমেটাল' সার্ভার চলছে। জাভা উচ্চ সময়ে চালিত হয় - সময়ে 400% এরও বেশি। এলোমেলোভাবে সার্ভারটি কনসোল "জাভা - 120 সেকেন্ডেরও বেশি সময় অবরুদ্ধ করা হয়েছে" - কেজর্নাল্ড ইত্যাদিতে ত্রুটির সাথে স্তব্ধ s

আমি ডেমস্যাগ আউটপুট পেতে পারি না কারণ কোনও কারণে এই ত্রুটিটি কেবল কনসোলে লিখেছে, যেটি দূরবর্তীভাবে হোস্ট করা হওয়ায় আমার অ্যাক্সেস নেই। সুতরাং আমি একটি সম্পূর্ণ ট্রেস অনুলিপি করতে পারি না।

আমি যে পরিবেশটি চালু আছে তা পরিবর্তন করেছি - এমনকি শারীরিক সার্ভার এবং এটি এখনও চলছে।

আমি 0 থেকে hung_task_timeout_secs পরিবর্তিত আধারস্থ এই অনুযায়ী একটি মিথ্যা ইতিবাচক http://docs.redhat.com/docs/en-US/Red_Hat_Enterprise_Linux/6/html/Technical_Notes/deployment.html

এছাড়াও, ইরক্বালেন্স ইনস্টল করা নেই, সম্ভবত এটি সাহায্য করবে?

এটি উবুন্টু 10.04 64 বিট - সর্বশেষ 2.6.38-15-সার্ভার এবং 2.6.36 সহ একই সমস্যা।

সিপিইউ বা মেমরি ইস্যুগুলি / কোনও অদলবদলের কারণে এই সমস্যার কারণ হতে পারে?

কনসোল বার্তা এখানে:

[58Z?Z1.5?Z840] INFUI task java:21547 blocked for more than 120 seconds.
[58Z?Z1.5?Z986] "echo 0 > /proc/sgs/kernel/hung_task_timeout_secs" disables this
message.
[58Z841.5?Z06Z] INFUI task kjournald:190 blocked for more than 120 seconds.
[58Z841.5?Z336] "echo 0 > /proc/sgs/kernel/hung_task_timeout_secs" disables this
message.
[58Z841.5?Z600] INFUI task flush-202:0:709 blocked for more than 120 seconds.
[58Z841.5?Z90?] "echo 0 > /proc/sgs/kernel/hung_task_timeout_secs" disables this
message.
[58Z841.5?3413] INFUI task java:21547 blocked for more than 120 seconds.
[58Z841.5?368Z] "echo 0 > /proc/sgs/kernel/hung_task_timeout_secs" disables this
message.
[58Z961.5?ZZ36] INFUI task kjournald:60 blocked for more than 120 seconds.
[58Z961.5?Z6Z5] "echo 0 > /proc/sgs/kernel/hung_task_timeout_secs" disables this
message.
[58Z961.5?31ZZ] INFUI task flush-202:0:709 blocked for more than 120 seconds.
[58Z961.5?3393] "echo 0 > /proc/sgs/kernel/hung_task_timeout_secs" disables this
message.

উত্তর:


15

হ্যাঁ, এটা পারে।

এর অর্থ মোটামুটি সুস্পষ্ট: কার্নেলটি 120 সেকেন্ডের জন্য কার্য নির্ধারণ করতে পারেনি। এটি প্রায়শই ডিস্ক অ্যাক্সেসের আশেপাশে সম্পদ অনাহারে ইঙ্গিত দেয়।

irqbalanceসাহায্য করতে পারে, কিন্তু এটি সুস্পষ্ট মনে হয় না। আপনি কি আমাদের এই বার্তাটির চারপাশে dmesgবিশেষত স্ট্যাক ট্রেসটি অনুসরণ করে যা সরবরাহ করতে পারেন?

তাছাড়া, এই না একটি মিথ্যা ইতিবাচক। এটি বলে না যে টাস্কটি চিরতরে স্তব্ধ হয়ে গেছে , এবং বিবৃতিটি পুরোপুরি সঠিক। এর অর্থ এই নয় যে এটি আপনার জন্য সমস্যা এবং আপনি যদি কোনও ব্যবহারকারীর প্রভাব লক্ষ্য না করেন তবে আপনি এটিকে উপেক্ষা করার সিদ্ধান্ত নিতে পারেন।

এটি এর কারণে ঘটতে পারে না:

  • একটি সিপিইউ সমস্যা (বা বরং এটি একটি অত্যন্ত অসম্ভব হার্ডওয়ার ব্যর্থতা হবে),
  • একটি স্মৃতি সমস্যা (খুব সম্ভবত একটি হার্ডওয়্যার ব্যর্থতা, তবে একাধিকবার ঘটবে না; প্রক্রিয়া হিসাবে র‌্যামের অভাব হবে না oom-killed),
  • অদলবদল ( oom-killerআবার)।

প্রসারিত করার জন্য, আপনি এই মেমরির অভাবের জন্য দোষ দিতে সক্ষম হবেন যে র্যামে আপনার ডেটা ক্যাশিংয়ের সিস্টেমটিকে বঞ্চিত করার ফলে আরও I / O হয়ে যাবে cause তবে এটি "স্মৃতিশক্তি শেষ" এর মতো সোজা নয়।


/ Var / log / dmesg তে রেকর্ড করা হচ্ছে না তাই কনসোল যা দেখিয়েছিল তা আমি কেবল পেস্ট করেছি .. যখন সিস্টেমটি 100% স্তব্ধ হয়ে যায়।
টী

এই বার্তাটি কার্নেল থেকে এসেছে, এটি উপস্থিত হবে dmesg(যদি এটি সম্প্রতি যথেষ্ট লগইন করা হত) যেহেতু এই আদেশটি কার্নেল লগিং রিং বাফারটি প্রিন্ট করে। আশা করি আপনার syslogসেটআপটি এটি কোথাও লগইন করবে /var/logতবে কোথায় তা আমি জানতে পারি নি।
পিয়ের ক্যারিয়ার

বার্তাটি উপস্থিত হবে না/var/log/dmesg তবে আপনি যখন কমান্ডটি চালাবেন তখন তা আপ হতে পারেdmesg । ফাইল বুট প্রক্রিয়ার সময় সৃষ্টি হয় সাধারণত শুধুমাত্র ধারন করে বুট টাইম কার্নেল বার্তা (যা অন্যথায় অবশেষে কার্নেল রিং বাফারের আউট স্ক্রল হবে। এছাড়াও আপনি ইনস্টল করতে পারে / সক্ষম sysstatহিসাবে রিপোর্ট এবং সম্পদ ব্যবহার দিকে তাকাও। আমি ডিস্ক ধারণা করছি আই / ও / আইওয়েট, সম্ভবত অদলবদলের সাথে সম্পর্কিত (সিসট্যাট এটি সনাক্ত করতে সহায়তা করবে)
ডাঃ এডওয়ার্ড মরবিয়াস

@ ডাঃএডওয়ার্ডমরবিয়াস তাই আমরা কীভাবে এটি ঠিক করব? আমাদের জিমব্রা সার্ভারের সাথে এটি সম্পর্কিত একটি বড় সমস্যা আমার মধ্যে রয়েছে যা কিছুক্ষণ আগে পর্যন্ত একটি উত্পাদন পরিবেশে দুর্দান্ত চলছিল।
14:44 এ Lopsided

@ ল্যাপসাইড: বিলম্বের জন্য দুঃখিত, আমি এখানে প্রায়শই আসি না। সংক্ষেপে: আপনাকে আপনার জাভা প্রক্রিয়াটি প্রোফাইল করতে হবে এবং এটি কেন ঝুলছে out আবর্জনা সংগ্রহের একটি ক্ষেত্র আমার সুর করার ক্ষেত্রে সমস্যাগুলি (এবং সাফল্য) ছিল। জেভিএম আবর্জনা সংগ্রহের এরগডিমিক্সগুলি দেখুন এবং দেখুন oracle.com/technetwork/java/javase/gc-tuning-6-140523.html আমি খুঁজে পেয়েছি যে ক্রমবর্ধমান স্তূপগুলি উল্লেখযোগ্যভাবে সহায়তা করেছে।
ডাঃ এডওয়ার্ড মরবিয়াস

6
sudo sysctl -w vm.dirty_ratio=10
sudo sysctl -w vm.dirty_background_ratio=5

তারপরে এই পরিবর্তনটি প্রতিশ্রুতিবদ্ধ করুন:

sudo sysctl -p

এটা আমার জন্য সমাধান ...


6
এই সেটিংগুলির প্রতিটি কী করে তা আপনার ব্যাখ্যা করা উচিত।
ক্যাস্পারড

6
এটি একটি অনুরূপ সমস্যা সমাধান করেছে যা আমি একটি ডকার পরিবেশে ছিল। আমি এখানে একটি ব্যাখ্যা পেয়েছি: blackmoreops.com/2014/09/22/… । "ডিফল্টরূপে লিনাক্স ফাইল সিস্টেম ক্যাশিংয়ের জন্য উপলব্ধ মেমরির 40% পর্যন্ত ব্যবহার করে this ডিফল্টরূপে 120 সেকেন্ডের একটি সময় সীমা ক্ষেত্রে এখানে আই সাব-সিস্টেম দ্রুত তথ্য withing ফ্লাশ যথেষ্ট নয় ... "।
পিটার এম

2

আমি সম্প্রতি আমাদের একটি প্রোডাকশন ক্লাস্টারে এই ত্রুটিটি পেরিয়েছি:

নভেম্বর 11 14:56:41 এক্সএক্সএক্স কার্নেল: তথ্য: টাস্ক xfsalloc / 3: 2393 120 সেকেন্ডের বেশি অবরুদ্ধ।

নভেম্বর 11 14:56:41 এক্সএক্সএক্সএক্স কার্নেল: কলঙ্কিত নয় 2.6.32-504.8.1.el6.x86_64 # 1

নভেম্বর 11 14:56:41 এক্সএক্সএক্সএক্স: "প্রতিধ্বনি 0> / proc / sys / কার্নেল / হাঙ্গা_টাস্ক_টাইমআউট_সেকস" এই বার্তাটি অক্ষম করে।

..

সর লগগুলির আরও যাচাইকরণের সময় পাওয়া যায় যে একই সময়ের মধ্যে আইও অপেক্ষা আরও বাড়ানো হয়েছিল।

এবং হার্ডওয়্যার (ফিজিকাল ডিস্ক) পরীক্ষা করার পরে মাঝারি ত্রুটিগুলি দেখতে পেয়েছিল এবং অন্যান্য এসসিএসআই ত্রুটিগুলি একটি ফিজিকাল ডিস্কে লগ ইন করেছিল, যা বরাদ্দ দেওয়ার সংস্থান না থাকার কারণে আইওগুলিকে অবরুদ্ধ করে।

11/11/15 19:52:40: সমাপ্তি পিআরডিএম 607b8000 পতাকাগুলি = 0 টাইমআউটসি = 0 পুনরায় চেষ্টা করুন = 0 অনুরোধ সি 1173100 উত্তর 60e06040 iocStatus 0048 পুনরায় চেষ্টা করুন 0 ডিআইডিআইডি: 3 দেবফ্লাগস = f1482005 আইওলোগআইনফো: 31140000

11/11/15 19:52:40: ডিএম_প্রসেসডেভ ওয়েইটকিউ: ডিগ্রি প্রসেসে কার্য মিলিগ্রাম এমআইডি = x 11/11/15 19:52:40: ডিএম_প্রসেসদেবওয়াইটকিউ: ডিগ্রি প্রসেসে মিলিগ্রেট ডেডআইআইডি = এক্স

সুতরাং এটি আমাদের ক্লাস্টারে হার্ডওয়্যার ত্রুটির কারণে হয়েছিল।

সুতরাং এটি ভাল হবে, আপনি যদি মূল ফাইল এবং আইপিএমআই ইউটিলিটিটি পরীক্ষা করে দেখতে পারেন তবে সমস্যাটি পরীক্ষা করার জন্য ipmiutil / ipmitool বিক্রয় elist কমান্ডটি পরীক্ষা করুন।

শুভেচ্ছা, ভিটি


0

আপনি আপনার ক্লাউড সরবরাহকারীর মনিটরিং ইন্টারফেসে যেতে পারেন এবং আপনার স্টোরেজের জন্য নির্দিষ্ট করা সর্বাধিক আইওপিএস ছাড়িয়েছেন কিনা তা পরীক্ষা করে দেখতে পারে, এটি ক্যাশে ডেটা ফ্লাশ করতে কেন দীর্ঘ সময় নিয়েছে তা ব্যাখ্যা করবে।
আপনার স্টোরেজ বৈশিষ্ট্য পৃষ্ঠাতে সর্বাধিক আইওপিএস উপলব্ধ।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.