পোস্টগ্রিএসকিউএল pg_stat_activity COMMIT দেখায় shows


11

আমরা সম্প্রতি 4 এক্স কোয়াড কোর সিপিইউ এবং 32 জিবি র‌্যামের সাথে একটি আপগ্রেডেড মেশিন দিয়ে আমাদের ডাটাবেস সার্ভারটি প্রতিস্থাপন করেছি। আমরা আমাদের পুরানো বাক্সটি স্ট্রিমিংয়ের অনুলিপি সহ দাস হিসাবে পরিবেশন করার জন্য পুনরায় প্রকাশ করেছি। দুটি বাক্সই সেন্টোস 6.3 এবং পোস্টগ্রিসকিউএল 9.2 চালাচ্ছে। প্রতিটি বাক্সে পোস্টগ্রিসই একমাত্র জিনিস running

এই কনফিগারেশনটি প্রায় এক মাস বা তার বেশি সময় ধরে চালু ছিল, যখন হঠাৎ ট্র্যাফিক চলাচল শুরু হওয়ার সাথে সাথে আমরা কিছু সমস্যা শুরু করি। আমরা যা দেখতে শুরু করেছি তা হ'ল একটি অত্যন্ত উচ্চ সিপিইউ লোড (শীর্ষে 270 এর একটি লোড গড় দেখায়), এবং আমরা যখন pg_stat_activityদেখতে পারি তখন দেখব আমাদের বেশিরভাগ সংযোগ COMMITরাজ্যে রয়েছে। যখন একা ছেড়ে যায়, শেষ পর্যন্ত এটি শেষ হবে এবং সংযোগগুলি হওয়ার সাথে সাথে সিস্টেমটি প্রতিক্রিয়াশীল হয়ে উঠবে IDLE। সমস্যাটি কিনা হতে পারে তা দেখার জন্য আমরা প্রতিলিপিটি অক্ষম করার চেষ্টা করেছি, তবে সমস্যাটি এখনও অব্যাহত রয়েছে।

আমরা কী ঘটছে তা নির্ণয়ের চেষ্টা করেছি এবং কিছুটা হারিয়েছি। চলমান থেকে আউটপুট perfনীচের মতো কিছু দেখায় এবং কী 0x347ba9উপস্থাপন করে তা আমার কোনও ধারণা নেই ।

+  41.40%       48154  postmaster  0x347ba9         f 0x347ba9                                   
+   9.55%       10956  postmaster  0x2dc820         f set_config_option                          
+   8.64%        9946  postmaster  0x5a3d4          f writeListPage     
+   5.75%        6609  postmaster  0x5a2b0          f ginHeapTupleFastCollect                    
+   2.68%        3084  postmaster  0x192483         f build_implied_join_equality                
+   2.61%        2990  postmaster  0x187a55         f build_paths_for_OR                         
+   1.86%        2131  postmaster  0x794aa          f get_collation_oid                          
+   1.56%        1822  postmaster  0x5a67e          f ginHeapTupleFastInsert                     
+   1.53%        1766  postmaster  0x1929bc         f distribute_qual_to_rels                    
+   1.33%        1558  postmaster  0x249671         f cmp_numerics

অ্যাপ্লিকেশন দ্বারা সম্পাদিত কোয়েরির কোনওটিই বিশেষত জটিল নয়, পরিকল্পনাগুলি সর্বাধিক 1 সেকেন্ড নেওয়ার ব্যাখ্যা দেয় (বেশিরভাগই দ্রুততর হয়)। তদ্ব্যতীত, ট্র্যাফিক যখন বাড়াতে শুরু করে তখন এটি ঘটে, আমরা একটি বিশাল ট্র্যাফিক বোঝার কথা বলছি না (পুরানো মেশিনটি এটি বেশ সহজেই পরিচালনা করতে সক্ষম হত)।

এই মুহুর্তে আমি পরে কী চেষ্টা করব সে সম্পর্কে আমি কিছুটা স্ট্যাম্পড। যেকোনো সাহায্য অথবা পরামর্শ উৎসাহিত করা হবে. যদি এমন কোনও অতিরিক্ত তথ্য থাকে যা সাহায্য করবে, কেবল জিজ্ঞাসা করুন এবং আমি প্রশ্নটি সংশোধন করতে পারি।

ডিস্ক কনফিগারেশন:

  • পার্ক 6 আই রেড কন্ট্রোলার
  • 5 এক্স 146 জিবি 15 কে এস এস ড্রাইভ
  • ওয়াল এর জন্য 2x146GB RAID-1 এবং সিস্টেম এবং ডেটার জন্য 3x146GB RAID-5 হিসাবে কনফিগার করা হয়েছে

হালনাগাদ:

সিস্টেমটি স্বাভাবিকভাবে কাজ করছে এবং সিপিইউ শুট হয়ে গেলে নীচে ভিএমএস্যাট আউটপুট রয়েছে। যখন কোনও সমস্যা হয় তখন বাধাগুলি আকাশচুম্বী বলে মনে হয়।

স্বাভাবিক অপারেশন চলাকালীন:

procs -----------memory---------- ---swap-- -----io---- --system-- -----cpu------ ---timestamp---
 r  b   swpd   free   buff  cache   si   so    bi    bo   in   cs us sy id wa st
 0  0      0 18938590 303763 21947154    0    0    28    52 7466 12649  2  1 97  0  0   2013-01-14 16:03:25 EST
 0  0      0 18938396 303763 21947154    0    0     0    19 7107 12679  2  0 98  0  0   2013-01-14 16:03:35 EST
 1  0      0 18938904 303763 21947162    0    0     0    54 7042 12708  1  1 99  0  0   2013-01-14 16:03:45 EST
 1  0      0 18938520 303763 21947260    0    0    33    66 7120 12738  1  1 99  0  0   2013-01-14 16:03:55 EST

যখন সিপিইউ ব্যবহার বেশি হয়:

procs -----------memory---------- ---swap-- -----io---- --system-- -----cpu------ ---timestamp---
 r  b   swpd   free   buff  cache   si   so    bi    bo   in   cs us sy id wa st
343 0      0 32680468 226279 11339612    0    0     0   214 26692 12225 80  20  0  0  0   2013-01-11 16:45:53 EST
374 1      0 32673764 226291 11340345    0    0     0    77 54893 11572 80  20  0  0  0   2013-01-11 16:46:03 EST
383 0      0 32616620 226304 11340956    0    0     0   102 55540 12922 82  18  0  0  0   2013-01-11 16:46:13 EST
315 0      0 32602038 226320 11341378    0    0     0    79 54539 12441 82  18  0  0  0   2013-01-11 16:46:23 EST

নতুন বাক্সে কী ধরণের ডিস্ক রয়েছে? এটি উভয় নোডে বা কেবল একটিতে ঘটছে?
ট্রিগভে লগস্টেল

@rygvis - আমি ডিস্কের চশমা দিয়ে প্রশ্ন আপডেট করেছি। মাস্টার নোডে সমস্যাটি হচ্ছে। আমি স্লেভকে সরাসরি প্রচার করার এবং এটিতে সরাসরি ট্র্যাফিক প্রেরণ করার চেষ্টা করি নি, সুতরাং আমি নিশ্চিত না যে এটি একই পরিস্থিতিতে সেখানেও কোনও সমস্যা কিনা। ক্রীতদাস হিসাবে, যন্ত্রটি কোনও সমস্যার অভিজ্ঞতা বলে মনে হচ্ছে না।
jcern

2
perfকিছু সিস্টেম-ব্যাপী প্রোফাইলিং এবং কিছু PostgreSQL প্রোফাইলিংয়ের জন্য সরঞ্জামটি ব্যবহার করার বিষয়টি বিবেচনা করুন । সিপিইউয়ের ব্যবহার কোথায় হচ্ছে তা দেখুন। বিটিডাব্লু, আপনার ২ য় ফর্ম্যাটিংটি vmstatআশাহীনভাবে ম্যাঙ্গেল করা হয়েছে এবং 1 ম এর কলামগুলি ভুলভাবে পাঠানো হয়েছে তাই এটি পড়া শক্ত। commit_delayউন্নত জিনিস যুক্ত করা আছে কিনা তা পরীক্ষা করুন । আপনার RAID নিয়ামকটির ব্যাটারি-ব্যাকযুক্ত রাইটিং-ব্যাক ক্যাশে রয়েছে কিনা তা পরীক্ষা করুন এবং যদি তা না হয় তবে একটি পান। অনেক সময় ব্যয় হয় iowait? এটি কিছু প্রতিবেদনে সিপিইউ ব্যবহার হিসাবে উপস্থিত বলে মনে হচ্ছে , তবে বাস্তবে তা নয়।
ক্রেগ রিঞ্জার

@ ক্রেইগ্রিঞ্জার কন্ট্রোলারে ব্যাটারি-ব্যাকযুক্ত রাইটিং ক্যাশে রয়েছে এবং এটি বর্তমানে সক্ষম। আইওস্ট্যাট থেকে আসা অপেক্ষাকৃত একক থেকে কম ডাবল ডিজিটে থেকে যায়। আমরা পারফেক্ট দিয়ে আরও কিছু প্রোফাইল দেওয়ার চেষ্টা চালিয়ে যাব। আমি দ্বিতীয় ভিএমএস্যাট্যাট ফর্ম্যাটিংটিও ঠিক করেছি, এটি নির্দেশ করার জন্য আপনাকে ধন্যবাদ।
jcern

উত্তর:


11

আরও ডায়াগনস্টিকস এবং কিছু গুগলিংয়ের পরে, আমরা এই নিবন্ধটি জুড়ে এসেছি যা আমরা একই একই লক্ষণগুলির সম্মুখীন হয়েছিল described তাদের সমস্যার মূল কারণ (এবং আমরা যা বলতে পারি তা থেকে আমাদেরও) Transparent Huge Pagesবাস্তবায়ন সম্পর্কিত ।

Transparent Huge Pagesএই আদেশটি নিষ্ক্রিয় করার পরে :

echo never > /sys/kernel/mm/redhat_transparent_hugepage/enabled

সমস্যাটি সমাধান হয়েছে বলে মনে হয়। আমরা গত দু'সপ্তাহ ধরে বর্ধিত কাজের চাপের অধীনে চলেছি এবং বিষয়টি পুনরায় উত্থিত হয়নি। সিস্টেমের প্রসঙ্গ এবং বাধাগুলি ধারাবাহিকভাবে তারা যা ছিল তার 1/10 তম এবং গড় সিস্টেমের সময়ও হ্রাস পেয়েছে।

এটি সবার জন্য সমাধান কিনা তা নিশ্চিত নয়, তবে এটি অন্য কারও সাথে অনুরূপ সমস্যা সমাধানে সহায়তা করতে পারে এমন সম্ভাব্য কারণ হিসাবে এটি এখানে পোস্ট করছি।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.