আমরা একটি লিনাক্স সেটআপ করেছি (এটি আমাজন এডাব্লুএস-তে রয়েছে, এটি একটি সেন্টোস-মতো সিস্টেম যদিও আমরা ঠিক এটির উপরের কাস্টমাইজেশনগুলি সম্পন্ন করেছি তা নিশ্চিত নই) LVM ওভার এক্সএফএস ভলিউম হিসাবে 4 টিবি স্টোরেজ সহ সিস্টেমটি (শেষ পর্যন্ত এনএফএস 4 এর উপরে পরিবেশন করার জন্য ব্যবহৃত হবে, তবে এটি) এখনও ব্যবহারে নেই), এবং আমরা আমাদের প্রযোজনা এনএফএস সার্ভার থেকে এক্সএফএস ভলিউমের সাথে ফাইলগুলি সিঙ্ক করতে rsync ব্যবহার করার প্রক্রিয়াতে রয়েছি (যেমন আমরা স্থানীয়ভাবে মাউন্ট করা এক্সএফএস-ভিত্তিক এলভিএম ভলিউমের সাথে এনএসএফের উত্স থেকে আরএসএনসি)) যাইহোক, আমরা লক্ষ্য করেছি যে মাঝের এক পর্যায়ে আরএসইএনসি ক্রমশ স্বাচ্ছন্দ্য হতে শুরু করেছে (থ্রুপুটটি তীব্রভাবে হ্রাস পেয়েছে) এবং লোড গড় এবং মেমরির খরচ উভয়ই বড় পরিমাণে বেড়েছে (এবং আইপিওতে সিপিইউর খুব বড় অনুপাত রয়েছে)। অবশেষে আমি এক্সএফএস সিস্টেমটি রিবুট করলাম এবং কমপক্ষে গত 24 ঘন্টা ধরে আরও স্বাভাবিক আরএসসিএনএইচ পারফরম্যান্স সহ সিস্টেমটি আপাতদৃষ্টিতে স্বাভাবিক হয়ে উঠেছে।
আমরা মুনিন পর্যবেক্ষণের গ্রাফগুলি যাচাই করেছিলাম এবং কিছুই স্পষ্টভাবে লক্ষ্য করতে পারি নি, তবে আমরা দেখতে পেলাম যে "ইনোড টেবিলের আকার" এবং "ওপেন ইনোড" মেট্রিক্স (মুনিন প্লাগইন বাস্তবায়ন যাচাই করেছে যা / proc / sys / থেকে পড়া হিসাবে মানগুলিকে নির্দেশ করে) fs / inode-nr) সময়ের সাথে সাথে কমতে থাকে। আমরা আরএসসিএনকে আটকে থাকার পর্যবেক্ষণের অল্প আগেই আমরা দেখেছি যে উভয় মেট্রিকগুলি কয়েক হাজার থেকে কয়েক হাজারের নিচে নেমে গেছে (আমাদের নন-এক্সএফএস সার্ভারগুলি বেশিরভাগ সময় প্রায় 500k এ থাকে এবং বর্ধিত সময়কালে কোনও একঘেয়েমিক হ্রাস প্রবণতা দেখায় না do ), এবং আমরা এর মতো কার্নেল থেকে লগগুলি পর্যবেক্ষণ করেছি:
আইপি-এক্সএক্সএক্সএক্সএক্সএক্সএক্সএক্সএক্সএক্সএক্সএক্সএক্সএক্সএক্সএক্স সেপ্টেম্বর 18 17:19:58 আইপি-এক্সএক্সএক্সএক্সএক্সএক্সএক্সএক্সএক্সএক্সএক্সএক্সএক্সএল-কার্নেল: [395850.680006] শ্রুতি: বাধা 20000573 এনএস [400921.660046] তথ্য: টাস্ক rsync: 7919 120 সেকেন্ডের বেশি অবরুদ্ধ। [400921.660066] "প্রতিধ্বনি 0> / proc / sys / কার্নেল / হাঙ্গা_টাস্ক_টাইমআউট_সেকস" এই বার্তাটি অক্ষম করে। [400921.660077] rsync ডি ffff880002fe4240 0 7919 7918 0x00000000 [400921.660093] ffff8800683e5638 0000000000000282 ffff880000000000 0000000000014240 [400921.660131] ffff8800683e5fd8 0000000000014240 ffff8800683e5fd8 ffff88000726da40 [400921.660153] 0000000000014240 0000000000014240 ffff8800683e5fd8 0000000000014240 [400921.660176] কল ট্রেস: [400921.660202] [] সময়সূচী_টাইমআউট + 0x1fd / 0x270 [400921.660220] []? pvclock_clocksource_read + + 0x58 / 0xd0 [400921.660234] []? __raw_callee_save_xen_irq_enable + + 0x11 / 0x26 [400921.660247] [] __ ডাউন + 0x76 / 0xc0 [400921.660262] [] নিচে + 0x3 বি / 0x50 [400921.660274] []? _raw_spin_unlock_irqrestore + + 0x19 / 0x20 [400921.660314] [] xfs_buf_lock + 0x2b / 0x80 [এক্সএফএস] [400921.660338] [] _xfs_buf_find + 0x139 / 0x230 [এক্সএফএস] [400921.660360] [] xfs_buf_get + 0x5b / 0x160 [xfs] [400921.660378] [] xfs_buf_read + 0x13 / 0xa0 [এক্সএফএস] [400921.660401] [] xfs_trans_read_buf + 0x197 / 0x2c0 [এক্সএফএস] [400921.660422] [] xfs_read_agi + 0x6f / 0x100 [xfs] [400921.660443] [] xfs_ialloc_read_agi + 0x29 / 0x90 [xfs] [400921.660467] [] xfs_ialloc_ag_select + 0x12b / 0x280 [xfs] [400921.660485] [] xfs_dialloc + 0x3c7 / 0x870 [এক্সএফএস] [400921.660500] []? pvclock_clocksource_read + + 0x58 / 0xd0 [400921.660509] []? __raw_callee_save_xen_restore_fl + + 0x11 / 0x1e [400921.660531] [] xfs_ialloc + 0x60 / 0x6a0 [এক্সএফএস] [400921.660550] []? xlog_grant_log_space + 0x39c / 0x3f0 [এক্সএফএস] [400921.660566] []? xen_spin_lock + + 0xa5 / 0x110 [400921.660583] [] xfs_dir_ialloc + 0x7d / 0x2d0 [এক্সএফএস] [400921.660606] []? xfs_log_reserve + 0xe2 / 0xf0 [xfs] [400921.660623] [] xfs_create + 0x3f7 / 0x600 [xfs] [400921.660638] []? __raw_callee_save_xen_restore_fl + + 0x11 / 0x1e [400921.660655] [] xfs_vn_mknod + 0xa2 / 0x1b0 [এক্সএফএস] [400921.660678] [] xfs_vn_create + 0xb / 0x10 [xfs] [400921.660689] [] vfs_create + 0xa7 / 0xd0 [400921.660701] [] do_last + 0x529 / 0x650 [400921.660714] []? get_empty_filp + + 0x75 / 0x170 [400921.660728] [] do_filp_open + 0x213 / 0x670 [400921.660744] []? xen_spin_lock + + 0xa5 / 0x110 [400921.660753] []? __raw_callee_save_xen_restore_fl + + 0x11 / 0x1e [400921.660769] []? alloc_fd + + 0x102 / 0x150 [400921.660780] [] do_sys_open + 0x64 / 0x130 [400921.660792] []? __raw_callee_save_xen_irq_disable + + 0x11 / 0x1e [400921.660804] [] সিস_পেন + 0x1 বি / 0x20 [400921.660815] [] সিস্টেম_ক্যাল_ফেষ্টপাথ + 0x16 / 0x1 বি
উত্স এনএফএস-এ যখন দেখা গিয়েছিল তখন আমরা "অনুসন্ধান" অপারেশনেও তীব্র বৃদ্ধি লক্ষ্য করেছি, যা পূর্বে আমরা আরএসএনসি সমস্যাটি শুরু করার আগে স্থিতিশীল ছিল।
আমরা আমাদের উত্পাদন ভলিউমগুলিতে একইরকম আচরণ লক্ষ্য করি নি যা ext3- ভিত্তিক এবং বাস্তবে সেগুলি আরও বেশি আকারের আকারের ছিল। ফাইল সিস্টেমের পার্থক্য বাদে ফাইল সার্ভারগুলি একই রকম মেশিন শ্রেণিতে এবং সেটআপ হয় set যেহেতু আমরা পেয়েছি যে এক্সএফএস সার্ভারে ইনড টেবিল মেট্রিকগুলি এখনই আমাদের আগের পর্যবেক্ষণের মতো ক্রমহ্রাসমান প্রবণতায় রয়েছে যদিও আমরা গতকাল সবেমাত্র এটি পুনরায় চালু করেছি, আমি উদ্বিগ্ন যে একই সমস্যাটি শীঘ্রই আমাদের আবার বিরক্ত করবে, এবং সম্ভবত প্রতিফলিত হতে পারে আমাদের সেটআপ, কার্নেল বা যাই হোক না কেন কিছু সমস্যা।
আমরা যখন এটি অনুভব করেছি আমরা x86_64 আর্কিটেকচার মেশিনে ইনোড 64-মাউন্টড এক্সএফএস ভলিউমে রয়েছি। এই মুহুর্তে আমরা এক্সএফএস ভলিউমে প্রায় 1.3TB ডেটা অনুলিপি করেছি যার ক্ষমতাটি প্রায় 4TB এবং সম্পূর্ণ অনুলিপি করা থাকলে আমাদের সেই ভলিউমে প্রায় 3TB ডেটা থাকা উচিত। ভলিউমটি নতুনভাবে তৈরি করা হয়েছিল তাই প্রথম থেকেই ইনোড 64-মাউন্ট করা হয়েছে যখন ভিতরে কোনও ডেটা ছিল না, সুতরাং ফাইল সিস্টেমটি পরিষ্কার হওয়া উচিত এবং ইনোডগুলি সমানভাবে বিতরণ করা উচিত।
এর কারণ কী হতে পারে সে সম্পর্কে কোনও অন্তর্দৃষ্টি?
(PS আসলে কয়েক ঘন্টা আগে থেকে আমরা এটি আবার দেখতে শুরু করেছি!)