লিনাক্স কার্নেল ভুল প্রসেসরের ফ্রিকোয়েন্সি সনাক্ত করছে


15

Bian.০.৮ দেবিয়ান সার্ভার (এইচপি প্রোলিয়েন্ট) এর একটি শীতল বুটের পরে, ntpdসিস্টেম সময়ের সাথে সাথে সর্বনাশ খেলে: সীমা ছাড়াই বাড়ছে স্বাভাবিক এবং নির্ভরযোগ্য রেফারেন্স টাইম সার্ভারের প্রতি অফসেট এবং জিটটার। (নোট করুন যে দুটি যুগল অভিন্ন সার্ভারটিতে কোনও সমস্যাই ছিল না)) ntpdপক্ষ থেকে সমস্যাটি সমাধানের জন্য অনেকগুলি ব্যর্থ চেষ্টা করার পরে আমি একটি রিবুট চেষ্টা করার সিদ্ধান্ত নিয়েছি এবং সবকিছু ঠিকঠাক হয়ে গেছে।

সমস্যাটি অনুসন্ধানের জন্য আমি এই তাত্পর্যটি পেয়েছি, যা আমার ঘড়ির সমস্যার ব্যাখ্যা দিতে পারে:

root@n1:~# zgrep Detected /var/log/dmesg*
/var/log/dmesg:[    0.004000] Detected 2400.110 MHz processor.
/var/log/dmesg.0:[    0.004000] Detected 2383.579 MHz processor.
/var/log/dmesg.1.gz:[    0.004000] Detected 2400.036 MHz processor.
/var/log/dmesg.2.gz:[    0.004000] Detected 2400.298 MHz processor.
/var/log/dmesg.3.gz:[    0.004000] Detected 2400.165 MHz processor.
/var/log/dmesg.4.gz:[    0.004000] Detected 2400.410 MHz processor.

মনে রাখবেন যে দ্বিতীয় শেষ বুটে (সমস্যাযুক্ত একটি) সনাক্ত করা সিপিইউ ফ্রিক্স একটি পরিষ্কার পরিচ্ছন্নতা। নামমাত্র ব্যক্তির ক্ষেত্রে সনাক্তকারী ফ্রিকোয়েন্সিটির আউটিলার, ত্রুটি এবং স্ট্যান্ডার্ড বিচ্যুতিটি হল +0.15 মেগাহার্টজ ± 0.25 মেগাহার্টজ। সমস্যাযুক্ত বুটের জন্য আমার কাছে -১.4.৪ মেগাহার্জ ত্রুটি রয়েছে, যা প্রত্যাশার চেয়ে প্রায় 100 গুণ বেশি।

আমার প্রশ্নগুলো:

  1. এই ধরণের একটি ত্রুটি কি ntpসময় শৃঙ্খলাটিকে অস্থির / অযোগ্য করে তুলতে পারে ? এটা কি আমার ঘড়ির সমস্যার কারণ?

  2. এই ধরণের আচরণ কি ভাসা হার্ডওয়ারের লক্ষণ? সার্ভারটি কি এইচডাব্লু রক্ষণাবেক্ষণে যেতে হবে?

হালনাগাদ

কিছু দরকারী তথ্য:

  • কার্নেলটি 2.6.32-5-amd64 (দেবিয়ান 2.6.32-48 স্কুইজ 4)
  • current_clocksource হয় tsc
  • এর জন্য lpjত্রুটি সিপিইউ ফ্রিক্যুতে ত্রুটির সাথে সামঞ্জস্যপূর্ণ (অবশ্যই)

উপরের জন্য কিছু প্রসঙ্গ লাইন grep

[    0.000000] hpet clockevent registered
[    0.000000] Fast TSC calibration using PIT
[    0.004000] Detected 2400.110 MHz processor.
[    0.000008] Calibrating delay loop (skipped), value calculated using timer frequency.. 4800.22 BogoMIPS (lpj=9600440)

উত্তর:


5

আমি নিজেকে নিশ্চিত করেছিলাম যে সমস্যাটি একটি ভুল সনাক্তকারী টাইম স্ট্যাম্প কাউন্টার (টিএসসি) ফ্রিকোয়েন্সি।

স্পষ্টতই কার্নেল টিএসসিকে প্রোগ্রামযোগ্য ইন্টারভাল টাইমার (পিআইটি) এর বিপরীতে ক্যালিব্রেট করছে । সাধারণত চিহ্নিত সিপিইউ ফ্রিকোয়েন্সি 2400.204 ± 0.134 মেগাহার্টজ, যা প্রায় 56 পিপিএম যথার্থতার সাথে মিলে যায়। সমস্যাযুক্ত বুটের পরে সিপিইউ ফ্রিক্সটি 2383.579 মেগাহার্টজ হিসাবে অনুমান করা হয়েছিল যা প্রায় 6900 পিপিএমের ত্রুটির সাথে মিলে যায়, যা ntpdক্ষতিপূরণ দিতে সক্ষম হয় নি। বাস্তবে প্রথম 10h30m কার্যকারিতা চলাকালীন সিস্টেম ক্লকটি প্রায় 4m30s লাভ করেছিল যা প্রায় 7000 পিপিএম।

যেহেতু টিএসসি ফ্রিকোয়েন্সিটিতে ত্রুটিটি সিস্টেমের ক্লকের প্রবাহের সাথে মিলে যায় আমি এই সিদ্ধান্তে পৌঁছাতে পারি যে অস্বাভাবিক ঘড়ির আচরণটি একটি ভুল টিএসসি ক্যালিগ্রেশন দ্বারা হয়েছিল।

তবে আমি এত বড় সমস্যাটি কখনই দেখিনি: আমি এখনও এই ভুল ক্রমাঙ্কণের সম্ভাব্য কারণগুলি (এইচডাব্লু, ডাব্লু?) নিয়ে ভাবছি।


3

এই ধরণের আচরণটি atypical। ntp.driftআচরণটি প্রদর্শিত হচ্ছে যখন উল্লেখযোগ্য পরিবর্তন ঘটে কিনা তা দেখার জন্য ফাইলের মানগুলি পর্যবেক্ষণ করা ভাল পরীক্ষা করা উচিত। যদি এটি উল্লেখযোগ্যভাবে পরিবর্তিত হতে থাকে, এনটিপি একটি সমস্যা ঘেরাও করার চেষ্টা করেছিল। যদি এটি হয় তবে এটি এমন একটি চিহ্ন যে শুরুর দিকে কার্নেলটি সত্যিকারের ঘড়ির ফ্রিকোয়েন্সিটি সনাক্ত করেছিল বা বুটটির ভুল অংশগুলির জন্য ঘড়িটি ধীর ছিল slow দুর্ভাগ্যক্রমে, এই একটি ইভেন্টটি হার্ডওয়্যার সমস্যার সুস্পষ্ট সংকেত নয়।

যদি এটি আবার ঘটে থাকে তবে সেই এনটিপি.ড্রিফ্ট ফাইলটি দেখুন।


সমস্যাযুক্ত বুটের পরে এনটিপিডি কখনই কোনও স্থিতিশীল পিএলএলে পৌঁছায় না, তাই ntpdc -c loopinfoআমাকে কখনই কোনও ফ্রিকোয়েন্সি ড্রিফ্ট মান দেয়নি। পুনরায় বুট করার পরে স্থিতিশীল ড্রিফ্ট মান সহ সবকিছুই যথাযথভাবে উপস্থিত হয় ... BTW আপনার পরামর্শটি সঠিক, আমি log/loopstatsঅস্বাভাবিক আচরণের জন্য পর্যবেক্ষণ করছি ।
স্টেফানো এম
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.