যখন কোনও অচ্ছুত ইউনিক্স সার্ভার নর্দমার হতে শুরু করে তখন আপনি প্রথমটি কীটি পরীক্ষা করেন?


10

সুতরাং আপনার এই সুন্দরভাবে সেটআপ ইউনিক্স সার্ভার রয়েছে এবং এটি সুপার দ্রুত এবং কাজ করে ফুলে ওঠে এবং কয়েক মাস ধরে সবকিছু দুর্দান্ত হয়ে যায় এবং হঠাৎ করে সমস্ত ধরণের ত্রুটিযুক্ত ত্রুটি বিভিন্ন পরিষেবাগুলির জন্য দেখাতে শুরু করে এবং এগুলির মধ্যে কোনও একটিই তাদের নিজস্ব ধারণাটি তৈরি করে না none একসাথে অনেক কম।

আপনি মেশিনে আপনার ssh সেশন পাওয়ার সাথে সাথে আপনার সস্তার জিনিসগুলি কী পরীক্ষা করা উচিত?

আমি স্পষ্ট কমান্ড এবং বিরল পরিস্থিতি হাইলাইটার ট্রমা গল্পগুলিতে বিশেষভাবে আগ্রহী, তবে আমি অনুমান করি যে স্পষ্টতই কি ব্যক্তি থেকে ব্যক্তিভেদে আলাদা হয়, তাই আমরা কেবল সেগুলি অবাধে তালিকাভুক্ত করতে পারি।

উত্তর:


19

প্রথম আদেশ: এটি প্রতিক্রিয়াশীল?

আপনি যদি লগ ইন করতে না পারেন তবে এই মুহূর্তে আরও বড় সমস্যা রয়েছে। এটি সাধারণত দুটি স্বাদে আসে: হার্ডওয়্যার ব্যর্থতা এবং সফ্টওয়্যার ব্যর্থতা। উভয়ই সম্ভাব্য বিপর্যয়কর। ডিএফএ ত্রুটিগুলি রোধ করতে প্রথমে সাধারণ হার্ডওয়্যার স্বাস্থ্য পরীক্ষা করুন - একটি সাধারণ দৃষ্টিকোণ সাধারণত যথেষ্ট হবে।

দ্বিতীয় আদেশ: সিস্টেমের অন্তর্নিহিত কাঠামোগুলি কি সুস্বাস্থ্য এবং শৃঙ্খলায় রয়েছে?

সিস্টেমগুলির "গোল্ডেন ট্রায়াড" পরীক্ষা করুন:

  • প্রসেসিংয়ের জন্য পর্যাপ্ত সিপিইউ সময় নিখরচায়
  • স্টোরেজের জন্য পর্যাপ্ত ডিস্কের স্থান বিনামূল্যে
  • কাজের চাপের জন্য পর্যাপ্ত মেমরি বিনামূল্যে

গত কয়েক দশকে, ত্রিয়ার একটি "চতুষ্কাল" রূপান্তরিত হয়েছে যার মধ্যে যোগাযোগ (নেটওয়ার্কিং) অন্তর্ভুক্ত রয়েছে:

  • সংযোগ কার্যকরী, প্রতিক্রিয়াশীল এবং ক্ষমতা রয়েছে

তৃতীয় আদেশ: ইস্যুটির তীব্রতা কী?

কোন প্রোগ্রাম বা পরিষেবাগুলি প্রভাবিত হয়? তীব্রতার ক্রম হ্রাসে, এটি কি সিস্টেমিক (সিস্টেম-প্রশস্ত), ক্লাস্টারড (প্রোগ্রামগুলির একটি গ্রুপ), বা বিচ্ছিন্ন (একটি নির্দিষ্ট প্রোগ্রাম)? প্রোগ্রামগুলির ক্লাস্টারগুলি সাধারণত ট্রিপ আপ হয় কারণ একটি নির্দিষ্ট অন্তর্নিহিত পরিষেবা ব্যর্থ হয়েছে বা প্রতিক্রিয়াহীন হয়ে গেছে। সিস্টেমেটিক সমস্যাগুলি কখনও কখনও এটির সাথে সম্পর্কিত হয় (ডিএনএস বা আইপি দ্বন্দ্বগুলি ভাবেন) তবে কোথায় দেখতে হবে তা জেনে রাখা সাধারণত কী।

চতুর্থ আদেশ: ডায়গনিস্টিক সরঞ্জামগুলি কি দরকারী ডেটা সরবরাহ করে? সিস্টেমের স্বাস্থ্য সম্পর্কে দ্বিতীয়বার (দ্বিতীয় ক্রম) এবং এর কোন অংশগুলি সমস্যা (তৃতীয় ক্রম) অনুভব করছে সে সম্পর্কে আপনার কাছে এখন সমস্যা রয়েছে যেখানে এটি সঙ্কুচিত করা সহজতর হওয়া উচিত।

ত্রুটি বার্তা বা লগ ফাইলগুলি এই যাত্রায় একটি সাধারণ উপায় হতে হবে।

সিপিইউ ইস্যুগুলি:

  • loadav
  • শীর্ষ
  • strace,

ডিস্ক স্পেস / আইও ইস্যুগুলি:

  • df প্রয়োগ
  • ডু
  • lsof
  • iostat
  • vmstat

মেমরি সমস্যা:

  • বিনামূল্যে

সংযোগ সমস্যা:

  • পিং
  • রুট (এবং আরপ এবং র‌্যাপ এবং বন্ধুরা)
  • iptables, ipchains, ipfw (যারা বিএসডি ভাবেন তাদের জন্য সেখানে)
  • ট্রেস্রোলেট বা মিটার
  • হোস্ট, এনস্লুআপ বা ডিগ
  • netstat কমান্ড

সর্বাধিক সাধারণ অভিযোগ (যা আমি শুনেছি):

ইমেল দ্রুত সরবরাহ করছে না (প্রাপকের কাছ থেকে প্রাপ্য থেকে এক মিনিটেরও বেশি) বা ইমেল আমার প্রেরণের প্রচেষ্টা প্রত্যাখ্যান করছে। এটি সাধারণত স্প্যাম-ঝড়ের সময় লাথি মারতে পোস্টফিক্সের রেট সীমাতে চলে আসে, যা অভ্যন্তরীণ বিতরণ গ্রহণের ক্ষমতাকে প্রভাবিত করে।

বাস্তব জীবনের উদাহরণ:

যাইহোক, এই সবসময় তা হয় না। একসময়, পরিষেবাটি পুনরায় আরম্ভ না করেই বিষয়টি স্থির ছিল; সুতরাং 3 মিনিটের পরে এটি চারপাশে তাকাতে শুরু করার সময় ছিল। সিপিইউ ব্যস্ত ছিল তবে 100% এর নিচে, তবুও মাত্র 2 টি কোরের একটি বাক্সে বোঝা 15 এ বেড়েছে এবং আরও বেশি হওয়ার হুমকি দিচ্ছিল। শীর্ষ কমান্ডটি প্রকাশ করেছে যে মেল সিস্টেমটি মেল স্ক্যানার সহ ওভারড্রাইভের মধ্যে ছিল, তবে সেখানে কোনও অ্যামাভিস শিশু প্রক্রিয়া দেখা যায়নি। এটি ক্লু ছিল - মেল কিউ কমান্ড (মেলকিউ) প্রায় 150+ টি অবিকল্পিত বার্তা দেখিয়েছিল, যার 80% এর বেশি স্প্যাম ছিল, শেষ 20 মিনিটে। শিশু ইমেল স্ক্যানার প্রক্রিয়া (ব্যাকলগ প্রক্রিয়াকরণে সহায়তা করতে) সংখ্যা বৃদ্ধি করার সাথে সাথে রেট সীমাবদ্ধতা (যা স্প্যাম ঝড়ের ইনটেকের হারকে হ্রাস করেছে) কমিয়ে আনার জন্য একটি দ্রুত সমন্বয়, সমস্যাটি সমাধান করেছে এবং সিস্টেম সক্ষম হয়েছিল একটি স্বল্প সময়ের মধ্যে সরবরাহ সম্পূর্ণ।

সমস্যার কারণ হ'ল আমাভিস পিতামাতার প্রক্রিয়াটি মৃতদের উপরে ঝুঁকিয়েছিল এবং শিশু প্রক্রিয়াগুলি শেষ পর্যন্ত সমস্ত তাদের কোর্সটি চালিয়েছিল (তারা মেমরি ফাঁস রোধে এতগুলি স্ক্যানের পরে স্ব-সমাপ্ত করে)। সুতরাং পোস্টফিক্সে যোগাযোগের চেষ্টা করার সময় এসএমটিপি প্রক্রিয়া ছিল ... পাতলা বাতাস ... যে স্প্যাম / ভাইরাস স্ক্যানের প্রয়োজন ছিল তা করতে। আমি যে ডিস্ট্রোটি ব্যবহার করছিলাম তার মধ্যে পুরানো প্যাকেজ রয়েছে যা কখনই আপডেট হবে না; যেহেতু ইনস্টলেশনটি এক বছর বা তার পরে প্রতিস্থাপন করা হচ্ছিল, তাই আমি ম্যানুয়ালি ইনস্টলটিকে সর্বশেষ সংস্করণে "ওভাররড" করেছি, যার মধ্যে বেশ কয়েকটি বাগ ফিক্স অন্তর্ভুক্ত রয়েছে। সেই থেকে আমার আর সমস্যা হয়নি।


5

সাধারণত "শেষ" দ্বারা অনুসরণ করা "কে"

আমি বেশ কয়েকবার মেশিনগুলিতে পরিচালনা করেছি এমন সমস্যাগুলির একটি স্তূপ "আউটচুড" এর খুব আলগা সংজ্ঞা বলে চলেছে - প্রায়শই কেউ কিছু করে ফেলেছে :)


4

ঠিক আছে, আমি শুরু করব।

এটি আমাকে একবার বিট করে, আমি কয়েক হাজার চেষ্টা করেছি হাজার হাজার বিভিন্ন জিনিস চেষ্টা করে, এখানে এবং সেবার পরিষেবাগুলি অক্ষম করে, পুনরায় চালু করা ইত্যাদি কী সমস্যা ছিল? পুরোপুরি ডিস্কের জায়গার বাইরে।

সুতরাং, হঠাৎ সমস্যাযুক্ত সার্ভারটি ডিবাগ করার সময় এখানে প্রথম জিনিসটি টাইপ করব:

df -h

আমি এখন তা কখনই ভুলি না। এটি কেবল আমাকে প্রচুর অপচয় করার প্রচেষ্টা বাঁচিয়েছে। ভেবেছিলাম ভাগ করে নিই।



1

আপনি যদি পারেন তবে আমি সবসময় এনআইসিকে পরিচালনাটি বন্ধ করে দেওয়ার চেষ্টা করব।


1

কোনও ত্রুটির জন্য ডেমসেক চেক করা - আমি সাধারণত একটি দিয়ে শুরু করি dmesg | tailকারণ সম্ভাবনাগুলি এখনও কিছু ভুল হয়ে যাচ্ছে এবং সার্ভার এখনও ত্রুটি সৃষ্টি করার জন্য যা কিছু করার চেষ্টা করছে।


0

প্রথম যে জিনিসটি আমি যাচ্ছি তা হ'ল 'শীর্ষ' (এমন কোনও অদ্ভুত প্রক্রিয়া রয়েছে; যা ম্যাগোরি বা সিপিইউতে হাগ করে))

যদি সেখানে কিছু না ঘুরে, আমি 'কে' তা পরীক্ষা করে দেখব যে কোনও কারণে আমার মেশিনে অন্য কেউ আছে কিনা to

হতে পারে একটি ফাইল সিস্টেম বাতিল হয়ে গেছে; 'ক্যাট / ইত্যাদি / এমটিএব'-এর সাথে কল করুন এবং তারপরে' fstab 'এ পরীক্ষা করে দেখুন যে বুটে ঠিকঠাক সবকিছু চলে আসবে কিনা তা নিশ্চিত করতে।

বাক্সে থাকা ব্যবহারকারীদের # টি যুক্তিযুক্ত কিনা তা নিশ্চিত করার জন্য আপটাইম পরীক্ষা করে দেখুন (কেবলমাত্র আপনি হওয়া উচিত) এবং তারপরে var / লগ / লেখক.লগের মাধ্যমে স্কিম করুন যাতে সেখানে কিছু অসুবিধাগ্রস্ত রয়েছে কিনা তা দেখুন।

এগুলি ক্যাচ-অলস। আপনার বাক্সটি যে ত্রুটিগুলি ফেলছে তার উপর নির্ভর করে আপনাকে নির্দিষ্ট প্রক্রিয়াগুলি পরীক্ষা করতে হবে যা সমস্যার সৃষ্টি করছে।


0

শীর্ষস্থানীয় df -h এবং সর্বদা পরীক্ষা করুন / var / লগ নিশ্চিত করুন যে পার্টিশনটি পূরণ করেছে না। এটি আমার উপর কয়েকবার সম্পূর্ণ গলে গেছে।


0

df -ha

হার্ডড্রাইভগুলি পূর্ণ কিনা এবং কেউ সতর্কতা পেয়েছে কিনা তা পরীক্ষা করতে

hops বা শীর্ষ

মেমরি পরীক্ষা করতে এবং সিপু ব্যবহার অস্বাভাবিকভাবে বেশি নয়।

বিকল্পভাবে যদি বাক্সটি প্রতিক্রিয়া না জানায় আমি ভিএম-ওয়্যার ক্লায়েন্টে যাই এবং সেখান থেকে সিপিইউ / র‌্যাম চেক করি।


0

হোস্টে (এট) সর জাতীয় কিছু চালানো প্রায় বাধ্যতামূলক। সিপিইউ, নেটওয়ার্ক, মেমরি এবং ডিস্ক I / O (অন্যদের মধ্যে) এর historicalতিহাসিক স্ন্যাপশটগুলি অর্জন করতে সক্ষমতার কার্যকারিতাটিকে নিম্নোক্ত করা যায় না।

অনেকবার হয়েছে যে আমি হোস্ট গত 24 ঘন্টার মধ্যে কী করছিল তা পরীক্ষা করে এবং বিষয়গুলি কখন বিশ্রী হতে শুরু করেছে তা দেখে আমি একটি ত্রুটি নির্ণয় করতে সক্ষম হয়েছি।


0

লিনাক্সে, আমি সাধারণত ডেমস্যাগ এবং / ভার / লগ / বার্তা বা / ভার / লগ / সিসলগ পরীক্ষা করি। হঠাৎ হার্ডওয়ারের ত্রুটি থাকলে dmesg নির্দেশ করবে; অন্যান্য অনেক সমস্যা সিস্টেম লগগুলিতে প্রদর্শিত হবে।


0

আমি মনে করি আমি প্রথম কাজটি হ'ল একটি ডিস্ক স্পেস চেক (যেমন অন্যরা উল্লেখ করেছেন)। যদি সাধারণ চেকগুলি একটি "সাধারণ" সমস্যা প্রকাশ না করে তবে আমি আরও তদন্ত করব।

আমি করতে চাই একটি জিনিস সিস্টেমের একটি স্ন্যাপশট ক্যাপচার। আমার নজর কেড়েছে এমন কোনও কিছুর সন্ধান করতে আমি পরে এগুলি গ্রেপ করতে পারি।

lsof > /tmp/lsof.tmp &
ps auxfw > /tmp/ps.tmp &
netstat -anp > /tmp/netstat.tmp &

সেখান থেকে এটি সমস্যা সমাধান করছে 101 তবে আমি সংরক্ষিত লগগুলি গ্রিপ করতে কিছুটা দ্রুত পেয়েছি এবং আমি লগইন করার সময় শর্তটি পরিষ্কার হয়ে গেলে আমার আরও কিছু করার আছে বা পরিবর্তনগুলি সন্ধান করতে হবে।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.