কোনও সার্ভার লকআপ নেটওয়ার্ক থেকে অন্য সার্ভারগুলিকে নক করবে কেন?


9

আমাদের কাছে কয়েক ডজন প্রক্সমক্স সার্ভার রয়েছে (প্রক্সমক্স দেবিয়ানে চালিত হয়) এবং মাসে প্রায় এক বার তাদের মধ্যে কার্নেলের আতঙ্ক থাকে এবং লকআপ থাকে। এই লক আপগুলির মধ্যে সবচেয়ে খারাপ দিকটি হ'ল এটি যখন ক্লাস্টার মাস্টারের তুলনায় আলাদা একটি সুইচে থাকা কোনও সার্ভার রয়েছে তখন switch স্যুইচটিতে থাকা অন্য সমস্ত প্রক্সমক্স সার্ভারগুলি প্রতিক্রিয়া বন্ধ করবে যতক্ষণ না আমরা প্রকৃত ক্র্যাশ হওয়া সার্ভারটি খুঁজে না পেয়ে এটিকে পুনরায় চালু করতে পারি।

আমরা যখন প্রক্সমক্স ফোরামে এই সমস্যাটি প্রতিবেদন করেছি তখন আমাদের প্রক্সমক্স ৩.১ এ আপগ্রেড করার পরামর্শ দেওয়া হয়েছিল এবং আমরা গত বেশ কয়েকমাস ধরে এটি করার প্রক্রিয়াতে রয়েছি। দুর্ভাগ্যক্রমে, আমরা যে সার্ভারগুলি প্রক্সমক্স ৩.১ এ স্থানান্তরিত করেছি সেগুলির মধ্যে একটি শুক্রবার কার্নেল প্যানিকের সাথে লক হয়ে গেছে এবং আবার একই প্রকৃতির স্যুইচ থাকা সমস্ত প্রক্সমক্স সার্ভারগুলি ক্র্যাশ হওয়া সার্ভারটি সনাক্ত না করে এবং এটি পুনরায় চালু না করা পর্যন্ত নেটওয়ার্কের মাধ্যমে অ্যাক্সেসযোগ্য ছিল।

ওয়েল, স্যুইচটিতে প্রায় সমস্ত প্রক্সমক্স সার্ভার ... আমি আকর্ষণীয় বলে মনে করেছি যে প্রক্সমক্স সংস্করণ 1.9 এ থাকা একই একই সুইচে থাকা প্রক্সমক্স সার্ভারগুলি প্রভাবিত হয়নি un

ক্র্যাশ হওয়া সার্ভারের কনসোলটির একটি স্ক্রিন শট এখানে দেওয়া হয়েছে:

এখানে চিত্র বর্ণনা লিখুন

যখন সার্ভারটি লকআপ হয়ে গেছে তখন একই সুইচটিতে থাকা বাকি সার্ভারগুলি যা প্রক্সমক্স ৩.১ চালাচ্ছিল তারা পৌঁছনীয় না হয়ে যায় এবং নিম্নলিখিতটির বানানটি নিচ্ছিল:

e1000e 0000:00:19.0: eth0: Reset adapter unexpectedly
e1000e 0000:00:19.0: eth0: Reset adapter unexpectedly
e1000e 0000:00:19.0: eth0: Reset adapter unexpectedly
...etc...

লক সার্ভারের uname -a আউটপুট:

Linux ------ 2.6.32-23-pve #1 SMP Tue Aug 6 07:04:06 CEST 2013 x86_64 GNU/Linux

pverversion -v আউটপুট (সংক্ষিপ্ত):

proxmox-ve-2.6.32: 3.1-109 (running kernel: 2.6.32-23-pve)
pve-manager: 3.1-3 (running version: 3.1-3/dc0e9b0e)
pve-kernel-2.6.32-23-pve: 2.6.32-109

দুটি প্রশ্ন:

  1. কার্নেল আতঙ্কের কারণ হতে পারে এমন কোনও সূত্র (উপরে চিত্র দেখুন)?

  2. লক সার্ভারটি পুনরায় বুট না করা পর্যন্ত প্রক্সমক্সের একই স্যুইচ এবং সংস্করণে থাকা অন্য সার্ভারগুলি কেন নেটওয়ার্কটি ছিটকে যাবে? (দ্রষ্টব্য: একই স্যুইচটিতে অন্যান্য সার্ভারগুলি ছিল যে প্রক্সমক্সের পুরানো 1.9 সংস্করণটি চালাচ্ছিল যা ক্ষতিগ্রস্থ ছিল না Also এছাড়াও, একই 3.1 ক্লাস্টারে থাকা অন্য কোনও প্রক্সমক্স সার্ভারগুলি প্রভাবিত হয়নি যা একই স্যুইচে ছিল না))

কোনো পরামর্শের জন্য আগাম ধন্যবাদ।


আপনি কি পুরো ক্রাশডাম্প দিতে পারেন? উপরের ছবিটি আকর্ষণীয় অংশগুলি কেটে দিয়েছে। এছাড়াও, আপনি lkML এ ক্র্যাশডাম্প পোস্ট করেছেন ? যাইহোক, এটি আবার তাকানো, এটি বেশ পুরানো কার্নেল, ডাবিয়ানকে কোনও বর্তমান স্থিতিশীল রিলিজে উন্নীত করার পরিকল্পনা আছে?
ckujau

দুর্ভাগ্যক্রমে, আমাদের ক্র্যাশ ডাম্প নেই। সিরিয়াল কনসোল এবং / অথবা কেডম্পের কনফিগার করতে আমি এটি আমার তালিকায় যুক্ত করেছি। কার্নেলটি পুরানো হওয়ার জন্য, প্রক্সমক্স একটি ওপেনজেডের কার্নেল ব্যবহার করে যা মূলধারার কার্নেলের বাইরে একটি শাখা। সুতরাং, একবার ক্র্যাশ ডাম্পগুলি কাজ করতে পারলে আমি ওপেনজেড বিকাশকারীদের সাহায্যের জন্য যোগাযোগ করব। আপনার মন্তব্যের জন্য ধন্যবাদ ... এটি আমাকে সঠিক দিকে নির্দেশ করতে সহায়তা করেছে।
কর্টিস

কি ধরনের স্যুইচ?
ETL

সমস্যাটি 3 টি ভিন্ন ভিন্ন সুইচ (একটি ডিলিংক এবং 2 সিসকো) নিয়ে ঘটেছে। আগের দুটি স্যুইচগুলিতে আমার কাছে মডেল নম্বর নেই তবে সর্বশেষতমটি সিসকো এসজি 102-24। যেহেতু এটি কেবল একই কার্নেলটি চালিত স্যুইচের সার্ভারগুলিকেই প্রভাবিত করে এবং আমি আমার তৃতীয় স্যুইচটিতে থাকি বলে মনে হয় স্যুইচটি দোষারোপ করা যায় না (যদিও এটি আমার মূল চিন্তাও ছিল)।
কার্টিস

আমি একটি ইমেল বিজ্ঞপ্তি পেয়েছি যে কেউ এখানে নীচের মন্তব্যটি পোস্ট করেছেন ... "দু'টি পাত্রে হার্ড কোর করায় আমার ক্র্যাশ করতে পারছি তা ছাড়া আমার একই সমস্যা রয়েছে ..." দুর্ভাগ্যক্রমে, এটি সেখানেই কেটে গিয়েছিল এবং যখন আমি এসেছিলাম এখানে, লেখক তাদের মন্তব্য মুছে ফেলেছিলেন তাই আমি জানি না এটির বাকীটি কী ছিল। তবে, আমি যুক্ত করব যে আমি উল্লেখ করেছি যে ভারী নেটওয়ার্ক ট্র্যাফিক থাকাকালীন (ব্যাকআপগুলি চলাকালীন) সমস্যাটি প্রায়শই ঘটেছিল বলে মনে হয়। সম্ভবত সেই মন্তব্যটি ছিল "হার্ডওয়ার নেটওয়ার্ক ট্রান্সফার"?
কার্টিস

উত্তর:


2

আমি প্রায় নিশ্চিত যে আপনার সমস্যাটি কেবল একটি একক কারণের দ্বারা নয় বরং কারণগুলির সংমিশ্রণ দ্বারা সৃষ্ট। এই স্বতন্ত্র কারণগুলি কী তা নিশ্চিত নয়, তবে সম্ভবত একটি কারণ হ'ল নেটওয়ার্ক ইন্টারফেস বা ড্রাইভার এবং অন্য একটি কারণটি স্যুইচটিতে পাওয়া যায়। সুতরাং সম্ভবত সমস্যাটি কেবলমাত্র এই বিশেষ ব্র্যান্ডের নেটওয়ার্ক ইন্টারফেসের সাথে একত্রে যুক্ত এই বিশেষ ব্র্যান্ডের সাথেই পুনরুত্পাদন করা যেতে পারে।

আপনি মনে করেন যে সমস্যার জন্য ট্রিগারটি একটি পৃথক সার্ভারে ঘটছে যা এর পরে কার্নেল প্যানিক রয়েছে যার প্রভাবগুলি কোনওভাবে স্যুইচ জুড়ে প্রচার করতে পরিচালিত করে। এটি সম্ভবত শোনাচ্ছে, তবে আমি বলব এটি প্রায় সম্ভাব্য হিসাবে, ট্রিগারটি অন্য কোথাও।

এটি হতে পারে যে স্যুইচ বা নেটওয়ার্ক ইন্টারফেসে কিছু ঘটছে, যা একই সাথে স্যুইচটিতে কার্নেল আতঙ্ক এবং লিঙ্কের সমস্যার কারণ হয়ে দাঁড়ায়। অন্য কথায়, কার্নেলের কার্নেল প্যানিক না থাকলেও ট্রিগারটি খুব ভালভাবে সুইচে সংযোগটি কমিয়ে আনতে পারে।

একজনকে জিজ্ঞাসা করতে হবে, পৃথক সার্ভারে সম্ভবত কী ঘটতে পারে, যা অন্যান্য সার্ভারগুলিতে এই প্রভাব ফেলতে পারে। এটি সম্ভব না হওয়া উচিত, সুতরাং ব্যাখ্যায় সিস্টেমের কোথাও কোনও ত্রুটি জড়িত থাকতে হবে।

যদি এটি ক্র্যাশ হওয়া সার্ভার এবং স্যুইচের মধ্যে যে লিঙ্কটি ছিল যা নীচে চলে গেছে বা অস্থির হয়ে উঠেছে, তবে অন্যান্য সার্ভারের লিঙ্কের স্থিতিতে এর কোনও প্রভাব থাকতে হবে না। যদি এটি হয়, এটি স্যুইচ এর ত্রুটি হিসাবে গণ্য হবে। এবং ট্র্যাফিকের দিক দিয়ে, অন্যান্য সার্ভারগুলি ক্র্যাশ হওয়া সার্ভারের সংযোগটি হারাতে পারলে কিছুটা কম ট্রাফিক দেখতে হবে, যা তারা কেন সমস্যাটি দেখছে তা ব্যাখ্যা করতে পারে না।

এটি আমাকে বিশ্বাস করতে পরিচালিত করে স্যুইচটিতে একটি ডিজাইনের ত্রুটি সম্ভবত।

তবে কোনও সার্ভারের কোনও সমস্যা কীভাবে স্যুইচটিতে থাকা অন্য সার্ভারগুলিতে সমস্যা সৃষ্টি করতে পারে তা ব্যাখ্যা করার চেষ্টা করার সময় কোনও লিঙ্ক সমস্যাটি প্রথম ব্যাখ্যাটি নয় look সম্প্রচারিত ঝড় আরও স্পষ্ট ব্যাখ্যা হবে। কিন্তু কার্নেলের প্যানিক এবং একটি সম্প্রচার ঝড় থাকা কোনও সার্ভারের মধ্যে কোনও লিঙ্ক থাকতে পারে?

মাল্টিকাস্ট এবং অজানা ম্যাক অ্যাড্রেসগুলির জন্য প্যাকেটগুলি কম-বেশি সম্প্রচারের হিসাবে একই আচরণ করা হয়, সুতরাং এই জাতীয় প্যাকেটের ঝড়ও গণনা করতে পারে। প্যানাইজড সার্ভারটি কি সুইচ দ্বারা স্বীকৃত কোনও ম্যাক ঠিকানায় নেটওয়ার্ক জুড়ে ক্র্যাশডাম্প প্রেরণের চেষ্টা করা যেতে পারে?

যদি এটি ট্রিগার হয়, তবে অন্যান্য সার্ভারগুলিতে কিছু ভুল হচ্ছে। কারণ কোনও প্যাকেট ঝড় নেটওয়ার্ক ইন্টারফেসে এই জাতীয় ত্রুটি ঘটায় না। Reset adapter unexpectedlyপ্যাকেট ঝড়ের মতো শোনাচ্ছে না (যা কেবল পারফরম্যান্সে ঝরে পড়তে পারে তবে এরূপ কোনও ত্রুটি হতে পারে), এবং এটি কোনও লিঙ্ক সমস্যার মতো শোনাচ্ছে না (যার ফলে লিঙ্কগুলি নীচে নেমে যাওয়ার বার্তাগুলির ফলস্বরূপ হওয়া উচিত ছিল তবে আপনি যে ত্রুটি করছেন তা নয়) এইজন্য)।

সুতরাং এটি সম্ভবত নেটওয়ার্ক ইন্টারফেস হার্ডওয়্যার বা ড্রাইভার কিছু ত্রুটি আছে, যা স্যুইচ দ্বারা ট্রিগার করা হয়।

অতিরিক্ত পরামর্শ দেওয়া যেতে পারে এমন কয়েকটি পরামর্শ:

  1. আপনি কি অন্য কিছু সরঞ্জাম স্যুইচটিতে সজ্জিত করতে পারেন এবং যখন সমস্যাটি দেখা যাচ্ছে তখন আপনি স্যুইচটিতে কী ট্রাফিক দেখেন তা দেখতে পারেন (আমি পূর্বাভাস দিয়েছি এটি শান্ত হয় অথবা আপনি কোনও বন্যা দেখেন)।
  2. ফলাফলটি কীভাবে অন্যরকমভাবে রূপান্তরিত হয় তা দেখতে বিভিন্ন ড্রাইভার ব্যবহার করে একটি ভিন্ন ব্র্যান্ডের সাথে একটি সার্ভারের নেটওয়ার্ক ইন্টারফেসটি প্রতিস্থাপন করা সম্ভব হবে কি?
  3. কোনও একটি সুইচকে আলাদা ব্র্যান্ডের সাথে প্রতিস্থাপন করা সম্ভব? আমি আশা করি স্যুইচটি প্রতিস্থাপন করলে সমস্যাটি একাধিক সার্ভারকে প্রভাবিত করবে না তা নিশ্চিত করবে will আরও মজার বিষয় হল এটি যদি কার্নেল প্যানিকগুলি ঘটতে বাধা দেয় তবে তা।

আপনার চিন্তাশীল জবাব দেওয়ার জন্য আপনাকে ধন্যবাদ। আপনার 3 টি পরামর্শের শর্তাবলী: 1) কোন ধরণের সরঞ্জাম / সফ্টওয়্যার এটি করবে? 2) আমি চাইতাম, তবে প্রচুর সার্ভার জড়িত রয়েছে এবং সমস্যাটি পরবর্তীতে কোথায় ঘটবে তা আমি জানি না। 3) আমি ইতিমধ্যে 3 টি পৃথক সুইচ চেষ্টা করেছি (3 টি ভিন্ন মডেল, 2 টি ভিন্ন ব্র্যান্ড)। এছাড়াও মজার বিষয় হ'ল কেবল প্রক্সমক্সের একই সংস্করণে থাকা সার্ভারগুলি প্রভাবিত হয়। প্রক্সমক্সের একটি ক্লাস্টার সিঙ্ক মেকানিজম রয়েছে, তাই আমি সন্দেহ করি এর সাথে এর কিছু আছে। ভাগ্যক্রমে, সমস্যাটি এখন কয়েক মাস হয়ে গেছে now
কার্টিস

স্যুইচটিতে ট্র্যাফিকটি দেখার জন্য আমি টিসিপিডাম্প এবং / অথবা ওয়্যারশার্ক দিয়ে একটি সাধারণ পিসি আঁকানোর চিন্তা করছিলাম। স্পষ্টতই আপনি সেই পিসিতে আক্রান্ত সফ্টওয়্যারটি ইনস্টল করা এড়াতে চান। তবে মনে হচ্ছে প্রকক্সম কার্নেলটিতে ইনস্টল করা কোডটিতে আসলে একটি বাগ থাকতে হবে। যদি এটি খুব কমই ঘটে থাকে তবে আপনি এটি প্রতি মাসে একবারে একবারে এবং কেবল একবারে একটি স্যুইচ এ দেখতে পান তবে এটি ট্র্যাক করতে খুব বেশি সময় নিতে পারে। আমি এটি সম্পর্কে কিছুটা চিন্তা করব এবং মন্তব্য করব, যদি আরও ধারণা আসে।
ক্যাস্পার্ড

1

এটি আমার কাছে ইথারনেট ড্রাইভার বা হার্ডওয়্যার / ফার্মওয়্যারের বাগের মতো শোনাচ্ছে, এটি একটি লাল পতাকা:

e1000e 0000:00:19.0: eth0: Reset adapter unexpectedly
e1000e 0000:00:19.0: eth0: Reset adapter unexpectedly
e1000e 0000:00:19.0: eth0: Reset adapter unexpectedly

আমি এটি আগেও দেখেছি এবং এটি সার্ভারটি অফলাইনে নক করতে পারে। এটি ইন্টেল ইথারনেট কার্ডে ছিল কিনা তা আমি ঠিক মনে করি না তবে আমি এটি বিশ্বাস করি। এটি এমনকি ইথারনেট কার্ডগুলিতে একটি বাগের সাথে সম্পর্কিত হতে পারে। আমি মনে করি যে বিশেষ ইন্টেল নেটওয়ার্কগুলির সাথে এই জাতীয় সমস্যা রয়েছে সেগুলি সম্পর্কে কিছু পড়ছি। তবে আমি নিবন্ধটির লিঙ্কটি হারিয়েছি।

আমি কল্পনা করব যে এর জন্য ট্রিগারটি আংশিকভাবে ড্রাইভার (সংস্করণ) ব্যবহৃত হচ্ছে তার উপর নির্ভর করে, সফ্টওয়্যারটির একটি পুরানো সংস্করণ ঠিক যে কাজ করে তা নিশ্চিত হয়ে গেছে বলে মনে হয়। আপনি বলছেন যে বিক্রেতা তাদের নিজস্ব কাস্টম কার্নেল ব্যবহার করে, আপনার নির্দিষ্ট ইথারনেট হার্ডওয়্যারের জন্য ব্যবহৃত ইথারনেট ড্রাইভার মডিউলটি আপডেট করার চেষ্টা করুন। হয় আপনার বিক্রেতা থেকে একটি বা সরকারী কার্নেল উত্স ট্রি থেকে tree

আপনার ইথারনেট হার্ডওয়্যারটি বন্ধন করে দেখুন, সাধারণত একটি সার্ভারের দুটি ইথারনেট পোর্ট থাকে, আনবোর্ড এবং / অথবা কার্ড (গুলি) যুক্ত হবে। যদি কোনও ইথারনেট কার্ডের সমস্যা হয় তবে অন্যটি বাছাই করবে। আমি "কার্ড" শব্দটি ব্যবহার করি তবে এটি অবশ্যই কোনও ইথারনেট হার্ডওয়্যারের ক্ষেত্রে প্রযোজ্য।

ইথারনেট হার্ডওয়্যার প্রতিস্থাপন এটি ঠিক করতে পারে। হয় প্রতিস্থাপন করুন বা একটি নতুন (ইন্টেল) ইথারনেট কার্ড যুক্ত করুন এবং পরিবর্তে এটি ব্যবহার করুন। সমস্যাগুলি যদি হার্ডওয়্যার / ফার্মওয়্যারটিতে থাকে তবে একটি নতুন কার্ডের একটি সমাধান (বা পুরানো?) রয়েছে।


সমস্ত মেশিনের দ্বৈত ইথারনেট পোর্ট রয়েছে, তবে, এই ত্রুটিটি একই সময়ে একাধিক সার্ভারগুলিতে ঘটে যা একই মুহূর্তে একই স্যুইচটিতে থাকে যে কোনও একটি মেশিন লকআপ করে। যে মুহুর্তে একটি লক করা সার্ভারটি বিদ্যুতচক্র হয়, সমস্ত আক্রান্ত সার্ভার তাত্ক্ষণিকভাবে আবার অ্যাক্সেসযোগ্য হয়ে যায়। এটি সূচিত করে মনে হচ্ছে যে লক করা সার্ভারটি সম্পূর্ণ লকড নয় তবে কোনওভাবে একই স্যুইচটিতে মেশিনগুলির রিসেটটি প্লাবিত করছে। এটি একটি ড্রাইভার আপডেট সাহায্য করতে পারে কিনা তা আকর্ষণীয় হবে, তবে আমি মনে করি না যে প্রমাণগুলির ভিত্তিতে অন্যান্য ইথারনেট কার্ডটি সক্রিয় করা সহায়তা করতে পারে।
কার্টিস

পুরানো থ্রেড, তবে এমনকি ইন্টেল e1000e এনআইসি মডেল 82574L এবং 5.0-23 / af4267bf এর নতুন প্রক্সমক্স সংস্করণগুলির মধ্যে একটি এখনও রয়েছে issues আমি আমার উইন্ডোজ ল্যাপটপটি আনতে পারি (ঘুম থেকে জাগ্রত করুন বা কেবল লগইন করুন) একই স্যুইচে সংযুক্ত এবং প্রতিবারই প্রক্সমক্স সার্ভারটি মূলত রিবুট করে। আমি স্যুইচটিতে সংযুক্ত না থাকাকালীন এটিকে কেবল বিক্ষিপ্তভাবে পুনরায় বুট করতে দেখেছি। আমি প্রথমে এটি স্যুইচটিতে সংযুক্ত করার পরে এটি পুনরায় বুট হবে। বর্তমান ড্রাইভারটি ৩.৩.৫.৩ এবং একটি ৩.৩.৫.১০, ৩.৩..6 এবং ৩.৪.০.২ রয়েছে সুতরাং আমি সম্ভবত সেগুলি নির্মাণ এবং ব্যবহার করার চেষ্টা করব। আমার .02c।
জেগ্লাস 21
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.