একটি প্রকল্পের জন্য আমাদের কাছে 50 টি সার্ভার রয়েছে (সাধারণভাবে) একই হার্ডওয়্যার দিয়ে সজ্জিত। আমাদের এখানে সমস্যাটি অত্যন্ত গুরুতর এবং সমস্ত মেশিনে ঘটে। অনেক প্রচেষ্টা এবং উত্পাদনকারী এবং সফ্টওয়্যার বিকাশকারীদের সাথে যোগাযোগ করা সত্ত্বেও প্রত্যেকে একে অপরের দিকে ইঙ্গিত করে এমনকি কী ঘটছে সে সম্পর্কে আমাকে কোনও ধারণা দিতে অস্বীকৃতি জানায়।
প্রথমে আমাকে সেটআপটি বর্ণনা করতে দিন। এটি 'সার্ভারগ্রেড' হার্ডওয়্যার। আমার প্রথম অভিজ্ঞতার জন্য, সার্ভারগ্রেড হ'ল আমার জীবনের সবচেয়ে বড় অসন্তুষ্টি।
- সুপারমাইক্রো এক্স 10 এসডিভি -8 সি + -এলএন 2 এফ
- ইন্টেল জিয়ন ডি -1540 (মাদারবোর্ডে এম্বেড করা)
- কাস্টম ডিজাইন করা 1 ইউ কেস বা সুপার মাইক্রো আসল কেস
- 480 ওয়াট সার্ভার পিএসইউ বা 200 ওয়াট সুপারমিক্রো আসল পিএসইউ
- স্যামসুং ইভো 850 500 জিবি এসএসডি
- 32 জিবি ডিডিআর 4-2133 ইসিসি বা নন-ইসিসি (তবে একই সার্ভারে মিশ্রিত নয়)
- আসুস জিটি 730 4 জিবি ডিডিআর 3 জিপিইউ
- জিপিইউ একটি পিসিআই রাইজার কার্ডের সাথে মাউন্ট করা হয়েছে (ফিতা নয়), চীন বা সুপার মাইক্রো আসল থেকে নামবিহীন
সিস্টেমে চলমান - উইন্ডোজ সার্ভার 2012 আর 2 এন্টারপ্রাইজ - ভিএমওয়্যার ওয়ার্কস্টেশন 12 - ভিএম এর চালানো জিপিইউ নিবিড় কাজ - এই সিস্টেমটি স্টক, এখানে মোটেই শেষ / আন্ডারলকিং নেই
লক্ষণগুলি - এলোমেলো বিএসওড 0x09c (ওরফে মেশিন_চেক_অ্যাক্সপশন): কখনও কখনও সিস্টেমটি কোনও সমস্যা ছাড়াই এক সপ্তাহ ধরে চালায়, কখনও কখনও মাত্র 10 মিনিটের পরে ক্র্যাশ হয় তবে বেশিরভাগ সময় এটি কয়েক ঘন্টা চালিত হয়।
ইতিমধ্যে চেষ্টা / চেক করা হয়েছে:
- BIOS সর্বশেষ সংস্করণে আপডেট হয়েছে (আমি এখন ভাবব যে এটি সিস্টেমের স্থিতিশীল হওয়ার জন্য সময়ের উন্নতি করেছিল, তবে এটি এলোমেলো হতে পারে)।
- উইন্ডোজ সর্বশেষ সংস্করণে আপডেট হয়েছে।
- ভিএমওয়্যার সর্বশেষ সংস্করণে আপডেট হয়েছে।
- সমস্ত উপাদান অদলবদল এবং প্রতিটি ভিন্ন বিকল্প চেষ্টা করে এমনকি একটি ডেস্কটপ এটিএক্স এক্স পিএসইউ এবং এম 2 এসএসডি চেষ্টা করে।
- উবুন্টু দিয়ে স্ক্র্যাচ থেকে সমস্ত সিস্টেম ইনস্টল করা হয়েছে। আমি লিনাক্সের সাথে পরিচিত নই এবং লিনাক্স বিএসওড কখনও দেখিনি এবং এখনও সার্ভার সিস্টেমগুলি হেডলেস হওয়ার কারণে আমি তা দেখতে পাইনি এবং আমি ডিসিতে চেষ্টা করেছি। ফলস্বরূপ: সিস্টেমটি ঝুলবে এবং পুনরায় বুট করার পরে লিনাক্স এক্সওআরজি ক্র্যাশ (জিপিইউ সম্পর্কিত) রিপোর্ট করেছে reported
- বিআইওএসে জিপিইউ সেটিংটি 'ওপেন 4 জি' এ পরিবর্তিত হয়েছে, বাকি বিআইওএস ফ্যাক্টরির ডিফল্ট।
তথ্যবহুল:
- সিস্টেমগুলি একটি ডেটাসেন্টারে অবস্থিত। তাপমাত্রা, বায়ু, শক্তি এবং নেটওয়ার্ক সর্বোত্তম।
- তাপমাত্রা কারখানার সর্বাধিক নীচে
- আমাদের ডেস্কটপ কম্পিউটারে (ডেস্কটপ হার্ডওয়্যার সহ) চলমান একই সফ্টওয়্যার সেটআপ রয়েছে। এই সিস্টেমটি প্রতি মাসে আমাদের 100 টি পিসির ক্রাশ হওয়ার সাথে জরিমানা করতে পারে।
- আমি ভিএমওয়ারের সাথে যোগাযোগ করেছি, বলুন এটি একটি হার্ডওয়্যার সমস্যা
- আমি সুপার মাইক্রোতে যোগাযোগ করেছি, তারা কিছু কথা বাদে সত্যই কিছুই বলে না এবং ইতিমধ্যে চেষ্টা করেছে এবং এটি এখনও একটি সফ্টওয়্যার সমস্যা হতে পারে।
আমরা এখানে মরিয়া। আমরা ভাগ্যক্রমে চালিত অ্যাপ্লিকেশনটি এক ধরণের অপ্রয়োজনীয়। যদি কোনও সার্ভার এবং এটির ভিএম এর ড্রপ হয়, তবে এটি কোনও সমস্যা নয়, অন্যান্য সার্ভারগুলি 5 মিনিটের মধ্যেই বোঝাটি গ্রহণ করবে, কিন্তু এই হারে সার্ভারগুলি পুনরায় চালু করার জন্য আমাকে সারাদিন অনলাইনে থাকতে হবে।
আমার কাছে একটি বড় হার্ডওয়্যার জ্ঞান রয়েছে তবে এটি অতীত হয়ে যায়, আমি এক মাস ধরে সমস্ত দিন বিভিন্ন ধরণের বিভিন্ন জিনিস চেষ্টা করে দেখেছি। এই মাদারবোর্ডগুলি বৃহত আকারে হোস্টিং সরবরাহকারীদের সাথে ব্যবহৃত হয় তা আমাকে সন্দেহ করে যে বোর্ড নিজেই ঠিক আছে। এটি অবশ্যই আরএমএর জন্য কোনও নির্দিষ্ট হার্ডওয়্যার সমস্যা নয় কারণ সমস্ত 50 বোর্ডের একই লক্ষণ রয়েছে। আমাদের সাথে একমাত্র জিনিসটি জিপিইউ। এটি লিনাক্স পরীক্ষার সাথে কম্বো করে আমার সন্দেহ করে যে এটি অবশ্যই পিসিআই লেনের কিছু something জিপিইউ নিজেই ডেস্কটপ মোবোতে স্থিতিশীল। বড় মেমরির ক্ষমতা থাকা সত্ত্বেও এটি একটি ছোট জিপিইউ যা খুব বেশি শক্তি আঁকেন না। আমি চাইনিজ রাইজার কার্ডগুলিকে সন্দেহ করব, তবে তারপরে আবার আমরা সুপার মাইক্রো প্রত্যয়িত রাইজারগুলিও ব্যবহার করি এবং তারা কোনও উন্নতি দেখায় না।
আমি এখানে একটি সমাধান খুঁজে পেতে খুব মরিয়া। এটি সঠিক কারণ নির্ধারণের সাথে শুরু হবে। আমরা এমন বিশেষজ্ঞের কাছে একটি দুর্দান্ত অনুদান প্রদান করতে ইচ্ছুক যিনি কিছু ডাম্পগুলি বিশ্লেষণ করতে পারেন এবং আরও বিশদ (বা আরও ভাল, এখনও একটি সমাধান) দিতে পারেন।
আন্তরিক শুভেচ্ছা,
সাইমন