হার্ডওয়্যার ত্রুটির সম্ভাবনা অনুমান করা


13

বলুন যে আমি নেটওয়ার্কের উপর প্রায় 4 পিবি ডেটা এক্সচেঞ্জ করে এবং প্রায় 4 টিবি আই / / সঞ্চালন করে http://www.nersc.gov/users/compt શનલ- সিস্টেমস / এডিসন / কনফিগারেশনটিতে 4 ঘন্টা 100k কোরে একটি সুপার কম্পিউটার কম্পিউটার চালনা করি / মন্ত্রণালয় গণনাটি সমস্ত পূর্ণসংখ্যার, সুতরাং ফলাফলগুলি হয় সঠিক বা ভুল (কোনও মধ্যবর্তী সংখ্যাসূচক ত্রুটি নেই)।

কোডটি সঠিক বলে ধরে নিচ্ছি, আমি একটি হার্ডওয়্যার ব্যর্থতার কারণে গণনাটি ভুল হওয়ার সম্ভাবনাটি অনুমান করতে চাই। এটি সম্পর্কে ভাল উপায় কি? এমন অনুমান করার জন্য প্রয়োজনীয় সংখ্যার জন্য কি কোনও উত্স আছে?


আমি ভাবছি সিপিইউ / র‌্যামের ফলাফলগুলি নেটওয়ার্ক হুয়ে এবং ডিস্ক বিবেচনার তুলনায় সত্যই স্থিতিশীল।
meawoppl

উত্তর:


5

O(108)

আমার স্মরণশক্তিটি হ'ল বিভিন্ন ব্যর্থতার মোডগুলির মধ্যে মেমরিতে বা প্রসেসরের কোরগুলিতে একক বিট উল্টানো সবচেয়ে গুরুত্বপূর্ণ উদ্বেগ নয়। বরং এটি পুরো নোডগুলি নেমে যাচ্ছিল, যেমন ডিস্ক ব্যর্থতা, অপারেটিং সিস্টেমের ত্রুটি ইত্যাদির কারণে etc. কোডগুলি তারপরে পূর্বে সংরক্ষিত অবস্থা থেকে ফ্লাইতে পুনরায় চালু করতে সক্ষম হবে যদি সিস্টেমের মুখোমুখি হয় যে একটি নোড অদৃশ্য হয়ে গেছে, সিস্টেমটির অন্য কোথাও এই নোডটি হট-স্টার্ট নোডের সাথে প্রতিস্থাপন করবে।


আমার ঠিক যা প্রয়োজন তা মনে হচ্ছে। আপনার মনে বিশেষ উদাহরণ আছে?
জেফ্রি ইরভিং

1
আমি দেখতে পাচ্ছি যে বিভিন্ন ডিও রিপোর্টগুলির মধ্যে আপনার আগ্রহের কিছু রয়েছে কিনা। আমি ধরে নিই আপনিও এক্সক্যাসেল.আর.আর সম্পর্কে জানেন ? আপনার জন্য এখানে প্রচুর পড়া উচিত।
ওল্ফগ্যাং ব্যাঙ্গার্থ

1
জিওফ, এর চূড়ান্ত প্রতিবেদনটি পিটার কোগের, এবং এটি অনলাইনে উপলব্ধ । রিসিলেন্স শব্দের যেকোন ঘটনার দিকে একবার নজর দিন। এটি বলেছিল, আমি আপনাকে এনআআরএসসি-র এমন কয়েকজন ব্যক্তির প্রতি ইঙ্গিত করতে পারি যার কাছে সেই মেশিনটি সম্পর্কে আরও নির্দিষ্ট তথ্য থাকতে পারে।
অ্যারন আহমদিয়া

@ অ্যারোনআহমদিয়া: ধন্যবাদ, এই দস্তাবেজটি দুর্দান্ত দেখাচ্ছে। আমি এই উত্তরটি গ্রহণ করছি যেহেতু এতে আমি আগ্রহী এমন ত্রুটিগুলির আরও ক্লাসটি কভার করা উচিত
জেফ্রি ইরভিং

@ ওল্ফগ্যাং: এটি আমার শীত-যুদ্ধের দিনগুলির কথা মনে করিয়ে দেয় যখন মিনিটম্যান মিসাইলগুলি চেকপয়েন্টগুলি দিয়ে প্রোগ্রাম করা হয়েছিল, যাতে যদি একটি নিউট্রন ফ্ল্যাশ প্রসেসরের তাত্ক্ষণিক বন্ধের কারণ হয়, তবে এটি সাম্প্রতিকতম চৌকপোস্ট থেকে পুনরায় চালু হতে পারে। যদি সম্ভবত সঠিক সময়ে চেকপয়েন্টগুলি নেওয়া হয়, তবে এটি "পুনঃসূচনা-সুরক্ষিত" নামে পরিচিত।
মাইক ডুনলাভে

9

আমার ধারণা, আপনি ডিআরএএম এর মতো উপাদানগুলির ত্রুটি হারগুলি সংগ্রহ করে শুরু করুন , বন্যার মধ্যে ডিআরএএম এররগুলি সম্পর্কিত এই গুগল গবেষণার মতো : একটি বৃহত্তর স্কেল ফিল্ড স্টাডি তারা প্রতি বছরে একটি অনর্থক ত্রুটি পাওয়ার ~ 1% সুযোগ পেয়েছিল।

আমি আপনার আগ্রহী তা নিশ্চিত কিনা। আমি নিরীক্ষণযোগ্য ত্রুটিগুলিতে আরও আগ্রহী হব। ত্রুটি যেমন আদর্শ ত্রুটি পরীক্ষা করার পদ্ধতিগুলি সনাক্ত করতে পারে না। উদাহরণস্বরূপ, আপনি যখন অপটিক্সের মাধ্যমে প্যাকেটগুলি প্রেরণ করেন, তখন তাদের সাথে এক ধরণের সিআরসি উপস্থিত থাকে, যা ত্রুটির মধ্য দিয়ে পিছলে যাওয়ার একটি ক্ষুদ্র সম্ভাবনার সুযোগ দেয়।

আপডেট: এই পেপার মাল্টিকোর প্রসেসরগুলিতে অনলাইন ত্রুটি সনাক্তকরণ এবং পুনরুদ্ধারের জন্য আর্কিটেকচারগুলি নির্ভরযোগ্য মাল্টিকোর আর্কিটেকচারের বিষয়ে কথা বলে, তবে তারা সিস্টেমটির নির্ভরযোগ্যতার বিভিন্ন দিকও অন্তর্ভুক্ত করে এবং গ্রন্থপঞ্জি রয়েছে


দুর্দান্ত পড়াশুনা। এটি প্রচুর অন্তর্দৃষ্টি, পুরাতন, গরম, প্রায়শই ব্যবহৃত, প্রায় পুরো ম্যাম কম নির্ভরযোগ্য is আমি কিছুটা অবাক হয়েছি যে কোনও বিক্রেতার নির্দিষ্ট ব্যর্থতা বা সাধারণত খারাপ স্থাপত্য নেই।
meawoppl

3

এমন অনুমান করার জন্য প্রয়োজনীয় সংখ্যার জন্য কি কোনও উত্স আছে?

আপনি যে গুচ্ছটি তৈরি করছেন তার প্রশাসকদের জিজ্ঞাসা করার চেষ্টা করতে পারেন। আমি তাদের বৈধতা প্রক্রিয়া অংশ হিসাবে তারা হার্ডওয়ার ত্রুটিগুলির সম্ভাবনা অনুমান করার সমস্যাটির মুখোমুখি হয়েছি imagine


ধন্যবাদ! অন্ধকারে স্পষ্ট, তবে আমার কাছে তা ঘটেনি।
জেফ্রি ইরভিং

2

মহাকাব্য শোনাচ্ছে। যদি কেউ এই পরীক্ষা-নিরীক্ষা না করে থাকে তবে আপনি 100k আলাদা কোর চালানোর কথা বিবেচনা করতে পারেন যাতে ত্রুটির হার কী তা দেখে বার বার কোনও sha1 ইনপুট পুনর্নির্মাণের মতো কাজ করা হয়। (অপ্রয়োজনীয় আমি সন্দেহ করি), সেখান থেকে এটিই করুন তবে আপনার নেটওয়ার্ক ত্রুটির হারগুলি পেতে হ্যাশ-চেইনের ফলাফলগুলি প্রায়শই প্রায়শই তাদের বাণিজ্য করুন। এটি আমার কল্পনাও খুব ছোট, তবে আমি সন্দেহ করি আপনি কয়েক ঘন্টা ধরে আপনার সুপারক্লাস্টার ব্যবহার করে কমপক্ষে একটি দম্পতি পেতে পারেন :)

এই পদ্ধতিটি নিশ্চিত করে যে প্রতিটি গণনা সঠিক, কারণ হ্যাশিং একক-বিট অদলবদলের পক্ষে অত্যন্ত সংবেদনশীল, এমনকি কোনও পূর্ণসংখ্যার গণনা কেবল শাখাগুলিতে ত্রুটিগুলি আড়াল করতে পারে, অর্থাত্ প্রতিটি ক্রমাগত মেমরি অবস্থানে পুরো গণনাটি উপবৃত্তাকার নয়।

আমি কোনও বাহ্যিক ক্লাস্টার দ্বারা কোডটি সঠিকভাবে চালিত হয়েছে তা নিশ্চিত করার জন্য আমি কাজ করে চলেছি যিনি নকল ফলাফল জমা দিয়ে প্রতারণা করার প্রেরণা। আমি যে সমাধানটি রূপান্তরিত করেছি তা হ্যাশকে কয়েকটি ফ্রিকোয়েন্সি দিয়ে গণনায় সংহত করা যা প্রতারণাকে কাজ করার চেয়ে কম দক্ষ করে তোলে।


2
দুর্ভাগ্যক্রমে, বিটকয়েনগুলি খনির জন্য আপনার প্রকল্প অনুমোদিত হবে না unlikely :)
জেফ্রি ইরভিং

তি হি হি এটি সত্যই কাজের প্রমাণ proof : পি
meawoppl
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.