এরলং এর 99.9999999% (নয়টি নাইন) নির্ভরযোগ্যতা


100

এরলং প্রায় ২০ বছরেরও বেশি সময় ধরে উত্পাদন ব্যবস্থায় 99.9999999% এর আপটাইম শতাংশের সাথে ব্যবহার করা হয়েছিল বলে জানা গেছে।

আমি গণিতটি নিম্নলিখিত হিসাবে করেছি:

20*365.25*24*60*60*(1 - 0.999999999) == 0.631 s

এর অর্থ হ'ল 20 বছরের সময়কালে সিস্টেমটির ডাউনটাইমের এক সেকেন্ডেরও কম থাকে। আমি এর বৈধতা চ্যালেঞ্জ করার চেষ্টা করছি না, আমি কেবল কৌতূহল বোধ করছি যে আমরা কীভাবে কেবল 0.631 সেকেন্ডের জন্য একটি সিস্টেম (উদ্দেশ্য বা দুর্ঘটনাক্রমে) বন্ধ করতে পারি। বড় সফ্টওয়্যার সিস্টেমের সাথে পরিচিত কেউ কি আমাদের এটি ব্যাখ্যা করতে পারেন? ধন্যবাদ.


প্রসেসিং ইউনিট (বা মেশিন) এর একটি ক্লাস্টারের উপর দিয়ে পরিষেবাটির ডাউনটাইম গণনা করার উপায় কি কেউ জানেন?


29
সম্ভবত এটি কেবলমাত্র একটি কম্পিউটারের চেয়ে বেশি ওয়াইয়াইয়ের উপর ব্যবহৃত হয় - কিছু কিছু দেশে জন্মহারের হার ১.২ বাচ্চা ...
ওয়েলট্রাম্পিরাট

4
@ ওয়েলট্রাম্পিরাট এটি বোঝায় যে, এরলংয়ের বিতরণ প্রকৃতির কারণে এটি অনেকগুলি কম্পিউটারে ব্যবহার করতে হয়েছিল।
নিং

13
হ্যাঁ এটি পরিষেবাটির আপটাইম, কম্পিউটারগুলি এটি চালাচ্ছে না।
আরসিই

উত্তর:


87

নির্ভরযোগ্যতার চিত্রটি AXD30120 বছরেরও বেশি সময় ধরে (প্রকল্পে) যে কোনও অংশ বন্ধ হয়ে যাওয়ার মোট সময়টি পরিমাপ করার কথা ছিল না । এটি 20 বছরেরও বেশি সময় সময় উপস্থাপন করে যে AXD301সিস্টেম দ্বারা সরবরাহিত পরিষেবাটি কখনও অফলাইন ছিল। সূক্ষ্ম পার্থক্য। জো আর্মস্ট্রং যেমন এখানে বলেছেন :

AXD301 একটি NINE Nines নির্ভরযোগ্যতা অর্জন করেছে (হ্যাঁ, আপনি এই অধিকারটি পড়েন, 99.9999999%)। আসুন এটি প্রসঙ্গে: 5 টি নাইন ভাল বলে গণ্য করা হয় (ডাউনটাইম / বছরের 5.2 মিনিট)। 7 টি নাইন প্রায় অগ্রহণযোগ্য ... তবে আমরা 9 ​​করেছিলাম।

কেন? কোনও ভাগ করা রাষ্ট্র নয়, সমৃদ্ধ ত্রুটি পুনরুদ্ধারের মডেল।

যদি আপনি খানিকটা গভীর খনন করেন তবে জো লিখিত পিএইচডি থিসিসে, এরলংয়ের মূল লেখক (যার কেস স্টাডি অন্তর্ভুক্ত রয়েছে AXD301) আপনি পড়েন:

এই অধ্যায়ে অধ্যয়ন করা প্রকল্পগুলির মধ্যে একটি হ'ল এরিকসন এএক্সডি 301, একটি উচ্চ-কার্যকারিতা অত্যন্ত-নির্ভরযোগ্য এটিএম স্যুইচ

সুতরাং, যতক্ষণ না নেটওয়ার্কটি যে অংশটির একটি অংশ স্যুইচটি ডাউনটাইম ছাড়াই চলছিল, ততক্ষণ লেখক "নাইন নাইনগুলির নির্ভরযোগ্যতা" বলতে পারেন AXD301(যা তিনি যা বলেছিলেন, স্পেসিফিকেশন এড়িয়ে গিয়েছিলেন)। এটি অগত্যা এর অর্থ এই নয় যে এরলং হ'ল এই ধরনের উচ্চ নির্ভরযোগ্যতার একমাত্র কারণ।

সম্পাদনা: আসলে, "20 বছর" নিজেই একটি ভুল ব্যাখ্যা বলে মনে হচ্ছে। জো একই নিবন্ধে 20 বছরের একটি চিত্রের উল্লেখ করেছেন, তবে এটি আসলে নাইন-নাইন নির্ভরযোগ্যতার চিত্রের সাথে সংযুক্ত নয়, যা সম্ভবত আরও সংক্ষিপ্ত অধ্যয়ন থেকে বেরিয়ে এসেছে (অন্যরা যেমন উল্লেখ করেছেন)।


13
"হ্যাঁ। এটি সার্ভিসের আপটাইম, কম্পিউটারগুলি এটি চালাচ্ছে না" " - আরসিই বলেছেন
লুক স্ট্যানলি

এটি আবার জিটি এমএসসিএস 1993 এ স্কুলে ফিরে এসেছি! আপনি এটি পেরেক দিয়েছিলেন।
মাইক পোলেন

4
আমি আমার উত্তরে যেমন ব্যাখ্যা করেছি, এই চিত্রটি AXD301 অপারেশনের 20 বছরের উপর ভিত্তি করে ছিল না। এটি ব্রিটিশ টেলিকম দ্বারা একক পরীক্ষায় 8-মাস সময়কালে 14 টি নোডের ভিত্তিতে তৈরি হয়েছিল। এটি 20 বছর ধরে পুরো AXD301 লাইনের ক্রিয়াকলাপের বৈশিষ্ট্যগুলির খুব কমই প্রতিনিধিত্ব করে (যা আমি নিশ্চিত যে এখনও নক্ষত্র রয়েছে, কেবল নয়টি নয়))
এডউইন ফাইন

57

অন্যরা আপনি যে নির্দিষ্ট কেসের বিষয়ে জিজ্ঞাসা করছেন সে বিষয়ে সম্বোধন করার সময়, আপনার প্রশ্নটি ভুল ধারণা ভিত্তিক বলে মনে হচ্ছে। আপনি যেভাবে প্রশ্নটি জিজ্ঞাসা করেছেন তা আমাকে বিশ্বাস করে যে আপনি ভাবছেন যে সিস্টেমটি ক্র্যাশ হয়ে যাওয়ার পরে বা এটি রক্ষণাবেক্ষণের জন্য নেমে যাওয়ার পরে আবার চালু করার ম্যানুয়াল প্রক্রিয়া রয়েছে is

এরলংয়ের বেশ কয়েকটি বৈশিষ্ট্য রয়েছে যা মানব কাজের সময়কে ডাউনটাইমের উত্স হিসাবে সরিয়ে দেয়:

  1. হট কোড পুনরায় লোড হচ্ছে । এরলং সিস্টেমে কোনও বিদ্যমান সিস্টেমের জন্য একটি প্রতিস্থাপন মডিউল সংকলন করা এবং লোড করা সহজ। বিম এমুলেটরটি দৃশ্যত কিছু না থামিয়ে স্বয়ংক্রিয়ভাবে অদলবদল করে। নিঃসন্দেহে কিছু সংখ্যক ক্ষুদ্র পরিমাণ রয়েছে যার সময় এই স্থানান্তর ঘটে, কিন্তু এটি মানুষের সময়ে ম্যানুয়ালি না হয়ে কম্পিউটার সময়ে স্বয়ংক্রিয়ভাবে ঘটছে। এই এটা সম্ভব মূলত সাথে উপলব্ধ আপগ্রেড না করে তোলে শূন্য ডাউনটাইম। (যদি প্রতিস্থাপন মডিউলে একটি বাগ থাকে যা সিস্টেম ক্র্যাশ করে তবে আপনার ডাউনটাইম থাকতে পারে, তবে সে কারণেই আপনি প্রোডাক্টে মোতায়েনের আগে পরীক্ষা করেন।)

  2. সুপারভাইজার । এরলংয়ের ওটিপি লাইব্রেরিতে একটি তত্ত্বাবধানের কাঠামো তৈরি করা হয়েছে যা আপনাকে মডিউল ক্র্যাশ করলে সিস্টেমটির প্রতিক্রিয়া কী হওয়া উচিত তা নির্ধারণ করতে দেয়। এখানে স্ট্যান্ডার্ড অ্যাকশন হ'ল ব্যর্থ মডিউলটি পুনরায় চালু করা। পুনরায় আরম্ভ হওয়া মডিউলটি তত্ক্ষণাত্ আবার ক্র্যাশ হয় না বলে ধরে নেওয়া, আপনার সিস্টেমের বিরুদ্ধে চার্জ করা মোট ডাউনটাইম মিলিসেকেন্ডের বিষয় হতে পারে। একটি দৃ system় সিস্টেম যা খুব কমই ক্র্যাশ হয় সত্যিই চলমান সময়ের সময়কালে মোট ডাউনটাইমের এক সেকেন্ডের কেবলমাত্র একটি অংশ সংগ্রহ করতে পারে।

  3. প্রক্রিয়া । এগুলি অন্যান্য ভাষায় থ্রেডের সাথে মোটামুটিভাবে মিলে যায়, স্থায়ী ডেটা স্টোর বাদে তারা রাষ্ট্র ভাগ করে না। তা বাদে, বার্তা পাঠানোর মাধ্যমে যোগাযোগ ঘটে। যেহেতু এরলং প্রক্রিয়াগুলি খুব কম ব্যয়বহুল (ওএস থ্রেডের তুলনায় অনেক সস্তা) এটি একটি স্বচ্ছ-যুগল নকশাকে উত্সাহ দেয়, যাতে কোনও প্রক্রিয়া মারা গেলে সিস্টেমের কেবলমাত্র একটি ক্ষুদ্র অংশ ডাউনটাইম অভিজ্ঞতা অর্জন করে। সাধারণত, সুপারভাইজার সেই প্রক্রিয়াটি পুনরায় চালু করে, সিস্টেমের বাকী অংশগুলিতে খুব কম প্রভাব ফেলে।

  4. অ্যাসিঙ্ক্রোনাস বার্তা পাস হচ্ছে । যখন একটি প্রক্রিয়া অন্য কিছু বলতে চায়, এরলং ভাষায় প্রথম শ্রেণির অপারেটর থাকে যা এটি এটি করতে দেয়। বার্তা প্রেরণ প্রক্রিয়াটির জন্য বার্তা প্রক্রিয়াকরণের জন্য রিসিভারের অপেক্ষা করতে হবে না এবং প্রেরিত ডেটার মালিকানা সমন্বয় করতে হবে না। এরলংয়ের বার্তা-পাসিং সিস্টেমের অ্যাসিঙ্ক্রোনাস ক্রিয়ামূলক প্রকৃতি সে সমস্ত বিষয়টির যত্ন নেয়। এটি উচ্চ আপটাইম বজায় রাখতে সহায়তা করে কারণ এটি সিস্টেমের এক অংশে ডাউনটাইম অন্য অংশে থাকতে পারে এমন প্রভাবকে হ্রাস করে।

  5. ক্লাস্টারিং । এটি পূর্ববর্তী বিন্দু থেকে অনুসরণ করে: এরলংয়ের বার্তা প্রেরণ প্রক্রিয়াটি কোনও নেটওয়ার্কের মেশিনগুলির মধ্যে স্বচ্ছভাবে কাজ করে, সুতরাং একটি প্রেরণ প্রক্রিয়া এমনকি এটিরও যত্ন নিতে হয় না যে রিসিভারটি আলাদা মেশিনে রয়েছে। এটি অনেকগুলি মেশিনের মধ্যে কাজের চাপ ভাগ করার জন্য একটি সহজ ব্যবস্থা সরবরাহ করে, যার প্রতিটি সামগ্রিক সিস্টেম আপটাইমকে ক্ষতি না করে আলাদাভাবে নামতে পারে।


14
আপনি কীভাবে ডাউনটাইম গণনা করছেন তাও গুরুত্বপূর্ণ important এটিএম সুইচ প্রক্রিয়াটি যতক্ষণ না বন্ধ হয় ততক্ষণ আপনি কোড মডিউলগুলি কতবার অদলবদল করতে পারেন না, ব্যর্থ মডিউলগুলি পুনরায় চালু করুন matter
ইউটিউবের মতো

আপনি এরলং সম্পর্কে যা লিখেছেন তা সবই সঠিক; ভুল ধারণাটি হ'ল পুরো AXD301 লাইনে নয়টি নাইন প্রাপ্যতা রয়েছে, যা আমি আমার উত্তরে সম্বোধন করছি।
এডউইন ফাইন

33

99.9999999% প্রাপ্যতা চিত্রটি প্রায়শই উদ্ধৃত হলেও মূলত বিভ্রান্তিকর পরিসংখ্যান। সান ফ্রান্সিসকোতে ২০১০ এর আর্লং ফ্যাক্টরি সম্মেলনে এই সুনির্দিষ্ট প্রাপ্যতার পরিসংখ্যান নিয়ে আলোচনা করে AXD-301 দলের অন্যতম সদস্য ম্যাটস ক্রোনকভিস্ট একটি উপস্থাপনা (ভিডিও) দিয়েছেন (যা আমি অংশ নিয়েছি)। তাঁর মতে, এটি ব্রিটিশ টেলিকম AXD-301 ব্যবহার করে "5 নোড-বছর" এর একটি পরীক্ষার সময়কালে (আমি বিশ্বাস করি জানুয়ারি থেকে সেপ্টেম্বর 2002 পর্যন্ত) দাবি করেছিল। ট্রায়ালটি শেষে 14 টি নোড লাইভ ট্র্যাফিক বহন করেছিল।

ক্রোনকভিস্ট সুনির্দিষ্টভাবে বলেছিলেন যে এটি পুরো AXD-301 ইতিহাসের, বা সাধারণভাবে এরং এর প্রতিনিধিত্বকারী নয়, এবং জো আর্মস্ট্রং এটিকে উদ্ধৃত করে রেখেছিলেন বলে তিনি খুশী নন, যার ফলে এর্লংয়ের নির্ভরযোগ্যতার প্রত্যাশার প্রত্যাশা বাড়িয়ে দেওয়া হয়েছিল। অন্যরা লিখেছেন যে পাঁচটি নাইন আরও বাস্তববাদী ব্যক্তিত্ব।

এটি উল্লেখ করা উচিত যে আমি একজন উত্সাহী এরিং সমর্থক এবং বিকাশকারী, যিনি বিশ্বাস করেন যে এরংয়ের বিশেষজ্ঞের ব্যবহার সত্যিই খুব বেশি উপলব্ধ সিস্টেমগুলিতে নিয়ে যেতে পারে তবে কেবল হাইপকে হ্রাস করতে চায়। আমি অবশ্যই ধরে নিচ্ছি যে ক্রোনকভিস্টের তথ্যগুলির উপস্থাপনাটি সঠিক, এবং অন্যথায় বিশ্বাস করার কোনও কারণ নেই।


7

এই পরিসংখ্যান সম্পর্কে আমার বোঝা এটি উত্পাদনের সমস্ত AXD301 সিস্টেমে গণনা করা হয়। আমরা আশা করতে পারি যে যখন কোনও এক্সডি 301 একটি গুরুতর সমস্যা হয়, তখন এটি 0.631 সেকেন্ডের বেশি হয়ে যায়। এই পিরিয়ড চলাকালীন, অন্যান্য এএক্সডি 301 নেটওয়ার্কটি সচল রাখতে পরিচালনা করবে।

যাইহোক, আপনি যখন সমস্ত চলমান AXD301 ঘন্টার মোট সংখ্যার যোগফল যোগ করেন, তখন ব্যর্থ AXD301 এর অনুপাতটি তৈরি করুন, আপনি 99.999999% পাবেন

আমি এই চিত্রটি বুঝতে পারি।

এই সাহায্য আশা করি।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.