দুর্ঘটনা প্রশমনের জন্য কীভাবে জবাবদিহি করা যায়?


12

সম্প্রতি অ্যামাজন এস 3 এর ইউএস -পূর্ব -1 অঞ্চলে একটি বড় আউটেজ হয়েছিল। দেখে মনে হচ্ছে এটি উত্তরীয় বা অনুরূপ কোনও সরঞ্জামে রক্ষণাবেক্ষণ প্লেবুক চালানোর সময় কোনও বানান ত্রুটির কারণে ঘটেছে। আপনি দেখতে দেখতে উত্তরসূচক-প্লেবুকের চারপাশে একটি শেল স্ক্রিপ্টের মোড়ক রাখতে পারেন:

#!/bin/bash
/usr/bin/ansible-playbook "$@" --list-hosts --list-tasks
read -p "Are you sure? (y/n) " answer
test "$answer" = "y" || exit 0
exec /usr/bin/ansible-playbook "$@"

তবে সুরক্ষা উন্নতি করতে এবং আপনার সংস্থার জন্য কোনও বিরাট বিস্তারের কারণে ত্রুটির সম্ভাবনা কমাতে আপনি কীভাবে ব্যবহার করেন।


1
আমি কারণ এটি জন্য অধিক উপযুক্ত হবে-বহির্ভূত হিসাবে এই প্রশ্ন বন্ধ করার ভোট করছি unix.stackexchange.com বা superuser.com
রোমিও Ninov

4
কোড হিসাবে পরিকাঠামো, প্রতিদিন শত শত মোতায়েনের অন্যতম প্রধান উপাদান। ক্রিয়াকলাপগুলিতে বড় আটকান তৈরি থেকে এই গতি সরবরাহকারী সরঞ্জামগুলি সুরক্ষিত করতে সক্ষম হওয়া আমার কাছে প্রাসঙ্গিক বিষয়ের মতো বলে মনে হয়। আমি অবশ্যই ভুল হতে পারি। আমি যদিও আপনার দৃষ্টিভঙ্গি প্রশংসা করি। আপনি কী মেটাতে এবং প্রশ্নাবলীর বিষয়ে প্রশ্নে এই আলোচনায় যোগ দিতে চান?
জিরি ক্লাউদা

উদাহরণস্বরূপ এই প্রশ্নটি বিষয়টি হিসাবে গ্রহণযোগ্য বলে মনে হচ্ছে: ডিওপস.সটাকেক্সচেঞ্জ
জিরি ক্লাউডা

জিরি, আপনি উল্লেখ করা আপনার এবং অন্যান্য প্রশ্নের মধ্যে কী পার্থক্য রয়েছে?
রোমিও নিনভ

5
যদি এই ধরণের প্রশ্নগুলি সুপারসুজারের জন্য উপযুক্ত হয়, তবে ডিওপস.সেসের প্রয়োজন হবে না। এটি অবশ্যই এখানে বিষয়ের উপর। অপারেশন এবং হ্রাসকারী মানব ত্রুটি ডিওঅপস-এর মূল অংশ।
ইভজেনি

উত্তর:


6

আমরা জেনকিন্সে চাকরীগুলি মোতায়েনের ট্রিগার করতে ব্যবহার করছি। এটি নিশ্চিত করে যে মোতায়েন কেই করুক না কেন, যে জবাবদিহী চালানো হচ্ছে তা একই রকম হবে। একটি দুর্দান্ত বোনাস হ'ল বিল্ড লগ রেকর্ড যখন স্থাপনা ট্রিগার করা হয়েছিল, কে তাদের ট্রিগার করেছিল এবং স্থাপনার সময় ঠিক কী ঘটেছিল।

এটি অবশ্যই বুদ্ধিমানের নয়, তবে হাত দিয়ে উত্তরযোগ্য প্লেবুক চালানোর ক্ষেত্রে এটি একটি দুর্দান্ত উন্নতি হয়েছে।

বৃহত্তর / ঝুঁকিপূর্ণ পরিবর্তনের জন্য এটিকে কিছুটা পরিবর্তনের ব্যবস্থাপনার সাথে আদর্শভাবে সংযুক্ত করা উচিত যাতে সম্ভাব্য সমস্যাগুলি শনাক্ত করতে এবং সমাধান করতে সহায়তা করার জন্য অন্য কোনও ব্যক্তি / দল পরিবর্তনের পরিবর্তন এবং পদ্ধতির পর্যালোচনা করার পরেই পরিবর্তনগুলি করা হয়।

তদ্ব্যতীত এমন কোনও সতীর্থের উপস্থিতি কখনই ব্যথিত হয় না যে আপনি যে পরিবর্তনটি করছেন তা বুঝতে এবং উপস্থিত থাকা এবং আপনি বড় পরিবর্তনগুলি করার সময় দেখছেন যাতে তারা এই পরিবর্তনটি কার্যকর করতে ভুলগুলি প্রতিরোধ করতে সহায়তা করতে পারে।


4

ত্রুটি বিভাগ

সমস্যা এবং দুর্ঘটনার দিকে পরিচালিত করে মানুষের কারণগুলির দিকে তাকাতে দুটি উপায়:

  1. কোনও বিপর্যয়ের কারণ হিসাবে আপনি মানব ত্রুটি দেখতে পাচ্ছেন। এক্ষেত্রে "মানব ত্রুটি" - লেবেলের অধীনে situation পরিস্থিতি সচেতনতা হ্রাস, পদ্ধতিগত লঙ্ঘন, নিয়ামক ঘাটতি, পরিচালনার ঘাটতি আপনার তদন্তের উপসংহার।
  2. আপনি মানুষের ত্রুটিটিকে গভীর সমস্যার লক্ষণ হিসাবে দেখতে পারেন। এই ক্ষেত্রে, মানব ত্রুটি হ'ল আপনার তদন্তের সূচনা পয়েন্ট point মানুষের ত্রুটিটি কীভাবে লোকের সরঞ্জাম, কার্যাদি এবং অপারেটিং / সাংগঠনিক পরিবেশের বৈশিষ্ট্যগুলির সাথে সুশৃঙ্খলভাবে সংযুক্ত রয়েছে তা আপনি তদন্ত করবেন।

প্রথমটিকে হিউম্যান অ্যাপ্রোচ এবং দ্বিতীয়টি সিস্টেম অ্যাপ্রোচ বলে।

মানবিক পদ্ধতি ব্যবহার করে ব্যর্থতার ব্যাখ্যা দিতে, আপনি ব্যর্থতা এবং মানুষের ভুল মূল্যায়ন, ভুল সিদ্ধান্ত বা খারাপ রায় খুঁজে পেতে পারেন।

সিস্টেমের পদ্ধতির সাহায্যে ব্যর্থতার ব্যাখ্যা দিতে, আপনি কোথায় ভুল পেয়েছেন তা খোঁজার চেষ্টা করছেন না। পরিবর্তে, পরিস্থিতিগুলির আশেপাশের পরিস্থিতি বিবেচনা করে সেই সময়ে কীভাবে লোকের মূল্যায়ন এবং ক্রিয়াকলাপগুলি সার্থক হয়েছিল find

উদাহরণস্বরূপ, স্বাস্থ্যসেবা উন্নয়ন ইনস্টিটিউটের ইনস্টিটিউটের ডোনাল্ড বারউইক যুক্তি দেখিয়েছেন যে রোগীর সুরক্ষার উন্নতির জন্য সিস্টেমগুলির নকশায় পরিবর্তন প্রয়োজন :

... আমরা মানুষ, এবং মানুষ ভুল। ক্ষোভের পরেও, দুঃখ সত্ত্বেও, অভিজ্ঞতা থাকা সত্ত্বেও, আমাদের সর্বাত্মক প্রচেষ্টা সত্ত্বেও, গভীর গভীর ইচ্ছা থাকা সত্ত্বেও, আমরা ফলস্বরূপ জন্মগ্রহণ করি এবং তাই থাকব। সাবধানতা অবলম্বন সাহায্য করে, তবে এটি আমাদের পরিপূর্ণতার কাছাকাছি কোথাও এনেছে না ... এর প্রতিকার হ'ল কাজের ব্যবস্থা পরিবর্তন করা। প্রতিকারটি ডিজাইনে রয়েছে। লক্ষ্যটি চূড়ান্ত সুরক্ষা হওয়া উচিত। আমি বিশ্বাস করি আমাদের ঘরে যেমন হয় আমাদের হাসপাতালেও আমাদের নিরাপদ থাকা উচিত। কিন্তু আমরা উত্সাহ, সেন্সর, ক্ষোভ এবং লজ্জার মাধ্যমে সেই লক্ষ্যে পৌঁছতে পারি না। আমরা কেবল পরিবর্তনের প্রতিশ্রুতি দিয়ে এটি পৌঁছাতে পারি, যাতে স্বাভাবিক, মানুষের ত্রুটিগুলি ফলাফলের সাথে সম্পর্কিত নয়, ক্রমাগত পাওয়া যায় এবং দক্ষতার সাথে প্রশমিত করা যায়।

ডোনাল্ড এম বারউইক। আর না! বিএমজে 2001


সিস্টেম থেকে ভুলগুলি অপসারণ করা হচ্ছে

বিভিন্ন কারণে ব্যর্থতা ঘটানোর (এবং সঠিক) একটি দুর্দান্ত উপায় হ'ল লোককে দোষ না দিয়ে মূল কারণটি অনুসন্ধান করা। এটিকে প্রায়শই "দোষহীন পোস্ট মর্টেমস" বলা হয় এবং ক্র্যাফট ব্লগ পোস্ট হিসাবে এস্টি কোড ধারণাটিতে প্রসারিত হয়। এস্টির লোকেরা অন্য ফোরামে এবং ব্লগগুলিতে এ সম্পর্কে আরও লিখেছিল ।

প্রথম স্থানে ভুল প্রতিরোধ করতে কিছু সংস্কৃতি বৈশিষ্ট্য আবশ্যক। পদ্ধতিতে তৈরি পদ্ধতি এবং বিভিন্ন নিদর্শনগুলির অবশ্যই পরীক্ষা করে দেখতে হবে যে মানুষের দ্বারা এগুলি ব্যবহার করা খুব স্পষ্ট এবং স্ব-ব্যাখ্যামূলক। প্রায়শই যারা তৈরি করেন তারা সেবন করেন না যা সংযোগ বিচ্ছিন্ন করে দেয় এবং স্পষ্টতার অভাব দেখা দেয়। সিস্টেমটি তখন পরিচালনা করা নিরাপদ নয় কারণ সমস্ত অনুমানের একমাত্র ব্যক্তি যিনি এটি তৈরি করেছিলেন তিনিই (এবং অন্য কেউ নেই)।

কার্যকর নিয়ন্ত্রণ ব্যবস্থা

কোনও ত্রুটি দেখা দিলে প্রক্রিয়া বন্ধ করার কার্যকর নিয়ন্ত্রণের ব্যবস্থা রাখুন। এটি ভুল-প্রুফিং। কার্যকরী নিয়ন্ত্রণ ব্যবস্থাগুলি হ'ল ডিজাইন পরিবর্তন যা কোনও প্রক্রিয়া ব্যর্থতার পরিচয় দিয়ে ত্রুটি দেখা দিলে প্রক্রিয়াগুলি চালিয়ে যাওয়া বা থামিয়ে দেয়

উদাহরণ:

1896 সালে, সাকিচি টয়োডা জাপানের প্রথম পাওয়ার তাঁত আবিষ্কার করেছিলেন "টয়োদা স্টিম পাওয়ার তাঁত" নামে। এই বিকাশ বিশ গুণ উত্পাদনশীলতা বৃদ্ধি করেছে, এবং বস্ত্রের মান উন্নত এবং জাপানের টেক্সটাইল শিল্পে একটি বিপ্লব ঘটায়। তবে এখানে সূক্ষ্ম তবে খুব গুরুত্বপূর্ণ আবিষ্কার এবং নীতি:

যখন সুই ভেঙে গেল, মেশিনটি বন্ধ হয়ে গেল

সাকিচি টয়োডা তাঁতে একটি উদ্ভাবন তৈরি করেছিলেন যা পরবর্তীতে টয়োটা প্রোডাকশন সিস্টেমের (পাতলা) অন্যতম স্তম্ভ হয়ে উঠবে। সেই স্তম্ভটিকে আমরা এখন জিডোকা বলে থাকি, কখনও কখনও "স্মার্ট অটোমেশন উইথ হিউম্যান স্পর্শ" বা "স্বায়ত্তশাসন" বলে।

বড় অংশে, অ্যান্ডন (প্রথম ত্রুটি বন্ধ করুন) এবং পোকা-ইয়োক (ভুল প্রমাণকরণ) পরবর্তীকালে এমন ঘটনাবলী যা তাঁত থেকে তাদের প্রভাব খুঁজে পায়।

একক পয়েন্ট দুর্বলতা অপসারণ

শব্দটির একক-পয়েন্ট দুর্বলতা সিস্টেমের নির্ভরযোগ্যতার উন্নতির জন্য একটি পদ্ধতির হিসাবে সিস্টেমে রিডানড্যানসি তৈরির বিষয়টি বোঝায়। অপ্রয়োজনীয় পদ্ধতি বা প্রক্রিয়ায় জড়িত ব্যক্তিদের সংখ্যা বাড়িয়ে তৈরি করা হয়। আরও ব্যাকআপ সিস্টেম বা আরও চেক (ডাবল, ট্রিপল, বা আরও বেশি) থাকার প্রক্রিয়াটি সঠিকভাবে এগিয়ে যাওয়ার সম্ভাবনা বাড়িয়ে তোলে।

এর একটি দুর্দান্ত উদাহরণ "চার চোখের নীতি", যার অর্থ "সমস্ত ব্যবসায়ের সিদ্ধান্ত এবং লেনদেনের জন্য সিইও এবং সিএফওর অনুমোদনের প্রয়োজন হয়। সিএফও যেহেতু সিইওর কাছে রিপোর্ট দিচ্ছে না, সেখানে একটি স্বাধীন নিয়ন্ত্রণ ব্যবস্থা আছে" ।

উত্স: https://en.wikedia.org/wiki/Two-man_rule

বিপত্তিগুলি সুস্পষ্ট করুন

যদি বিপদগুলি স্পষ্ট করে দেওয়া হয় বা পৌঁছানো অসম্ভব হয়ে থাকে তবে মানুষ ভুল তৈরি করতে পারে না। উদাহরণস্বরূপ, রঙ-কোডিং ভুলগুলি আরও সুস্পষ্ট করার জন্য একটি সাধারণ পদ্ধতি approach বা যদি আপনি বিভিন্ন কম্পিউটার সকেটের কথা ভাবেন যা কেবল একটি উপায়ে সন্নিবেশ করা যায় এবং অন্যটি নয়, ইত্যাদি


কিছু দুর্দান্ত বই বিষয় সম্পর্কে কথা বলছে, এবং তাদের উল্লেখ না করে এটি কোনও উত্তরের উত্তর হবে না:


1
একটি অত্যন্ত গুরুত্বপূর্ণ পদ্ধতি যা আপনি উল্লেখ করেন না তা হ'ল "চার-চোখের নীতি" যা অর্থায়নে ব্যবহৃত হয় - হয় নিয়ামক বাধ্যবাধকতা হিসাবে বা নিরাপদ-রক্ষক হিসাবে। সফ্টওয়্যার শিল্পে এটি বিভিন্ন উপায়ে প্রয়োগ করা হয়, যেমন কোড পর্যালোচনা তবে লাইভ সিস্টেমগুলিকে প্রভাবিত কমান্ডগুলি বৈধতা দেওয়ার জন্যও ব্যবহার করা যেতে পারে।
মাইকেল লে বার্বিয়ার গ্রেনওয়াল্ড 4'17

আমি এসপিডাব্লু নীতিতে এটি যুক্ত করব।
ইভজেনি

1
ত্রুটিগুলি সম্পর্কে দুর্দান্ত আলোচনা, তবে এটি দুর্ঘটনাকবলিত মোতায়েনের বিরুদ্ধে কীভাবে সুরক্ষিত করা যায় তা বলে না।
আলেকজান্দ্রে

1
প্রশ্নটি বিশেষভাবে উত্তরযোগ্য সম্পর্কে জিজ্ঞাসা করে। এই উত্তরটি খুব পুঙ্খানুপুঙ্খভাবে এবং ভাল-গবেষণা হয়েছে তবে এটি বাস্তব-বিশ্ব সমস্যা থেকে এক পদক্ষেপ সরানো।
উডল্যান্ড হান্টার

1
@ অ্যাভজেনি যখন আমি আপনার এডাব্লুএস ল্যাম্বদা পারফরম্যান্স প্রশ্নের উত্তর দিয়েছিলাম, প্রথমে আমি কীভাবে আপনার পরীক্ষা চালাতে হবে তা বলিনি এবং আপনি তা উল্লেখ করেছেন। আপনি ঠিক বলেছেন, এবং আমি আমার উত্তরটি সামঞ্জস্য করেছি। আমি এখানে আপনার উত্তর দেওয়া লোকদের বুঝতে। "আমাদের কর্মক্ষেত্রে ত্রুটিগুলি কীভাবে হ্রাস করতে হবে এবং কীভাবে কম করবেন?" এমন প্রশ্নের জন্য আপনার উত্তরটি ভাল হবে। এখানে, ওপিতে উত্তরযোগ্য সম্পর্কে একটি প্রশ্ন রয়েছে এবং আপনি এটি উল্লেখও করেন না। সবচেয়ে খারাপ, ওপি সে কী ধরণের সমাধান খুঁজছে তার একটি ইঙ্গিত দেয় এবং আপনি অন্য পথে চলেছেন। আপনার উত্তর দুর্দান্ত (সত্যই), তবে এই প্রশ্নের জন্য নয়।
আলেকজান্দ্রে

1

@ ব্রাডিম যেমন বলেছিলেন যে আপনার সিআই / সিডি সরঞ্জামটি হ্যান্ড বেসড কমান্ডগুলির পরিবর্তে স্থাপনা শুরু করার জন্য সাধারণত ভাল পদক্ষেপ হয়, তেমনি আপনার পাইপলাইনে পরীক্ষা যোগ করা হয় যা আপনার স্টেজিং (বা নতুনভাবে তৈরি করা) পরিবেশে আপনার স্থাপনার স্ক্রিপ্টগুলি পরীক্ষা করে, যেখানে আপনি আগে বাগ বাছাই করতে পারেন।

আমি আরও যুক্ত করব যে আপনার উত্তরসূচক স্ক্রিপ্টগুলি সরাসরি কল করার পরিবর্তে, আপনি আপনার প্রবাহে উত্তরযোগ্য টাওয়ারের মতো সরঞ্জামগুলিও যুক্ত করতে পারেন যা আপনাকে আরও সহজেই চালানো পরিবর্তনগুলি ট্র্যাক করতে দেয় এবং আপনাকে আপনার নিরাপত্তার একটি অতিরিক্ত পদক্ষেপ দিতে পারে প্রবাহিত।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.