ক্লিফহ্যাঞ্জার: ব্যাকআপ ঠিক আছে… এখানে… ঠিক আছে?


28

আমার কাজের সময়ে, ব্যাকআপগুলির একটি আশ্চর্যজনকভাবে কম অগ্রাধিকার রয়েছে। ব্যাকআপ কৌশলটি কিছুক্ষণ আগে কার্যকর করা হয়েছিল এবং তখন থেকে এটি ধরে নেওয়া হয়েছে ব্যাকআপগুলি ভাল fine আপনি যদি সিসাদমিনদের জিজ্ঞাসা করেন তবে তারা বলবে যে সমস্ত কিছু ব্যাক আপ হয়েছে।

তবে তারপরে, আপনি যখন একটি বিশেষ ব্যাকআপের জন্য জিজ্ঞাসা করেন, তখন অর্ধেক সময় তারা সেখানে থাকে না:

  • ডিস্কটি পূর্ণ হয়ে গেছে
  • টেপ ব্যর্থ হয়েছে
  • দেখে মনে হচ্ছে কেউ ব্যাকআপ কাজটি অক্ষম করেছে
  • নেটওয়ার্ক সংযোগের ডাউনটাইম ছিল
  • আমরা বছর আগে এই ডিস্কটি অর্ডার করেছি, তবে অর্থ ক্রয় আদেশটি অনুমোদন করেনি
  • ফাইলগুলি দূষিত
  • ফাইলটিতে ভুল ডাটাবেস রয়েছে
  • কেবল লেনদেনের লগ ব্যাকআপ (সম্পূর্ণরূপে ব্যতীত)

কয়েক সপ্তাহ আগে, সার্ভারগুলির মধ্যে একটিতে প্রচুর রাইড ডিস্ক হারিয়ে যাওয়ার কারণে দুর্যোগটি সত্যই ঘটেছিল। ভাগ্যক্রমে একটি ডিস্ক তথ্যের অনুলিপি করার জন্য যথেষ্ট সদয় ছিল, যদি আপনি অনেক সময় চেষ্টা করে থাকেন।

তবে সেই নিকট-বিপর্যয়ের পরেও পরিস্থিতি উন্নতির জন্য আমি সিসাদমিনদের বোঝাতে পারি না। তাই আমি ভাবছি, মানুষের চোখ খোলার কোনও পরামর্শ? আমার কাছে মনে হচ্ছে আমরা একটি খড়ের কিনারায় হাঁটছি।


17
সুতরাং আপনি বলছেন যে কেবলমাত্র আপনার সিসাদমিনগুলি কেবল একটি RAID সেট হারাতে যথেষ্ট অক্ষম নয়, তারাও সেই সিস্টেমে ব্যাকআপ না পাওয়ার পক্ষে যথেষ্ট ব্যর্থ? কিছু নতুন অ্যাডমিন পাওয়ার জন্য ভাল কেসের মত শোনাচ্ছে।
পাওয়ারএপ 101

উত্তর:


24

আপনাকে সর্বদা উপরে থেকে এই জিনিসগুলি স্থির করতে হবে।

বর্তমান ব্যাকআপ কৌশলটি কি ম্যানেজমেন্ট দ্বারা সমর্থিত এবং বোঝা যাচ্ছে? যদি তা না হয় তবে এটি অকেজো।

এক্সিকিউটিভ ম্যানেজমেন্টকে সমস্যাগুলি এবং কী কী ঝুঁকির সাথে জড়িত রয়েছে তা সম্পর্কে জানতে হবে (বেঁচে থাকার জন্য আইনীভাবে যে আর্থিক তথ্য আনা দরকার, বা গ্রাহক ডেটা সংগ্রহ করতে কয়েক বছর সময় লেগেছে সেগুলি হারাবেন?) এবং পদক্ষেপগুলি সিদ্ধান্ত নেওয়ার ক্ষেত্রে বা সিদ্ধান্ত নেওয়ার ক্ষেত্রে এটি বিবেচনা করুন কাউকে (আপনার মত) পদক্ষেপ নিতে দেওয়া।

আপনি যদি ম্যানেজমেন্টে না আসতে পারেন তবে ব্যবসায়িক নিয়ন্ত্রক বা অন্যান্য আর্থিক অবস্থানের চেষ্টা করুন যেখানে সংস্থার রিপোর্টগুলির জন্য ডেটা পুনরুদ্ধার এবং এর নিখরচায়তা অত্যধিক গুরুত্বপূর্ণ। তারা প্রয়োজনে "ঝড় শুরু" করতে পারে ...


আমি কাজের রাজনীতি এবং লোকজনকে "ঝড় শুরু" থেকে সম্পূর্ণ ঘৃণা করি, তবে আপনি যদি পরিস্থিতিটি "শীর্ষে" যাওয়া এবং অন্যান্য "ঝড়" শুরু করার সত্যতা সত্য বলতে থাকেন তবে সম্ভবত সেরা / একমাত্র উপায় is
বেনামে কাপুরুষ

সম্মত হয়েছে, এটি ফুঁকছে (কোনও পাং উদ্দেশ্যে নয়)। এটি এমন কিছুগুলির মধ্যে একটি যা কখনও কখনও করতে হয়, যদিও এটি ঝড়ো স্টার্টার হিসাবে বিরক্তিকর এবং ঝুঁকিপূর্ণ উভয়ই। তবে যখন এটির মতো সমালোচনামূলক সমস্যার কথা আসে তখন তিনটি বিকল্পের মতোই থাকে: উপেক্ষা করুন, ছেড়ে দিন বা আক্রমণ করুন। এবং এই ধরণের ত্রুটি উপেক্ষা করা ভাল বলে মনে হয় না।
ওসকার ডুভের্বন

14

কোথা থেকে শুরু করবো? এটি ঘটতে অপেক্ষা করে একটি দুর্যোগ। একটি সিসাডমিনস প্রাথমিক কাজের ফাংশন হ'ল ডেটা ব্যাক আপ এবং পুনরুদ্ধারযোগ্য তা নিশ্চিত করা। বাকি সবই গৌণ। না যদি না হয় তবে।

এখানে আপনি কয়েকটি কাজ করতে পারেন:

  1. পুনরুদ্ধারের জন্য কেপিআই ট্র্যাক করুন। পুনঃস্থাপনের জন্য কতগুলি অনুরোধ সফল হয়েছে তা দেখানো একটি প্রতিবেদন তৈরি করা উচিত। ১০০% এরও কম যে কোনও কিছুই পুঙ্খানুপুঙ্খভাবে তদন্ত করা উচিত। ম্যানেজমেন্ট প্রেম রিপোর্ট এবং এটি একটি শক্ত প্রমাণ।

  2. সমস্ত সিস্টেম এবং তাদের ব্যাকআপ কৌশল, টেপ ঘূর্ণন, সময়সূচী, এসকেলেশন পাথ, পরীক্ষার পুনরুদ্ধার ইত্যাদিসহ সমস্ত ব্যাকআপ এবং পুনরুদ্ধার অপারেশনের জন্য নথিভুক্ত পদ্ধতি থাকতে হবে them সেগুলি দেখতে জিজ্ঞাসা করুন।

  3. সিস্ট প্রশাসকদের ম্যানেজারের সাথে কথা বলুন এবং আপনার উদ্বেগগুলি জানান। পুনরুদ্ধার কাজ করছে না এমন প্রমাণ সহ সশস্ত্র হন। কোনও আনন্দ যদি উঁচুতে না যায়।

সিরিয়াসলি - একটি গোলমাল শুরু। এর মতো স্টাফ কোনও সংস্থাকে ধ্বংস করতে পারে।


কেবলমাত্র আপনার তিনটি প্রচেষ্টার "পরিসংখ্যান" তে বিটা বিতরণ ব্যবহার করতে ভুলবেন না :
টোবিয়াস কেইনজলার

5

(সর্বনিম্ন) বার্ষিক দুর্যোগ পুনরুদ্ধারের পরীক্ষার প্রস্তাব দিন। সফলভাবে পরীক্ষাটি কার্যকর করতে প্রয়োজনীয় কাজের ত্রুটিগুলি প্রকাশ করা উচিত।


5

যেখানে আমি কাজ করি আমাদের মারাত্মকভাবে ভাল আইটি বিভাগ রয়েছে, প্রতি বছর তারা ইউরোপের চারপাশের প্রতিটি অফিস থেকে একত্রিত হন এবং একটি ডেটাসেন্ট্রে ভাড়া করা সার্ভারগুলিতে 'রিস্টোর ফেস্ট' রাখেন, কার্যকরভাবে অনুকরণ করে যে কর্মীরা যদি একদিন কাজ করতে আসে এবং সন্ধান পেয়েছিল তবে কী ঘটবে রাতের বেলা অফিস পুড়ে গেছে।

বিগ বসকে জড়িত করুন, তাকে মনে করিয়ে দিন যে দুর্যোগ আঘাত হানে, সে বছর সে বোনাসের বাইরে (বা আরও খারাপ!) হতে পারে এবং তাই সম্ভবত এই জাতীয় দুর্যোগ পুনরুদ্ধারের মহড়াটি বুদ্ধিমানের কাজ হবে। এটি বেশি দিন বা বেশি ব্যয় করা উচিত নয় - প্রশাসকরা তাদের অফসাইট ব্যাকআপ টেপগুলি প্রেরণ করে এবং সেগুলি থেকে একটি অভিন্ন অফিসের পরিবেশ আনতে বলে।

তারপরে বসে বসে আইটি আরও ভাল হয় দেখুন - একবার ব্যবস্থাপনা বুঝতে পারে যে সংস্থার ডেটা স্থায়ীভাবে হারিয়ে যাওয়ার প্রায় নিকটে, স্পার্কস উড়ে যাবে (কৌশলগতভাবে বলা প্রশাসকদের রকেটগুলি থেকে)


1
এতো দুর্দান্ত!
ওসকার ডুভের্বন

4

অ্যাডমিনদের দোষ দেওয়া সহজ - তবে ওস্কারের ঠিক আছে: এই বিষয়গুলি শীর্ষ থেকে চালিত। ব্যাকআপগুলিকে অগ্রাধিকার হিসাবে পরিচালন যদি অর্থ ব্যয় না করে, তবে সিসাদমিনগুলি সাধারণত ভাগ্যের বাইরে থাকে এবং তাদের যে সম্পদ রয়েছে তা দিয়ে তারা যথাসাধ্য চেষ্টা করে।

কীটি, যদি আপনি সেই দুর্ভাগ্যজনক প্রশাসকদের একজন হন - এবং আমি কিছু গ্রাহক ব্যস্ততার জন্য এই নৌকায় ছিলাম - আপনি নিশ্চিত হন যে ম্যানেজমেন্টটি সংক্ষিপ্ত, বারবার, এবং একটি কাগজ-ট্রেইল-নিশ্চিতকরণযোগ্য উপায়ে, এটি হ'ল ব্যবসায়ের জন্য একটি ঝুঁকি।

আমার কৌশল হ'ল সমস্যাগুলিতে ক্রমাগত হাতুড়ি। আপনি যদি তা করেন তবে মাঝে মাঝে সমস্যাগুলি স্থির হয়ে যায় তবে এটি বেশিরভাগ ক্ষেত্রে যাতে আমি যার কাছে রিপোর্ট করি তাকে "আমাকে কখনই সংক্ষিপ্ত করা হয়নি" অজুহাতটি আড়াল করতে না পারে। পরামর্শদাতা হিসাবে, আমি সাধারণত আরও ভাল যেতে পারি। আমি আমার মনিবদের সংক্ষিপ্ততার চেয়ে বেশি সংক্ষিপ্ততর জ্যেষ্ঠ পরিচালনায় পেতে পারি। এটি দোষটিকে চারদিকে ছড়িয়ে দেয়, বা কমপক্ষে এটি আমার চেয়ে উচ্চতর স্তরে ফোকাস করে।

একই সাথে আপনাকে উদ্ভাবক হতে হবে এবং গ্রাহক যে পরিমাণ সংস্থান সরবরাহ করতে পারে তার সাথে ঝুঁকি হ্রাস করতে কঠোর পরিশ্রম করতে হবে।

কিছু ক্ষেত্রে অ্যাডমিনরা দোষী হতে পারে তবে পরিচালনা সর্বদা দায়ী: হয় ঝুঁকি জানার জন্য এবং এটি হ্রাস করার জন্য যথেষ্ট কাজ না করার জন্য, বা এই ঝুঁকির বিষয়ে সতর্ক না করে এমন লোককে নিয়োগ দেওয়ার জন্য।


3

আমি যুক্তরাজ্যের উত্তর পশ্চিম জুড়ে ছড়িয়ে প্রায় 200 সার্ভারের জন্য দায়বদ্ধ এবং ম্যানুয়ালি পরীক্ষা করার জন্য এটি স্পষ্টতই অনেক বেশি।

আমি ব্যাকআপটি কনফিগার করেছি যাতে সম্পূর্ণ হওয়ার পরে এটি একটি (ভিবিএস স্ক্রিপ্ট) স্ক্রিপ্ট চালায় যা ব্যাকআপ লগের মধ্য দিয়ে দেখায়, ব্যাকআপটি কাজ করেছিল কিনা তা কার্যকর করে এবং ব্যাকআপ ফলাফলের সাথে একটি কেন্দ্রীয় ডাটাবেসে একটি রেকর্ড লিখে দেয়। তারপরে প্রধান কার্যালয়ে আমি একটি স্ক্রিপ্ট পরিচালনা করি যা এই ডাটাবেসটিকে জিজ্ঞাসা করে এবং আমাকে এমন সাইটগুলির একটি তালিকা উপস্থাপন করে যেখানে ব্যাকআপটি ত্রুটির কথা বলেছিল বা সাইট থেকে কোনও রিপোর্ট ছিল না।

শেষ ফলাফলটি হ'ল আমি যখন আমার ডেস্কে বসে থাকি তখন আমার কাছে সমস্ত সাইটের একটি তালিকা রয়েছে যেখানে আমার ব্যাকআপটি পরীক্ষা করতে হবে।

এই সমস্তের মূল বিষয়টি হ'ল ডিফল্ট অনুমানটি হ'ল ব্যাকআপ ব্যর্থ হয়েছে এবং ব্যাকআপটি কেবল তখনই কাজ করেছে বলে মনে করা হয় যদি আমার ভিবিএস স্ক্রিপ্টটিতে কোনও ত্রুটি সনাক্ত না করা হয় এবং এই উপসংহারটি আমি আমার ডাটাবেজে লিখি। এটি ব্যাকআপ ব্যর্থতা যাতে মনোযোগ না দেয় তা নিশ্চিত করে।

কিছু সার্ভার ব্যাকআপ এক্সেক, কিছু এনটিব্যাকআপ এবং কিছু তাদের নেটওয়ার্কগুলি অন্য সার্ভারে অনুলিপি করে। ত্রুটিগুলি যাচাই করার জন্য আমার ভিবিএস স্ক্রিপ্টটিকে টুইঙ্ক করা সহজ কারণ সার্ভারগুলি কোন ধরণের ব্যাকআপ দেয় তা বিবেচ্য নয়। আমার স্ক্রিপ্টটি আসলে বেশ বেসিক, এটি কেবল একটি টেক্সট ফাইল হিসাবে ব্যাকআপ প্রতিবেদনটি খোলায় এবং "মাউন্ট করতে ব্যর্থ", "টেপ পূর্ণ", "সিআরসি ত্রুটি" ইত্যাদির মতো বাক্যাংশগুলির জন্য গ্রেপস I'm আমি নিশ্চিত যে কোনও পেশাদার প্রোগ্রামার তা করবে sure একটি চটজলদি কাজ। তবে পুরো জিনিসটি সহজ এবং দৃ .়, এবং এটি এই অর্থে ক্রিয়াশীল যে আমি ব্যাকআপ ব্যর্থতা রিপোর্টটি দেখতে চাই বা না চাই তা দেখতে পাচ্ছি এবং আমি যদি সচেতনভাবে এই প্রতিবেদনটি উপেক্ষা করার সিদ্ধান্ত নিই তবে আমি কেবল একটি ত্রুটি লক্ষ্য করতে ব্যর্থ হয়েছি।

জেআর

পিএস 99% ব্যাকআপ ব্যর্থতা হ'ল ব্যবহারকারীরা ব্যাকআপ টেপ পরিবর্তন করতে ভুলে গেছেন। আপনি কি শুধু লুজরাই পছন্দ করেন না :-)


অথবা রোবটটি টেপটি ফেলেছে (জঘন্য রোবট) ^^ (
একবারে

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.