বড় সংস্থাগুলি কীভাবে তাদের ডেটা ব্যাকআপ করে?


8

যে সংস্থাগুলি প্রচুর পরিমাণে ডেটা পরিচালনা করে, উদাহরণস্বরূপ গুগল বা ফেসবুক, কীভাবে সমস্ত কিছু ব্যাকআপ করে?

উইকিপিডিয়ায় এই গুগল প্ল্যাটফর্ম নিবন্ধ অনুসারে , গুগলের একটি ৮০+ জিবি হার্ড ডিস্ক সহ প্রতিটি অনুমান 450,000+ সার্ভার রয়েছে। এটা অনেক তথ্য। তারা কি প্রতি 1 জিবি ডেটার জন্য 1+ গিগাবাইট ব্যাকআপ রাখে?


আমি সন্দেহ করি যে গুগল সার্ভার সফটওয়্যারগুলি খুব দ্রুত খালি ধাতু থেকে একটি সার্ভার তৈরি করতে সক্ষম বলে মনে হচ্ছে backup তারা ব্যবহারকারীর ডেটা ব্যাকআপ কপি আছে বলে মনে হয়।
বিলথোর

ঠিক আছে, গুগলের 1 মিলিয়নেরও বেশি সার্ভার রয়েছে (2007 থেকে): pandia.com/sew/481-gartner.html
কেদারে

আমি মনে করি আপনি একটি মৌলিক ভুল করেছেন: গুগলের প্রচুর সার্ভার রয়েছে সমস্ত সিমিলার। সূচকে পরিবেশন করা এক্স সার্ভারের নোড। আপনি একই সূচকটি কয়েক মিলিয়ন বার ব্যাকআপ করবেন না।
টমটম

উত্তর:


8

এটি আপনার উদ্দেশ্য কী তার উপর নির্ভর করে।

আপনি যদি দুর্যোগ পুনরুদ্ধারের জন্য ব্যাকআপগুলি সন্ধান করছেন (সার্ভার বিস্ফোরিত হয়েছে, ডেটাসেন্ট্রে পোড়া হয়েছে ইত্যাদি) তবে সংক্ষিপ্ত উত্তরটি তারা মোটেও ব্যাকআপ নাও করতে পারে। আমরা একটি ক্লায়েন্ট যারা সংবেদনশীল সরকার তথ্য পুলিশ আছে, এবং তাদের হুকুম অংশ যে আমরা হয় অপসারণযোগ্য মিডিয়া সম্মুখের ব্যাকআপ বা ব্যাকআপ করতে অনুমতি নেই । আমাদের একটি ডিআর সাইটে লাইভ প্রতিরূপের অনুমতি দেওয়া হয়েছে এবং এটিই। উভয় সাইটই একই স্তরের শারীরিক এবং যৌক্তিক সুরক্ষায় আচ্ছাদিত। এখানে ধরাটি হ'ল যদি আমি সাইট এ তে কিছু স্ক্রু করি তবে এটি প্রায় তাত্ক্ষণিকভাবে সাইট বিতে প্রতিলিপি করা হয়।

যদি আপনি কোনও ডেটা অখণ্ডতার দৃষ্টিকোণ থেকে ব্যাকআপের বিষয়ে কথা বলছেন (যেমন আপনি দুর্ঘটনাক্রমে গ্রাহকদের টেবিলটি ফেলে দিয়েছেন এবং এটি ইতিমধ্যে ডিআর সাইটে প্রতিলিপি করা হয়েছে), তবে বড় টেপ লাইব্রেরির এলটিও -5 টেপগুলি প্রায়শই যেতে হয়। টেপ প্রতি 3 টিবি অবধি এবং কোনও টেপ লাইব্রেরিতে একাধিক টেপগুলি দিয়ে আপনি দ্রুত প্রচুর পরিমাণে ডেটা ব্যাক আপ করতে পারেন (তাড়াতাড়ি এমবিপিএস বোঝায় এটি 25TB ডেটা ব্যাকআপ করতে এখনও অনেকগুলি, অনেক ঘন্টা সময় নিতে পারে)।

যে কোনও শালীন ব্যাকআপ স্যুট উচ্চ সংকোচনের এবং ডি-ডুপিং করবে, যা প্রয়োজনীয় স্টোরেজ জায়গার পরিমাণকে হ্রাস করে। আমি একবার সংকুচিত এবং ডি-ডুপড এক্সচেঞ্জ ব্যাকআপ সরঞ্জামের জন্য একটি অনুমান দেখেছি যে একবার 15: 1 অনুপাত (1 জিবি ব্যাকআপের মধ্যে 15gb ডেটা সঞ্চিত) দাবি করেছে।

আমি খুব সন্দেহ করি গুগল তাদের অনুসন্ধান ইঞ্জিনের অনেকগুলি ডেটার জন্য ব্যাকআপ নিয়ে বিরক্ত করে, কারণ এর বেশিরভাগটি পুনরায় পরিবর্তনযোগ্য এবং এটি এতদূর পর্যন্ত বিতরণ করা হয় যে যদি তারা এমনকি একটি উল্লেখযোগ্য অংশ হারিয়ে ফেলেন বা সম্ভবত একটি সম্পূর্ণ, ডেটাসেন্ট্রে থাকে সিস্টেমটি থেকে যায় বিজিপি রুটগুলিকে ব্যর্থ করার জন্য অনলাইন ধন্যবাদ।


আসলে, দেখে মনে হচ্ছে গুগল টেপটিতে কোনও মেট্রিক ক্র্যাপ-টোন ডেটা ব্যাক আপ করে , যা আমি প্রত্যাশা করছিলাম তা পুরোপুরি নয়:

গুগল টেপ লাইব্রেরির অংশ


2

তাদের বেশিরভাগ ডেটা তাদের নিজস্ব জিএফএস ফাইল সিস্টেমে সঞ্চিত থাকে এবং জিএফএসের প্রয়োজন হয় যে প্রতি 64 এমবি ব্লকের কমপক্ষে তিনটি অনুলিপি ফাইল তৈরি করে (জিএফএস 64 এমবি ব্লক ব্যবহার করে)। এটি বলার পরে, আমি মনে করি না যে তারা ব্যাকআপ নিয়ে বিরক্ত করছে, কারণ তাদের প্রতিটি ফাইলের কমপক্ষে তিনটি অনুলিপি রয়েছে এবং ব্যর্থ নোডের ব্লকগুলি কেবলমাত্র দুটি নকলের বাকী দুটি থেকে অনুলিপি করে দ্রুত প্রতিস্থাপন করা যেতে পারে।

আরও তথ্যের জন্য, http://labs.google.com/papers/gfs.html দেখুন


1
অপ্রয়োজনীয়তা প্রাপ্যতা বাড়ায়, তবে এটি ঠিক একটি ব্যাকআপ নয় (এবং এটি আপনি এটি বলেননি) কারণ ওভাররাইট করা সহজ।
টুবু

হ্যাঁ, এটি একটি ভাল পয়েন্ট। আমার বক্তব্যটি কেবল এটি ছিল যে তাদের সম্ভবত বেশিরভাগ ডেটার জন্য তাদের ব্যাকআপের প্রয়োজন নেই
আইপোজগাজ

0

ফার্সিকারের উত্তরটি ভাল তবে আমি মনে করি এই দৃষ্টিকোণ থেকে এটি সম্পর্কে চিন্তা করেই স্পষ্ট করা যেতে পারে: আপনি কী পুনরুদ্ধার করার চেষ্টা করছেন? এটা কি ডিআর এর জন্য? পুনরুদ্ধারের সময় কী প্রয়োজন? উদাহরণ হিসাবে ধরুন আপনার সংস্থাটি 25 টিবি স্কুয়েল সার্ভার ডাটাবেসের উপর নির্ভর করে। ডেটা ব্যর্থতা বা ত্রুটির ক্ষেত্রে (ড্রপ টেবিল, দূষিত ডিবি ইত্যাদি) ক্ষেত্রে সিটিও এক ঘণ্টার মধ্যে ডাটাবেস পুনরুদ্ধার করতে সক্ষম হতে চায়। সাইটের ব্যর্থতার ক্ষেত্রে 2 ঘন্টা প্রয়োজন।

এর মুখে এটি কঠিন মনে হলেও এটি অসম্ভব নয়। যেহেতু আপনি জানেন যে আপনার ব্যাকআপ কৌশলটি এক ঘন্টার মধ্যে পুনরুদ্ধার করতে হবে, আপনি জানেন যে আপনি পুরো ব্যাকআপগুলি পুনরুদ্ধার করবেন না, আপনাকে ডিবিএ দলগুলির সাথে কাজ করতে হবে তা নিশ্চিত করার জন্য যে ডিবি ব্যবস্থাপনযোগ্য খণ্ডে বিভক্ত হয়ে গেছে। আপনি ঘন ঘন ট্রান্স-লগ ব্যাকআপও করতে যাচ্ছেন। ডিআর জন্য একটি প্রতিলিপি কৌশল অবলম্বন করা উচিত (সম্ভবত একটি সময় বিলম্বিত সংস্করণ লগ ডেটা রিয়েলটাইম প্রতিলিপি কিন্তু প্রয়োগ করা হয়নি)। যেহেতু ফার্সিকার বলেছেন যে এটি উদ্দেশ্যটির উপর নির্ভর করে এবং সেই উদ্দেশ্যটি কিছুটা পুনরুদ্ধার করা উচিত।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.