এই উত্তরটি @ লেচলুকাস এবং @ ডিবি 48x এর সংমিশ্রণ, মন্তব্যগুলিতে তৈরি কিছু পয়েন্ট এবং আমার নিজের মতামতকেও সংযুক্ত করে ।
এগিয়ে যাওয়ার সহজ পথটি একটি সম্মিলিত ফাইল-সিস্টেম এবং পৃথক-মেটাডেটা পদ্ধতির approach
অন-দ্য ফ্লাই ডেটা হ্যাশিং এবং বৈধকরণ যেমন একটি জেডএফএস বা বিটিআরএফএস ব্যবহার করে এমন একটি ফাইল সিস্টেম ব্যবহার করে (মনে রাখবেন যে দুর্দান্ত অগ্রগতি হয়েছে যদিও, বিটিআরএফএস এই সময়ে উত্পাদন ব্যবহারের জন্য প্রস্তুত বলে বিবেচিত হয় না), আপনি যুক্তিযুক্ত হতে পারেন নিশ্চিত হয়ে নিন যে অপারেটিং সিস্টেমটি ত্রুটিযুক্ত না হয়ে যদি ডেটাটি ডিস্ক থেকে পড়তে পারে তবে ফাইলটি সিস্টেমের উদ্দেশ্য অনুসারে সেই তথ্যটি ডিস্কে লেখা হয়েছিল। পর্যায়ক্রমিক "স্ক্রাব" ক্রিয়াকলাপ চালিয়ে, সমস্ত ডেটা ফাইল হওয়া এবং এটি কী হওয়া উচিত তার ধারণার বিরুদ্ধে যাচাই করা হয়।
তবে, এটি কেবল অন ডিস্কের দুর্নীতির বিরুদ্ধে রক্ষা করে (অপঠনযোগ্য ব্লক, সরাসরি হার্ডওয়্যার লেখার ত্রুটিগুলি, অবৈধভাবে লিখেছেন যে ডেটাগুলির সরাসরি অংশগুলি ব্লক ডিভাইসে ক্ষতিগ্রস্থ করে ইত্যাদি)। এটি কোনও সফ্টওয়্যার বাগ, ভুল ব্যবহারকারীর অপারেশন, বা দূষিত সফ্টওয়্যার থেকে সুরক্ষা দেয় না যা ফাইলগুলির সাথে কাজ করার জন্য অভিযুক্ত অপারেটিং সিস্টেম সুবিধার মাধ্যমে কাজ করে, এই সুবিধাগুলি এই ধরনের বাগ থেকে মুক্ত বলে ধরে নেওয়া হয়।
পরেরটির বিরুদ্ধে রক্ষা করার জন্য আপনার সুরক্ষার আরেকটি স্তর প্রয়োজন। ব্যবহারকারী অ্যাপ্লিকেশনটির দৃষ্টিকোণ থেকে চেকসামিং বা হ্যাশিং ডেটা উপরোক্ত উল্লিখিত অনেকগুলি ঝুঁকির বিরুদ্ধে রক্ষা করতে সহায়তা করবে, তবে আলাদাভাবে সম্পাদন করা দরকার (হয় সফ্টওয়্যারটিতে অন্তর্নির্মিত প্রক্রিয়া ক্রিয়া হিসাবে, বা সম্পূর্ণ পৃথক প্রক্রিয়া হিসাবে)।
আজকের হার্ডওয়্যার এবং সলিড-স্টেট ডিস্ক / এসএসডিগুলির বিপরীতে স্পিনিং প্লাটার হার্ড ডিস্কগুলি সঞ্চয় করার জন্য কী ব্যবহারিক তা নিয়ে, এমনকি SHA1 এর মতো জটিল হ্যাশিং অ্যালগরিদমগুলি মূলত I / O- আবদ্ধ হবে - এটির গতি কম্পিউটারে প্রসেসরের হ্যাশ গণনা করার দক্ষতার চেয়ে ডেটাটি হ্যাশ করা স্টোরেজ সিস্টেমের পড়ার গতির একটি ফাংশন হবে। আমি একটি মিড-টায়ার কনজিউমার পিসি ছিল 2012 এর প্রায় 150 জিবি ডেটা-র উপরে ব্যবহারকারী-স্পেস MD5 হ্যাশিং প্রক্রিয়া চালানোর জন্য একটি পরীক্ষা করেছি এবং প্রায় 40 মিনিটের জন্য কোনওরকম বাধা ছাড়াই ডিস্কটি অনুশীলন করার পরে এটি শেষ হয়েছিল। এই পরিসংখ্যানগুলিকে ১০০ গুণ করে স্কেলিং করে, আপনি একই হার্ডওয়্যারটিতে প্রায় তিন দিনের সময় 15 টিবি সংগ্রহের MD5 হ্যাশ পাবেন। পঠন স্থানান্তর হার যোগ করে (যা সহজেই সম্পন্ন করা যায় যেমন উদাঃ)উদাহরণস্বরূপ, RAID 0 অপ্রয়োজনীয়তা ছাড়াই স্ট্রিপিং হয়, সাধারণত উচ্চতর পঠন / লেখার পারফরম্যান্স অর্জন করতে ব্যবহৃত হয় সম্ভবত RAID 1 র্যাড 1 র্যাড 10 এর মিশ্রণে ) সমাপ্তির সময় একই পরিমাণের জন্য হ্রাস করা যায়।
দুটি সংযুক্ত করে, আপনি উভয় বিশ্বের সেরা পাবেন: ফাইল সিস্টেমটি আপনাকে এই নিশ্চয়তা দেয় যে ফাইলটি পড়ার সময় আপনি যা পেয়েছিলেন তা আসলে লেখা ছিল এবং ডেটা নিশ্চিত করে একটি পৃথক স্থিরতা-পরীক্ষা প্রক্রিয়া পুরো সংগ্রহের উপর দিয়ে চলতে পারে সংরক্ষণাগারটি এখনও সংরক্ষণাগারটিতে যা খাওয়া ছিল তার সাথে মেলে। উভয়ের মধ্যে যে কোনও অসঙ্গতি রয়েছে (ফাইল সিস্টেমটি ফাইলটি ঠিক আছে, স্থিরতা যাচাই করে বলছে যে এটি নেই) আর্কাইভের উদ্দেশ্যযুক্ত অপারেশনের বাইরে কিন্তু অপারেটিং সিস্টেমের সুবিধাগুলির মধ্যে থেকে কোনও মাধ্যমিক থেকে পুনরুদ্ধার অনুরোধ করে এমন কোনও ফাইলকে নির্দেশ করবে অনুলিপি (ব্যাকআপ)। স্থিরতা পরীক্ষাটি দীর্ঘ সময়ের ব্যবধানে চলতে পারে যা খুব বড় সংরক্ষণাগারগুলির জন্য অপরিহার্য হয়ে ওঠে, তবে যে কোনও অনলাইন অ্যাক্সেসগুলি এখনও পাঠ্য সফল হলে হার্ডওয়্যারে দূষিত না হওয়ার গ্যারান্টিযুক্ত। নীতিগতভাবে, সংরক্ষণাগার সফ্টওয়্যারটি পড়ার ত্রুটি হিসাবে অসঙ্গতিগুলি রিপোর্ট করার জন্য ফাইল সিস্টেমের উপর নির্ভর করতে পারে এবং পটভূমিতে একটি পৃথক স্থিরতা পরীক্ষা করতে পারে কারণ ব্যবহারকারী ফাইলটির সাথে কাজ করছেন এবং একটি উপযুক্ত বার্তা প্রদর্শন করা উচিত যে ইঙ্গিত দেয় যে ফাইলটি যা অন্তর্ভুক্ত ছিল তার সাথে মেলে না indicate সংরক্ষণাগার মধ্যে। একটি ব্লক-হ্যাশিং ফাইল সিস্টেম ব্যবহার করে, বিষয়বস্তুটি সঠিক কিনা এমন আশ্বাস প্রদানের পরেও এই জাতীয় স্কিমটি অনুভূত কর্মক্ষেত্রে ন্যূনতম প্রভাব ফেলবে।