আমরা এই দ্বারা hierarchically সংগঠিত একটি ফাইল সিস্টেম ব্যবহার করেছি: - ভৌগলিক পরিধি (দেশ বা মহাদেশ) - ডেটা প্রদানকারী, লাইসেন্সার - ডোমেন / ডেটাসেট - তারিখ / সংস্করণ
তারপরে আমাদের নীতি আছে আমাদের উত্সের ডেটা (একই ফরম্যাটে যা আমরা সরবরাহকারীর কাছ থেকে যে সিডি / ডিভিডি পেয়েছিলাম তাতে) আমাদের কোম্পানির মধ্যে যে উত্পাদিত ডেটাসেটগুলি থেকে আলাদা করেছিলাম separate
ফাইল সিস্টেমটি গ্রাহকের কাছ থেকে যে কোনও ডেটা নিখরচায় করা সহজ করে তোলে এবং শারীরিক স্টোরেজের ক্ষেত্রে কিছুটা নমনীয়তাও দেয় - আমরা আমাদের সংরক্ষণাগারগুলি আরও বড়, ধীর ডিস্কে রাখি এবং আমাদের জন্য বিশেষ ফাইল সার্ভার রয়েছে (স্বচ্ছভাবে শ্রেণিবদ্ধের সাথে যুক্ত) আরও ঘন ঘন ব্যবহৃত ডেটাসেট।
প্রকল্পগুলির মধ্যে পরিচালনার সুবিধার্থে আমরা প্রতীকী লিঙ্কগুলি ব্যবহার করি। আমরা আমাদের ভেক্টরগুলিকে একটি ডাটাবেসে (ওরাকল) রাখি এবং গ্রাহক প্রতি কমপক্ষে একটি ডাটাবেস উদাহরণ (এবং বেশ কয়েকটি ব্যবহারকারী / প্রকল্পগুলির জন্য স্কিমা) রাখার নিয়মটি তৈরি করি। আমরা একটি ডাটাবেসে অনেক রাস্টার রাখছি না, যদিও তারা একের বাইরেও অনেক বেশি জায়গা নেয়। এছাড়াও, আমরা আমাদের ডাটাবেস উদাহরণগুলি যথাসম্ভব লাইটওয়েট রাখতে চাই like
এবং হ্যাঁ, পুরোপুরি 'পুলিশিং' করার দায়িত্বে আমাদের একজন রয়েছেন যাতে এটি খুব অগোছালো না হয়।
বর্তমানে এই সেটআপটি নিয়ে আমাদের সবচেয়ে বড় সমস্যাটি হ'ল একটি দুর্দান্ত ব্যবহারকারীর ইন্টারফেসের অভাব যা পুরো বিষয়টি সম্পর্কে আমাদের আরও ভাল পর্যালোচনা করতে সহায়তা করবে এবং আমরা সর্বোপরি একটি মেটাডেটা স্টোরেজ অন্তর্ভুক্ত করার পরিকল্পনা করছি। আমরা এখনও এখানে আমাদের বিকল্পগুলি বিবেচনা করছি।
আমরা আমাদের কোডের জন্য সংস্করণ নিয়ন্ত্রণ ব্যবহার করছি এবং আমরা এটি নথির জন্য ব্যবহার করেছি, তবে এটি প্রমাণিত হয়েছে যে সংস্করণ নিয়ন্ত্রণটি বড় ডেটাসেটের জন্য সত্যই তৈরি হয় না, বিশেষত যদি তারা বেশিরভাগ বাইনারি ফাইল হয়, তাই আমি প্রস্তাব দিই না আপনি যদি জিএমএল বা একইভাবে পাঠ্য-জাতীয় কিছু নিয়ে সমস্যায় পড়ে থাকেন তবে (সার্ভার-সাইড ডিস্ক ব্যবহারের ক্ষেত্রে বিশাল ওভারহেডগুলির পাশাপাশি বিপুল সংগ্রহস্থলগুলি পরীক্ষা করার সময় ক্লায়েন্ট ক্র্যাশ হওয়া সমস্যাগুলির মধ্যে রয়েছে) problems