আমি জিওফিজিক্সের পিএইচডি শিক্ষার্থী এবং বিপুল পরিমাণে চিত্রের ডেটা (শত শত জিবি, কয়েক হাজার ফাইল) নিয়ে কাজ করি। আমি জানি svn
এবং git
মোটামুটি ভাল এবং সহজেই একসাথে কাজ করার এবং ডিস্ক দুর্নীতির বিরুদ্ধে সুরক্ষার সক্ষমতা সহ এক প্রকল্পের ইতিহাসের মূল্য দিতে এসেছি। git
ধারাবাহিক ব্যাকআপ রাখার জন্য আমি অত্যন্ত সহায়ক বলে মনে করি তবে আমি জানি যে গিটটি বিশাল পরিমাণে বাইনারি ডেটা দক্ষতার সাথে পরিচালনা করতে পারে না।
আমার মাস্টার্স স্টাডিতে আমি একই আকারের ডেটা সেটগুলিতেও কাজ করেছি (চিত্রগুলিও) এবং বিভিন্ন সার্ভার / ডিভাইসে বিভিন্ন সংস্করণে ট্র্যাক রাখতে অনেক সমস্যা হয়েছিল। নেটওয়ার্কের মাধ্যমে 100 গিগাবাইটের পার্থক্য করা সত্যই মজাদার নয় এবং আমার জন্য অনেক সময় এবং প্রচেষ্টা ব্যয় করা হয়।
আমি জানি যে বিজ্ঞানের অন্যদেরও একই রকম সমস্যা রয়েছে বলে মনে হয়, তবুও আমি এর ভাল সমাধান খুঁজে পাইনি।
আমি আমার ইনস্টিটিউটের স্টোরেজ সুবিধা ব্যবহার করতে চাই, তাই আমার এমন কিছু দরকার যা "বোবা" সার্ভারটি ব্যবহার করতে পারে। আমি একটি পোর্টেবল হার্ড ডিস্কে একটি অতিরিক্ত ব্যাকআপ রাখতে চাই, কারণ আমি যেখানেই সম্ভব নেটওয়ার্কের মাধ্যমে কয়েকশো জিবি স্থানান্তর এড়াতে চাই। সুতরাং, আমার এমন একটি সরঞ্জাম প্রয়োজন যা একাধিক দূরবর্তী অবস্থান পরিচালনা করতে পারে।
শেষ অবধি, আমার সত্যিকারের এমন কিছু দরকার যা অন্য গবেষকরা ব্যবহার করতে পারেন, সুতরাং এটি অতি সাধারণ হওয়ার দরকার নেই, তবে এটি কয়েক ঘন্টার মধ্যেই শেখা উচিত।
আমি অনেকগুলি বিভিন্ন সমাধানের মূল্যায়ন করেছি, তবে কোনওটিই বিলের সাথে ফিট করে না বলে মনে হচ্ছে:
- এসএনএন কিছুটা অক্ষম এবং একটি স্মার্ট সার্ভারের প্রয়োজন
- এইচজি বিগফিল / লার্জি ফাইল কেবলমাত্র একটি রিমোট ব্যবহার করতে পারে
- গিট বিগফিল / মিডিয়া কেবলমাত্র একটি রিমোট ব্যবহার করতে পারে তবে এটি খুব দক্ষও নয়
- অ্যাটিকের কোনও লগ, বা পৃথকীকরণের ক্ষমতা রয়েছে বলে মনে হয় না
- বুপটি দেখতে খুব ভাল লাগছে, তবে কাজ করার জন্য একটি "স্মার্ট" সার্ভারের প্রয়োজন
আমি চেষ্টা করেছি git-annex
, যা করার জন্য আমার যা প্রয়োজন তা সবই করে (এবং আরও অনেক কিছু), তবে এটি ব্যবহার করা খুব কঠিন এবং নথিভুক্ত নয়। আমি বেশ কয়েক দিন ধরে এটি ব্যবহার করেছি এবং এটির চারপাশে আমার মাথা পেতে পারেনি, তাই আমি সন্দেহ করি যে অন্য কোনও সহকর্মী আগ্রহী।
গবেষকরা কীভাবে বড় ডেটাসেটগুলি ব্যবহার করেন এবং অন্যান্য গবেষণা গ্রুপগুলি কী ব্যবহার করছে?
স্পষ্ট করে বলতে গেলে, আমি অন্যান্য প্রাথমিক গবেষকরা কেবল এই নির্দিষ্ট ডেটাসেটের সাথে নয়, এই পরিস্থিতিটি কীভাবে মোকাবিলা করবেন সে সম্পর্কে আমি প্রাথমিকভাবে আগ্রহী। এটি আমার কাছে মনে হয় প্রায় প্রত্যেকেরই এই সমস্যাটি হওয়া উচিত, তবুও আমি কে জানি না যে এটি সমাধান করেছে know আমি কি কেবলমাত্র মূল তথ্যটির একটি ব্যাকআপ রাখি এবং এই সমস্ত সংস্করণ নিয়ন্ত্রণের জিনিসগুলি ভুলে যাব? সবাই কি তাই করছে?