Hadoop ক্লাস্টার মধ্যে তথ্য স্থানান্তর করার জন্য সর্বোত্তম অনুশীলন


1

অবস্থা: আমি একটি পুরানো Hadoop ক্লাস্টার থেকে একটি নতুন Hadoop ক্লাস্টার প্রায় 100TB স্থানান্তর করতে হবে। প্রতিটি ক্লাস্টারের নমুনা থেকে দুটি ক্লাস্টারের সরাসরি 1 জিবিই সংযোগ রয়েছে। Datanodes সংযুক্ত করা হয় না।

আমি কি চেষ্টা করেছি:

  • Distcp: এটি কাজ করে না কারণ পুরানো এবং নতুন ডেটাডোড সংযুক্ত নয়, এটি প্রতিটি ম্যাপড্রুস কাজের উপর সংযোগের সময় শেষ করে দেবে।
  • hdfs dfs -cp: এটি এখন পর্যন্ত বেশ ভাল কাজ করছে, তবে ধীরে ধীরে চলতে থাকে এবং অবশেষে কয়েক ঘন্টা পরে স্থানান্তর বন্ধ করে। এটি কম্প্রেশন বা ভাল restartability সমর্থন করে না।

আমি কি আগ্রহী

  • যেহেতু ক্লাস্টার 1 এবং ক্লাস্টার 2 এর মধ্যে আমার সংযোগটি হ'ল বাধা, আমি এমন একটি সরঞ্জাম খুঁজে পেতে আগ্রহী যা আমাকে ক্লাস্টার 1 এর ডেটা সংকুচিত করতে দেয়, এটি খুব কম ওভারহেড (নেটক্যাট সম্ভবত?) সহ তারের উপর পাঠাতে দেয় এবং ক্লাস্টার 2 এ এটির কমপ্রেস করে রেনিন সিটি নিখুঁত হবে, তবে আমি নিশ্চিত নই যে এটি দুটি হ্যদপ ক্লাস্টারের মধ্যে কীভাবে ব্যবহার করবেন।
  • আমি সঙ্গে পরিচিত না অন্যান্য সুপারিশ।

আমার প্রশ্ন:

  • ক্লাস্টার 1 এবং ক্লাস্টার 2 এর মধ্যে তথ্য স্থানান্তর করতে আমি কী সরঞ্জাম বা স্ক্রিপ্ট ব্যবহার করতে পারি?
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.