আমি মনে করি হ্যাডোপ কাঠামো ঝুঁকানো (হার্ড ওয়ে) কোনও ডেটা সায়েন্টিস্ট হওয়ার প্রয়োজনীয়তা নয়। সমস্ত বড় ডেটা প্ল্যাটফর্মের সাধারণ জ্ঞান প্রয়োজনীয়। আমি এটি সম্পর্কে ধারণাটি জানার পরামর্শ দেব এবং হ্যাডোপ থেকে কেবলমাত্র অংশটি হ'ল ম্যাপ্রেইডস
http://hadoop.apache.org/docs/current/hadoop-mapreduce-client/hadoop-mapreduce-client-core/MapReduceTutorial.html
একজন ডেটা সায়েন্টিস্ট ক্লাস্টার তৈরি করে না, প্রশাসক করে ... কেবলমাত্র ডেটা দিয়ে "ম্যাজিক" তৈরি করে এবং কোথা থেকে আসছে তা যত্ন করে না। "হ্যাডোপ" শব্দটি কেবল উপরের বেস মডিউলগুলিকেই নয়, "বাস্তুসংস্থান", বা অতিরিক্ত সফ্টওয়্যার প্যাকেজগুলির সংগ্রহকেও বোঝায় যেগুলি হ্যাডোপের উপরে বা পাশাপাশি ইনস্টল করা যেতে পারে যেমন অ্যাপাচি পিগ, অ্যাপাচি হাইভ, অ্যাপাচি এইচবেস, অ্যাপাচি স্পার্ক এবং অন্যান্য।
সর্বাধিক গুরুত্বপূর্ণ হ'ল প্রোগ্রামিং ভাষা, গণিত এবং ডেটা সহ কাজ করার পরিসংখ্যান (আপনাকে ডেটার সাথে সংযোগ করার এবং এগিয়ে যাওয়ার জন্য কোনও উপায় খুঁজে বের করতে হবে)। আমি আশা করি আমার কাছে কেউ আমাকে ধারণার দিকে নির্দেশ করুক এবং সপ্তাহের জন্য শিখার কাঠামো না কাটিয়ে স্ক্র্যাচ নোড এবং ক্লাস্টারগুলি তৈরি করুক, কারণ সেই অংশটি প্রশাসকের ভূমিকা এবং ডেটা ইঞ্জিনিয়ার বা ডেটা সায়েন্টিস্ট নয়। এছাড়াও একটি জিনিস: সমস্ত পরিবর্তন এবং বিকশিত হচ্ছে তবে গণিত, প্রোগ্রামিং, পরিসংখ্যানগুলি এখনও প্রয়োজনীয়তা।
এইচডিএফএস থেকে ডেটা অ্যাক্সেস করা অপরিহার্য, উদাহরণস্বরূপ, পিআরসি হাদুপ, হাইভ, স্পার্ককন্টেক্সট বা অন্য কোনও ড্রাইভার বা পাইপ (ডেটা বা স্টোরেজ অ্যাক্সেসের পয়েন্ট হিসাবে হ্যাডোপকে বিবেচনা করুন :)
রিসোর্স বরাদ্দ এবং পরিচালনা, কর্মক্ষমতা যত্ন নেয় যা ইতিমধ্যে স্থান সরঞ্জাম বা ফ্রেমওয়ার্ক আছে।