ডেটা সায়েন্টিস্ট হওয়ার জন্য আমার কি হ্যাডোপ শিখতে হবে?


38

এখানে একটি উচ্চাকাঙ্ক্ষী তথ্য বিজ্ঞানী। আমি হ্যাডোপ সম্পর্কে কিছুই জানি না, তবে আমি যেমন ডেটা সায়েন্স এবং বিগ ডেটা সম্পর্কে পড়ছি, হ্যাডোপ সম্পর্কে আমি অনেকগুলি আলোচনা দেখতে পাচ্ছি। ডেটা সায়েন্টিস্ট হওয়ার জন্য হাদোপকে শেখা কি একেবারেই প্রয়োজনীয়?


1
এই শ্রেণীর প্রশ্নগুলি মেটা নিয়ে আলোচনা করা হচ্ছে। আপনি এই মেটা পোস্টে
asheeshr

এটি একেবারে প্রয়োজনীয় নয়। এটি কেবল একটি সরঞ্জাম। প্রয়োজনীয় যা হ'ল পরিসংখ্যান এবং লিনিয়ার বীজগণিত বোঝা। সরঞ্জাম পছন্দ গৌণ।
ভিক্টর

এই নিখরচায় ই-বুকটি দেখুন এবং এটি আপনার প্রশ্নের উত্তর দেওয়ার চেষ্টা করে। oreilly.com/data/free/files/analyzing-the-analyzers.pdf
এস্পান্টা

আইবিএম ওয়াটসন অ্যানালিটিক্সে আমার একই অনুরূপ প্রশ্ন রয়েছে, গুগলের বিগকোয়ারি এবং অন্যান্য ক্লাউড ভিত্তিক বিশ্লেষণগুলি হ্যাডোপ এবং স্পার্কের মতো এই প্রযুক্তিগুলি আরও ভাল just বড় ডেটা অ্যানালিটিক্স করুন

উত্তর:


47

বিভিন্ন ব্যক্তি বিভিন্ন জিনিসের জন্য বিভিন্ন সরঞ্জাম ব্যবহার করে। ডেটা সায়েন্সের মতো পদগুলি কোনও কারণে জেনেরিক। হ্যাডোপের মতো কোনও নির্দিষ্ট সরঞ্জাম না শিখে একটি ডেটা বিজ্ঞানী পুরো ক্যারিয়ারটি কাটিয়ে দিতে পারেন। হাদুপ ব্যাপকভাবে ব্যবহৃত হয়, তবে এটি একমাত্র প্ল্যাটফর্ম নয় যা ডেটা এমনকি বৃহত আকারের ডেটা পরিচালনা ও পরিচালনা করতে সক্ষম।

আমি বলব যে কোনও ডেটা বৈজ্ঞানিককে ম্যাপ্রেডস, বিতরণকারী সিস্টেম, বিতরণ করা ফাইল সিস্টেম এবং এর মতো ধারণাগুলির সাথে পরিচিত হওয়া উচিত তবে আমি এই জাতীয় বিষয়গুলি সম্পর্কে না জেনে কারও বিচার করব না।

এটি একটি বড় ক্ষেত্র। জ্ঞানের সমুদ্র রয়েছে এবং বেশিরভাগ লোকই শিখতে সক্ষম এবং এক ফোঁটাতে বিশেষজ্ঞ হতে সক্ষম। বিজ্ঞানী হওয়ার মূল চাবিকাঠিটি শেখার আকাঙ্ক্ষা এবং যা আপনি ইতিমধ্যে জানেন না তা জানার অনুপ্রেরণা রয়েছে।

উদাহরণ হিসাবে: আমি এক দশক ধরে একটি নির্দিষ্ট শ্রেণিতে শ্রেণিকক্ষের কার্যকারিতা সম্পর্কিত তথ্য সহ একশটি কাঠামোগত সিএসভি ফাইল সঠিক ব্যক্তিকে হস্তান্তর করতে পারি। কোনও ডেটা বিজ্ঞানী একাধিক মেশিন জুড়ে গণনা ছড়িয়ে দেওয়ার প্রয়োজন ছাড়াই ডেটা থেকে এক বছর আলোকিত অন্তর্দৃষ্টি ব্যয় করতে সক্ষম হবেন। আপনি মেশিন লার্নিং অ্যালগরিদম প্রয়োগ করতে পারেন, ভিজ্যুয়ালাইজেশন ব্যবহার করে এটি বিশ্লেষণ করতে পারেন, অঞ্চল, জাতিগত মেকআপ, সময়ের সাথে পরিবেশের পরিবর্তন, রাজনৈতিক তথ্য, আবহাওয়ার ধরণ ইত্যাদি সম্পর্কে এটি বাহ্যিক ডেটাগুলির সাথে একত্রিত করতে পারেন that এগুলি সবই আমার মতে "ডেটা সায়েন্স" হবে । আপনি কেবল ক্লাসরুমের চেয়ে শিক্ষার্থীদের একটি গোটা দেশকে অন্তর্ভুক্ত ডেটাতে যা কিছু শিখেছিলেন তা পরীক্ষা করতে এবং প্রয়োগ করতে হাদুপের মতো কিছু লাগতে পারে, তবে এই চূড়ান্ত পদক্ষেপটি অগত্যা কাউকে ডেটা বিজ্ঞানী হিসাবে তৈরি করে না।


10

প্রাক্তন হাদুপ ইঞ্জিনিয়ার হিসাবে এটির প্রয়োজন হয় না তবে এটি সহায়তা করে। হ্যাডোপ একটি মাত্র সিস্টেম - জাভা ভিত্তিক সর্বাধিক প্রচলিত সিস্টেম এবং পণ্যগুলির একটি বাস্তুতন্ত্র যা সময়োপযোগী ফলাফল অর্জনের জন্য একটি নির্দিষ্ট কৌশল "মানচিত্র / হ্রাস" প্রয়োগ করে। হ্যাডোপ গুগলে ব্যবহৃত হয় না, যদিও আমি আপনাকে আশ্বাস দিই যে তারা বড় ডেটা বিশ্লেষণ ব্যবহার করে। গুগল তাদের নিজস্ব সিস্টেম ব্যবহার করে, সি ++ তে বিকাশিত। প্রকৃতপক্ষে, গুগল তাদের মানচিত্র / হ্রাস এবং বিগ টেবিল (হ্যাডোপে এইচবাসে) সাদা কাগজপত্র প্রকাশের ফলে হাদোপ তৈরি হয়েছিল created

ডেটা বিজ্ঞানীরা হ্যাডোপ ইঞ্জিনিয়ারদের সাথে ইন্টারফেস করবে, যদিও ছোট জায়গায় আপনাকে উভয় টুপি পরতে হতে পারে। আপনি যদি কঠোরভাবে কোনও ডেটা বিজ্ঞানী হন তবে আপনার বিশ্লেষণ, আর, এক্সেল, টেবিল ইত্যাদির জন্য আপনি যা কিছু ব্যবহার করেন তা কেবলমাত্র একটি ছোট উপসেটে কাজ করবে, তারপরে হ্যাডুপের সাথে জড়িত পুরো ডেটা সেটটির বিরুদ্ধে চালানোর জন্য রূপান্তর করতে হবে।


8

"হ্যাডোপ শিখুন" বলতে আপনার অর্থ কী তা আপনাকে প্রথমে পরিষ্কার করতে হবে। যদি আপনার অর্থ হ্যাডোপ ব্যবহার করা যেমন ম্যাপ্রেডুসে প্রোগ্রাম শেখা, তবে সম্ভবত এটি একটি ভাল ধারণা। তবে সময়ের সাথে সাথে মৌলিক জ্ঞান (ডাটাবেস, মেশিন লার্নিং, পরিসংখ্যান) আরও বড় ভূমিকা নিতে পারে।


স্পষ্টতই বেশিরভাগ লোকেরা বিশ্লেষণের জন্য হাদুপ ব্যবহার করে। আমি যা ভাবছি তা হল আমার কি এমন কিছু প্রয়োজন বা ডেটাবেস, এমএল, পরিসংখ্যান সম্পর্কে জ্ঞান প্রয়োজন?
পেনসু

5

হ্যাঁ, আপনার এমন একটি প্ল্যাটফর্ম শিখতে হবে যা আপনার সমস্যাটিকে ডেটা সমান্তরাল সমস্যা হিসাবে ছড়িয়ে দিতে সক্ষম। হাদুপ এক। আপনার সাধারণ প্রয়োজনের জন্য (নকশার ধরণগুলি যেমন গণনা, একীকরণ, ফিল্টারিং ইত্যাদি) আপনার প্রয়োজন হ্যাডোপ এবং আরও জটিল মেশিন লার্নিং স্টাফের মতো কিছু বয়েশিয়ান, এসভিএম করার মতো আপনার মাহউথের প্রয়োজন হয় যার পরিবর্তে হাদোপ (এখন অ্যাপাচি স্পার্ক) দরকার আপনার সমস্যাগুলি সমাধান করার জন্য একটি তথ্য সমান্তরাল পদ্ধতির।

সুতরাং হ্যাডুপ একটি ভাল প্লাটফর্ম যা শিখতে এবং আপনার ব্যাচের প্রক্রিয়াকরণের প্রয়োজনের জন্য সত্যই গুরুত্বপূর্ণ। কেবল হাদুপই নয় আপনাকে স্পার্কও জানতে হবে (মাহাউট স্পার্ক ব্যবহার করে এটি অ্যালগরিদম চালায়) এবং টুইটার স্টর্ম (আপনার আসল সময়ের বিশ্লেষণের প্রয়োজনে)। এই তালিকাটি অবিরত থাকবে এবং বিকশিত হবে সুতরাং আপনি যদি বিল্ডিং ব্লকগুলি (বিতরণকারী কম্পিউটিং, ডেটা-সমান্তরাল সমস্যা ইত্যাদি) সম্পর্কে ভাল হন এবং জানেন যে কীভাবে এই জাতীয় একটি প্ল্যাটফর্ম (হ্যাডোপ বলুন) আপনি পরিচালনা করেন আপনি অন্যদের উপর দ্রুত গতি অর্জন করবেন to


4

আপনি যে পরিবেশ / সংস্থার সাথে কাজ করছেন তার উপর এটি দৃ strongly়ভাবে নির্ভর করে। আমার দৃষ্টিতে এই মুহুর্তে একটি "বিগ ডেটা" হাইপ রয়েছে এবং প্রচুর সংস্থাগুলি হ্যাডোপ ভিত্তিক সমাধানগুলি নিয়ে মাঠে প্রবেশ করার চেষ্টা করে - যা হ্যাডোপকে একটি বজওয়ার্ডও করে তোলে তবে এটি সর্বদা সেরা সমাধান নয়।

আমার মনে, একজন ভাল ডেটা সায়েন্টিস্টকে সঠিক প্রশ্ন জিজ্ঞাসা করতে সক্ষম হওয়া উচিত এবং সত্যিকারের কী প্রয়োজন তা পরিষ্কার না হওয়া পর্যন্ত আবার জিজ্ঞাসা করা চালিয়ে যাওয়া উচিত। একজন ভাল ডেটা সায়েন্টিস্টের চেয়ে - অবশ্যই - সমস্যাটি কীভাবে সমাধান করা যায় তা জানতে হবে (বা কমপক্ষে কাউকে জানতে পারেন)। অন্যথায় আপনার স্টেকহোল্ডার হতাশ হতে পারে :-)

সুতরাং, আমি এটি হাদোপ শিখতে একেবারে প্রয়োজনীয় নয় বলব।


2

আপনি যদি ডেটা বিজ্ঞানী হিসাবে কাজ করতে চান তবে আপনার হ্যাডোপ শিখতে হবে, তবে হ্যাডোপ দিয়ে শুরু করার আগে আপনার ইটিএল বা বিগ ডেটা সম্পর্কে কিছু পড়া উচিত ... এই বইটি একটি সূচনা পয়েন্ট হতে পারে: http://www.amazon.com / বিগ-data-মূলনীতি-চর্চা-স্কেল করার যোগ্য / ডিপি / 1617290343

আশা করি এটি সাহায্য করে এবং ভাগ্য!


2

আপনি একটি মেশিনে ডেটাতে ডেটা সায়েন্স কৌশল প্রয়োগ করতে পারেন সুতরাং প্রশ্নের উত্তর যেমন ওপি বলে, তেমন হয় না।


1

ডেটা সায়েন্স এমন একটি ক্ষেত্র যা বিভিন্ন দক্ষতার দাবি করে। হাদুপ সম্পর্কে জ্ঞান থাকা তাদের মধ্যে একটি। ডেটা সায়েন্টিস্টের প্রধান কাজগুলির মধ্যে রয়েছে:

  1. বিভিন্ন সংস্থান থেকে ডেটা সংগ্রহ করা।
  2. ডেটা পরিষ্কার এবং প্রাক-প্রক্রিয়াজাতকরণ।
  3. তথ্য পরিসংখ্যানগত বৈশিষ্ট্য অধ্যয়ন।
  4. ভবিষ্যদ্বাণী করা এবং ডেটা থেকে অন্তর্দৃষ্টি আহরণ করার জন্য মেশিন লার্নিং কৌশলগুলি ব্যবহার করা।
  5. সিদ্ধান্ত গ্রহণকারীদের কাছে সহজেই বোঝার জন্য ফলাফলগুলি যোগাযোগ করা।

উপরোক্ত বিষয়গুলির মধ্যে হ্যাডোপের জ্ঞান 1,2 এবং 3 পয়েন্টের জন্য দরকারী তবে আপনার কাছে তথ্য বিজ্ঞানের ক্ষেত্রে কাজ করার জন্য শক্তিশালী গাণিতিক / পরিসংখ্যানগত পটভূমি এবং গণ্য কৌশলগুলির শক্তিশালী জ্ঞান থাকা দরকার। এছাড়াও হ্যাডোপ একমাত্র ফ্রেমওয়ার্ক নয় যা ডেটা সায়েন্সে ব্যবহৃত হচ্ছে। বিগ ডেটা ইকোসিস্টেমের বিভিন্ন কাঠামো রয়েছে, প্রতিটি নির্দিষ্ট ব্যবহারের ক্ষেত্রে নির্দিষ্ট। এই নিবন্ধটি ডেটা সায়েন্সে ব্যবহৃত হতে পারে এমন বড় বিগ ডেটা ফ্রেমওয়ার্ক সম্পর্কিত প্রারম্ভিক উপাদান দেয়:

http://www.codophile.com/big-data-frameworks-every-programmer-should-know/


1

আমি মনে করি হ্যাডোপ কাঠামো ঝুঁকানো (হার্ড ওয়ে) কোনও ডেটা সায়েন্টিস্ট হওয়ার প্রয়োজনীয়তা নয়। সমস্ত বড় ডেটা প্ল্যাটফর্মের সাধারণ জ্ঞান প্রয়োজনীয়। আমি এটি সম্পর্কে ধারণাটি জানার পরামর্শ দেব এবং হ্যাডোপ থেকে কেবলমাত্র অংশটি হ'ল ম্যাপ্রেইডস http://hadoop.apache.org/docs/current/hadoop-mapreduce-client/hadoop-mapreduce-client-core/MapReduceTutorial.html

একজন ডেটা সায়েন্টিস্ট ক্লাস্টার তৈরি করে না, প্রশাসক করে ... কেবলমাত্র ডেটা দিয়ে "ম্যাজিক" তৈরি করে এবং কোথা থেকে আসছে তা যত্ন করে না। "হ্যাডোপ" শব্দটি কেবল উপরের বেস মডিউলগুলিকেই নয়, "বাস্তুসংস্থান", বা অতিরিক্ত সফ্টওয়্যার প্যাকেজগুলির সংগ্রহকেও বোঝায় যেগুলি হ্যাডোপের উপরে বা পাশাপাশি ইনস্টল করা যেতে পারে যেমন অ্যাপাচি পিগ, অ্যাপাচি হাইভ, অ্যাপাচি এইচবেস, অ্যাপাচি স্পার্ক এবং অন্যান্য।

সর্বাধিক গুরুত্বপূর্ণ হ'ল প্রোগ্রামিং ভাষা, গণিত এবং ডেটা সহ কাজ করার পরিসংখ্যান (আপনাকে ডেটার সাথে সংযোগ করার এবং এগিয়ে যাওয়ার জন্য কোনও উপায় খুঁজে বের করতে হবে)। আমি আশা করি আমার কাছে কেউ আমাকে ধারণার দিকে নির্দেশ করুক এবং সপ্তাহের জন্য শিখার কাঠামো না কাটিয়ে স্ক্র্যাচ নোড এবং ক্লাস্টারগুলি তৈরি করুক, কারণ সেই অংশটি প্রশাসকের ভূমিকা এবং ডেটা ইঞ্জিনিয়ার বা ডেটা সায়েন্টিস্ট নয়। এছাড়াও একটি জিনিস: সমস্ত পরিবর্তন এবং বিকশিত হচ্ছে তবে গণিত, প্রোগ্রামিং, পরিসংখ্যানগুলি এখনও প্রয়োজনীয়তা।

এইচডিএফএস থেকে ডেটা অ্যাক্সেস করা অপরিহার্য, উদাহরণস্বরূপ, পিআরসি হাদুপ, হাইভ, স্পার্ককন্টেক্সট বা অন্য কোনও ড্রাইভার বা পাইপ (ডেটা বা স্টোরেজ অ্যাক্সেসের পয়েন্ট হিসাবে হ্যাডোপকে বিবেচনা করুন :)

রিসোর্স বরাদ্দ এবং পরিচালনা, কর্মক্ষমতা যত্ন নেয় যা ইতিমধ্যে স্থান সরঞ্জাম বা ফ্রেমওয়ার্ক আছে।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.