হাদোপ, এইচবেস, হাইভ এবং পিগ কখন ব্যবহার করবেন?


185

যেকোন একটি ব্যবহার করে সুবিধা কি কি Hadoop এর বা HBase বা মধুচক্র ?

আমার উপলব্ধি থেকে, এইচবিজ মানচিত্র-হ্রাস ব্যবহার করা এড়িয়ে চলে এবং এইচডিএফএসের শীর্ষে একটি কলাম ওরিয়েন্টেড স্টোরেজ রয়েছে। মধুচক্র একটি SQL- মতো ইন্টারফেস Hadoop এর এবং HBase

আমি আরও জানতে চাই যে কীভাবে হাইভ পিগের সাথে তুলনা করে ।


হ্যাডোপ : হ্যাডোপ বিতরণ ফাইল সিস্টেম + গণনা প্রক্রিয়াকরণ মডেল ম্যাপ্রেডুস। এইচবেজ : কী-মান স্টোরেজ, নিকটবর্তী আসল সময়ে পড়া এবং লেখার জন্য ভাল। Hive : এসকিউএল-এর মতো সিনট্যাক্স ব্যবহার করে এইচডিএফএস থেকে ডেটা উত্তোলনের জন্য ব্যবহৃত হয়। পিগ : ইটিএল তৈরির জন্য একটি ডেটা প্রবাহের ভাষা।
dbustosp

উত্তর:


348

ম্যাপ্রেডুস হ'ল একটি কম্পিউটিং ফ্রেমওয়ার্ক । HBase এর সাথে কিছু করার নেই। এটি বলেছিল, আপনি মানচিত্রের কাজ লিখতে এইচবাসে / থেকে দক্ষতার সাথে ডেটা স্থাপন বা আনতে পারেন। বিকল্পভাবে আপনি ডেটা রাখতে বা আনতে অন্যান্য HBase API, যেমন জাভা ব্যবহার করে ক্রমিক প্রোগ্রাম লিখতে পারেন। তবে আমরা হ্যাডোপ, এইচবেস ইত্যাদি ব্যবহার করে বিশাল আকারের ডেটা ব্যবহার করি, যাতে এটি তাত্পর্যপূর্ণ হয় না। যখন আপনার ডেটা খুব বিশাল হয় তখন স্বাভাবিক ক্রমক্রমিক প্রোগ্রামগুলি ব্যবহার করা অত্যন্ত অকার্যকর হবে।

আপনার প্রশ্নের প্রথম অংশে ফিরে আসা, হ্যাডোপ মূলত 2 টি জিনিস: একটি বিতরণকারী ফাইলসিস্টেম (এইচডিএফএস) + একটি গণনা বা প্রক্রিয়াকরণ কাঠামো (ম্যাপ্রেডুস) । অন্যান্য সমস্ত এফএসের মতো, এইচডিএফএস আমাদের স্টোরেজও সরবরাহ করে তবে উচ্চ ত্রুটিপুট এবং ডেটা হ্রাসের ঝুঁকির সাথে দোষ সহনশীল পদ্ধতিতে (প্রতিলিপিটির কারণে)। তবে, এফএস হওয়ার কারণে এইচডিএফএসের এলোমেলোভাবে পড়ার এবং লেখার অ্যাক্সেসের অভাব রয়েছে । এখানেই এইচবেস ছবিতে আসে। এটি গুগলের বিগ টেবিলের পরে মডেল করা একটি বিতরণযোগ্য, স্কেলযোগ্য, বড় ডেটা স্টোর । এটি কী / মান জোড়া হিসাবে ডেটা সঞ্চয় করে।

হিভে আসছেন। এটি আমাদের বিদ্যমান হডুপ ক্লাস্টারের শীর্ষে ডেটা গুদামজাতকরণ সুবিধা সরবরাহ করে। পাশাপাশি এটি একটি এসকিউএল এর মতো ইন্টারফেস সরবরাহ করে যা আপনার কাজকে সহজ করে তোলে যদি আপনি কোনও এসকিউএল ব্যাকগ্রাউন্ড থেকে আসেন তবে। আপনি হাইভে টেবিল তৈরি করতে পারেন এবং সেখানে ডেটা সঞ্চয় করতে পারেন। এর সাথে সাথে আপনি এমনকি আপনার বিদ্যমান এইচবাস বেস টেবিলগুলিকে মধুচন্দ্রে ম্যাপ করতে পারেন এবং সেগুলি পরিচালনা করতে পারেন।

যদিও পিগ মূলত একটি ডেটাফ্লো ভাষা যা আমাদের খুব সহজে এবং দ্রুত ডেটা প্রচুর পরিমাণে প্রক্রিয়া করতে দেয়। পিগের মূলত দুটি অংশ থাকে: পিগ ইন্টারপ্রেটার এবং ভাষা, পিগল্যাটিন । আপনি পিগল্যাটিনে পিগ স্ক্রিপ্ট লেখেন এবং তাদের পিগ ইন্টারপ্রেটার প্রক্রিয়া ব্যবহার করে। শূকরটি আমাদের জীবনকে অনেক সহজ করে তোলে, অন্যথায় ম্যাপ্রেডুস লেখা সর্বদা সহজ নয়। আসলে কিছু ক্ষেত্রে এটি সত্যই ব্যথা হতে পারে।

আমি কিছুদিন আগে হাদুপ ইকোসিস্টেমের বিভিন্ন সরঞ্জামের সংক্ষিপ্ত তুলনা নিয়ে একটি নিবন্ধ লিখেছিলাম । এটি গভীরতার তুলনা নয়, তবে এই প্রতিটি সরঞ্জামের একটি সংক্ষিপ্ত পরিচিতি যা আপনাকে শুরু করতে সহায়তা করতে পারে। (কেবলমাত্র আমার উত্তরে যোগ করার জন্য। কোনও স্ব প্রচারের উদ্দেশ্যে নয়)

হাইভ এবং পিগ উভয়ই প্রশ্নের ফণা অধীনে মানচিত্রের চাকরিতে রূপান্তরিত হয়।

আছে HTH


আপনি yarnহ্যাডোপ বাস্তুতন্ত্রের বিষয়ে কথা বলতে ভুলে
কেন্রি সানচেজ

53

আমি সম্প্রতি আমার ফার্মে একটি এইচআইভি ডেটা প্ল্যাটফর্ম বাস্তবায়ন করেছি এবং আমি একজন লোকের দল হওয়ার কারণে এটি প্রথম ব্যক্তির সাথে কথা বলতে পারে।

উদ্দেশ্য

  1. ভাষার মতো কিছু এসকিউএল এর মাধ্যমে দৈনিক ক্যোয়ারযোগ্য 350+ সার্ভার থেকে প্রতিদিনের ওয়েব লগ ফাইলগুলি সংগ্রহ করা
  2. পুরনো উত্পন্ন দৈনন্দিন অ্যাগ্রিগেশন তথ্য প্রতিস্থাপন করতে মাইএসকিউএল মধুচক্র সঙ্গে
  3. কাস্টম Build এ প্রশ্নের পুরনো রিপোর্ট মধুচক্র

আর্কিটেকচার বিকল্প

আমি নিম্নলিখিত বিকল্পগুলি চিহ্নিত করলাম:

  1. মধুচক্র + + HDFS
  2. Hive + HBase - অনুসন্ধানগুলি খুব ধীর ছিল তাই আমি এই বিকল্পটি ফেলে দিয়েছি

নকশা

  1. দৈনিক লগ ফাইলগুলি এইচডিএফএসে স্থানান্তরিত হয়েছিল
  2. এমআর জবসগুলি এইচডিএফএসে এই লগ ফাইল এবং আউটপুট ফাইলগুলি পার্স করে
  3. পার্টিশন এবং অবস্থানগুলির সাথে এইচডিএফ অবস্থানগুলিতে ইঙ্গিত সহ মাতাল সারণী তৈরি করুন
  4. হাইভ কোয়েরি স্ক্রিপ্টগুলি তৈরি করুন ( যদি আপনি এসকিউএল থেকে পৃথক পছন্দ করেন তবে এটিকে এইচকিউএল বলুন ) যা পটভূমিতে এমআর জবগুলি চালায় এবং একীকরণের ডেটা তৈরি করে
  5. এই সমস্ত পদক্ষেপগুলি একটি ওজি ওয়ার্কফ্লোতে রাখুন - ডেইলি ওজি সমন্বয়কের সাথে নির্ধারিত

সারসংক্ষেপ

এইচবেস মানচিত্রের মতো। যদি আপনি কীটি জানেন তবে আপনি তাত্ক্ষণিকভাবে মানটি পেতে পারেন। তবে আপনি যদি জানতে চান যে Hbase এর মধ্যে কতগুলি পূর্ণসংখ্য কী 1000000 এবং 2000000 এর মধ্যে রয়েছে যা একা Hbase এর জন্য উপযুক্ত নয়।

আপনার যদি এমন ডেটা থাকে যা সারি জুড়ে একত্রিত, ঘূর্ণিত, বিশ্লেষণ করা দরকার তবে হাইভ বিবেচনা করুন ।

আশা করি এটি সাহায্য করবে।

মধুচক্র আসলেই পাথর ... আমি জানি, আমি এখন 12 মাস ধরে এটি বেঁচে আছি ... এইচবিসেও তাই ...


1
এইচবেস একটি ননএসকিউএল ডাটাবেস যা এইচডিএফএসে ডেটা সঞ্চয় করে। এটি যখন আপনার বড় ডেটাতে এলোমেলো, রিয়েল-টাইম রিড / রাইটিং অ্যাক্সেসের প্রয়োজন হয় তখন এটি ব্যবহৃত হয়।
রুট লুপ

28

হাদুপ একটি আ ফ্রেমওয়ার্ক যা সাধারণ প্রোগ্রামিং মডেলগুলি ব্যবহার করে কম্পিউটারের ক্লাস্টার জুড়ে বড় ডেটা সেটগুলির বিতরণ প্রক্রিয়াকরণের অনুমতি দেয়।

হাদুপে প্রধানত চারটি মডিউল রয়েছে।

  1. হডোপ কমন : অন্যান্য হ্যাডোপ মডিউলগুলিকে সমর্থন করে এমন সাধারণ ইউটিলিটি।

  2. হ্যাডোপ বিতরণকারী ফাইল সিস্টেম ( এইচডিএফএস ™ ): একটি বিতরণ করা ফাইল সিস্টেম যা অ্যাপ্লিকেশন ডেটাগুলিতে উচ্চ-থ্রুপুট অ্যাক্সেস সরবরাহ করে।

  3. হডোপ ইয়ার্ন : কাজের সময়সূচী এবং ক্লাস্টার রিসোর্স পরিচালনার জন্য একটি কাঠামো।

  4. হ্যাডোপ ম্যাপ্রেইডুস : বড় ডেটা সেটগুলির সমান্তরাল প্রক্রিয়াকরণের জন্য একটি ইয়ার্ন-ভিত্তিক সিস্টেম।

আরও যাওয়ার আগে, আমরা নোট করি যে আমাদের কাছে তিনটি বিভিন্ন ধরণের ডেটা রয়েছে।

  • কাঠামোগত : স্ট্রাকচার্ড ডেটাতে শক্তিশালী স্কিমা রয়েছে এবং লেখার ও পড়ার ক্রিয়াকলাপের সময় স্কিমা পরীক্ষা করা হবে। যেমন আরডিবিএমএস সিস্টেমে ডেটা যেমন ওরাকল, মাইএসকিউএল সার্ভার ইত্যাদি

  • কাঠামোহীন : ডেটাটির কোনও কাঠামো নেই এবং এটি কোনও ফর্ম হতে পারে - ওয়েব সার্ভার লগ, ই-মেল, চিত্র ইত্যাদি etc.

  • আধা-কাঠামোগত : ডেটা কঠোরভাবে কাঠামোগত নয় তবে কিছু কাঠামো রয়েছে। যেমন এক্সএমএল ফাইলগুলি।

প্রক্রিয়াকরণের জন্য ডেটা ধরণের উপর নির্ভর করে আমাদের সঠিক প্রযুক্তি চয়ন করতে হবে।

আরও কিছু প্রকল্প, যা হাদুপের অংশ:

  • HBase ™ : একটি স্কেলযোগ্য, বিতরণ করা ডাটাবেস যা বড় টেবিলগুলির জন্য কাঠামোগত ডেটা স্টোরেজ সমর্থন করে।

  • Hive ।: একটি ডেটা গুদাম পরিকাঠামো যা ডেটা সংক্ষিপ্তকরণ এবং অ্যাড-হক অনুসন্ধান করে।

  • পিগ ™ : সমান্তরাল গণনার জন্য একটি উচ্চ-স্তরের ডেটা-প্রবাহের ভাষা এবং কার্যকরকরণ কাঠামো।

মধুচক্র বনাম শূকর তুলনা এই পাওয়া যাবে নিবন্ধ এবং এই দঃপূঃ আমার অন্যান্য পোস্ট প্রশ্ন

এইচবিএএসই মানচিত্র হ্রাসকে প্রতিস্থাপন করবে না। এইচবিজে স্কেলযোগ্য বিতরণযোগ্য ডাটাবেস এবং মানচিত্র হ্রাস হ'ল ডেটা বিতরণ প্রক্রিয়াকরণের জন্য প্রোগ্রামিং মডেল। মানচিত্র হ্রাস হ্রাস প্রক্রিয়াকরণে এইচবিএএসএতে ডেটাতে কাজ করতে পারে।

আপনি কাঠামোগত / আধা-কাঠামোগত ডেটার জন্য এইচআইভি / এইচবিএএসই ব্যবহার করতে পারেন এবং এটি হ্যাডোপ মানচিত্র হ্রাস দ্বারা প্রক্রিয়া করতে পারেন

প্রথাগত আরডিবিএমএস ডাটাবেস ওরাকল, এসকিউএল সার্ভার ইত্যাদি থেকে কাঠামোগত ডেটা আমদানি করতে আপনি এসকিউওপি ব্যবহার করতে পারেন এবং এটি হ্যাডোপ ম্যাপ হ্রাস সহ প্রক্রিয়া করতে পারেন

আপনি আন-স্ট্রাকচার্ড ডেটা প্রক্রিয়াকরণের জন্য এবং হ্যাডোপ ম্যাপ হ্রাস সহ প্রক্রিয়া করার জন্য FLUME ব্যবহার করতে পারেন

এক নজরে দেখুন: হ্যাডোপ ইউজ কেসস

মধুচক্রের সময়কালে সংগৃহীত ডেটা বিশ্লেষণাত্মক অনুসন্ধানের জন্য ব্যবহার করা উচিত। উদাহরণস্বরূপ প্রবণতা গণনা করুন, ওয়েবসাইট লগগুলি সংক্ষিপ্ত করুন তবে এটি রিয়েল টাইম প্রশ্নের জন্য ব্যবহার করা যায় না।

HBase বিগ ডেটা রিয়েল-টাইম অনুসন্ধানের জন্য ফিট করে। ফেসবুক এটি বার্তা এবং রিয়েল-টাইম বিশ্লেষণের জন্য ব্যবহার করে।

পিআইজি ডেটাফ্লোগুলি তৈরি করতে, একটি নির্ধারিত কাজ চালাতে, বড় পরিমাণে ডেটা ক্রাঞ্চ করতে, এটিকে সামগ্রিক / সংক্ষিপ্ত করে এবং সম্পর্কিত ডাটাবেস সিস্টেমগুলিতে সঞ্চয় করতে ব্যবহার করা যেতে পারে। অ্যাড-হক বিশ্লেষণের জন্য ভাল।

এইচআইভি অ্যাড-হক ডেটা বিশ্লেষণের জন্য ব্যবহার করা যেতে পারে তবে এটি পিআইজি এর বিপরীতে সমস্ত কাঠামোগত ডেটা ফর্ম্যাটগুলিকে সমর্থন করতে পারে না।


রিয়েল টাইম মেসেজিং সিস্টেমগুলির জন্য ফেসবুক আর ওপেন সোর্স এইচবাস ব্যবহার করে না। তারা এটিকে তাদের ঘরে বসে [মাইরোকস ডাটাবেস] দিয়ে প্রতিস্থাপন করেছে। ( ইঞ্জিনিয়ারিং.এফবি.
com

23

বিবেচনা করুন যে আপনি আরডিবিএমএসের সাথে কাজ করেন এবং কী ব্যবহার করবেন তা নির্বাচন করতে হবে - পূর্ণ টেবিল স্ক্যান, বা সূচী অ্যাক্সেস - তবে কেবল তার মধ্যে একটি।
আপনি যদি পূর্ণ টেবিল স্ক্যান নির্বাচন করেন - মুরগির ব্যবহার করুন। যদি সূচকের অ্যাক্সেস হয় - এইচবেস।


প্রকৃতপক্ষে আপনি এইচবিতে হাইভ তৈরি করতে পারেন যাতে আপনি এইচকিউএলকে সরাসরি স্ক্যান করে এইচবিএস ব্যবহার করতে পারেন তবে এইচবিজে সরাসরি সূচীর্ণ ক্যোয়ারী করতে সক্ষম হবেন। তবে আমি সন্দেহ করি এটি আপনাকে পুরো স্ক্যানে ধীর পারফরম্যান্স দেয়।
ফ্রস্টনোভাজেজ

এইচবেস হ'ল ওরিয়েন্টেড সিস্টেম, এটি স্ক্যানের ক্ষেত্রে অনুকূল নয়, যদিও ডেটা সাজানো থাকে। সুতরাং কিছু রেঞ্জ স্ক্যান করা ভাল পছন্দ হতে পারে, সম্পূর্ণ স্ক্যানগুলি তখন খুব ধীর হয়ে যাবে সরাসরি এইচডিএফএস থেকে
ডেভিড গ্রুজম্যান

5

হাদোপ বনাম ক্যাসান্দ্রা / এইচবাসের মধ্যে একটি তুলনার জন্য এই পোস্টটি পড়ুন

মূলত এইচবেস সত্যিই দ্রুত পঠন সক্ষম করে এবং স্কেলাবিলিটি সহ লেখায়। কত দ্রুত এবং স্কেলেবল? ফেসবুক এটির ব্যবহারকারীর স্ট্যাটাস, ফটো, চ্যাট বার্তাগুলি ইত্যাদির ব্যবস্থাপনার জন্য এটি ব্যবহার করে H

যেখানে হিভ হ'ল ডেটা গুদামজাতকরণ সমাধানের মতো। এইচআইভি বিষয়বস্তু সম্পর্কে জিজ্ঞাসা করতে আপনি এসকিউএল এর অনুরূপ একটি সিনট্যাক্স ব্যবহার করতে পারেন যার ফলে মানচিত্র হ্রাস কাজ হয় uce দ্রুত, লেনদেনমূলক সিস্টেমের জন্য আদর্শ নয়।


5

আমি লাম্বদা আর্কিটেকচার রিয়েল টাইম এবং ব্যাচের বোঝা প্রসেসিংয়ে কাজ করেছি। ব্যাংকিং লেনদেনের ক্ষেত্রে সেন্সর বা জালিয়াতি সনাক্তকরণের মাধ্যমে ফায়ার অ্যালার্মের ক্ষেত্রে দ্রুত সিদ্ধান্ত গ্রহণের ক্ষেত্রে রিয়েল টাইম প্রসেসিং প্রয়োজন needed বিআই সিস্টেমগুলিতে ফিড দেওয়া যেতে পারে এমন ডেটা সংক্ষিপ্ত করতে ব্যাচ প্রসেসিংয়ের প্রয়োজন।

উপরের অ্যাপ্লিকেশনগুলির জন্য আমরা হ্যাডোপ ইকোসিস্টেম প্রযুক্তি ব্যবহার করেছি।

রিয়েল টাইম প্রসেসিং

অ্যাপাচি ঝড়: স্ট্রিম ডেটা প্রসেসিং, বিধি প্রয়োগ

এইচবেস: রিয়েলটাইম ড্যাশবোর্ড পরিবেশনার জন্য ডেটাস্টোর

ব্যাচ প্রসেসিং হাদোপ: বিপুল পরিমাণে ডেটা ক্রাঞ্চ করছে। 360 ডিগ্রি ওভারভিউ বা ইভেন্টগুলিতে প্রসঙ্গ যুক্ত করা। পিগ, এমআর, স্পার্ক, হাইভ, শার্কের মতো ইন্টারফেস বা ফ্রেমওয়ার্কগুলি কম্পিউটিংয়ে সহায়তা করে। এই স্তরটির শিডিয়ুলার প্রয়োজন যার জন্য ওজি ভাল বিকল্প।

ইভেন্ট হ্যান্ডলিং স্তর

সেন্সর থেকে উচ্চ গতির ইভেন্টগুলি গ্রহন করার জন্য অ্যাপাচি কাফকা প্রথম স্তর ছিলেন। কাফকা লিংকডিন সংযোগকারীগুলির মাধ্যমে রিয়েল টাইম এবং ব্যাচ উভয় বিশ্লেষণের ডেটা প্রবাহকে পরিবেশন করে।


5

গভীরতা বোঝা

Hadoop এর

Hadoopএটি Apacheফাউন্ডেশনের একটি ওপেন সোর্স প্রকল্প । এটি লিখিত একটি কাঠামো যা Javaমূলত ২০০৫ সালে ডগ কাটিং দ্বারা বিকাশ করা হয়েছিল It Nutchএটি পাঠ্য অনুসন্ধান ইঞ্জিনের বিতরণকে সমর্থন করার জন্য তৈরি করা হয়েছিল । এর ভিত্তি হিসাবে গুগল এবং গুগল ফাইল সিস্টেম প্রযুক্তি Hadoopব্যবহার করে Map Reduce

হাদুপের বৈশিষ্ট্য

  1. পণ্য হার্ডওয়্যার ব্যবহার করে স্ট্রাকচারড, আধা-কাঠামোগত এবং কাঠামোগত সংখ্যক বিপুল পরিমাণে হ্যান্ডেল করতে এটি অনুকূলিত।
  2. এটি আর্কিটেকচার কিছুই ভাগ করে নি।
  3. এটি তার ডেটা একাধিক কম্পিউটারে প্রতিলিপি করে যাতে একের নীচে নেমে গেলে, এখনও অন্য মেশিন থেকে ডেটা প্রক্রিয়া করা যায় যা এর প্রতিলিপি সংরক্ষণ করে।
  4. Hadoopকম বিলম্বের চেয়ে হাই থ্রুপুট জন্য। এটি একটি ব্যাচ অপারেশন যা প্রচুর পরিমাণে ডেটা পরিচালনা করে; সুতরাং প্রতিক্রিয়া সময় অবিলম্বে হয় না।
  5. এটি অনলাইন লেনদেন প্রসেসিং এবং অনলাইন অ্যানালিটিকাল প্রসেসিংয়ের পরিপূরক। তবে এটি কোনওটির প্রতিস্থাপন নয়RDBMS
  6. যখন কাজের সমান্তরাল করা যায় না বা যখন ডেটার মধ্যে নির্ভরতা থাকে তখন ভাল হয় না।
  7. ছোট ফাইলগুলি প্রক্রিয়া করার জন্য এটি ভাল নয়। এটি বিশাল ডেটা ফাইল এবং ডেটা সেটগুলির সাথে সেরা কাজ করে।

হাদোপের সংস্করণ

দুটি সংস্করণ Hadoopউপলব্ধ আছে:

  1. হডোপ 1.0
  2. হাদুপ ২.০

হডোপ 1.0

এর দুটি প্রধান অংশ রয়েছে:

1. ডেটা স্টোরেজ ফ্রেমওয়ার্ক

এটি হ্যাডোপ ডিস্ট্রিবিউটেড ফাইল সিস্টেম ( HDFS) নামে পরিচিত একটি সাধারণ উদ্দেশ্যে ফাইল সিস্টেম ।

HDFS স্কিমা-কম

এটি কেবল ডেটা ফাইল সঞ্চয় করে এবং এই ডেটা ফাইলগুলি কোনও বিন্যাসের মধ্যে থাকতে পারে।

ধারণাটি হ'ল ফাইলগুলি যতটা সম্ভব তাদের মূল ফর্মের নিকটে সঞ্চয় করা।

এর ফলে এটি ব্যবসায়িক ইউনিট এবং সংস্থাকে কী কার্যকর করতে পারে তা নিয়ে অতিরিক্ত চিন্তিত না হয়ে প্রয়োজনীয় প্রয়োজনীয় নমনীয়তা এবং তত্পরতা সরবরাহ করে।

২. ডেটা প্রসেসিং ফ্রেমওয়ার্ক

এটি একটি সাধারণ ক্রিয়ামূলক প্রোগ্রামিং মডেল যা প্রথমদিকে গুগল জনপ্রিয় করেছে MapReduce

এটি মূলত দুটি ফাংশন ব্যবহার করে: MAPএবং REDUCEডেটা প্রক্রিয়া করার জন্য।

"ম্যাপার্স" কী-মান জোড়ার একটি সেট নিয়ে মধ্যবর্তী ডেটা তৈরি করে (যা কী-মান জোড়াগুলির অন্য একটি তালিকা)।

"হ্রাসকারী" তারপরে আউটপুট ডেটা তৈরি করতে এই ইনপুটটিতে কাজ করে।

দুটি ফাংশন আপাতদৃষ্টিতে একে অপরের সাথে বিচ্ছিন্ন হয়ে কাজ করে, ফলে প্রক্রিয়াটিকে অত্যন্ত সমান্তরাল, দোষ-সহনশীলতা এবং স্কেলযোগ্য পদ্ধতিতে অত্যন্ত বিতরণ করা যায়।

হ্যাডোপ 1.0 এর সীমাবদ্ধতা

  1. প্রথম সীমাবদ্ধতা ছিল MapReduceপ্রোগ্রামিং দক্ষতার প্রয়োজনীয়তা ।

  2. এটি কেবলমাত্র ব্যাচ প্রক্রিয়াকরণকে সমর্থন করেছে যা লগ বিশ্লেষণ, বৃহত আকারের ডেটা মাইনিং প্রকল্পগুলির মতো কাজের জন্য উপযুক্ত তবে অন্যান্য ধরণের প্রকল্পের জন্য বেশ উপযুক্ত নয়।

  3. একটি প্রধান সীমাবদ্ধতাটি ছিল Hadoop 1.0কঠোরভাবে গণনার সাথে সংযুক্ত MapReduce, যার অর্থ দাঁড়ায় যে প্রতিষ্ঠিত ডেটা ম্যানেজমেন্ট বিক্রেতারা যেখানে দুটি মতামত রেখে গেছে:

    1. হয় তাদের কার্যকারিতা পুনর্লিখন করুন MapReduceযাতে এটিতে Hadoopবা কার্যকর করা যায়

    2. এর থেকে ডেটা বের করুন HDFSবা এর বাইরে প্রক্রিয়া করুন Hadoop

বিকল্পগুলির কোনওটিই কার্যকর ছিল না কারণ এটি Hadoopক্লাস্টারের ভিতরে এবং বাইরে চলে যাওয়ার কারণে ডেটা দ্বারা সৃষ্ট অদক্ষতাগুলি প্রক্রিয়া করে ।

হাদুপ ২.০

ইন Hadoop 2.0,HDFS ডেটা স্টোরেজ ফ্রেমওয়ার্ক হতে থাকবে।

যাইহোক, একটি নতুন এবং পৃথক সম্পদ ব্যবস্থাপনা কাঠামো নামক ওয়াই এবং একটি nother আর esource এন egotiater ( সুতো ) যোগ করা হয়েছে।

সমান্তরাল কার্যগুলিতে নিজেকে ভাগ করতে সক্ষম যে কোনও অ্যাপ্লিকেশন YARN দ্বারা সমর্থিত।

ইয়ার্ন জমা দেওয়া অ্যাপ্লিকেশনটির সাবটাস্কগুলি বরাদ্দকে সমন্বয় করে, এর ফলে অ্যাপ্লিকেশনগুলির নমনীয়তা, স্কেলাবিলিটি এবং দক্ষতা আরও বাড়ায়।

এটি নতুন নোড ম্যানেজার দ্বারা পরিচালিত সংস্থাগুলিতে অ্যাপ্লিকেশন পরিচালনা করে জব ট্র্যাকারের জায়গায় একটি অ্যাপ্লিকেশন মাস্টার রেখে কাজ করে ।

অ্যাপ্লিকেশনমাস্টার কেবল কোনও অ্যাপ্লিকেশন চালাতে সক্ষম নয় MapReduce

এর অর্থ এটি কেবল ব্যাচ প্রসেসিংকেই সমর্থন করে না তবে আসল-সময় প্রক্রিয়াজাতকরণকেও সমর্থন করে। MapReduceএখন আর একমাত্র ডেটা প্রসেসিং বিকল্প নেই।

হাদোপের সুবিধা

এটি এর নেটিভ থেকে ডেটা সঞ্চয় করে। ডেটা কী বা ডেটা সংরক্ষণ করার সময় কোনও কাঠামো আরোপিত হয়নি। HDFSস্কিমা কম। এটি তখনই হয় যখন ডেটা প্রক্রিয়া করা প্রয়োজন যে কাঠামোটি কাঁচা ডেটার উপর চাপিয়ে দেওয়া হয়।

এটি স্কেলেবল। Hadoopসমান্তরালভাবে কাজ করে এমন শত শত সস্তা সার্ভারগুলিতে খুব বড় ডেটাসেটগুলি সঞ্চয় এবং বিতরণ করতে পারে।

এটি ব্যর্থতা স্থিতিস্থাপক। Hadoopফল্ট সহনশীলতা। এটি নিখরচায়ভাবে ডেটাগুলির অনুলিপি অনুশীলন করে যার অর্থ যখনই যখন কোনও নোডে ডেটা প্রেরণ করা হয় তখন একই তথ্যটি ক্লাস্টারের অন্যান্য নোডগুলিতেও প্রতিলিপি হয়ে যায়, যার ফলে নোড ব্যর্থতার ক্ষেত্রে, সর্বদা ব্যবহারের জন্য ডেটার অনুলিপি উপলব্ধ থাকবে uring

এটি নমনীয়। এর অন্যতম প্রধান সুবিধা Hadoopহ'ল এটি যে কোনও ধরণের ডেটা নিয়ে কাজ করতে পারে: কাঠামোগত, কাঠামোগত বা আধা-কাঠামোগত। এছাড়াও, Hadoop"মুভি কোডে ডেটাতে" দৃষ্টান্ত তৈরির কারণে প্রক্রিয়াজাতকরণ অত্যন্ত দ্রুত ।

হডোপ ইকোসিস্টেম

নীচে Hadoopবাস্তুসংস্থার উপাদানগুলি রয়েছে :

এইচডিএফএস : Hadoopবিতরণ ফাইল সিস্টেম। এটি সহজেই মূল ফর্মের যতটা সম্ভব ডাটা ফাইলগুলি সঞ্চয় করে stores

এইচবেস : এটি হাদুপের ডাটাবেস এবং একটি এর সাথে ভাল তুলনা করে RDBMS। এটি বড় টেবিলগুলির জন্য কাঠামোগত ডেটা স্টোরেজ সমর্থন করে।

মৌচাক : এটি স্ট্যান্ডার্ডের সাথে অনুরূপ একটি ভাষা ব্যবহার করে বড় ডেটাসেটগুলির বিশ্লেষণ সক্ষম করে ANSI SQL, যার দ্বারা বোঝা যায় যে ফ্যামিলির যে কোনও ব্যক্তির SQLএকটি Hadoopক্লাস্টারে ডেটা অ্যাক্সেস করতে সক্ষম হওয়া উচিত ।

শূকর : এটি ডেটা প্রবাহের ভাষা বোঝা সহজ। এটি বড় ডেটাসেটগুলির বিশ্লেষণে সহায়তা করে যা এর সাথে বেশিরভাগ অর্ডার HadoopPigস্ক্রিপ্টগুলি দোভাষী MapReduceদ্বারা স্বয়ংক্রিয়ভাবে চাকরিতে রূপান্তরিত হয় Pig

চিড়িয়াখানা : এটি বিতরণ অ্যাপ্লিকেশনগুলির জন্য একটি সমন্বয় পরিষেবা।

ওজি : এটি schedularঅ্যাপাচি Hadoopকাজ পরিচালনা করার জন্য একটি ওয়ার্কফ্লো সিস্টেম ।

মাহাউট : এটি একটি স্কেলযোগ্য মেশিন লার্নিং এবং ডেটা মাইনিং লাইব্রেরি।

চুকওয়া : এটি বৃহত্তর বিতরণ সিস্টেম পরিচালনার জন্য ডেটা সংগ্রহের ব্যবস্থা।

স্কোয়াপ : এটি Hadoopরিলেশনাল ডাটাবেসগুলির মতো কাঠামোগত ডেটা স্টোরের মধ্যে বাল্ক ডেটা স্থানান্তর করতে ব্যবহৃত হয় ।

আমবাড়ি : এটি Hadoopক্লাস্টারগুলি সরবরাহ , পরিচালনা ও পর্যবেক্ষণের জন্য একটি ওয়েব ভিত্তিক সরঞ্জাম ।

মধুচক্র

Hiveকাঠামোগত ডেটা প্রক্রিয়া করার জন্য একটি ডেটা গুদাম পরিকাঠামো সরঞ্জাম Hadoop। এটি Hadoopবিগ ডেটা সংক্ষিপ্ত করতে শীর্ষে থাকে এবং অনুসন্ধান এবং বিশ্লেষণকে সহজ করে তোলে।

মধুচক্র হয় না

  1. একটি রিলেশনাল ডাটাবেস

  2. অনলাইন লেনদেন প্রসেসিংয়ের জন্য একটি নকশা ( OLTP)।

  3. রিয়েল-টাইম ক্যোয়ারী এবং সারি-স্তরের আপডেটগুলির জন্য একটি ভাষা।

মৌচাকের বৈশিষ্ট্য

  1. এটি ডাটাবেসে স্কিমা সংরক্ষণ করে এবং এতে ডেটা প্রক্রিয়া করে HDFS

  2. এটি জন্য ডিজাইন করা হয়েছে OLAP

  3. এটি SQLবলা HiveQLবা তাত্ক্ষণিক জিজ্ঞাসার জন্য প্রকারের ভাষা সরবরাহ করে HQL

  4. এটি পারিবারিক, দ্রুত, স্কেলেবল এবং এক্সটেনসিবল।

মাতাল আর্কিটেকচার

নীচের উপাদানগুলি হিভ আর্কিটেকচারে রয়েছে:

  1. ইউজার ইন্টারফেস : Hiveএমন একটি data warehouseঅবকাঠামো যা ব্যবহারকারী এবং এর মধ্যে ইন্টারঅ্যাকশন তৈরি করতে পারে HDFS। ইউজার ইন্টারফেসগুলি Hiveসমর্থন করে যেগুলি হাইভ ওয়েব ইউআই, হাইভ কমান্ড লাইন এবং হাইভ এইচডি অন্তর্দৃষ্টি (উইন্ডোজ সার্ভারে)।

  2. মেটাস্টোর : স্কিমা বা টেবিল, ডাটাবেস, একটি টেবিলের কলাম, তাদের ডেটার ধরণ এবং ম্যাপিং সংরক্ষণের জন্যHive পছন্দ করে ।database serversMetadataHDFS

  3. এইচআইকিউএল প্রসেস ইঞ্জিন : এর স্কিমা তথ্য অনুসন্ধানের HiveQLঅনুরূপ । এটি প্রোগ্রামের জন্য traditionalতিহ্যবাহী পদ্ধতির একটি প্রতিস্থাপন । লেখার পরিবর্তে মধ্যে , তখন আমরা একটি ক্যোয়ারী লিখতে পারেন এবং এটি প্রক্রিয়া।SQLMetastoreMapReduceMapReduceJavaMapReduce

  4. এক্সেসিউশন ইঞ্জিন : HiveQLপ্রক্রিয়া ইঞ্জিনের সংমিশ্রণ অংশ এবং MapReduceএটি Hiveএক্সিকিউশন ইঞ্জিন। এক্সিকিউশন ইঞ্জিন ক্যোয়ারী প্রক্রিয়া করে এবং ফলাফল হিসাবে একই হিসাবে উত্পন্ন করে MapReduce results। এটি এর স্বাদ ব্যবহার করে MapReduce

  5. এইচডিএফএস বা এইচবেস : Hadoopফাইল সিস্টেম বিতরণ বা ফাইল সিস্টেমে HBaseডেটা সঞ্চয় করার ডেটা স্টোরেজ কৌশল।


1

সর্বপ্রথমে আমরা স্পষ্ট পাওয়া উচিত যে Hadoop এর জন্য একটি দ্রুততর বিকল্প হিসেবে তৈরি করা হয়েছে RDBMS । খুব দ্রুত হারে প্রচুর পরিমাণে ডেটা প্রক্রিয়া করতে যা আগে আরডিবিএমএসে প্রচুর সময় নিয়েছিল।

এখন দুটি শর্তটি জানা উচিত:

  1. কাঠামোগত ডেটা : এটি এমন তথ্য যা আমরা traditionalতিহ্যবাহী আরডিবিএমএসে ব্যবহার করি এবং ভাল সংজ্ঞায়িত কাঠামোর মধ্যে বিভক্ত হয়েছি।

  2. কাঠামোগত ডেটা : এটি বুঝতে গুরুত্বপূর্ণ, বিশ্বের প্রায় 80% ডেটা কাঠামোগত বা অর্ধ কাঠামোগত। এগুলি এমন ডেটা যা এর কাঁচা ফর্মে থাকে এবং আরডিএমএস ব্যবহার করে প্রক্রিয়া করা যায় না। উদাহরণ: ফেসবুক, টুইটার ডেটা। ( http://www.dummies.com/how-to/content/unstructured-data-in-a-big-data-en पर्यावरण . html )।

সুতরাং, বিগত কয়েক বছরে প্রচুর পরিমাণে ডেটা তৈরি হয়েছিল এবং ডেটা বেশিরভাগই অরক্ষিত ছিল, যা HADOOP কে জন্ম দিয়েছে। এটি মূলত খুব বেশি পরিমাণে ডেটার জন্য ব্যবহার করা হয়েছিল যা আরডিবিএমএস ব্যবহারের অযোগ্য সময় নেয়। এটির অনেকগুলি ত্রুটি ছিল, এটি বাস্তব সময়ে তুলনামূলকভাবে ছোট ডেটার জন্য ব্যবহার করা যায়নি তবে তারা নতুন সংস্করণে এর ত্রুটিগুলি সরিয়ে নিয়েছে।

আরও এগিয়ে যাওয়ার আগে আমি বলতে চাই যে পূর্বের সরঞ্জামগুলিতে কোনও ত্রুটি দেখলে একটি নতুন বিগ ডেটা সরঞ্জাম তৈরি হয়। সুতরাং, আপনি যে কোনও সরঞ্জাম দেখতে পাবেন যা তৈরি হয়েছে তা পূর্ববর্তী সরঞ্জামগুলির সমস্যা কাটিয়ে উঠার জন্য করা হয়েছে।

Hadoop এর : কেবল দুটি জিনিস যেমন বলা যেতে পারে MapReduce এবং HDFS । ম্যাপ্রেডুস হ'ল যেখানে প্রক্রিয়াজাতকরণ হয় এবং এইচডিএফএস হ'ল ডেটাবেজ যেখানে ডেটা সংরক্ষণ করা হয়। এই কাঠামো অনুসৃত কীট একবার পড়া একাধিক বার প্রধান অর্থাত লেখ। সুতরাং, একবার আমরা এইচডিএফএসে ডেটা সঞ্চয় করে রাখলে, আমরা পরিবর্তন করতে পারি না। এটি এইচবিএসইএস , একটি এনওএসকিউএল পণ্য তৈরি করার দিকে পরিচালিত করে যেখানে আমরা একবার এটি লেখার পরে ডেটাতেও পরিবর্তন আনতে পারি।

তবে সময়ের সাথে আমরা দেখতে পেলাম যে হ্যাডোপের অনেক ত্রুটি ছিল এবং এর জন্য আমরা হ্যাডোপ কাঠামোর উপরে বিভিন্ন পরিবেশ তৈরি করেছি। পিগ এবং এইচআইভি দুটি জনপ্রিয় উদাহরণ।

এইচআইভি এসকিউএল ব্যাকগ্রাউন্ডযুক্ত ব্যক্তিদের জন্য তৈরি করা হয়েছিল । লিখিত প্রশ্নগুলি এইচআইকিউএল নামে এসকিউএল এর অনুরূপ । সম্পূর্ণরূপে কাঠামোগত ডেটা প্রক্রিয়া করার জন্য এইচআইভি বিকাশ করা হয়েছিল । এটি কাঠামোগত ডেটার জন্য ব্যবহৃত হয় না।

অন্যদিকে পিআইজি এর নিজস্ব ক্যোয়ারী ভাষা রয়েছে যেমন পিআইজি ল্যাটিন । এটি কাঠামোগত পাশাপাশি কাঠামোগত ডেটা উভয়ের জন্যই ব্যবহার করা যেতে পারে ।

কখন এইচআইভি ব্যবহার করতে হবে এবং পিআইজি কখন ব্যবহার করতে হবে সে বিষয়ে পার্থক্যে চলে যাওয়া, আমি মনে করি না পিআইজি এর স্থপতি ছাড়া অন্য কেউ বলতে পারেন। লিঙ্কটি অনুসরণ করুন: https://developer.yahoo.com/blogs/hadoop/compering-pig-latin-sql-constructing-data-processing-piplines-444.html


1

Hadoop এর:

এইচডিএফএস এর অর্থ হ্যাডোপ বিতরণকারী ফাইল সিস্টেম যা গণনা প্রক্রিয়াকরণ মডেল ম্যাপ-হ্রাস ব্যবহার করে।

HBase:

এইচবেস হ'ল কী-মান স্টোরেজ, নিকটবর্তী আসল সময়ে পড়া এবং লেখার জন্য ভাল।

চাক:

এইচএলএফএস-এর মতো সিনট্যাক্স ব্যবহার করে এইচডিএফ থেকে ডেটা উত্তোলনের জন্য মধুচক্র ব্যবহার করা হয়। Hive এইচকিউএল ভাষা ব্যবহার করে।

পিগ:

পিগ ইটিএল তৈরির জন্য একটি ডেটা প্রবাহের ভাষা। এটি একটি স্ক্রিপ্টিং ভাষা।


0

আমাকে কয়েকটি কথায় উত্তর দেওয়ার চেষ্টা করি।

হাদুপ একটি ইকো-সিস্টেম যা অন্যান্য সমস্ত সরঞ্জাম নিয়ে গঠিত। সুতরাং, আপনি হাদুপকে তুলনা করতে পারবেন না তবে আপনি মানচিত্রের তুলনা করতে পারেন।

আমার কয়েকটি সেন্ট এখানে:

  1. Hive: যদি আপনার প্রয়োজনটি খুব এসকিউএলিশ অর্থাত্ আপনার সমস্যার বিবৃতি এসকিউএল দ্বারা সরবরাহ করা যায় তবে হাইভ ব্যবহার করা সবচেয়ে সহজ কাজ। অন্য ক্ষেত্রে, যখন আপনি মাতাল ব্যবহার করবেন তখন যখন আপনি কোনও সার্ভারের ডেটা নির্দিষ্ট কাঠামো রাখতে চান।
  2. শূকর: আপনি যদি পিগ ল্যাটিনের সাথে স্বাচ্ছন্দ্য বোধ করেন এবং আপনার প্রয়োজন ডেটা পাইপলাইনগুলির বেশি। এছাড়াও, আপনার ডেটা কাঠামোর অভাব আছে। এই ক্ষেত্রে, আপনি পিগ ব্যবহার করতে পারেন। সত্যিই ব্যবহারের ক্ষেত্রে স্নাতক এবং শূকরের মধ্যে খুব বেশি পার্থক্য নেই।
  3. ম্যাপ্রেডিউস: যদি আপনার সমস্যাটি সরাসরি এসকিউএল ব্যবহার করে সমাধান করা না যায় তবে আপনার প্রথমে হাইভ অ্যান্ড পিগের জন্য ইউডিএফ তৈরি করার চেষ্টা করা উচিত এবং তারপরে যদি ইউডিএফ সমস্যাটি সমাধান না করে তবে মানচিত্রের মাধ্যমে তা সম্পন্ন করা অর্থপূর্ণ হয়ে ওঠে।

0

শূকর: ফাইলগুলি সাফ করার এবং ডেটা পরিষ্কার করার পক্ষে এটি আরও ভাল উদাহরণ: নাল মানগুলি, স্ট্রিং হ্যান্ডলিং, অপ্রয়োজনীয় মানগুলি মুছা: পরিষ্কার ডেটা অনুসন্ধানের জন্য


0

১. আমরা টিএসটিএস, সিএসভির মতো ফর্ম ফাইলের ফর্ম্যাটে বড় ডেটা (ষ্ট্রাকচার, আনস্ট্রাকচার এবং সেমিস্ট্রিক্ট ডেটা) সংরক্ষণ করার জন্য হ্যাডোপ ব্যবহার করছি।

2. যদি আমরা আমাদের ডেটাতে কলামার আপডেট চাই তবে আমরা Hbase সরঞ্জামটি ব্যবহার করছি

৩.হাইভের ক্ষেত্রে, আমরা বিগ ডেটা সংরক্ষণ করি যা কাঠামোগত ফর্ম্যাটে রয়েছে এবং এটি ছাড়াও আমরা সেই ডেটা বিশ্লেষণ সরবরাহ করছি।

৪.পিগ একটি সরঞ্জাম যা কোনও বিন্যাসে (কাঠামো, আধা কাঠামো এবং কাঠামোগত) ডেটা বিশ্লেষণ করতে পিগ লাতিন ভাষা ব্যবহার করে।


0

পিগে ডেটা মুছে ফেলা খুব সহজ, একটি উপযুক্ত পদ্ধতির মধ্যে হ'ল শুকরের মাধ্যমে ডেটা পরিষ্কার করা এবং তারপরে ডাইভের মাধ্যমে ডেটা প্রক্রিয়াকরণ করা এবং পরে এটি এইচডিএফএসে আপলোড করা হবে।


0

মুরগির ব্যবহার, Hbase এবং পিগ বিভিন্ন প্রকল্পে আমার বাস্তব সময় অভিজ্ঞতা।

মৌচাক বেশিরভাগ ক্ষেত্রে ব্যবহৃত হয়:

  • বিশ্লেষণের উদ্দেশ্য যেখানে ইতিহাসের ডেটা বিশ্লেষণ করতে হবে

  • নির্দিষ্ট কলামের উপর ভিত্তি করে ব্যবসায়ের প্রতিবেদন তৈরি করা

  • মেটাডেটা তথ্যের সাথে ডেটা দক্ষতার সাথে পরিচালনা করা

  • নির্দিষ্ট কলামগুলিতে টেবিলগুলিতে যোগদান করা যা বকেটিং ধারণাটি ব্যবহার করে প্রায়শই ব্যবহৃত হয়

  • পার্টিশন ধারণাটি ব্যবহার করে দক্ষ সঞ্চয় এবং অনুসন্ধান করা ying

  • হালনাগাদ / সারির স্তরের ক্রিয়াকলাপগুলির জন্য যেমন দরকারী নয় যেমন আপডেট, মুছুন ইত্যাদি for

শুয়োর বেশিরভাগ ক্ষেত্রে ব্যবহৃত হয়:

  • বিপুল তথ্য উপর ঘন ঘন তথ্য বিশ্লেষণ

  • বিশাল ডেটাতে একত্রিত মান / গণনা তৈরি করা

  • এন্টারপ্রাইজ স্তরের কী কর্মক্ষমতা সূচকগুলি খুব ঘন ঘন তৈরি করা

Hbase বেশিরভাগ ব্যবহৃত হয়:

  • ডেটা রিয়েল টাইম প্রসেসিংয়ের জন্য

  • কমপ্লেক্স এবং নেস্টেড স্কিমা দক্ষতার সাথে পরিচালনার জন্য

  • রিয়েল টাইম অনুসন্ধান এবং দ্রুত ফলাফলের জন্য

  • কলামগুলির সাথে সহজ স্কেলিবিলিটির জন্য

  • লেনদেন / সারির স্তরের ক্রিয়াকলাপগুলির জন্য যেমন আপডেট, মুছুন ইত্যাদি কার্যকর


0

এই প্রশ্নের সংক্ষিপ্ত উত্তর হ'ল -

হ্যাডোপ - হ'ল ফ্রেমওয়ার্ক যা বিতরণকৃত ফাইল সিস্টেম এবং প্রোগ্রামিং মডেলকে সহায়তা করে যা আমাদেরকে বিতর্কিত ফ্যাশনে অতি দক্ষ আকারের ডেটা এবং প্রক্রিয়া ডেটা খুব দক্ষতার সাথে এবং খুব কম প্রসেসিং সময় সহ traditionalতিহ্যগত পদ্ধতির সাথে তুলনা করে সংরক্ষণ করতে দেয়।

(এইচডিএফএস - হ্যাডোপ বিতরণকারী ফাইল সিস্টেম) (মানচিত্র হ্রাস - বিতরণ প্রক্রিয়াকরণের জন্য প্রোগ্রামিং মডেল)

হাইভ - কোয়েরি ভাষা যা ফ্যাশনের মতো খুব জনপ্রিয় এসকিউএল-তে হ্যাডোপ বিতরণ করা ফাইল সিস্টেম থেকে ডেটা পড়তে / লিখতে দেয়। এটি বহু নন-প্রোগ্রামিং ব্যাকগ্রাউন্ডের মানুষের জীবনকে আরও সহজ করে তুলেছে কারণ মাইভ-সমর্থিত নয় এমন জটিল পরিস্থিতি বাদে তাদের আর ম্যাপ-হ্রাস প্রোগ্রাম লিখতে হবে না।

Hbase - কলামার NoSQL ডাটাবেস হয়। Hbase এর জন্য অন্তর্নিহিত স্টোরেজ স্তরটি আবার এইচডিএফএস। এই ডাটাবেসের জন্য সর্বাধিক গুরুত্বপূর্ণ ব্যবহারের ক্ষেত্রে হ'ল মিলিয়ন কলামের সাথে কয়েক বিলিয়ন সারি সংরক্ষণ করতে সক্ষম। Hbase এর কম বিলম্বিত বৈশিষ্ট্যটি সরবরাহকারীর ইঞ্জিনগুলির মতো জটিল প্রকল্পগুলির জন্য এটি দরকারী করার জন্য বিতরণকৃত ডেটাগুলির তুলনায় রেকর্ডের দ্রুত এবং এলোমেলো অ্যাক্সেসে সহায়তা করে very এছাড়াও এটি রেকর্ড স্তরের সংস্করণ ক্ষমতা ব্যবহারকারীকে খুব দক্ষতার সাথে লেনদেনের ডেটা সঞ্চয় করতে দেয় (এটি এইচডিএফএস এবং মধুচক্রের সাথে আমাদের রেকর্ডগুলি আপডেট করার সমস্যাটি সমাধান করে)

আশা করি উপরোক্ত 3 টি বৈশিষ্ট্যগুলি দ্রুত বুঝতে এটি সহায়ক।


0

আমি বিশ্বাস করি যে এই থ্রেডটি বিশেষত এইচবাস এবং পিগের প্রতি বিশেষ ন্যায়বিচারে করেনি। যদিও আমি বিশ্বাস করি যে হ্যাডোপ হ'ল বিগ-ডেটা হ্রদ বাস্তবায়নের জন্য বিতরণযোগ্য, নমনীয় ফাইল-সিস্টেমের পছন্দ, এইচবেস এবং হাইভের মধ্যে পছন্দটি বিশেষভাবে আলাদা-আলাদা।

যেমনটি রয়েছে, প্রচুর ব্যবহারের ক্ষেত্রে এসকিউএল জাতীয় বা ইন্টারফেসের মতো নো-এসকিউএল এর একটি বিশেষ প্রয়োজনীয়তা রয়েছে। এইচবিজে শীর্ষে ফিনিক্স সহ, যদিও এসকিউএল এর মতো দক্ষতা অবশ্যই অর্জনযোগ্য, তবে, কর্মক্ষমতা, তৃতীয় পক্ষের সংহতকরণ, ড্যাশবোর্ড আপডেট এক ধরণের বেদনাদায়ক অভিজ্ঞতা। তবে, এটি অনুভূমিক স্কেলিংয়ের জন্য প্রয়োজনীয় ডাটাবেসের জন্য একটি দুর্দান্ত পছন্দ।

পিগ কম্পিউটেশন বা ইটিএল পাইপলাইনের (যেমন কোথাও এটি আরামদায়ক দূরত্বে স্পার্ককে ছাড়িয়ে যায়) যেমন পুনরাবৃত্তিযোগ্য ব্যাচের জন্য বিশেষত দুর্দান্ত। এছাড়াও, এটি উচ্চ-স্তরের ডেটাফ্লো বাস্তবায়নগুলি ব্যাচ অনুসন্ধান এবং স্ক্রিপ্টিংয়ের জন্য একটি দুর্দান্ত পছন্দ। পিগ এবং হাইভের মধ্যে পছন্দটি ক্লায়েন্ট বা সার্ভার-সাইড স্ক্রিপ্টিং, প্রয়োজনীয় ফাইল ফর্ম্যাট ইত্যাদির উপর ভিত্তি করে তৈরি করা হয় ig 'পদ্ধতিগত ডেটাফ্লো ভাষা' বনাম 'ঘোষিত ডেটা ফ্লো ল্যাঙ্গুয়েজের' পছন্দটিও শূকর এবং মুরগির মধ্যে পছন্দগুলির পক্ষে একটি শক্ত যুক্তি।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.