গভীরতা বোঝা
Hadoop এর
Hadoop
এটি Apache
ফাউন্ডেশনের একটি ওপেন সোর্স প্রকল্প । এটি লিখিত একটি কাঠামো যা Java
মূলত ২০০৫ সালে ডগ কাটিং দ্বারা বিকাশ করা হয়েছিল It Nutch
এটি পাঠ্য অনুসন্ধান ইঞ্জিনের বিতরণকে সমর্থন করার জন্য তৈরি করা হয়েছিল । এর ভিত্তি হিসাবে গুগল এবং গুগল ফাইল সিস্টেম প্রযুক্তি Hadoop
ব্যবহার করে Map Reduce
।
হাদুপের বৈশিষ্ট্য
- পণ্য হার্ডওয়্যার ব্যবহার করে স্ট্রাকচারড, আধা-কাঠামোগত এবং কাঠামোগত সংখ্যক বিপুল পরিমাণে হ্যান্ডেল করতে এটি অনুকূলিত।
- এটি আর্কিটেকচার কিছুই ভাগ করে নি।
- এটি তার ডেটা একাধিক কম্পিউটারে প্রতিলিপি করে যাতে একের নীচে নেমে গেলে, এখনও অন্য মেশিন থেকে ডেটা প্রক্রিয়া করা যায় যা এর প্রতিলিপি সংরক্ষণ করে।
Hadoop
কম বিলম্বের চেয়ে হাই থ্রুপুট জন্য। এটি একটি ব্যাচ অপারেশন যা প্রচুর পরিমাণে ডেটা পরিচালনা করে; সুতরাং প্রতিক্রিয়া সময় অবিলম্বে হয় না।
- এটি অনলাইন লেনদেন প্রসেসিং এবং অনলাইন অ্যানালিটিকাল প্রসেসিংয়ের পরিপূরক। তবে এটি কোনওটির প্রতিস্থাপন নয়
RDBMS
।
- যখন কাজের সমান্তরাল করা যায় না বা যখন ডেটার মধ্যে নির্ভরতা থাকে তখন ভাল হয় না।
- ছোট ফাইলগুলি প্রক্রিয়া করার জন্য এটি ভাল নয়। এটি বিশাল ডেটা ফাইল এবং ডেটা সেটগুলির সাথে সেরা কাজ করে।
হাদোপের সংস্করণ
দুটি সংস্করণ Hadoop
উপলব্ধ আছে:
- হডোপ 1.0
- হাদুপ ২.০
হডোপ 1.0
এর দুটি প্রধান অংশ রয়েছে:
1. ডেটা স্টোরেজ ফ্রেমওয়ার্ক
এটি হ্যাডোপ ডিস্ট্রিবিউটেড ফাইল সিস্টেম ( HDFS
) নামে পরিচিত একটি সাধারণ উদ্দেশ্যে ফাইল সিস্টেম ।
HDFS
স্কিমা-কম
এটি কেবল ডেটা ফাইল সঞ্চয় করে এবং এই ডেটা ফাইলগুলি কোনও বিন্যাসের মধ্যে থাকতে পারে।
ধারণাটি হ'ল ফাইলগুলি যতটা সম্ভব তাদের মূল ফর্মের নিকটে সঞ্চয় করা।
এর ফলে এটি ব্যবসায়িক ইউনিট এবং সংস্থাকে কী কার্যকর করতে পারে তা নিয়ে অতিরিক্ত চিন্তিত না হয়ে প্রয়োজনীয় প্রয়োজনীয় নমনীয়তা এবং তত্পরতা সরবরাহ করে।
২. ডেটা প্রসেসিং ফ্রেমওয়ার্ক
এটি একটি সাধারণ ক্রিয়ামূলক প্রোগ্রামিং মডেল যা প্রথমদিকে গুগল জনপ্রিয় করেছে MapReduce
।
এটি মূলত দুটি ফাংশন ব্যবহার করে: MAP
এবং REDUCE
ডেটা প্রক্রিয়া করার জন্য।
"ম্যাপার্স" কী-মান জোড়ার একটি সেট নিয়ে মধ্যবর্তী ডেটা তৈরি করে (যা কী-মান জোড়াগুলির অন্য একটি তালিকা)।
"হ্রাসকারী" তারপরে আউটপুট ডেটা তৈরি করতে এই ইনপুটটিতে কাজ করে।
দুটি ফাংশন আপাতদৃষ্টিতে একে অপরের সাথে বিচ্ছিন্ন হয়ে কাজ করে, ফলে প্রক্রিয়াটিকে অত্যন্ত সমান্তরাল, দোষ-সহনশীলতা এবং স্কেলযোগ্য পদ্ধতিতে অত্যন্ত বিতরণ করা যায়।
হ্যাডোপ 1.0 এর সীমাবদ্ধতা
প্রথম সীমাবদ্ধতা ছিল MapReduce
প্রোগ্রামিং দক্ষতার প্রয়োজনীয়তা ।
এটি কেবলমাত্র ব্যাচ প্রক্রিয়াকরণকে সমর্থন করেছে যা লগ বিশ্লেষণ, বৃহত আকারের ডেটা মাইনিং প্রকল্পগুলির মতো কাজের জন্য উপযুক্ত তবে অন্যান্য ধরণের প্রকল্পের জন্য বেশ উপযুক্ত নয়।
একটি প্রধান সীমাবদ্ধতাটি ছিল Hadoop 1.0
কঠোরভাবে গণনার সাথে সংযুক্ত MapReduce
, যার অর্থ দাঁড়ায় যে প্রতিষ্ঠিত ডেটা ম্যানেজমেন্ট বিক্রেতারা যেখানে দুটি মতামত রেখে গেছে:
হয় তাদের কার্যকারিতা পুনর্লিখন করুন MapReduce
যাতে এটিতে Hadoop
বা কার্যকর করা যায়
এর থেকে ডেটা বের করুন HDFS
বা এর বাইরে প্রক্রিয়া করুন Hadoop
।
বিকল্পগুলির কোনওটিই কার্যকর ছিল না কারণ এটি Hadoop
ক্লাস্টারের ভিতরে এবং বাইরে চলে যাওয়ার কারণে ডেটা দ্বারা সৃষ্ট অদক্ষতাগুলি প্রক্রিয়া করে ।
হাদুপ ২.০
ইন Hadoop 2.0
,HDFS
ডেটা স্টোরেজ ফ্রেমওয়ার্ক হতে থাকবে।
যাইহোক, একটি নতুন এবং পৃথক সম্পদ ব্যবস্থাপনা কাঠামো নামক ওয়াই এবং একটি nother আর esource এন egotiater ( সুতো ) যোগ করা হয়েছে।
সমান্তরাল কার্যগুলিতে নিজেকে ভাগ করতে সক্ষম যে কোনও অ্যাপ্লিকেশন YARN দ্বারা সমর্থিত।
ইয়ার্ন জমা দেওয়া অ্যাপ্লিকেশনটির সাবটাস্কগুলি বরাদ্দকে সমন্বয় করে, এর ফলে অ্যাপ্লিকেশনগুলির নমনীয়তা, স্কেলাবিলিটি এবং দক্ষতা আরও বাড়ায়।
এটি নতুন নোড ম্যানেজার দ্বারা পরিচালিত সংস্থাগুলিতে অ্যাপ্লিকেশন পরিচালনা করে জব ট্র্যাকারের জায়গায় একটি অ্যাপ্লিকেশন মাস্টার রেখে কাজ করে ।
অ্যাপ্লিকেশনমাস্টার কেবল কোনও অ্যাপ্লিকেশন চালাতে সক্ষম নয় MapReduce
।
এর অর্থ এটি কেবল ব্যাচ প্রসেসিংকেই সমর্থন করে না তবে আসল-সময় প্রক্রিয়াজাতকরণকেও সমর্থন করে। MapReduce
এখন আর একমাত্র ডেটা প্রসেসিং বিকল্প নেই।
হাদোপের সুবিধা
এটি এর নেটিভ থেকে ডেটা সঞ্চয় করে। ডেটা কী বা ডেটা সংরক্ষণ করার সময় কোনও কাঠামো আরোপিত হয়নি। HDFS
স্কিমা কম। এটি তখনই হয় যখন ডেটা প্রক্রিয়া করা প্রয়োজন যে কাঠামোটি কাঁচা ডেটার উপর চাপিয়ে দেওয়া হয়।
এটি স্কেলেবল। Hadoop
সমান্তরালভাবে কাজ করে এমন শত শত সস্তা সার্ভারগুলিতে খুব বড় ডেটাসেটগুলি সঞ্চয় এবং বিতরণ করতে পারে।
এটি ব্যর্থতা স্থিতিস্থাপক। Hadoop
ফল্ট সহনশীলতা। এটি নিখরচায়ভাবে ডেটাগুলির অনুলিপি অনুশীলন করে যার অর্থ যখনই যখন কোনও নোডে ডেটা প্রেরণ করা হয় তখন একই তথ্যটি ক্লাস্টারের অন্যান্য নোডগুলিতেও প্রতিলিপি হয়ে যায়, যার ফলে নোড ব্যর্থতার ক্ষেত্রে, সর্বদা ব্যবহারের জন্য ডেটার অনুলিপি উপলব্ধ থাকবে uring
এটি নমনীয়। এর অন্যতম প্রধান সুবিধা Hadoop
হ'ল এটি যে কোনও ধরণের ডেটা নিয়ে কাজ করতে পারে: কাঠামোগত, কাঠামোগত বা আধা-কাঠামোগত। এছাড়াও, Hadoop
"মুভি কোডে ডেটাতে" দৃষ্টান্ত তৈরির কারণে প্রক্রিয়াজাতকরণ অত্যন্ত দ্রুত ।
হডোপ ইকোসিস্টেম
নীচে Hadoop
বাস্তুসংস্থার উপাদানগুলি রয়েছে :
এইচডিএফএস : Hadoop
বিতরণ ফাইল সিস্টেম। এটি সহজেই মূল ফর্মের যতটা সম্ভব ডাটা ফাইলগুলি সঞ্চয় করে stores
এইচবেস : এটি হাদুপের ডাটাবেস এবং একটি এর সাথে ভাল তুলনা করে RDBMS
। এটি বড় টেবিলগুলির জন্য কাঠামোগত ডেটা স্টোরেজ সমর্থন করে।
মৌচাক : এটি স্ট্যান্ডার্ডের সাথে অনুরূপ একটি ভাষা ব্যবহার করে বড় ডেটাসেটগুলির বিশ্লেষণ সক্ষম করে ANSI SQL
, যার দ্বারা বোঝা যায় যে ফ্যামিলির যে কোনও ব্যক্তির SQL
একটি Hadoop
ক্লাস্টারে ডেটা অ্যাক্সেস করতে সক্ষম হওয়া উচিত ।
শূকর : এটি ডেটা প্রবাহের ভাষা বোঝা সহজ। এটি বড় ডেটাসেটগুলির বিশ্লেষণে সহায়তা করে যা এর সাথে বেশিরভাগ অর্ডার Hadoop
। Pig
স্ক্রিপ্টগুলি দোভাষী MapReduce
দ্বারা স্বয়ংক্রিয়ভাবে চাকরিতে রূপান্তরিত হয় Pig
।
চিড়িয়াখানা : এটি বিতরণ অ্যাপ্লিকেশনগুলির জন্য একটি সমন্বয় পরিষেবা।
ওজি : এটি schedular
অ্যাপাচি Hadoop
কাজ পরিচালনা করার জন্য একটি ওয়ার্কফ্লো সিস্টেম ।
মাহাউট : এটি একটি স্কেলযোগ্য মেশিন লার্নিং এবং ডেটা মাইনিং লাইব্রেরি।
চুকওয়া : এটি বৃহত্তর বিতরণ সিস্টেম পরিচালনার জন্য ডেটা সংগ্রহের ব্যবস্থা।
স্কোয়াপ : এটি Hadoop
রিলেশনাল ডাটাবেসগুলির মতো কাঠামোগত ডেটা স্টোরের মধ্যে বাল্ক ডেটা স্থানান্তর করতে ব্যবহৃত হয় ।
আমবাড়ি : এটি Hadoop
ক্লাস্টারগুলি সরবরাহ , পরিচালনা ও পর্যবেক্ষণের জন্য একটি ওয়েব ভিত্তিক সরঞ্জাম ।
মধুচক্র
Hive
কাঠামোগত ডেটা প্রক্রিয়া করার জন্য একটি ডেটা গুদাম পরিকাঠামো সরঞ্জাম Hadoop
। এটি Hadoop
বিগ ডেটা সংক্ষিপ্ত করতে শীর্ষে থাকে এবং অনুসন্ধান এবং বিশ্লেষণকে সহজ করে তোলে।
মধুচক্র হয় না
একটি রিলেশনাল ডাটাবেস
অনলাইন লেনদেন প্রসেসিংয়ের জন্য একটি নকশা ( OLTP
)।
রিয়েল-টাইম ক্যোয়ারী এবং সারি-স্তরের আপডেটগুলির জন্য একটি ভাষা।
মৌচাকের বৈশিষ্ট্য
এটি ডাটাবেসে স্কিমা সংরক্ষণ করে এবং এতে ডেটা প্রক্রিয়া করে HDFS
।
এটি জন্য ডিজাইন করা হয়েছে OLAP
।
এটি SQL
বলা HiveQL
বা তাত্ক্ষণিক জিজ্ঞাসার জন্য প্রকারের ভাষা সরবরাহ করে HQL
।
এটি পারিবারিক, দ্রুত, স্কেলেবল এবং এক্সটেনসিবল।
মাতাল আর্কিটেকচার
নীচের উপাদানগুলি হিভ আর্কিটেকচারে রয়েছে:
ইউজার ইন্টারফেস : Hive
এমন একটি data warehouse
অবকাঠামো যা ব্যবহারকারী এবং এর মধ্যে ইন্টারঅ্যাকশন তৈরি করতে পারে HDFS
। ইউজার ইন্টারফেসগুলি Hive
সমর্থন করে যেগুলি হাইভ ওয়েব ইউআই, হাইভ কমান্ড লাইন এবং হাইভ এইচডি অন্তর্দৃষ্টি (উইন্ডোজ সার্ভারে)।
মেটাস্টোর : স্কিমা বা টেবিল, ডাটাবেস, একটি টেবিলের কলাম, তাদের ডেটার ধরণ এবং ম্যাপিং সংরক্ষণের জন্যHive
পছন্দ করে ।database
servers
Metadata
HDFS
এইচআইকিউএল প্রসেস ইঞ্জিন : এর স্কিমা তথ্য অনুসন্ধানের HiveQL
অনুরূপ । এটি প্রোগ্রামের জন্য traditionalতিহ্যবাহী পদ্ধতির একটি প্রতিস্থাপন । লেখার পরিবর্তে মধ্যে , তখন আমরা একটি ক্যোয়ারী লিখতে পারেন এবং এটি প্রক্রিয়া।SQL
Metastore
MapReduce
MapReduce
Java
MapReduce
এক্সেসিউশন ইঞ্জিন : HiveQL
প্রক্রিয়া ইঞ্জিনের সংমিশ্রণ অংশ এবং MapReduce
এটি Hive
এক্সিকিউশন ইঞ্জিন। এক্সিকিউশন ইঞ্জিন ক্যোয়ারী প্রক্রিয়া করে এবং ফলাফল হিসাবে একই হিসাবে উত্পন্ন করে MapReduce results
। এটি এর স্বাদ ব্যবহার করে MapReduce
।
এইচডিএফএস বা এইচবেস : Hadoop
ফাইল সিস্টেম বিতরণ বা ফাইল সিস্টেমে HBase
ডেটা সঞ্চয় করার ডেটা স্টোরেজ কৌশল।