গভীরতা বোঝা
Hadoop এর
Hadoopএটি Apacheফাউন্ডেশনের একটি ওপেন সোর্স প্রকল্প । এটি লিখিত একটি কাঠামো যা Javaমূলত ২০০৫ সালে ডগ কাটিং দ্বারা বিকাশ করা হয়েছিল It Nutchএটি পাঠ্য অনুসন্ধান ইঞ্জিনের বিতরণকে সমর্থন করার জন্য তৈরি করা হয়েছিল । এর ভিত্তি হিসাবে গুগল এবং গুগল ফাইল সিস্টেম প্রযুক্তি Hadoopব্যবহার করে Map Reduce।
হাদুপের বৈশিষ্ট্য
- পণ্য হার্ডওয়্যার ব্যবহার করে স্ট্রাকচারড, আধা-কাঠামোগত এবং কাঠামোগত সংখ্যক বিপুল পরিমাণে হ্যান্ডেল করতে এটি অনুকূলিত।
- এটি আর্কিটেকচার কিছুই ভাগ করে নি।
- এটি তার ডেটা একাধিক কম্পিউটারে প্রতিলিপি করে যাতে একের নীচে নেমে গেলে, এখনও অন্য মেশিন থেকে ডেটা প্রক্রিয়া করা যায় যা এর প্রতিলিপি সংরক্ষণ করে।
Hadoopকম বিলম্বের চেয়ে হাই থ্রুপুট জন্য। এটি একটি ব্যাচ অপারেশন যা প্রচুর পরিমাণে ডেটা পরিচালনা করে; সুতরাং প্রতিক্রিয়া সময় অবিলম্বে হয় না।
- এটি অনলাইন লেনদেন প্রসেসিং এবং অনলাইন অ্যানালিটিকাল প্রসেসিংয়ের পরিপূরক। তবে এটি কোনওটির প্রতিস্থাপন নয়
RDBMS ।
- যখন কাজের সমান্তরাল করা যায় না বা যখন ডেটার মধ্যে নির্ভরতা থাকে তখন ভাল হয় না।
- ছোট ফাইলগুলি প্রক্রিয়া করার জন্য এটি ভাল নয়। এটি বিশাল ডেটা ফাইল এবং ডেটা সেটগুলির সাথে সেরা কাজ করে।
হাদোপের সংস্করণ
দুটি সংস্করণ Hadoopউপলব্ধ আছে:
- হডোপ 1.0
- হাদুপ ২.০
হডোপ 1.0
এর দুটি প্রধান অংশ রয়েছে:
1. ডেটা স্টোরেজ ফ্রেমওয়ার্ক
এটি হ্যাডোপ ডিস্ট্রিবিউটেড ফাইল সিস্টেম ( HDFS) নামে পরিচিত একটি সাধারণ উদ্দেশ্যে ফাইল সিস্টেম ।
HDFS স্কিমা-কম
এটি কেবল ডেটা ফাইল সঞ্চয় করে এবং এই ডেটা ফাইলগুলি কোনও বিন্যাসের মধ্যে থাকতে পারে।
ধারণাটি হ'ল ফাইলগুলি যতটা সম্ভব তাদের মূল ফর্মের নিকটে সঞ্চয় করা।
এর ফলে এটি ব্যবসায়িক ইউনিট এবং সংস্থাকে কী কার্যকর করতে পারে তা নিয়ে অতিরিক্ত চিন্তিত না হয়ে প্রয়োজনীয় প্রয়োজনীয় নমনীয়তা এবং তত্পরতা সরবরাহ করে।
২. ডেটা প্রসেসিং ফ্রেমওয়ার্ক
এটি একটি সাধারণ ক্রিয়ামূলক প্রোগ্রামিং মডেল যা প্রথমদিকে গুগল জনপ্রিয় করেছে MapReduce।
এটি মূলত দুটি ফাংশন ব্যবহার করে: MAPএবং REDUCEডেটা প্রক্রিয়া করার জন্য।
"ম্যাপার্স" কী-মান জোড়ার একটি সেট নিয়ে মধ্যবর্তী ডেটা তৈরি করে (যা কী-মান জোড়াগুলির অন্য একটি তালিকা)।
"হ্রাসকারী" তারপরে আউটপুট ডেটা তৈরি করতে এই ইনপুটটিতে কাজ করে।
দুটি ফাংশন আপাতদৃষ্টিতে একে অপরের সাথে বিচ্ছিন্ন হয়ে কাজ করে, ফলে প্রক্রিয়াটিকে অত্যন্ত সমান্তরাল, দোষ-সহনশীলতা এবং স্কেলযোগ্য পদ্ধতিতে অত্যন্ত বিতরণ করা যায়।
হ্যাডোপ 1.0 এর সীমাবদ্ধতা
প্রথম সীমাবদ্ধতা ছিল MapReduceপ্রোগ্রামিং দক্ষতার প্রয়োজনীয়তা ।
এটি কেবলমাত্র ব্যাচ প্রক্রিয়াকরণকে সমর্থন করেছে যা লগ বিশ্লেষণ, বৃহত আকারের ডেটা মাইনিং প্রকল্পগুলির মতো কাজের জন্য উপযুক্ত তবে অন্যান্য ধরণের প্রকল্পের জন্য বেশ উপযুক্ত নয়।
একটি প্রধান সীমাবদ্ধতাটি ছিল Hadoop 1.0কঠোরভাবে গণনার সাথে সংযুক্ত MapReduce, যার অর্থ দাঁড়ায় যে প্রতিষ্ঠিত ডেটা ম্যানেজমেন্ট বিক্রেতারা যেখানে দুটি মতামত রেখে গেছে:
হয় তাদের কার্যকারিতা পুনর্লিখন করুন MapReduceযাতে এটিতে Hadoopবা কার্যকর করা যায়
এর থেকে ডেটা বের করুন HDFSবা এর বাইরে প্রক্রিয়া করুন Hadoop।
বিকল্পগুলির কোনওটিই কার্যকর ছিল না কারণ এটি Hadoopক্লাস্টারের ভিতরে এবং বাইরে চলে যাওয়ার কারণে ডেটা দ্বারা সৃষ্ট অদক্ষতাগুলি প্রক্রিয়া করে ।
হাদুপ ২.০
ইন Hadoop 2.0,HDFS ডেটা স্টোরেজ ফ্রেমওয়ার্ক হতে থাকবে।
যাইহোক, একটি নতুন এবং পৃথক সম্পদ ব্যবস্থাপনা কাঠামো নামক ওয়াই এবং একটি nother আর esource এন egotiater ( সুতো ) যোগ করা হয়েছে।
সমান্তরাল কার্যগুলিতে নিজেকে ভাগ করতে সক্ষম যে কোনও অ্যাপ্লিকেশন YARN দ্বারা সমর্থিত।
ইয়ার্ন জমা দেওয়া অ্যাপ্লিকেশনটির সাবটাস্কগুলি বরাদ্দকে সমন্বয় করে, এর ফলে অ্যাপ্লিকেশনগুলির নমনীয়তা, স্কেলাবিলিটি এবং দক্ষতা আরও বাড়ায়।
এটি নতুন নোড ম্যানেজার দ্বারা পরিচালিত সংস্থাগুলিতে অ্যাপ্লিকেশন পরিচালনা করে জব ট্র্যাকারের জায়গায় একটি অ্যাপ্লিকেশন মাস্টার রেখে কাজ করে ।
অ্যাপ্লিকেশনমাস্টার কেবল কোনও অ্যাপ্লিকেশন চালাতে সক্ষম নয় MapReduce।
এর অর্থ এটি কেবল ব্যাচ প্রসেসিংকেই সমর্থন করে না তবে আসল-সময় প্রক্রিয়াজাতকরণকেও সমর্থন করে। MapReduceএখন আর একমাত্র ডেটা প্রসেসিং বিকল্প নেই।
হাদোপের সুবিধা
এটি এর নেটিভ থেকে ডেটা সঞ্চয় করে। ডেটা কী বা ডেটা সংরক্ষণ করার সময় কোনও কাঠামো আরোপিত হয়নি। HDFSস্কিমা কম। এটি তখনই হয় যখন ডেটা প্রক্রিয়া করা প্রয়োজন যে কাঠামোটি কাঁচা ডেটার উপর চাপিয়ে দেওয়া হয়।
এটি স্কেলেবল। Hadoopসমান্তরালভাবে কাজ করে এমন শত শত সস্তা সার্ভারগুলিতে খুব বড় ডেটাসেটগুলি সঞ্চয় এবং বিতরণ করতে পারে।
এটি ব্যর্থতা স্থিতিস্থাপক। Hadoopফল্ট সহনশীলতা। এটি নিখরচায়ভাবে ডেটাগুলির অনুলিপি অনুশীলন করে যার অর্থ যখনই যখন কোনও নোডে ডেটা প্রেরণ করা হয় তখন একই তথ্যটি ক্লাস্টারের অন্যান্য নোডগুলিতেও প্রতিলিপি হয়ে যায়, যার ফলে নোড ব্যর্থতার ক্ষেত্রে, সর্বদা ব্যবহারের জন্য ডেটার অনুলিপি উপলব্ধ থাকবে uring
এটি নমনীয়। এর অন্যতম প্রধান সুবিধা Hadoopহ'ল এটি যে কোনও ধরণের ডেটা নিয়ে কাজ করতে পারে: কাঠামোগত, কাঠামোগত বা আধা-কাঠামোগত। এছাড়াও, Hadoop"মুভি কোডে ডেটাতে" দৃষ্টান্ত তৈরির কারণে প্রক্রিয়াজাতকরণ অত্যন্ত দ্রুত ।
হডোপ ইকোসিস্টেম
নীচে Hadoopবাস্তুসংস্থার উপাদানগুলি রয়েছে :
এইচডিএফএস : Hadoopবিতরণ ফাইল সিস্টেম। এটি সহজেই মূল ফর্মের যতটা সম্ভব ডাটা ফাইলগুলি সঞ্চয় করে stores
এইচবেস : এটি হাদুপের ডাটাবেস এবং একটি এর সাথে ভাল তুলনা করে RDBMS। এটি বড় টেবিলগুলির জন্য কাঠামোগত ডেটা স্টোরেজ সমর্থন করে।
মৌচাক : এটি স্ট্যান্ডার্ডের সাথে অনুরূপ একটি ভাষা ব্যবহার করে বড় ডেটাসেটগুলির বিশ্লেষণ সক্ষম করে ANSI SQL, যার দ্বারা বোঝা যায় যে ফ্যামিলির যে কোনও ব্যক্তির SQLএকটি Hadoopক্লাস্টারে ডেটা অ্যাক্সেস করতে সক্ষম হওয়া উচিত ।
শূকর : এটি ডেটা প্রবাহের ভাষা বোঝা সহজ। এটি বড় ডেটাসেটগুলির বিশ্লেষণে সহায়তা করে যা এর সাথে বেশিরভাগ অর্ডার Hadoop। Pigস্ক্রিপ্টগুলি দোভাষী MapReduceদ্বারা স্বয়ংক্রিয়ভাবে চাকরিতে রূপান্তরিত হয় Pig।
চিড়িয়াখানা : এটি বিতরণ অ্যাপ্লিকেশনগুলির জন্য একটি সমন্বয় পরিষেবা।
ওজি : এটি schedularঅ্যাপাচি Hadoopকাজ পরিচালনা করার জন্য একটি ওয়ার্কফ্লো সিস্টেম ।
মাহাউট : এটি একটি স্কেলযোগ্য মেশিন লার্নিং এবং ডেটা মাইনিং লাইব্রেরি।
চুকওয়া : এটি বৃহত্তর বিতরণ সিস্টেম পরিচালনার জন্য ডেটা সংগ্রহের ব্যবস্থা।
স্কোয়াপ : এটি Hadoopরিলেশনাল ডাটাবেসগুলির মতো কাঠামোগত ডেটা স্টোরের মধ্যে বাল্ক ডেটা স্থানান্তর করতে ব্যবহৃত হয় ।
আমবাড়ি : এটি Hadoopক্লাস্টারগুলি সরবরাহ , পরিচালনা ও পর্যবেক্ষণের জন্য একটি ওয়েব ভিত্তিক সরঞ্জাম ।
মধুচক্র
Hiveকাঠামোগত ডেটা প্রক্রিয়া করার জন্য একটি ডেটা গুদাম পরিকাঠামো সরঞ্জাম Hadoop। এটি Hadoopবিগ ডেটা সংক্ষিপ্ত করতে শীর্ষে থাকে এবং অনুসন্ধান এবং বিশ্লেষণকে সহজ করে তোলে।
মধুচক্র হয় না
একটি রিলেশনাল ডাটাবেস
অনলাইন লেনদেন প্রসেসিংয়ের জন্য একটি নকশা ( OLTP)।
রিয়েল-টাইম ক্যোয়ারী এবং সারি-স্তরের আপডেটগুলির জন্য একটি ভাষা।
মৌচাকের বৈশিষ্ট্য
এটি ডাটাবেসে স্কিমা সংরক্ষণ করে এবং এতে ডেটা প্রক্রিয়া করে HDFS।
এটি জন্য ডিজাইন করা হয়েছে OLAP।
এটি SQLবলা HiveQLবা তাত্ক্ষণিক জিজ্ঞাসার জন্য প্রকারের ভাষা সরবরাহ করে HQL।
এটি পারিবারিক, দ্রুত, স্কেলেবল এবং এক্সটেনসিবল।
মাতাল আর্কিটেকচার
নীচের উপাদানগুলি হিভ আর্কিটেকচারে রয়েছে:
ইউজার ইন্টারফেস : Hiveএমন একটি data warehouseঅবকাঠামো যা ব্যবহারকারী এবং এর মধ্যে ইন্টারঅ্যাকশন তৈরি করতে পারে HDFS। ইউজার ইন্টারফেসগুলি Hiveসমর্থন করে যেগুলি হাইভ ওয়েব ইউআই, হাইভ কমান্ড লাইন এবং হাইভ এইচডি অন্তর্দৃষ্টি (উইন্ডোজ সার্ভারে)।
মেটাস্টোর : স্কিমা বা টেবিল, ডাটাবেস, একটি টেবিলের কলাম, তাদের ডেটার ধরণ এবং ম্যাপিং সংরক্ষণের জন্যHive পছন্দ করে ।database serversMetadataHDFS
এইচআইকিউএল প্রসেস ইঞ্জিন : এর স্কিমা তথ্য অনুসন্ধানের HiveQLঅনুরূপ । এটি প্রোগ্রামের জন্য traditionalতিহ্যবাহী পদ্ধতির একটি প্রতিস্থাপন । লেখার পরিবর্তে মধ্যে , তখন আমরা একটি ক্যোয়ারী লিখতে পারেন এবং এটি প্রক্রিয়া।SQLMetastoreMapReduceMapReduceJavaMapReduce
এক্সেসিউশন ইঞ্জিন : HiveQLপ্রক্রিয়া ইঞ্জিনের সংমিশ্রণ অংশ এবং MapReduceএটি Hiveএক্সিকিউশন ইঞ্জিন। এক্সিকিউশন ইঞ্জিন ক্যোয়ারী প্রক্রিয়া করে এবং ফলাফল হিসাবে একই হিসাবে উত্পন্ন করে MapReduce results। এটি এর স্বাদ ব্যবহার করে MapReduce।
এইচডিএফএস বা এইচবেস : Hadoopফাইল সিস্টেম বিতরণ বা ফাইল সিস্টেমে HBaseডেটা সঞ্চয় করার ডেটা স্টোরেজ কৌশল।