ঝড় এবং হাদোপের (মানচিত্রের) মধ্যে বাণিজ্য


12

ডেটা প্রসেসিংয়ের জন্য হাডোপ ক্লাস্টারে স্টর্ম এবং ম্যাপ্রেডিউসের মধ্যে বেছে নেওয়ার সময় কেউ কি দয়া করে আমাকে জড়িত ট্রেড-অফগুলি সম্পর্কে দয়া করে বলতে পারেন? অবশ্যই, স্পষ্টত একটিকে বাদ দিয়ে, হ্যাডোপ (একটি হ্যাডোপ ক্লাস্টারে ম্যাপ্রেডিউসের মাধ্যমে প্রক্রিয়াজাতকরণ) একটি ব্যাচ প্রসেসিং সিস্টেম এবং স্টর্ম হ'ল রিয়েল-টাইম প্রসেসিং সিস্টেম।

আমি হ্যাডোপ ইকো সিস্টেমের সাথে কিছুটা কাজ করেছি, তবে আমি ঝড়ের সাথে কাজ করি নি। প্রচুর উপস্থাপনা এবং নিবন্ধগুলি দেখার পরেও আমি এখনও সন্তোষজনক এবং বিস্তৃত উত্তর খুঁজে পাইনি।

দ্রষ্টব্য: এখানে ট্রেড অফ শব্দটি অনুরূপ জিনিসের সাথে তুলনা করার জন্য নয়। এটি ব্যাচ প্রসেসিং সিস্টেম থেকে অনুপস্থিত রিয়েল-টাইম ফলাফল পাওয়ার ফলাফলগুলি বোঝাতে বোঝানো হয় meant

উত্তর:


13

মানচিত্রে : একটি ত্রুটি সহিষ্ণু বিতরণ করা গণনা কাঠামো। হার্ডওয়্যারজনিত কারণে ব্যর্থতা রোধে প্রচুর পরিশ্রমের সাহায্যে ম্যাপ্রেডস আপনাকে প্রচুর পরিমাণে ডেটা পরিচালনা করতে সহায়তা করে। ফ্লাইটে গণনা ফলাফলের জন্য মানচিত্রের ব্যবহার একটি দুর্বল পছন্দ কারণ এটি ধীর। (একটি সাধারণ মানচিত্রের কাজ মাইক্রোসেকেন্ডগুলি নয়, কয়েক মিনিট বা ঘন্টার ক্রম ধরে)

মানচিত্রের কাজটি একটি ইনপুট হিসাবে কোনও ফাইল (বা কিছু ডেটা স্টোর) নেয় এবং ফলাফলগুলির একটি ফাইল লেখেন। আপনি যদি কোনও ফলাফলের জন্য এই ফলাফলগুলি উপলব্ধ করতে চান তবে অ্যাক্সেসযোগ্য এমন জায়গায় এই ডেটা স্থাপন করা আপনার দায়িত্ব। এটি সম্ভবত ধীরে ধীরে এবং আপনি প্রদর্শিত মান এবং বর্তমান ব্যবস্থায় আপনার সিস্টেমকে প্রতিনিধিত্বকারী মানগুলির মধ্যে একটি ব্যবধান থাকবে।

রিয়েলটাইম সিস্টেমগুলি তৈরিতে ম্যাপ্রেডুস ব্যবহার করার বিষয়টি বিবেচনা করার সময় গুরুত্বপূর্ণ একটি পার্থক্য হ'ল আপনার মডেলটিকে প্রশিক্ষণ দেওয়া এবং আপনার মডেল প্রয়োগ করা। আপনি যদি মনে করেন যে আপনার মডেল প্যারামিটারগুলি দ্রুত পরিবর্তিত হয় না, আপনি সেগুলি মানচিত্রের সাথে ফিট করতে পারেন এবং তারপরে আপনি যখন আপনার মডেলটি প্রয়োগ করতে চান তখন এই প্রাক-ফিট পরামিতিগুলি অ্যাক্সেস করার জন্য একটি ব্যবস্থা থাকতে পারে।

ঝড় : একটি আসল সময়, স্ট্রিমিং কম্পিউটিং সিস্টেম ational ঝড় হ'ল অনলাইন কাঠামো, যার অর্থ এই অর্থে, একটি পরিষেবা যা চলমান অ্যাপ্লিকেশনটির সাথে ইন্টারেক্ট করে। মানচিত্রের বিপরীতে, এটি আপনার অ্যাপ্লিকেশনটিতে প্রক্রিয়াধীন হওয়ায় এটি ছোট ছোট টুকরো ডেটা (পুরো ফাইল নয়) পায় receives আপনি ডেটা সম্পাদন করতে অপারেশনগুলির একটি ডিএজি সংজ্ঞায়িত করেন। ঝড়ের জন্য একটি সাধারণ এবং সাধারণ ব্যবহারের ক্ষেত্রে কাউন্টারগুলি ট্র্যাক করা এবং সেই তথ্যটি রিয়েল-টাইম ড্যাশবোর্ড তৈরি করতে ব্যবহার করা।

আপনার ডেটা অব্যাহত রাখার সাথে ঝড়ের কিছু করার প্রয়োজন নেই (অগত্যা)। এখানে, আপনার যত্ন নেওয়া তথ্য রাখা এবং বাকীটি ফেলে দেওয়া বলা স্ট্রিমিংয়ের অন্য উপায়। বাস্তবে, আপনার আবেদনে সম্ভবত একটি অধ্যবসায় স্তর রয়েছে যা ইতিমধ্যে ডেটা রেকর্ড করেছে এবং তাই এটি উদ্বেগের একটি ভাল এবং ন্যায়সঙ্গত বিচ্ছেদ।

আপনি যদি আরও জানতে চান ... আপনি যদি রিয়েল-টাইম সিস্টেমগুলি সম্পর্কে আরও জানতে চান যা এমআর এর সাথে পরামিতিগুলি ফিট করে এবং মডেলগুলিকে অন্যভাবে প্রয়োগ করে তবে রিয়েল-টাইম সুপারিশ ইঞ্জিনগুলি তৈরির বিষয়ে আমি যে বক্তৃতা দিয়েছিলাম তা স্লাইডগুলি are HBase।

একটি দুর্দান্ত কাগজ যা আকর্ষণীয় উপায়ে রিয়েল-টাইম গণনা এবং অধ্যবসাকে বিয়ে করে তা হ'ল গুগল নিউজ ব্যক্তিগতকরণ: স্কেলযোগ্য অনলাইনে সহযোগী ফিল্টারিং

এমআর এবং স্টর্মের আরও একটি আকর্ষণীয় বিবাহ হ'ল সামিংবার্ড । সামিংবার্ড আপনাকে ডেটা বিশ্লেষণ ক্রিয়াকলাপ সংজ্ঞায়িত করতে দেয় যা ঝড় বা এমআর এর মাধ্যমে প্রয়োগ করা যায়।


9

এটি ফ্রাইং প্যান এবং সিলভারওয়্যারের আপনার ড্রয়ারের মধ্যে ব্যবসায়ের বিষয়ে জিজ্ঞাসা করার মতো is সত্যই, তারা তুলনা করে এমন দুটি জিনিস নয়। বৃহত্তর প্রকল্পের অংশ হিসাবে আপনি এগুলি একসাথে ব্যবহার করতে পারেন।

হ্যাডোপ নিজেই একটি জিনিস নয়, তবে এইচডিএফএস, হাইভ, এইচবি, ম্যাপ্রেইডুস ইত্যাদি পরিষেবাগুলির একটি ফেডারেশনের নাম ঝড় হ'ল এইচডিএফএস বা এইচবিএসের মতো কিছু পরিষেবার সাথে আপনি ব্যবহার করেন। এটি একটি স্ট্রিম-প্রসেসিং ফ্রেমওয়ার্ক। স্পার্ক স্ট্রিমিংয়ের মতো বর্ধিত হ্যাডোপ ইকোসিস্টেমের মধ্যে আরও রয়েছে।

আপনি কখন স্ট্রিম-প্রসেসিং ফ্রেমওয়ার্কটি বেছে নেবেন? যখন আপনাকে নিকট-আসল সময়ে নতুন ডেটাতে প্রতিক্রিয়া জানাতে হবে need আপনার যদি এই ধরণের সরঞ্জামের প্রয়োজন হয় তবে আপনি এই ধরণের সরঞ্জামও স্থাপন করুন।


আমি হ্যাডোপ ইকো সিস্টেমে ম্যাপ্রেডিউসের মাধ্যমে প্রসেসিংটিকে কেবল হাদুপ হিসাবে উল্লেখ করেছি কারণ এটি শব্দটি সাধারণত ব্যবহৃত হয় (যদিও প্রযুক্তিগতভাবে ভুল হয়েছে এবং আমি সেই অনুসারে প্রশ্নটি পরিবর্তন করেছি)।
এমবিবিএস

আমি ভুল হতে পারি তবে আমার কাছে মনে হয় কেবল আসল-সময় প্রক্রিয়াজাতকরণের চেয়ে আরও কিছু আছে is যদি তাদের মধ্যে কোনও বাণিজ্য বন্ধ না থাকে, তবে প্রত্যেকের কাছাকাছি সময়ে বাস্তব কাজ করতে পছন্দ হবে to একটি হাইব্রিড পদ্ধতির মাধ্যমে উভয় বিশ্বের সেরা অর্জনের অনুমতি পাওয়া যায় (কিছুটা হলেও)। এজন্য সুমিংবার্ড তৈরি হয়েছিল।
এমবিবিএস

1
একটি প্রধান পার্থক্য হ'ল একটি স্ট্রিম প্রসেসিং সিস্টেম একবারে কেবলমাত্র ডেটা স্পর্শ করতে পারে এবং নিজে থেকেই কোনও দীর্ঘমেয়াদী রাষ্ট্র নেই। কিছু সমস্যা এইভাবে সমাধান করা যায় না। যে সমস্যার জন্য এটি ঠিক আছে, সেই সিস্টেমটি ব্যবহার করা দ্রুত that মানচিত্রের ঝড় তুলনায় স্বভাবগতভাবে ধীর নয়; দুটোই পাত্রে। এগুলি বিভিন্ন সমস্যার জন্য বিভিন্ন দৃষ্টান্ত।
শন ওউন

দীর্ঘমেয়াদী অবিচল অবস্থায় না থাকার অর্থ কী এই জাতীয় নিকট-বাস্তব-সময় ব্যবস্থা দীর্ঘ সময়ের মধ্যে ইনপুট আপডেটগুলি সংগ্রহ করতে পারে না? আপনি কি আমাকে যে কোনও সংস্থান থেকে এই বিষয়ে আরও আলোচনা করতে পারেন?
এমবিবিসি

এটি স্ট্রিমিং সিস্টেমের সংজ্ঞা মত। আপনি যদি এমন কোনও সিস্টেম কল্পনা করেন যা ইচ্ছামত দীর্ঘমেয়াদী অবস্থার অ্যাক্সেস করতে পারে তবে এটি সত্যই স্ট্রিমিং নয়।
শন ওউন
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.