অ্যাপাচি স্পার্ক বনাম হাদুপের ব্যবহারের ক্ষেত্রে কী কী?


30

হ্যাডোপ ২.০ এবং ইয়ার্নের সাথে হ্যাডোপ আর মানচিত্র-হ্রাস সমাধানের সাথে আর বাঁধা থাকে না। এই অগ্রগতির সাথে, এইচডিএফএসের শীর্ষে বসে উভয় বিবেচনা করে অ্যাপাচি স্পার্ক বনাম হাদুপের ব্যবহারের ক্ষেত্রে কী কী? আমি স্পার্কের জন্য পরিচয়পত্রের ডকুমেন্টেশনটি পড়েছি, তবে আমি আগ্রহী যদি কেউ হ্যাডোপের তুলনায় স্পার্কের সাথে সমাধান করা আরও দক্ষ এবং সহজতর সমস্যার মুখোমুখি হয় তবে cur

উত্তর:


40

হাদুপ অর্থ হ'ল এইচডিএফএস, ইয়ার্ন, ম্যাপ্রেডুস এবং অন্যান্য অনেকগুলি জিনিস। আপনার অর্থ স্পার্ক বনাম মানচিত্রের ? কারণ স্পার্ক হ্যাডোপ / এর সাথে চলে, যা মূলত এটি।

স্পার্ক ব্যবহারের প্রাথমিক কারণটি গতির জন্য এবং এ থেকে আসে যে এর প্রয়োগের ফলে মানচিত্র বা হ্রাসের পরে সবসময় এইচডিএফএসে ফিরে না থেকে বরং পর্যায়গুলির মধ্যে মেমরিতে ডেটা রাখতে পারে। এই সুবিধাটি পুনরাবৃত্ত গণনাগুলির জন্য খুব উচ্চারণযুক্ত, যার দশক পর্যায় রয়েছে যার প্রত্যেকটিতে একই ডেটা স্পর্শ করা হয়। এখানেই জিনিসগুলি "100x" দ্রুত হতে পারে। সহজ, এক-পাসের ইটিএল-মতো চাকরির জন্য, যার জন্য মানচিত্রের নকশা করা হয়েছিল, এটি সাধারণভাবে দ্রুত হয় না।

স্পার্ক ব্যবহারের আর একটি কারণ হ'ল মানচিত্রের তুলনায় এটি সর্বোত্তম উচ্চ-স্তরের ভাষা is এটি একটি কার্যকরী প্রোগ্রামিং-এর মতো ভিউ সরবরাহ করে যা স্কালাকে নকল করে, যা মানচিত্রের কোড লেখার চেয়ে আরও সুন্দর। (যদিও আপনাকে হয় স্ক্যালাল ব্যবহার করতে হবে, বা স্পার্কের জন্য সামান্য-স্বল্প-বিকাশযুক্ত জাভা বা পাইথন এপিআই গ্রহণ করতে হবে)। ক্রাঞ্চ এবং ক্যাসকেডিং ইতিমধ্যে ম্যাপ্রেডস শীর্ষে অনুরূপ বিমূর্ততা সরবরাহ করে, তবে এটি এখনও এমন একটি জায়গা যেখানে স্পার্কটি দুর্দান্ত।

অবশেষে স্পার্কের এমএল, গ্রাফ বিশ্লেষণ এবং স্ট্রিমিংয়ের জন্য অল্প বয়সে তবে প্রতিশ্রুতিবদ্ধ সাবপ্রজেক্ট রয়েছে যা একটি অনুরূপ, সুসংগত API প্রকাশ করে। ম্যাপ্রেডস সহ, আপনাকে এর জন্য আরও কয়েকটি অন্যান্য প্রকল্পে যেতে হবে (মাহাউট, জিরাফ, ঝড়)। এটি একটি প্যাকেজে রাখা ভাল, যদিও এখনও 'বেকড' হয়নি।

আপনি কেন স্পার্ক ব্যবহার করবেন না? paraphrasing আমিঃ

  • স্পার্ক মূলত স্কেল, পোর্ট করা জাভা এপিআই সহ; জাভা-ভিত্তিক বিকাশকারীদের জন্য ম্যাপ্রেইডুস বন্ধুবান্ধব এবং আরও বেশি স্থানীয় হতে পারে
  • স্পার্কের চেয়ে এখন সেখানে আরও বেশি মানচিত্রের দক্ষতা রয়েছে
  • ডেটা সমান্তরাল, এক-পাস, ETL- এর মতো কাজের জন্য ম্যাপ্রেডিউস ডিজাইন করা হয়েছিল, ম্যাপ্রেডস স্পার্কের সমতুলের তুলনায় হালকা ওজনযুক্ত
  • স্পার্ক মোটামুটি পরিপক্ক, এবং এখনই ইয়ার্নও রয়েছে, তবে স্পার্ক-অন-ইয়ার্ন এখনও বেশ নতুন। দু'জন এখনও সর্বোত্তমভাবে সংহত না হতে পারে। উদাহরণস্বরূপ সাম্প্রতিক অবধি আমি মনে করি না যে স্পার্ক কর সংখ্যার ভিত্তিতে ইয়ার্নকে বরাদ্দের জন্য জিজ্ঞাসা করতে পারে? এটি হ'ল: মানচিত্রের বোঝা, পরিচালনা এবং টিউন করা আরও সহজ হতে পারে

স্পষ্টতার জন্য ধন্যবাদ। মেমোরিতে ডেটা রাখলে মনে হয় এর কিছু আকর্ষণীয় প্রভাব রয়েছে Iআমি স্পার্কের রেসিলেন্ট ডিস্ট্রিবিউটড ডেটাসেট ধারণাটি আরও পড়ব read
idclark

3
আমার মতো এই প্রশ্নটি থাকা অনেক লোকের পক্ষে একটি সত্যই পরিষ্কার এবং দরকারী উত্তরের জন্য +1।
vefthym

3
মনে রাখবেন যে সান ওউন স্পার্কের নতুন ও'রিলি বইয়ের সহ-লেখক। :-)
শেলডোনক্রেজার

1

YARN সম্পর্কে নিশ্চিত নয়, তবে আমি মনে করি যে কম্পিউটারটি নোডগুলির স্মৃতিতে ডেটা খুব ভালভাবে ফিট করতে পারলে হ্যাডাপের (100 গুণ দ্রুত বলে বিজ্ঞাপন দেওয়া) তুলনায় স্পার্ক একটি সত্যই পার্থক্য করে। কেবল কারণ এটি হার্ড ডিস্ক অ্যাক্সেস এড়ায়। ডেটা মেমরি ফিট না করে তবে বাফারিংয়ের কারণে এখনও কিছু লাভ রয়েছে।


0

ভাল তথ্য @ সিয়ান ওভেন। একটি অতিরিক্ত যুক্ত করতে চান। স্পার্ক ল্যাম্বডা আর্কিটেকচারে ইউনিফাইড ডেটা পাইপলাইনগুলি তৈরি করতে সহায়তা করতে পারে সাধারণ সার্ভিং লেয়ারে লেখার ক্ষমতা সহ ব্যাচ এবং স্ট্রিমিং লেয়ার উভয়কেই সম্বোধন করে। ব্যাচ এবং স্ট্রিমিংয়ের মধ্যে যুক্তি পুনরায় ব্যবহার করা সুবিধার is এছাড়াও স্পার্ক 1.3 তে কে-মীনস অ্যালগরিদমগুলি স্ট্রিমিং এমএল-এর একটি অতিরিক্ত প্লাস যা 1.4-এ দুর্দান্ত কাজের নিরীক্ষণ এবং প্রক্রিয়া ভিজ্যুয়ালাইজেশন ছাড়াও রয়েছে L


0

হ্যাডাপের প্রসেসিং ফ্রেমওয়ার্ক - ম্যাপ্রেডিউসের সাথে স্পার্কের তুলনা করা ভাল হবে । বেশিরভাগ ক্ষেত্রে স্পার্ক মানচিত্রের চেয়ে বেশি পারফর্ম করতে পারে। প্রাক্তন ইন-মেমরি ডেটা প্রক্রিয়াকরণ সক্ষম করে, যা 100 গুণ দ্রুত ডেটা প্রক্রিয়া করা সম্ভব করে। এই কারণে স্পার্ক একটি পছন্দের বিকল্প, যদি আপনার দ্রুত অন্তর্দৃষ্টি প্রয়োজন হয়, উদাহরণস্বরূপ, আপনার যদি প্রয়োজন হয়

  • গ্রাহক বিশ্লেষণ চালান, যেমন কোনও নির্দিষ্ট গ্রাহক বিভাগের আচরণ নিদর্শনগুলির সাথে গ্রাহকের আচরণের তুলনা করুন এবং নির্দিষ্ট ক্রিয়াগুলি ট্রিগার করুন;
  • ঝুঁকি পরিচালনা এবং বিভিন্ন সম্ভাব্য পরিস্থিতি পূর্বাভাস;
  • রিয়েল-টাইমে জালিয়াতি সনাক্তকরণ;
  • শিল্প বিগ ডেটা অ্যানালিটিক্স চালান এবং ব্যতিক্রম এবং মেশিন ব্যর্থতার পূর্বাভাস।

তবে ম্যাপ্রেডিউস সত্যিই বিশাল ডেটাসেটগুলি প্রক্রিয়াকরণে ভাল (যদি আপনি প্রসেসিংয়ের জন্য প্রয়োজনীয় সময়টি ঠিক করেন)। এ ছাড়া, ম্যাপ্রেডুস একটি ডিস্ক থেকে / লিখেছেন বলে এটি আরও অর্থনৈতিক সমাধান। এবং ডিস্কগুলি সাধারণত মেমরির তুলনায় সস্তা।


-1

মেশিন লার্নিং কোনও সমস্যার ধরণের একটি ভাল উদাহরণ যেখানে স্পার্ক-অন-সুতার অল্প বয়স হওয়া সত্ত্বেও স্পার্ক-ভিত্তিক সমাধান ম্যাপ্রেডস-ভিত্তিক সমাধানের চেয়ে হালকা বছর এগিয়ে থাকে।


2
আমি এটি সত্য বলে মনে করি না, তবে আমি মনে করি আপনি কী পাচ্ছেন তা আমি জানি: ইন-মেমরি পুনরাবৃত্ত গণনার জন্য অনেক দ্রুত কাজ করে এবং অনেক এমএল পুনরাবৃত্ত হয়।
শান ওওন
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.