হ্যাডোপ ছাড়াই কি অ্যাপাচি স্পার্ক চলতে পারে?


91

স্পার্ক এবং হাদোপের মধ্যে কোনও নির্ভরতা রয়েছে ?

যদি না হয়, সেখানে যখন আমি রান আমি মিস করব কোন বৈশিষ্ট্য স্পার্ক ছাড়া Hadoop এর ?

উত্তর:


53

স্পার্ক হ্যাডোপ ছাড়াই চলতে পারে তবে এর কিছু কার্যকারিতা হ্যাডোপের কোডের উপর নির্ভর করে (যেমন পারকুইট ফাইলগুলি পরিচালনা করা)। আমরা মেসোস এবং এস 3 এ স্পার্ক চালিয়ে যাচ্ছি যা সেট আপ করা কিছুটা কঠিন ছিল কিন্তু একবার কাজ শেষ হয়ে গেলে সত্যিই ভাল কাজ করে (আপনি এটিকে এখানে সঠিকভাবে সেট করার জন্য কী কী সংক্ষিপ্তসারটি পড়তে পারেন )।

(সম্পাদনা করুন) দ্রষ্টব্য: যেহেতু সংস্করণ ২.৩.০ স্পার্ক এছাড়াও কুবারনেটসের জন্য স্থানীয় সমর্থন যুক্ত করেছে


96

স্পার্ক একটি ইন-মেমরি বিতরণ করা কম্পিউটিং ইঞ্জিন।

Hadoop এর বিতরণ স্টোরেজ (জন্য একটি কাঠামো হয় HDFS ) এবং বিতরণ প্রক্রিয়াকরণ ( সুতো )।

স্পার্ক হ্যাডোপ উপাদানগুলির সাথে বা ছাড়াই চলতে পারে (এইচডিএফএস / ইয়ার্ন)


বিতরণ স্টোরেজ:

যেহেতু স্পার্কের নিজস্ব বিতরণ স্টোরেজ সিস্টেম নেই, তাই এটি বিতরণকৃত কম্পিউটিংয়ের জন্য এই স্টোরেজ সিস্টেমগুলির একটির উপর নির্ভর করে।

এস 3 - জরুরী ব্যাচের কাজ। এস 3 খুব নির্দিষ্ট ব্যবহারের ক্ষেত্রে ফিট করে যখন ডেটা লোকালটি সমালোচনা না করে।

ক্যাসান্দ্রা - স্ট্রিমিং ডেটা বিশ্লেষণ এবং ব্যাচের কাজের জন্য ওভারকিলের জন্য উপযুক্ত।

এইচডিএফএস - ডেটা লোকালটির সাথে কোনও আপস না করে ব্যাচ কাজের জন্য দুর্দান্ত Great


বিতরণ প্রক্রিয়াজাতকরণ:

আপনি তিনটি পৃথক মোডে স্পার্ক চালাতে পারেন: স্ট্যান্ডেলোন, ইয়ার্ন এবং মেসোস

বিতরণকৃত স্টোরেজ এবং বিতরণ প্রক্রিয়াজাতকরণ উভয়ই সম্পর্কে বিশদ ব্যাখ্যার জন্য নীচের এসই প্রশ্নটি দেখুন।

স্পার্কের জন্য আমার কোন ক্লাস্টারের প্রকারটি নির্বাচন করা উচিত?


23

ডিফল্টরূপে, স্পার্কের স্টোরেজ মেকানিজম নেই।

ডেটা সংরক্ষণ করার জন্য এটির দ্রুত এবং স্কেলযোগ্য ফাইল সিস্টেম দরকার। আপনি এস 3 বা এইচডিএফএস বা অন্য কোনও ফাইল সিস্টেম ব্যবহার করতে পারেন। হডোপ স্বল্প ব্যয়ের কারণে অর্থনৈতিক বিকল্প।

অতিরিক্ত হিসাবে আপনি যদি Tachyon ব্যবহার করেন, এটি হাদুপের সাথে পারফরম্যান্স বাড়িয়ে তুলবে। এটি অ্যাপাচি স্পার্ক প্রসেসিংয়ের জন্য হ্যাডোপকে উচ্চ প্রস্তাবিত । এখানে চিত্র বর্ণনা লিখুন


6

হ্যাঁ, স্পার্ক হ্যাডোপ ছাড়াই চলতে পারে। সমস্ত মূল স্পার্ক বৈশিষ্ট্যগুলি কাজ করা অবিরত থাকবে, তবে আপনি এইচডিএফএস ইত্যাদির মাধ্যমে ক্লাস্টারের সমস্ত নোডগুলিতে সহজেই আপনার সমস্ত ফাইল (কোড এবং ডেটা) বিতরণ করার মতো জিনিসগুলি মিস করবেন


6

স্পার্ক ডকুমেন্টেশন অনুসারে স্পার্ক হ্যাডোপ ছাড়াই চলতে পারে।

আপনি কোনও রিসোর্স ম্যানেজার ছাড়াই এটি স্ট্যান্ড স্টোন মোড হিসাবে চালাতে পারেন।

তবে আপনি যদি মাল্টি-নোড সেটআপে চালনা করতে চান তবে আপনার YARN বা মেসোসের মতো রিসোর্স ম্যানেজার এবং এইচডিএফএস, এস 3 ইত্যাদির মতো একটি বিতরণকারী ফাইল সিস্টেম দরকার need


3

হ্যাঁ, আপনি হ্যাডোপ ছাড়াই স্পার্ক ইনস্টল করতে পারেন। এটি সামান্য জটিল হবে আপনি S3 এ ডেটা স্টোরেজ হিসাবে কনফিগার করতে পারকুইট ব্যবহার করতে আরন লিঙ্কটি উল্লেখ করতে পারেন। http://arnon.me/2015/08/spark-parquet-s3/

স্পার্কটি কেবলমাত্র প্রক্রিয়াজাতকরণ হয় এবং এটি কার্য সম্পাদন করতে গতিশীল মেমরি ব্যবহার করে তবে ডেটা সঞ্চয় করতে আপনার কিছু ডেটা স্টোরেজ সিস্টেমের প্রয়োজন। এখানে হ্যাডোপ স্পার্কের ভূমিকায় আসে, এটি স্পার্কের জন্য সঞ্চয়স্থান সরবরাহ করে। স্পার্কের সাথে হ্যাডোপ ব্যবহারের আরও একটি কারণ হ'ল এগুলি ওপেন সোর্স এবং উভয়ই অন্য ডেটা স্টোরেজ সিস্টেমের সাথে তুলনায় সহজেই একে অপরের সাথে সংহত করতে পারে। এস 3 এর মতো অন্যান্য স্টোরেজের জন্য, উপরের লিঙ্কে উল্লেখ করার মতো এটির কনফিগার করা আপনার কৌতুকপূর্ণ হওয়া উচিত।

তবে হাডুপের ম্যাপ্রেডুস নামে একটি প্রসেসিং ইউনিটও রয়েছে।

উভয়ের মধ্যে পার্থক্য জানতে চান?

এই নিবন্ধটি দেখুন: https://www.dezyre.com/article/hadoop-mapreduce-vs-apache-spark-Wo-wins-the-battle/83

আমি মনে করি এই নিবন্ধটি আপনাকে বুঝতে সাহায্য করবে

  • কি ব্যবহার করবেন,

  • কখন ব্যবহার করতে হবে এবং

  • ব্যবহারবিধি !!!


1

হ্যা অবশ্যই. স্পার্ক একটি স্বাধীন গণনার কাঠামো। হ্যাডোপ হ'ল ম্যাপ্রেডিউস গণনা কাঠামো সহ একটি বিতরণ স্টোরেজ সিস্টেম (এইচডিএফএস)। স্পার্ক এইচডিএফএসের সাথে সাথে অন্যান্য যে কোনও ডেটা উত্স যেমন traditionalতিহ্যবাহী ডাটাবেস (জেডিবিসি), কাফকা বা এমনকি স্থানীয় ডিস্ক থেকে ডেটা পেতে পারে।



0

হ্যাঁ স্পার্ক হ্যাডোপ ছাড়াই চলতে পারে। আপনি আপনার স্থানীয় মেশিনে হ্যাডুপের সাহায্যে স্পার্ক ইনস্টল করতে পারেন। তবে স্পার্ক লাইব প্রাক হ্যাডপ লাইব্রেরি নিয়ে আসে অর্থাৎ আপনার স্থানীয় মেশিনে ইনস্টল করার সময় ব্যবহৃত হয়।


-5

না। কাজ শুরু করার জন্য এটি সম্পূর্ণ বিকাশযুক্ত হডোপ ইনস্টলেশন প্রয়োজন - https://issues.apache.org/jira/browse/SPARK-10944


4
এটি ভুল, এটি বর্তমান সংস্করণগুলিতে হ্যাডোপ ছাড়াই সূক্ষ্ম কাজ করে।
ক্রিস চেম্বার 21

4
@ ক্রিসচ্যাম্বারস কি আপনি বিস্তারিত জানাতে যত্ন নেবেন? এই বিষয়ে মন্তব্যটি বলে "আসলে, স্পার্কের জন্য হাদুপ ক্লাসগুলির প্রয়োজন নেই", এবং ডাউনলোড পৃষ্ঠায় কেবলমাত্র একটি নির্দিষ্ট হ্যাডোপ সংস্করণের জন্য প্রাক-নির্মিত বা ব্যবহারকারী-সরবরাহিত হাদুপের একটি বিকল্প রয়েছে। এবং ডক্স বলছে "স্পার্ক এইচডিএফএস এবং ইয়ার্নের জন্য হ্যাডোপ ক্লায়েন্ট লাইব্রেরি ব্যবহার করে।" এবং এই নির্ভরতা alচ্ছিক বলে মনে হয় না।
নিকোনিহার

4
@ নিকোনিয়ার সঠিক আমি স্রেফ 'ব্যবহারকারীর সরবরাহিত হাদোপ' ডাউনলোডের নিদর্শন কার্যকর করার চেষ্টা করেছি এবং তাত্ক্ষণিক স্ট্যাক ট্রেস পেয়েছি। আমি স্পার্কের ক্লাসপথটি কোর হ্যাডোপ ক্লাস থেকে ডেকে নিয়ে যেতে চাই। তবে প্রোটোটাইপিং এবং পরীক্ষার উদ্দেশ্যে, আমি ডাউনলোডের আকার (120 কিছু এমবি) সব মিলিয়ে অন্য কোনও ইস্যু গ্রহণ করি না। আচ্ছা ভালো. চিয়ার্স!
জেসেস জাজুটিয়া

প্রশ্নে স্ট্যাক ট্রেস:$ ./spark-shell Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/hadoop/fs/FSDataInputStream at org.apache.spark.deploy.SparkSubmitArguments$$anonfun$mergeDefaultSparkProperties$1.apply(SparkSubmitArguments.scala:118) at org.apache.spark.deploy.SparkSubmitArguments$$anonfun$mergeDefault at java.net.URLClassLoader.findClass(URLClassLoader.java:381) at java.lang.ClassLoader.loadClass(ClassLoader.java:424) at java.lang.ClassLoader.loadClass(ClassLoader.java:357) ... 7 more
জেসেস জাজুটিয়া
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.