প্রশ্ন ট্যাগ «apache-spark»

অ্যাপাচি স্পার্ক একটি ওপেন সোর্স বিতরণ করা ডেটা প্রসেসিং ইঞ্জিন যা স্কালায় লিখিত একটি ইউনিফাইড এআইপি সরবরাহ করে এবং ব্যবহারকারীদের ডেটা বিতরণ করে। অ্যাপাচি স্পার্কের জন্য কেসগুলি ব্যবহার করুন প্রায়শই মেশিন / গভীর লার্নিং, গ্রাফ প্রসেসিংয়ের সাথে সম্পর্কিত।

15
স্পার্কে ডেটাফ্রেম, ডেটাসেট এবং আরডিডি-র মধ্যে পার্থক্য
আমি কেবল ভাবছি যে অ্যাপাচি স্পার্কে একটি RDDএবং DataFrame (স্পার্ক ২.০.০ ডেটা ফ্রেমটি কেবল টাইপ ওরফে Dataset[Row]) এর মধ্যে পার্থক্য কী ? আপনি কি অন্যকে রূপান্তর করতে পারবেন?

13
স্পার্ক - পুনরায় বিভাজন () বনাম কোলেসেস ()
লার্নিং স্পার্ক অনুযায়ী মনে রাখবেন যে আপনার ডেটা পুনরায় ভাগ করা মোটামুটি ব্যয়বহুল ক্রিয়াকলাপ। স্পার্কে repartition()ডাকা একটি অপ্টিমাইজড সংস্করণ রয়েছে যা coalesce()ডেটা চলাচল এড়াতে দেয় তবে কেবল যদি আপনি আরডিডি পার্টিশনের সংখ্যা হ্রাস করে থাকেন। একটি পার্থক্য যা আমি পাই তা হ'ল repartition()পার্টিশনের সংখ্যা বাড়িয়ে / হ্রাস করা যায়, তবে …

16
মানচিত্র এবং ফ্ল্যাটম্যাপ এবং প্রত্যেকের জন্য একটি ভাল ব্যবহারের ক্ষেত্রে পার্থক্য কী?
কেউ আমাকে মানচিত্র এবং ফ্ল্যাটম্যাপের মধ্যে পার্থক্য ব্যাখ্যা করতে পারেন এবং প্রত্যেকের জন্য ভাল ব্যবহারের ক্ষেত্রে কী? "ফলাফল সমতল" এর অর্থ কী? এটা কি জন্য ভাল?
249 apache-spark 

12
স্পর্শ করুন java.lang.OutOfMemoryError: জাভা হ্যাপ স্পেস
আমার ক্লাস্টার: 1 মাস্টার, 11 ক্রীতদাস, প্রতিটি নোডে 6 জিবি মেমরি রয়েছে। আমার সেটিংস: spark.executor.memory=4g, Dspark.akka.frameSize=512 সমস্যাটি এখানে: প্রথমত , আমি এইচডিএফএস থেকে আরডিডি থেকে কিছু ডেটা (২.১৯ গিগাবাইট) পড়েছি: val imageBundleRDD = sc.newAPIHadoopFile(...) দ্বিতীয়ত , এই আরডিডিতে কিছু করুন: val res = imageBundleRDD.map(data => { val desPoints = threeDReconstruction(data._2, …

7
টাস্ক সিরিয়ালীকরণযোগ্য নয়: কেবলমাত্র ক্লাসে অবজেক্ট নয়, ক্লোজারের বাইরে ফাংশন কল করার সময় java.io.NotSerializableEception
বন্ধের বাইরে ফাংশনটি কল করার সময় অদ্ভুত আচরণ করা: ফাংশন যখন কোনও বস্তুতে থাকে তখন সমস্ত কিছু কাজ করে ফাংশন যখন ক্লাসে থাকে তখন পান: কাজটি সিরিয়ালযোগ্য নয়: java.io.NotSerializableException: পরীক্ষা করা সমস্যাটি হ'ল আমার ক্লাসে আমার কোড দরকার এবং কোনও অবজেক্ট নয়। কোন ধারণা কেন এই ঘটছে? একটি স্কালা অবজেক্ট …

2
স্পার্ক স্ট্যান্ডেলোন ক্লাস্টারে শ্রমিক, নির্বাহক, কোর কী কী?
আমি ক্লাস্টার মোড ওভারভিউ পড়েছি এবং আমি এখনও স্পার্ক স্ট্যান্ডেলোন ক্লাস্টারের বিভিন্ন প্রক্রিয়া এবং সমান্তরালতা বুঝতে পারি না । কর্মী একটি জেভিএম প্রক্রিয়া বা না? আমি দৌড়ে গিয়ে bin\start-slave.shদেখতে পেলাম যে এটি শ্রমিককে উত্সাহিত করেছে, যা আসলে একটি জেভিএম। উপরের লিঙ্ক অনুসারে, এক্সিকিউটর হ'ল একটি কর্মী নোডে একটি অ্যাপ্লিকেশনের জন্য …


13
স্পার্ক ডেটাফ্রেমে কীভাবে পূর্ণ কলামের সামগ্রী প্রদর্শিত হবে?
আমি একটি ডেটা ফ্রেমে ডেটা লোড করতে স্পার্ক-সিএসভি ব্যবহার করছি। আমি একটি সাধারণ জিজ্ঞাসা করতে এবং সামগ্রীটি প্রদর্শন করতে চাই: val df = sqlContext.read.format("com.databricks.spark.csv").option("header", "true").load("my.csv") df.registerTempTable("tasks") results = sqlContext.sql("select col from tasks"); results.show() কর্নটি কাটা কাটা মনে হচ্ছে: scala> results.show(); +--------------------+ | col| +--------------------+ |2015-11-16 07:15:...| |2015-11-16 07:15:...| |2015-11-16 07:15:...| …

13
কীভাবে পিসপার্কে ডেটাফ্রেম কলামের নাম পরিবর্তন করবেন?
আমি পান্ডাস ব্যাকগ্রাউন্ড থেকে এসেছি এবং সিএসভি ফাইলগুলি থেকে ডেটাফ্রেমে ডেটা পড়তে অভ্যস্ত এবং তারপরে সহজ কমান্ডটি ব্যবহার করে কলামের নামগুলি দরকারী কিছুতে পরিবর্তিত করব: df.columns = new_column_name_list তবে, sqlContext ব্যবহার করে তৈরি করা pyspark ডেটা ফ্রেমগুলিতে একই কাজ করে না। আমি সহজেই এটি করতে কেবলমাত্র সমাধানটি হ'ল নিম্নলিখিতটি: df …

8
অ্যাপাচি স্পার্ক: করের সংখ্যা বনাম নির্বাহকের সংখ্যা
আমি ইয়ার্নে স্পার্ক কাজ চালানোর সময় করের সংখ্যা এবং নির্বাহকের সংখ্যার সম্পর্ক বোঝার চেষ্টা করছি। পরীক্ষার পরিবেশটি নিম্নরূপ: ডেটা নোডের সংখ্যা: 3 ডেটা নোড মেশিন বিশেষ: সিপিইউ: কোর আই -4--47৯০ (করের #: 4, # থ্রেডের মধ্যে: 8) র‌্যাম: 32 জিবি (8 জিবি এক্স 4) এইচডিডি: 8 টিবি (2 টিবি এক্স …

20
কিভাবে স্পার্ক কনসোলে প্রদর্শিত INFO বার্তাগুলি বন্ধ করবেন?
আমি স্পার্ক শেল থেকে আসা বিভিন্ন বার্তা বন্ধ করতে চাই। log4j.propertiesএই বার্তাটি বন্ধ করার জন্য আমি ফাইলটি সম্পাদনা করার চেষ্টা করেছি । এখানে লিখিত বিষয়বস্তু log4j.properties # Define the root logger with appender file log4j.rootCategory=WARN, console log4j.appender.console=org.apache.log4j.ConsoleAppender log4j.appender.console.target=System.err log4j.appender.console.layout=org.apache.log4j.PatternLayout log4j.appender.console.layout.ConversionPattern=%d{yy/MM/dd HH:mm:ss} %p %c{1}: %m%n # Settings to quiet third party …

10
একক আরডিডিতে একাধিক পাঠ্য ফাইল কীভাবে পড়বেন?
আমি এইচডিএফএস অবস্থান থেকে একগুচ্ছ পাঠ্য ফাইলগুলি পড়তে এবং স্পার্কটি ব্যবহার করে একটি পুনরাবৃত্তিতে এটিতে ম্যাপিং করতে চাই। JavaRDD<String> records = ctx.textFile(args[1], 1); একসাথে কেবল একটি ফাইল পড়তে সক্ষম। আমি একাধিক ফাইল পড়তে এবং তাদের একক আরডিডি হিসাবে প্রসেস করতে চাই। কিভাবে?
178 apache-spark 

2
স্কালা বনাম পাইথনের জন্য দুর্দান্ত পারফরম্যান্স
আমি স্কেলার চেয়ে পাইথনকে পছন্দ করি। তবে, স্পার্ক যেমন স্থানীয়ভাবে স্কালায় লেখা হয়, আমি প্রত্যাশা করছিলাম যে স্পষ্টত কারণে আমার কোডটি স্কালায় পাইথন সংস্করণের চেয়ে দ্রুত চলবে obvious এই অনুমানের সাথে, আমি কিছু 1 জিবি ডেটার জন্য কিছু খুব সাধারণ প্রাক প্রসেসিং কোডের স্কালা সংস্করণটি শিখতে এবং লিখতে ভেবেছিলাম। ডেটার …

5
(কেন) আমাদের ক্যাশে কল করতে বা আরডিডি চালিয়ে যাওয়া দরকার
পাঠ্য ফাইল বা সংগ্রহ থেকে (বা অন্য কোনও আরডিডি থেকে) যখন একটি অনিচ্ছাকৃত বিতরণ করা ডেটাসেট (আরডিডি) তৈরি করা হয় তখন আরডিডি ডেটা মেমরিতে রাখার জন্য আমাদের কী স্পষ্টভাবে "ক্যাশে" কল করতে বা "জেদ" রাখতে হবে? বা আরডিডি ডেটা ডিফল্টরূপে মেমরিতে বিতরণ উপায়ে সংরক্ষণ করা হয়? val textFile = sc.textFile("/user/emp.txt") …
171 scala  apache-spark  rdd 

6
একটি স্পার্ক চাকরিতে জার যুক্ত করুন - স্পার্ক জমা দিন
সত্য ... এটি নিয়ে অনেক আলোচনা হয়েছে। তবে এখানে অনেক অস্পষ্টতা এবং জবাবগুলি সরবরাহকারী / ড্রাইভার কনফিগারেশন বা বিকল্পগুলির নকলকরণ জারের রেফারেন্স সহ ... সরবরাহ করা কয়েকটি উত্তর রয়েছে। অস্পষ্ট এবং / অথবা বাদ দেওয়া বিশদ নিম্নলিখিত অস্পষ্টতা, অস্পষ্ট এবং / অথবা বাদ দেওয়া বিশদ প্রতিটি বিকল্পের জন্য স্পষ্ট করা …

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.