প্রোগ্রামিং apache-spark

19

এটি অন্য ফোরামে অন্য কারও প্রশ্নের একটি অনুলিপি যা কখনও উত্তর দেওয়া হয়নি, তাই আমি ভেবেছিলাম যে আমার একই সমস্যা আছে বলে আমি এখানে এটি আবার জিজ্ঞাসা করব। (দেখুন http://geekple.com/blogs/feeds/Xgzu7/posts/351703064084736 ) আমি আমার মেশিনে স্পার্কটি সঠিকভাবে ইনস্টল করেছি এবং আমার পাইথন ইন্টারপ্রেটার হিসাবে ./bin/pyspark ব্যবহার করার সময় ত্রুটি ছাড়াই পাইপارک …

111 python apache-spark pyspark

12

স্পার্কের সাথে সিএসভি ফাইল লোড করুন

আমি স্পার্কে নতুন এবং আমি স্পার্ক সহ একটি ফাইল থেকে সিএসভি ডেটা পড়ার চেষ্টা করছি। আমি যা করছি তা এখানে: sc.textFile('file.csv') .map(lambda line: (line.split(',')[0], line.split(',')[1])) .collect() আমি এই কলটি আমার ফাইলের প্রথম দুটি কলামের একটি তালিকা দেবে বলে আমি আশা করব তবে আমি এই ত্রুটিটি পাচ্ছি: File "<ipython-input-60-73ea98550983>", line 1, …

110 python csv apache-spark pyspark

13

স্পার্ক-সিএসভি ব্যবহার করে একক সিএসভি ফাইল লিখুন

আমি https://github.com/databricks/spark-csv ব্যবহার করছি , আমি একটি সিএসভি লেখার চেষ্টা করছি, কিন্তু সক্ষম হচ্ছি না, এটি একটি ফোল্ডার তৈরি করছে। একটি স্কালা ফাংশন প্রয়োজন যা পথ এবং ফাইলের নামের মতো প্যারামিটার গ্রহণ করবে এবং সেই সিএসভি ফাইলটি লিখবে।

108 scala csv apache-spark spark-csv

8

কিভাবে স্পার্কে আউটপুট ডিরেক্টরি ওভাররাইট করা যায়

আমার কাছে একটি স্পার্ক স্ট্রিমিং অ্যাপ্লিকেশন রয়েছে যা প্রতি মিনিটের জন্য একটি ডেটাसेट তৈরি করে। প্রক্রিয়াজাত ডেটার ফলাফলগুলিকে আমার সংরক্ষণ / ওভাররাইট করতে হবে। আমি যখন ডেটাসেট org.apache.hadoop.mapred.FileAlreadyExistsException ডেটাসেট ওভাররাইট করার চেষ্টা করেছি তখন এক্সিকিউশনটি থামিয়ে দেয়। আমি স্পার্ক সম্পত্তি সেট set("spark.files.overwrite","true"), কিন্তু কোন ভাগ্য নেই। কিভাবে ওভাররাইট বা স্পার্ক …

107 apache-spark

9

স্পার্ক ডেটা ফ্রেম কলামটি অজগর তালিকায় রূপান্তর করুন

আমি দুটি কলাম, এমভিভি এবং গণনা সহ একটি ডেটাফ্রেমে কাজ করি। +---+-----+ |mvv|count| +---+-----+ | 1 | 5 | | 2 | 9 | | 3 | 3 | | 4 | 1 | আমি এমভিভি মান এবং গণনা মান সমন্বিত দুটি তালিকা পেতে চাই। কিছুটা এইরকম mvv = [1,2,3,4] …

107 python apache-spark pyspark spark-dataframe

14

স্পার্ক ডেটাফ্রেম ফাঁকা আছে কিনা তা কীভাবে পরীক্ষা করবেন?

এখনই, আমাকে খালি আছে df.count > 0কিনা তা পরীক্ষা করতে আমাকে ব্যবহার করতে হবে DataFrame। তবে এটি একরকম অদক্ষ। এটি করার আরও ভাল উপায় আছে কি? ধন্যবাদ PS: আমি এটি খালি কিনা তা যাচাই করতে চাই যাতে DataFrameএটি খালি না হলে কেবলমাত্র সংরক্ষণ করি

106 apache-spark apache-spark-sql

5

রান্না অ্যাপ্লিকেশন স্পার্ক করুন

আমার একটি চলমান স্পার্ক অ্যাপ্লিকেশন রয়েছে যেখানে এটি এমন সমস্ত কোর দখল করে যেখানে আমার অন্যান্য অ্যাপ্লিকেশনগুলিকে কোনও সংস্থান বরাদ্দ করা হবে না। আমি কিছু দ্রুত গবেষণা করেছিলাম এবং লোকেরা কমান্ডটি মারতে YARN কিল বা / বিন / স্পার্ক-ক্লাস ব্যবহার করার পরামর্শ দিয়েছিল। যাইহোক, আমি সিডিএইচ সংস্করণ ব্যবহার করছি এবং …

105 apache-spark yarn pyspark

10

ফিল্টার পাইপার্ক ডাটাফ্রেম কলামের সাথে কোনও মান নেই

আমি একটি পাইস্পার্ক ডেটা ফ্রেম ফিল্টার করার চেষ্টা করছি যার Noneসারি মান হিসাবে রয়েছে : df.select('dt_mvmt').distinct().collect() [Row(dt_mvmt=u'2016-03-27'), Row(dt_mvmt=u'2016-03-28'), Row(dt_mvmt=u'2016-03-29'), Row(dt_mvmt=None), Row(dt_mvmt=u'2016-03-30'), Row(dt_mvmt=u'2016-03-31')] এবং আমি একটি স্ট্রিং মান দিয়ে সঠিকভাবে ফিল্টার করতে পারি: df[df.dt_mvmt == '2016-03-31'] # some results here তবে এটি ব্যর্থ: df[df.dt_mvmt == None].count() 0 df[df.dt_mvmt != None].count() 0 …

105 python apache-spark dataframe pyspark apache-spark-sql

5

স্ট্রিং টাইপ থেকে পিএসপার্কে ডাবল প্রকারে কীভাবে ডেটাফ্রেম কলাম পরিবর্তন করবেন

আমার কাছে স্ট্রিং হিসাবে কলাম সহ একটি ডেটাফ্রেম রয়েছে। আমি কলামের প্রকারটি পাইসপার্কে ডাবল প্রকারে পরিবর্তন করতে চেয়েছিলাম। নিম্নলিখিতটি উপায়, আমি করেছি: toDoublefunc = UserDefinedFunction(lambda x: x,DoubleType()) changedTypedf = joindf.withColumn("label",toDoublefunc(joindf['show'])) কেবল জানতে চেয়েছিলেন, লজিস্টিক রিগ্রেশন চালানোর সময় এটি কি এটি করার সঠিক উপায়, আমি কিছুটা ত্রুটি পাচ্ছি, তাই আমি আশ্চর্য …

102 python apache-spark dataframe pyspark apache-spark-sql

14

স্থানীয় ফাইলগুলি কীভাবে এইচডিএফএসের পরিবর্তে sc.textFile এ লোড করবেন

আমি দুর্দান্ত স্পার্ক টিউটোরিয়াল অনুসরণ করছি সুতরাং আমি লোড করার জন্য 46 মি: 00 সেকেন্ড চেষ্টা করছি README.mdতবে আমি যা করছি তা ব্যর্থ হ'ল: $ sudo docker run -i -t -h sandbox sequenceiq/spark:1.1.0 /etc/bootstrap.sh -bash bash-4.1# cd /usr/local/spark-1.1.0-bin-hadoop2.4 bash-4.1# ls README.md README.md bash-4.1# ./bin/spark-shell scala> val f = sc.textFile("README.md") 14/12/04 …

100 scala apache-spark

8

একটি নির্দিষ্ট স্কিমা দিয়ে কীভাবে একটি খালি ডেটাফ্রেম তৈরি করবেন?

আমি DataFrameস্কালায় একটি নির্দিষ্ট স্কিমা দিয়ে তৈরি করতে চাই । আমি জেএসওএন পঠনটি ব্যবহার করার চেষ্টা করেছি (আমি খালি ফাইলটি পড়তে চাইছি) তবে আমি মনে করি এটি সবচেয়ে ভাল অনুশীলন নয়।

100 scala apache-spark dataframe apache-spark-sql

2

প্রগতি বারের সংখ্যাগুলি স্পার্ক-শেলের অর্থ কী?

আমার স্পার্ক শেলটিতে, যখন আমি কোনও ফাংশন সম্পাদন করি তখন নীচের মতো এন্ট্রিগুলির অর্থ কী? [Stage7:===========> (14174 + 5) / 62500]

96 apache-spark

5

অ্যাপাচি স্পার্ক: পাইথন 3 এর সাথে কীভাবে পিসপার্ক ব্যবহার করবেন

আমি জিএইচ ডেভলপমেন্ট মাস্টারের কাছ থেকে স্পার্ক 1.4 তৈরি করেছি এবং বিল্ডটি জরিমানা পেরিয়েছে। তবে আমি যখন একটি bin/pysparkকরি তখন পাইথন ২.7.৯ সংস্করণ পাই। আমি কীভাবে এটি পরিবর্তন করতে পারি?

95 python python-3.x apache-spark

16

স্পার্ক - ত্রুটি একটি অ্যাপ্লিকেশন জমা দেওয়ার সময় "আপনার কনফিগারেশনে একটি মাস্টার ইউআরএল সেট করা আবশ্যক"

আমার একটি স্পার্ক অ্যাপ রয়েছে যা স্থানীয় মোডে কোনও সমস্যা ছাড়াই চলে তবে স্পার্ক ক্লাস্টারে জমা দেওয়ার সময় কিছু সমস্যা হয়। ত্রুটির চিত্রটি নিম্নরূপ: 16/06/24 15:42:06 WARN scheduler.TaskSetManager: Lost task 2.0 in stage 0.0 (TID 2, cluster-node-02): java.lang.ExceptionInInitializerError at GroupEvolutionES$$anonfun$6.apply(GroupEvolutionES.scala:579) at GroupEvolutionES$$anonfun$6.apply(GroupEvolutionES.scala:579) at scala.collection.Iterator$$anon$14.hasNext(Iterator.scala:390) at org.apache.spark.util.Utils$.getIteratorSize(Utils.scala:1595) at org.apache.spark.rdd.RDD$$anonfun$count$1.apply(RDD.scala:1157) at org.apache.spark.rdd.RDD$$anonfun$count$1.apply(RDD.scala:1157) …

95 scala apache-spark

6

স্পার্ক স্কালায় একটি ডেটা ফ্রেমের কলামের নাম পুনরায় নামকরণ

আমি DataFrameস্পার্ক-স্কালায় একটির সমস্ত শিরোনাম / কলামের নাম রূপান্তর করার চেষ্টা করছি । এখন পর্যন্ত আমি নিম্নলিখিত কোড নিয়ে এসেছি যা কেবলমাত্র একটি একক কলামের নাম প্রতিস্থাপন করে। for( i <- 0 to origCols.length - 1) { df.withColumnRenamed( df.columns(i), df.columns(i).toLowerCase ); }

94 scala apache-spark dataframe apache-spark-sql

প্রশ্ন ট্যাগ «apache-spark»