প্রশ্ন ট্যাগ «apache-spark»

অ্যাপাচি স্পার্ক একটি ওপেন সোর্স বিতরণ করা ডেটা প্রসেসিং ইঞ্জিন যা স্কালায় লিখিত একটি ইউনিফাইড এআইপি সরবরাহ করে এবং ব্যবহারকারীদের ডেটা বিতরণ করে। অ্যাপাচি স্পার্কের জন্য কেসগুলি ব্যবহার করুন প্রায়শই মেশিন / গভীর লার্নিং, গ্রাফ প্রসেসিংয়ের সাথে সম্পর্কিত।

19
পাইথন শেলটিতে পাইপার্ক আমদানি করা হচ্ছে
এটি অন্য ফোরামে অন্য কারও প্রশ্নের একটি অনুলিপি যা কখনও উত্তর দেওয়া হয়নি, তাই আমি ভেবেছিলাম যে আমার একই সমস্যা আছে বলে আমি এখানে এটি আবার জিজ্ঞাসা করব। (দেখুন http://geekple.com/blogs/feeds/Xgzu7/posts/351703064084736 ) আমি আমার মেশিনে স্পার্কটি সঠিকভাবে ইনস্টল করেছি এবং আমার পাইথন ইন্টারপ্রেটার হিসাবে ./bin/pyspark ব্যবহার করার সময় ত্রুটি ছাড়াই পাইপارک …

12
স্পার্কের সাথে সিএসভি ফাইল লোড করুন
আমি স্পার্কে নতুন এবং আমি স্পার্ক সহ একটি ফাইল থেকে সিএসভি ডেটা পড়ার চেষ্টা করছি। আমি যা করছি তা এখানে: sc.textFile('file.csv') .map(lambda line: (line.split(',')[0], line.split(',')[1])) .collect() আমি এই কলটি আমার ফাইলের প্রথম দুটি কলামের একটি তালিকা দেবে বলে আমি আশা করব তবে আমি এই ত্রুটিটি পাচ্ছি: File "<ipython-input-60-73ea98550983>", line 1, …

13
স্পার্ক-সিএসভি ব্যবহার করে একক সিএসভি ফাইল লিখুন
আমি https://github.com/databricks/spark-csv ব্যবহার করছি , আমি একটি সিএসভি লেখার চেষ্টা করছি, কিন্তু সক্ষম হচ্ছি না, এটি একটি ফোল্ডার তৈরি করছে। একটি স্কালা ফাংশন প্রয়োজন যা পথ এবং ফাইলের নামের মতো প্যারামিটার গ্রহণ করবে এবং সেই সিএসভি ফাইলটি লিখবে।

8
কিভাবে স্পার্কে আউটপুট ডিরেক্টরি ওভাররাইট করা যায়
আমার কাছে একটি স্পার্ক স্ট্রিমিং অ্যাপ্লিকেশন রয়েছে যা প্রতি মিনিটের জন্য একটি ডেটাसेट তৈরি করে। প্রক্রিয়াজাত ডেটার ফলাফলগুলিকে আমার সংরক্ষণ / ওভাররাইট করতে হবে। আমি যখন ডেটাসেট org.apache.hadoop.mapred.FileAlreadyExistsException ডেটাসেট ওভাররাইট করার চেষ্টা করেছি তখন এক্সিকিউশনটি থামিয়ে দেয়। আমি স্পার্ক সম্পত্তি সেট set("spark.files.overwrite","true"), কিন্তু কোন ভাগ্য নেই। কিভাবে ওভাররাইট বা স্পার্ক …
107 apache-spark 

9
স্পার্ক ডেটা ফ্রেম কলামটি অজগর তালিকায় রূপান্তর করুন
আমি দুটি কলাম, এমভিভি এবং গণনা সহ একটি ডেটাফ্রেমে কাজ করি। +---+-----+ |mvv|count| +---+-----+ | 1 | 5 | | 2 | 9 | | 3 | 3 | | 4 | 1 | আমি এমভিভি মান এবং গণনা মান সমন্বিত দুটি তালিকা পেতে চাই। কিছুটা এইরকম mvv = [1,2,3,4] …

14
স্পার্ক ডেটাফ্রেম ফাঁকা আছে কিনা তা কীভাবে পরীক্ষা করবেন?
এখনই, আমাকে খালি আছে df.count > 0কিনা তা পরীক্ষা করতে আমাকে ব্যবহার করতে হবে DataFrame। তবে এটি একরকম অদক্ষ। এটি করার আরও ভাল উপায় আছে কি? ধন্যবাদ PS: আমি এটি খালি কিনা তা যাচাই করতে চাই যাতে DataFrameএটি খালি না হলে কেবলমাত্র সংরক্ষণ করি

5
রান্না অ্যাপ্লিকেশন স্পার্ক করুন
আমার একটি চলমান স্পার্ক অ্যাপ্লিকেশন রয়েছে যেখানে এটি এমন সমস্ত কোর দখল করে যেখানে আমার অন্যান্য অ্যাপ্লিকেশনগুলিকে কোনও সংস্থান বরাদ্দ করা হবে না। আমি কিছু দ্রুত গবেষণা করেছিলাম এবং লোকেরা কমান্ডটি মারতে YARN কিল বা / বিন / স্পার্ক-ক্লাস ব্যবহার করার পরামর্শ দিয়েছিল। যাইহোক, আমি সিডিএইচ সংস্করণ ব্যবহার করছি এবং …

10
ফিল্টার পাইপার্ক ডাটাফ্রেম কলামের সাথে কোনও মান নেই
আমি একটি পাইস্পার্ক ডেটা ফ্রেম ফিল্টার করার চেষ্টা করছি যার Noneসারি মান হিসাবে রয়েছে : df.select('dt_mvmt').distinct().collect() [Row(dt_mvmt=u'2016-03-27'), Row(dt_mvmt=u'2016-03-28'), Row(dt_mvmt=u'2016-03-29'), Row(dt_mvmt=None), Row(dt_mvmt=u'2016-03-30'), Row(dt_mvmt=u'2016-03-31')] এবং আমি একটি স্ট্রিং মান দিয়ে সঠিকভাবে ফিল্টার করতে পারি: df[df.dt_mvmt == '2016-03-31'] # some results here তবে এটি ব্যর্থ: df[df.dt_mvmt == None].count() 0 df[df.dt_mvmt != None].count() 0 …

5
স্ট্রিং টাইপ থেকে পিএসপার্কে ডাবল প্রকারে কীভাবে ডেটাফ্রেম কলাম পরিবর্তন করবেন
আমার কাছে স্ট্রিং হিসাবে কলাম সহ একটি ডেটাফ্রেম রয়েছে। আমি কলামের প্রকারটি পাইসপার্কে ডাবল প্রকারে পরিবর্তন করতে চেয়েছিলাম। নিম্নলিখিতটি উপায়, আমি করেছি: toDoublefunc = UserDefinedFunction(lambda x: x,DoubleType()) changedTypedf = joindf.withColumn("label",toDoublefunc(joindf['show'])) কেবল জানতে চেয়েছিলেন, লজিস্টিক রিগ্রেশন চালানোর সময় এটি কি এটি করার সঠিক উপায়, আমি কিছুটা ত্রুটি পাচ্ছি, তাই আমি আশ্চর্য …

14
স্থানীয় ফাইলগুলি কীভাবে এইচডিএফএসের পরিবর্তে sc.textFile এ লোড করবেন
আমি দুর্দান্ত স্পার্ক টিউটোরিয়াল অনুসরণ করছি সুতরাং আমি লোড করার জন্য 46 মি: 00 সেকেন্ড চেষ্টা করছি README.mdতবে আমি যা করছি তা ব্যর্থ হ'ল: $ sudo docker run -i -t -h sandbox sequenceiq/spark:1.1.0 /etc/bootstrap.sh -bash bash-4.1# cd /usr/local/spark-1.1.0-bin-hadoop2.4 bash-4.1# ls README.md README.md bash-4.1# ./bin/spark-shell scala> val f = sc.textFile("README.md") 14/12/04 …

8
একটি নির্দিষ্ট স্কিমা দিয়ে কীভাবে একটি খালি ডেটাফ্রেম তৈরি করবেন?
আমি DataFrameস্কালায় একটি নির্দিষ্ট স্কিমা দিয়ে তৈরি করতে চাই । আমি জেএসওএন পঠনটি ব্যবহার করার চেষ্টা করেছি (আমি খালি ফাইলটি পড়তে চাইছি) তবে আমি মনে করি এটি সবচেয়ে ভাল অনুশীলন নয়।


5
অ্যাপাচি স্পার্ক: পাইথন 3 এর সাথে কীভাবে পিসপার্ক ব্যবহার করবেন
আমি জিএইচ ডেভলপমেন্ট মাস্টারের কাছ থেকে স্পার্ক 1.4 তৈরি করেছি এবং বিল্ডটি জরিমানা পেরিয়েছে। তবে আমি যখন একটি bin/pysparkকরি তখন পাইথন ২.7.৯ সংস্করণ পাই। আমি কীভাবে এটি পরিবর্তন করতে পারি?

16
স্পার্ক - ত্রুটি একটি অ্যাপ্লিকেশন জমা দেওয়ার সময় "আপনার কনফিগারেশনে একটি মাস্টার ইউআরএল সেট করা আবশ্যক"
আমার একটি স্পার্ক অ্যাপ রয়েছে যা স্থানীয় মোডে কোনও সমস্যা ছাড়াই চলে তবে স্পার্ক ক্লাস্টারে জমা দেওয়ার সময় কিছু সমস্যা হয়। ত্রুটির চিত্রটি নিম্নরূপ: 16/06/24 15:42:06 WARN scheduler.TaskSetManager: Lost task 2.0 in stage 0.0 (TID 2, cluster-node-02): java.lang.ExceptionInInitializerError at GroupEvolutionES$$anonfun$6.apply(GroupEvolutionES.scala:579) at GroupEvolutionES$$anonfun$6.apply(GroupEvolutionES.scala:579) at scala.collection.Iterator$$anon$14.hasNext(Iterator.scala:390) at org.apache.spark.util.Utils$.getIteratorSize(Utils.scala:1595) at org.apache.spark.rdd.RDD$$anonfun$count$1.apply(RDD.scala:1157) at org.apache.spark.rdd.RDD$$anonfun$count$1.apply(RDD.scala:1157) …

6
স্পার্ক স্কালায় একটি ডেটা ফ্রেমের কলামের নাম পুনরায় নামকরণ
আমি DataFrameস্পার্ক-স্কালায় একটির সমস্ত শিরোনাম / কলামের নাম রূপান্তর করার চেষ্টা করছি । এখন পর্যন্ত আমি নিম্নলিখিত কোড নিয়ে এসেছি যা কেবলমাত্র একটি একক কলামের নাম প্রতিস্থাপন করে। for( i <- 0 to origCols.length - 1) { df.withColumnRenamed( df.columns(i), df.columns(i).toLowerCase ); }

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.