প্রোগ্রামিং apache-spark

23

আমি কীভাবে স্পার্ক এসকিউএল এর ডেটাফ্রেমে কলামের ধরণগুলি পরিবর্তন করতে পারি?

ধরুন আমি এরকম কিছু করছি: val df = sqlContext.load("com.databricks.spark.csv", Map("path" -> "cars.csv", "header" -> "true")) df.printSchema() root |-- year: string (nullable = true) |-- make: string (nullable = true) |-- model: string (nullable = true) |-- comment: string (nullable = true) |-- blank: string (nullable = true) df.show() year make …

152 scala apache-spark apache-spark-sql

8

কীভাবে ডেটাসেটে কাস্টম অবজেক্টস সংরক্ষণ করবেন?

স্পার্ক ডেটাসেটের পরিচয় অনুসারে : আমরা স্পার্ক ২.০-এর প্রত্যাশায় আমরা বিশেষ করে ডেটাসেটগুলিতে কিছু আকর্ষণীয় উন্নতির পরিকল্পনা করেছি: বিশেষত: ... কাস্টম এনকোডারগুলি যখন আমরা বর্তমানে বিভিন্ন ধরণের এনকোডারগুলিকে অটোজারেট করি, আমরা কাস্টম অবজেক্টগুলির জন্য একটি API খুলতে চাই। এবং Datasetনিম্নলিখিত ত্রুটি যেমন কাস্টম টাইপ সংরক্ষণ করতে চেষ্টা : কোনও ডেটাসেটে …

149 scala apache-spark apache-spark-dataset apache-spark-encoders

15

কিভাবে স্পার্কে ইনফো লগিং বন্ধ করবেন?

আমি এডাব্লুএস ইসি 2 গাইড ব্যবহার করে স্পার্ক ইনস্টল করেছি bin/pysparkএবং স্পার্ক প্রম্পটে পৌঁছানোর জন্য স্ক্রিপ্টটি ব্যবহার করে আমি প্রোগ্রামটি সূক্ষ্মভাবে চালু করতে পারি এবং দ্রুত শুরু কুইড সফলভাবে করতে পারি। তবে, INFOপ্রতিটি কমান্ডের পরে কীভাবে সমস্ত ভার্বোজ লগিং বন্ধ করা যায় তা আমি আমার জীবনের জন্য অনুধাবন করতে পারি …

144 python scala apache-spark hadoop pyspark

8

প্রতিটি গ্রুপের প্রথম সারিটি কীভাবে নির্বাচন করবেন?

আমার নিম্নলিখিত হিসাবে ডেটাফ্রেম উত্পন্ন হয়েছে: df.groupBy($"Hour", $"Category") .agg(sum($"value") as "TotalValue") .sort($"Hour".asc, $"TotalValue".desc)) ফলাফলগুলি দেখতে দেখতে: +----+--------+----------+ |Hour|Category|TotalValue| +----+--------+----------+ | 0| cat26| 30.9| | 0| cat13| 22.1| | 0| cat95| 19.6| | 0| cat105| 1.3| | 1| cat67| 28.5| | 1| cat4| 26.8| | 1| cat13| 12.6| | 1| cat23| …

143 sql scala apache-spark dataframe apache-spark-sql

3

কিভাবে স্টার্ক স্পার্কে কার্যগুলিতে বিভক্ত হয়?

আসুন নিম্নলিখিতগুলির জন্য ধরে নেওয়া যাক যে প্রতিটি পয়েন্টে সময়ে মাত্র একটি স্পার্ক কাজ চলছে। আমি এখন পর্যন্ত কি পেতে স্পার্কে কী ঘটে তা আমি এখানে বুঝতে পারি: যখন একটি SparkContextতৈরি করা হয়, প্রতিটি কর্মী নোড একটি নির্বাহক শুরু করে। এক্সিকিউটাররা পৃথক প্রক্রিয়া (জেভিএম), যা ড্রাইভার প্রোগ্রামের সাথে আবার সংযোগ …

143 apache-spark

14

স্পার্ক - CSF ফাইলটি ডেটাফ্রেম হিসাবে লোড করবেন?

আমি স্পার্কে একটি সিএসভি পড়তে এবং এটিকে ডেটাফ্রেমে রূপান্তর করতে এবং এটি দিয়ে এইচডিএফএসে সঞ্চয় করতে চাই df.registerTempTable("table_name") আমি চেষ্টা করেছি: scala> val df = sqlContext.load("hdfs:///csv/file/dir/file.csv") আমি যে ত্রুটি পেয়েছি: java.lang.RuntimeException: hdfs:///csv/file/dir/file.csv is not a Parquet file. expected magic number at tail [80, 65, 82, 49] but found [49, 59, …

141 scala apache-spark hadoop apache-spark-sql hdfs

11

কিভাবে rdd অবজেক্টটি স্পার্কে ডেটাফ্রেমে রূপান্তর করা যায়

আমি কীভাবে org.apache.spark.rdd.RDD[org.apache.spark.sql.Row]কোনও আরডিডি ( ) কে ডেটাফ্রেমে রূপান্তর করতে পারি org.apache.spark.sql.DataFrame। আমি একটি ডেটাফ্রেমকে আরডিডি ব্যবহার করে রূপান্তর করেছি .rdd। এটি প্রক্রিয়া করার পরে আমি এটি ডেটা ফ্রেমে ফিরে চাই। কিভাবে আমি এটি করতে পারব ?

139 scala apache-spark apache-spark-sql rdd

2

কিভাবে একটি স্পার্ক ডেটাফ্রেমে একটি ধ্রুবক কলাম যুক্ত করবেন?

আমি DataFrameকিছু স্বেচ্ছাচারিত মান সহ একটি কলাম যুক্ত করতে চাই (এটি প্রতিটি সারির জন্য একই)। আমি withColumnনিম্নলিখিত হিসাবে ব্যবহার করার সময় একটি ত্রুটি পাই : dt.withColumn('new_column', 10).head(5) --------------------------------------------------------------------------- AttributeError Traceback (most recent call last) <ipython-input-50-a6d0257ca2be> in <module>() 1 dt = (messages 2 .select(messages.fromuserid, messages.messagetype, floor(messages.datetime/(1000*60*5)).alias("dt"))) ----> 3 dt.withColumn('new_column', 10).head(5) /Users/evanzamir/spark-1.4.1/python/pyspark/sql/dataframe.pyc …

137 python apache-spark dataframe pyspark apache-spark-sql

6

স্পার্ক এসকিউএলে ক্রমানুসারে কলাম অনুসারে বাছাই কিভাবে?

আমি চেষ্টা করেছি df.orderBy("col1").show(10)তবে এটি আরোহী ক্রম অনুসারে বাছাই হয়েছে। df.sort("col1").show(10)ক্রমবর্ধমান ক্রম অনুসারে। আমি স্ট্যাকওভারফ্লো দেখেছি এবং যে উত্তরগুলি পেয়েছি সেগুলি সমস্ত পুরানো বা আরডিডিগুলিতে উল্লেখ করা হয়েছিল । আমি স্পার্কে নেটিভ ডেটাফ্রেমটি ব্যবহার করতে চাই।

137 scala apache-spark apache-spark-sql

3

অ্যাপাচি স্পার্ক: মানচিত্র বনাম মানচিত্রের পার্টিশন?

আরডিডি map এবং mapPartitionsপদ্ধতির মধ্যে পার্থক্য কী ? এবং flatMapমত mapবা মত আচরণ করে mapPartitions? ধন্যবাদ। (সম্পাদনা) অর্থাত্ পার্থক্যটি (অর্থহীনভাবে বা বাস্তবায়নের ক্ষেত্রে) কী def map[A, B](rdd: RDD[A], fn: (A => B)) (implicit a: Manifest[A], b: Manifest[B]): RDD[B] = { rdd.mapPartitions({ iter: Iterator[A] => for (i <- iter) yield fn(i) …

133 performance scala apache-spark rdd

5

ডেটাফ্রেমের বিভাজনকে কীভাবে সংজ্ঞায়িত করবেন?

আমি স্পার্ক 1.4.0 এ স্পার্ক এসকিউএল এবং ডেটাফ্রেম ব্যবহার শুরু করেছি। আমি স্কালায় ডেটাফ্রেমে একটি কাস্টম পার্টিশনারের সংজ্ঞা দিতে চাই, কিন্তু এটি কীভাবে করবেন তা দেখছি না। আমি যে ডেটা টেবিলের সাথে কাজ করছি তার একটিতে নিম্নলিখিত উদাহরণে সিলিমার অ্যাকাউন্টের মাধ্যমে লেনদেনের একটি তালিকা রয়েছে। Account Date Type Amount 1001 …

128 scala apache-spark dataframe apache-spark-sql partitioning

9

আমি কীভাবে একটি স্পার্ক ডেটাফ্রেমে (পাইএসপার্ক ব্যবহার করে) একটি নতুন কলাম যুক্ত করব?

আমার একটি স্পার্ক ডেটাফ্রেম রয়েছে (পাইস্পার্ক 1.5.1 ব্যবহার করে) এবং একটি নতুন কলাম যুক্ত করতে চাই। আমি কোনও সাফল্য ছাড়াই নিম্নলিখিতগুলি চেষ্টা করেছি: type(randomed_hours) # => list # Create in Python and transform to RDD new_col = pd.DataFrame(randomed_hours, columns=['new_col']) spark_new_col = sqlContext.createDataFrame(new_col) my_df_spark.withColumn("hours", spark_new_col["new_col"]) এটি ব্যবহার করে একটি ত্রুটিও পেয়েছে: …

128 python apache-spark dataframe pyspark apache-spark-sql

12

কিভাবে অ্যাপাচি স্পার্ক এক্সিকিউটার মেমরি সেট করবেন

আমি কীভাবে অ্যাপাচি স্পার্ক এক্সিকিউটার নোডগুলির জন্য উপলব্ধ মেমরিটি বাড়িয়ে তুলতে পারি? আমার কাছে একটি 2 জিবি ফাইল রয়েছে যা অ্যাপাচি স্পার্কে লোড করার উপযুক্ত। আমি মুহুর্তের জন্য 1 মেশিনে অ্যাপাচি স্পার্ক চালাচ্ছি, তাই ড্রাইভার এবং এক্সিকিউটার একই মেশিনে রয়েছেন। মেশিনটিতে 8 গিগাবাইট মেমরি রয়েছে। মেমরিতে ক্যাশে রাখতে ফাইলটি সেট …

127 memory apache-spark

10

আরডিডির বিষয়বস্তু কীভাবে প্রিন্ট করা যায়?

আমি সংগ্রহের সামগ্রীগুলি স্পার্ক কনসোলে মুদ্রণের চেষ্টা করছি। আমার এক প্রকার আছে: linesWithSessionId: org.apache.spark.rdd.RDD[String] = FilteredRDD[3] এবং আমি আদেশটি ব্যবহার করি: scala> linesWithSessionId.map(line => println(line)) তবে এটি মুদ্রিত: res1: org.apache.spark.rdd.RDD [ইউনিট] = ম্যাপ করাআরডিডি [4] মানচিত্রে: 19 আমি কীভাবে কনসোল করতে আরডিডি লিখতে বা ডিস্কে এটি সংরক্ষণ করতে পারি যাতে …

124 scala apache-spark

14

অ্যাপাচি স্পার্ক ডেটা ফ্রেমে কলামেনেট কলামগুলি

অ্যাপাচি স্পার্ক ডেটাফ্রেমে আমরা কীভাবে দুটি কলামকে সংযুক্ত করতে পারি? স্পার্ক এসকিউএল-তে কোনও ফাংশন রয়েছে যা আমরা ব্যবহার করতে পারি?

116 sql apache-spark dataframe apache-spark-sql

প্রশ্ন ট্যাগ «apache-spark»