প্রশ্ন ট্যাগ «apache-spark»

অ্যাপাচি স্পার্ক একটি ওপেন সোর্স বিতরণ করা ডেটা প্রসেসিং ইঞ্জিন যা স্কালায় লিখিত একটি ইউনিফাইড এআইপি সরবরাহ করে এবং ব্যবহারকারীদের ডেটা বিতরণ করে। অ্যাপাচি স্পার্কের জন্য কেসগুলি ব্যবহার করুন প্রায়শই মেশিন / গভীর লার্নিং, গ্রাফ প্রসেসিংয়ের সাথে সম্পর্কিত।

23
আমি কীভাবে স্পার্ক এসকিউএল এর ডেটাফ্রেমে কলামের ধরণগুলি পরিবর্তন করতে পারি?
ধরুন আমি এরকম কিছু করছি: val df = sqlContext.load("com.databricks.spark.csv", Map("path" -> "cars.csv", "header" -> "true")) df.printSchema() root |-- year: string (nullable = true) |-- make: string (nullable = true) |-- model: string (nullable = true) |-- comment: string (nullable = true) |-- blank: string (nullable = true) df.show() year make …

8
কীভাবে ডেটাসেটে কাস্টম অবজেক্টস সংরক্ষণ করবেন?
স্পার্ক ডেটাসেটের পরিচয় অনুসারে : আমরা স্পার্ক ২.০-এর প্রত্যাশায় আমরা বিশেষ করে ডেটাসেটগুলিতে কিছু আকর্ষণীয় উন্নতির পরিকল্পনা করেছি: বিশেষত: ... কাস্টম এনকোডারগুলি যখন আমরা বর্তমানে বিভিন্ন ধরণের এনকোডারগুলিকে অটোজারেট করি, আমরা কাস্টম অবজেক্টগুলির জন্য একটি API খুলতে চাই। এবং Datasetনিম্নলিখিত ত্রুটি যেমন কাস্টম টাইপ সংরক্ষণ করতে চেষ্টা : কোনও ডেটাসেটে …

15
কিভাবে স্পার্কে ইনফো লগিং বন্ধ করবেন?
আমি এডাব্লুএস ইসি 2 গাইড ব্যবহার করে স্পার্ক ইনস্টল করেছি bin/pysparkএবং স্পার্ক প্রম্পটে পৌঁছানোর জন্য স্ক্রিপ্টটি ব্যবহার করে আমি প্রোগ্রামটি সূক্ষ্মভাবে চালু করতে পারি এবং দ্রুত শুরু কুইড সফলভাবে করতে পারি। তবে, INFOপ্রতিটি কমান্ডের পরে কীভাবে সমস্ত ভার্বোজ লগিং বন্ধ করা যায় তা আমি আমার জীবনের জন্য অনুধাবন করতে পারি …

8
প্রতিটি গ্রুপের প্রথম সারিটি কীভাবে নির্বাচন করবেন?
আমার নিম্নলিখিত হিসাবে ডেটাফ্রেম উত্পন্ন হয়েছে: df.groupBy($"Hour", $"Category") .agg(sum($"value") as "TotalValue") .sort($"Hour".asc, $"TotalValue".desc)) ফলাফলগুলি দেখতে দেখতে: +----+--------+----------+ |Hour|Category|TotalValue| +----+--------+----------+ | 0| cat26| 30.9| | 0| cat13| 22.1| | 0| cat95| 19.6| | 0| cat105| 1.3| | 1| cat67| 28.5| | 1| cat4| 26.8| | 1| cat13| 12.6| | 1| cat23| …

3
কিভাবে স্টার্ক স্পার্কে কার্যগুলিতে বিভক্ত হয়?
আসুন নিম্নলিখিতগুলির জন্য ধরে নেওয়া যাক যে প্রতিটি পয়েন্টে সময়ে মাত্র একটি স্পার্ক কাজ চলছে। আমি এখন পর্যন্ত কি পেতে স্পার্কে কী ঘটে তা আমি এখানে বুঝতে পারি: যখন একটি SparkContextতৈরি করা হয়, প্রতিটি কর্মী নোড একটি নির্বাহক শুরু করে। এক্সিকিউটাররা পৃথক প্রক্রিয়া (জেভিএম), যা ড্রাইভার প্রোগ্রামের সাথে আবার সংযোগ …
143 apache-spark 

14
স্পার্ক - CSF ফাইলটি ডেটাফ্রেম হিসাবে লোড করবেন?
আমি স্পার্কে একটি সিএসভি পড়তে এবং এটিকে ডেটাফ্রেমে রূপান্তর করতে এবং এটি দিয়ে এইচডিএফএসে সঞ্চয় করতে চাই df.registerTempTable("table_name") আমি চেষ্টা করেছি: scala> val df = sqlContext.load("hdfs:///csv/file/dir/file.csv") আমি যে ত্রুটি পেয়েছি: java.lang.RuntimeException: hdfs:///csv/file/dir/file.csv is not a Parquet file. expected magic number at tail [80, 65, 82, 49] but found [49, 59, …

11
কিভাবে rdd অবজেক্টটি স্পার্কে ডেটাফ্রেমে রূপান্তর করা যায়
আমি কীভাবে org.apache.spark.rdd.RDD[org.apache.spark.sql.Row]কোনও আরডিডি ( ) কে ডেটাফ্রেমে রূপান্তর করতে পারি org.apache.spark.sql.DataFrame। আমি একটি ডেটাফ্রেমকে আরডিডি ব্যবহার করে রূপান্তর করেছি .rdd। এটি প্রক্রিয়া করার পরে আমি এটি ডেটা ফ্রেমে ফিরে চাই। কিভাবে আমি এটি করতে পারব ?

2
কিভাবে একটি স্পার্ক ডেটাফ্রেমে একটি ধ্রুবক কলাম যুক্ত করবেন?
আমি DataFrameকিছু স্বেচ্ছাচারিত মান সহ একটি কলাম যুক্ত করতে চাই (এটি প্রতিটি সারির জন্য একই)। আমি withColumnনিম্নলিখিত হিসাবে ব্যবহার করার সময় একটি ত্রুটি পাই : dt.withColumn('new_column', 10).head(5) --------------------------------------------------------------------------- AttributeError Traceback (most recent call last) <ipython-input-50-a6d0257ca2be> in <module>() 1 dt = (messages 2 .select(messages.fromuserid, messages.messagetype, floor(messages.datetime/(1000*60*5)).alias("dt"))) ----> 3 dt.withColumn('new_column', 10).head(5) /Users/evanzamir/spark-1.4.1/python/pyspark/sql/dataframe.pyc …

6
স্পার্ক এসকিউএলে ক্রমানুসারে কলাম অনুসারে বাছাই কিভাবে?
আমি চেষ্টা করেছি df.orderBy("col1").show(10)তবে এটি আরোহী ক্রম অনুসারে বাছাই হয়েছে। df.sort("col1").show(10)ক্রমবর্ধমান ক্রম অনুসারে। আমি স্ট্যাকওভারফ্লো দেখেছি এবং যে উত্তরগুলি পেয়েছি সেগুলি সমস্ত পুরানো বা আরডিডিগুলিতে উল্লেখ করা হয়েছিল । আমি স্পার্কে নেটিভ ডেটাফ্রেমটি ব্যবহার করতে চাই।

3
অ্যাপাচি স্পার্ক: মানচিত্র বনাম মানচিত্রের পার্টিশন?
আরডিডি map এবং mapPartitionsপদ্ধতির মধ্যে পার্থক্য কী ? এবং flatMapমত mapবা মত আচরণ করে mapPartitions? ধন্যবাদ। (সম্পাদনা) অর্থাত্ পার্থক্যটি (অর্থহীনভাবে বা বাস্তবায়নের ক্ষেত্রে) কী def map[A, B](rdd: RDD[A], fn: (A => B)) (implicit a: Manifest[A], b: Manifest[B]): RDD[B] = { rdd.mapPartitions({ iter: Iterator[A] => for (i <- iter) yield fn(i) …

5
ডেটাফ্রেমের বিভাজনকে কীভাবে সংজ্ঞায়িত করবেন?
আমি স্পার্ক 1.4.0 এ স্পার্ক এসকিউএল এবং ডেটাফ্রেম ব্যবহার শুরু করেছি। আমি স্কালায় ডেটাফ্রেমে একটি কাস্টম পার্টিশনারের সংজ্ঞা দিতে চাই, কিন্তু এটি কীভাবে করবেন তা দেখছি না। আমি যে ডেটা টেবিলের সাথে কাজ করছি তার একটিতে নিম্নলিখিত উদাহরণে সিলিমার অ্যাকাউন্টের মাধ্যমে লেনদেনের একটি তালিকা রয়েছে। Account Date Type Amount 1001 …

9
আমি কীভাবে একটি স্পার্ক ডেটাফ্রেমে (পাইএসপার্ক ব্যবহার করে) একটি নতুন কলাম যুক্ত করব?
আমার একটি স্পার্ক ডেটাফ্রেম রয়েছে (পাইস্পার্ক 1.5.1 ব্যবহার করে) এবং একটি নতুন কলাম যুক্ত করতে চাই। আমি কোনও সাফল্য ছাড়াই নিম্নলিখিতগুলি চেষ্টা করেছি: type(randomed_hours) # => list # Create in Python and transform to RDD new_col = pd.DataFrame(randomed_hours, columns=['new_col']) spark_new_col = sqlContext.createDataFrame(new_col) my_df_spark.withColumn("hours", spark_new_col["new_col"]) এটি ব্যবহার করে একটি ত্রুটিও পেয়েছে: …

12
কিভাবে অ্যাপাচি স্পার্ক এক্সিকিউটার মেমরি সেট করবেন
আমি কীভাবে অ্যাপাচি স্পার্ক এক্সিকিউটার নোডগুলির জন্য উপলব্ধ মেমরিটি বাড়িয়ে তুলতে পারি? আমার কাছে একটি 2 জিবি ফাইল রয়েছে যা অ্যাপাচি স্পার্কে লোড করার উপযুক্ত। আমি মুহুর্তের জন্য 1 মেশিনে অ্যাপাচি স্পার্ক চালাচ্ছি, তাই ড্রাইভার এবং এক্সিকিউটার একই মেশিনে রয়েছেন। মেশিনটিতে 8 গিগাবাইট মেমরি রয়েছে। মেমরিতে ক্যাশে রাখতে ফাইলটি সেট …

10
আরডিডির বিষয়বস্তু কীভাবে প্রিন্ট করা যায়?
আমি সংগ্রহের সামগ্রীগুলি স্পার্ক কনসোলে মুদ্রণের চেষ্টা করছি। আমার এক প্রকার আছে: linesWithSessionId: org.apache.spark.rdd.RDD[String] = FilteredRDD[3] এবং আমি আদেশটি ব্যবহার করি: scala> linesWithSessionId.map(line => println(line)) তবে এটি মুদ্রিত: res1: org.apache.spark.rdd.RDD [ইউনিট] = ম্যাপ করাআরডিডি [4] মানচিত্রে: 19 আমি কীভাবে কনসোল করতে আরডিডি লিখতে বা ডিস্কে এটি সংরক্ষণ করতে পারি যাতে …

14
অ্যাপাচি স্পার্ক ডেটা ফ্রেমে কলামেনেট কলামগুলি
অ্যাপাচি স্পার্ক ডেটাফ্রেমে আমরা কীভাবে দুটি কলামকে সংযুক্ত করতে পারি? স্পার্ক এসকিউএল-তে কোনও ফাংশন রয়েছে যা আমরা ব্যবহার করতে পারি?

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.