প্রশ্ন ট্যাগ «apache-spark-sql»

অ্যাপাচি স্পার্ক এসকিউএল স্পার্কে একটি "এসকিউএল এবং স্ট্রাকচার্ড ডেটা প্রসেসিং" এর একটি সরঞ্জাম, একটি দ্রুত এবং সাধারণ-উদ্দেশ্যে ক্লাস্টার কম্পিউটিং সিস্টেম। এটি হাইভ, পরকুইট ইত্যাদি থেকে ডেটা পুনরুদ্ধার করতে এবং বিদ্যমান আরডিডি এবং ডেটাসেটের উপর এসকিউএল অনুসন্ধান চালাতে ব্যবহৃত হতে পারে।

15
স্পার্কে ডেটাফ্রেম, ডেটাসেট এবং আরডিডি-র মধ্যে পার্থক্য
আমি কেবল ভাবছি যে অ্যাপাচি স্পার্কে একটি RDDএবং DataFrame (স্পার্ক ২.০.০ ডেটা ফ্রেমটি কেবল টাইপ ওরফে Dataset[Row]) এর মধ্যে পার্থক্য কী ? আপনি কি অন্যকে রূপান্তর করতে পারবেন?

23
আমি কীভাবে স্পার্ক এসকিউএল এর ডেটাফ্রেমে কলামের ধরণগুলি পরিবর্তন করতে পারি?
ধরুন আমি এরকম কিছু করছি: val df = sqlContext.load("com.databricks.spark.csv", Map("path" -> "cars.csv", "header" -> "true")) df.printSchema() root |-- year: string (nullable = true) |-- make: string (nullable = true) |-- model: string (nullable = true) |-- comment: string (nullable = true) |-- blank: string (nullable = true) df.show() year make …

8
প্রতিটি গ্রুপের প্রথম সারিটি কীভাবে নির্বাচন করবেন?
আমার নিম্নলিখিত হিসাবে ডেটাফ্রেম উত্পন্ন হয়েছে: df.groupBy($"Hour", $"Category") .agg(sum($"value") as "TotalValue") .sort($"Hour".asc, $"TotalValue".desc)) ফলাফলগুলি দেখতে দেখতে: +----+--------+----------+ |Hour|Category|TotalValue| +----+--------+----------+ | 0| cat26| 30.9| | 0| cat13| 22.1| | 0| cat95| 19.6| | 0| cat105| 1.3| | 1| cat67| 28.5| | 1| cat4| 26.8| | 1| cat13| 12.6| | 1| cat23| …

14
স্পার্ক - CSF ফাইলটি ডেটাফ্রেম হিসাবে লোড করবেন?
আমি স্পার্কে একটি সিএসভি পড়তে এবং এটিকে ডেটাফ্রেমে রূপান্তর করতে এবং এটি দিয়ে এইচডিএফএসে সঞ্চয় করতে চাই df.registerTempTable("table_name") আমি চেষ্টা করেছি: scala> val df = sqlContext.load("hdfs:///csv/file/dir/file.csv") আমি যে ত্রুটি পেয়েছি: java.lang.RuntimeException: hdfs:///csv/file/dir/file.csv is not a Parquet file. expected magic number at tail [80, 65, 82, 49] but found [49, 59, …

11
কিভাবে rdd অবজেক্টটি স্পার্কে ডেটাফ্রেমে রূপান্তর করা যায়
আমি কীভাবে org.apache.spark.rdd.RDD[org.apache.spark.sql.Row]কোনও আরডিডি ( ) কে ডেটাফ্রেমে রূপান্তর করতে পারি org.apache.spark.sql.DataFrame। আমি একটি ডেটাফ্রেমকে আরডিডি ব্যবহার করে রূপান্তর করেছি .rdd। এটি প্রক্রিয়া করার পরে আমি এটি ডেটা ফ্রেমে ফিরে চাই। কিভাবে আমি এটি করতে পারব ?

2
কিভাবে একটি স্পার্ক ডেটাফ্রেমে একটি ধ্রুবক কলাম যুক্ত করবেন?
আমি DataFrameকিছু স্বেচ্ছাচারিত মান সহ একটি কলাম যুক্ত করতে চাই (এটি প্রতিটি সারির জন্য একই)। আমি withColumnনিম্নলিখিত হিসাবে ব্যবহার করার সময় একটি ত্রুটি পাই : dt.withColumn('new_column', 10).head(5) --------------------------------------------------------------------------- AttributeError Traceback (most recent call last) <ipython-input-50-a6d0257ca2be> in <module>() 1 dt = (messages 2 .select(messages.fromuserid, messages.messagetype, floor(messages.datetime/(1000*60*5)).alias("dt"))) ----> 3 dt.withColumn('new_column', 10).head(5) /Users/evanzamir/spark-1.4.1/python/pyspark/sql/dataframe.pyc …

6
স্পার্ক এসকিউএলে ক্রমানুসারে কলাম অনুসারে বাছাই কিভাবে?
আমি চেষ্টা করেছি df.orderBy("col1").show(10)তবে এটি আরোহী ক্রম অনুসারে বাছাই হয়েছে। df.sort("col1").show(10)ক্রমবর্ধমান ক্রম অনুসারে। আমি স্ট্যাকওভারফ্লো দেখেছি এবং যে উত্তরগুলি পেয়েছি সেগুলি সমস্ত পুরানো বা আরডিডিগুলিতে উল্লেখ করা হয়েছিল । আমি স্পার্কে নেটিভ ডেটাফ্রেমটি ব্যবহার করতে চাই।

5
ডেটাফ্রেমের বিভাজনকে কীভাবে সংজ্ঞায়িত করবেন?
আমি স্পার্ক 1.4.0 এ স্পার্ক এসকিউএল এবং ডেটাফ্রেম ব্যবহার শুরু করেছি। আমি স্কালায় ডেটাফ্রেমে একটি কাস্টম পার্টিশনারের সংজ্ঞা দিতে চাই, কিন্তু এটি কীভাবে করবেন তা দেখছি না। আমি যে ডেটা টেবিলের সাথে কাজ করছি তার একটিতে নিম্নলিখিত উদাহরণে সিলিমার অ্যাকাউন্টের মাধ্যমে লেনদেনের একটি তালিকা রয়েছে। Account Date Type Amount 1001 …

9
আমি কীভাবে একটি স্পার্ক ডেটাফ্রেমে (পাইএসপার্ক ব্যবহার করে) একটি নতুন কলাম যুক্ত করব?
আমার একটি স্পার্ক ডেটাফ্রেম রয়েছে (পাইস্পার্ক 1.5.1 ব্যবহার করে) এবং একটি নতুন কলাম যুক্ত করতে চাই। আমি কোনও সাফল্য ছাড়াই নিম্নলিখিতগুলি চেষ্টা করেছি: type(randomed_hours) # => list # Create in Python and transform to RDD new_col = pd.DataFrame(randomed_hours, columns=['new_col']) spark_new_col = sqlContext.createDataFrame(new_col) my_df_spark.withColumn("hours", spark_new_col["new_col"]) এটি ব্যবহার করে একটি ত্রুটিও পেয়েছে: …

14
অ্যাপাচি স্পার্ক ডেটা ফ্রেমে কলামেনেট কলামগুলি
অ্যাপাচি স্পার্ক ডেটাফ্রেমে আমরা কীভাবে দুটি কলামকে সংযুক্ত করতে পারি? স্পার্ক এসকিউএল-তে কোনও ফাংশন রয়েছে যা আমরা ব্যবহার করতে পারি?

14
স্পার্ক ডেটাফ্রেম ফাঁকা আছে কিনা তা কীভাবে পরীক্ষা করবেন?
এখনই, আমাকে খালি আছে df.count > 0কিনা তা পরীক্ষা করতে আমাকে ব্যবহার করতে হবে DataFrame। তবে এটি একরকম অদক্ষ। এটি করার আরও ভাল উপায় আছে কি? ধন্যবাদ PS: আমি এটি খালি কিনা তা যাচাই করতে চাই যাতে DataFrameএটি খালি না হলে কেবলমাত্র সংরক্ষণ করি

10
ফিল্টার পাইপার্ক ডাটাফ্রেম কলামের সাথে কোনও মান নেই
আমি একটি পাইস্পার্ক ডেটা ফ্রেম ফিল্টার করার চেষ্টা করছি যার Noneসারি মান হিসাবে রয়েছে : df.select('dt_mvmt').distinct().collect() [Row(dt_mvmt=u'2016-03-27'), Row(dt_mvmt=u'2016-03-28'), Row(dt_mvmt=u'2016-03-29'), Row(dt_mvmt=None), Row(dt_mvmt=u'2016-03-30'), Row(dt_mvmt=u'2016-03-31')] এবং আমি একটি স্ট্রিং মান দিয়ে সঠিকভাবে ফিল্টার করতে পারি: df[df.dt_mvmt == '2016-03-31'] # some results here তবে এটি ব্যর্থ: df[df.dt_mvmt == None].count() 0 df[df.dt_mvmt != None].count() 0 …

5
স্ট্রিং টাইপ থেকে পিএসপার্কে ডাবল প্রকারে কীভাবে ডেটাফ্রেম কলাম পরিবর্তন করবেন
আমার কাছে স্ট্রিং হিসাবে কলাম সহ একটি ডেটাফ্রেম রয়েছে। আমি কলামের প্রকারটি পাইসপার্কে ডাবল প্রকারে পরিবর্তন করতে চেয়েছিলাম। নিম্নলিখিতটি উপায়, আমি করেছি: toDoublefunc = UserDefinedFunction(lambda x: x,DoubleType()) changedTypedf = joindf.withColumn("label",toDoublefunc(joindf['show'])) কেবল জানতে চেয়েছিলেন, লজিস্টিক রিগ্রেশন চালানোর সময় এটি কি এটি করার সঠিক উপায়, আমি কিছুটা ত্রুটি পাচ্ছি, তাই আমি আশ্চর্য …

8
একটি নির্দিষ্ট স্কিমা দিয়ে কীভাবে একটি খালি ডেটাফ্রেম তৈরি করবেন?
আমি DataFrameস্কালায় একটি নির্দিষ্ট স্কিমা দিয়ে তৈরি করতে চাই । আমি জেএসওএন পঠনটি ব্যবহার করার চেষ্টা করেছি (আমি খালি ফাইলটি পড়তে চাইছি) তবে আমি মনে করি এটি সবচেয়ে ভাল অনুশীলন নয়।

6
স্পার্ক স্কালায় একটি ডেটা ফ্রেমের কলামের নাম পুনরায় নামকরণ
আমি DataFrameস্পার্ক-স্কালায় একটির সমস্ত শিরোনাম / কলামের নাম রূপান্তর করার চেষ্টা করছি । এখন পর্যন্ত আমি নিম্নলিখিত কোড নিয়ে এসেছি যা কেবলমাত্র একটি একক কলামের নাম প্রতিস্থাপন করে। for( i <- 0 to origCols.length - 1) { df.withColumnRenamed( df.columns(i), df.columns(i).toLowerCase ); }

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.