প্রশ্ন ট্যাগ «apache-spark»

অ্যাপাচি স্পার্ক একটি ওপেন সোর্স বিতরণ করা ডেটা প্রসেসিং ইঞ্জিন যা স্কালায় লিখিত একটি ইউনিফাইড এআইপি সরবরাহ করে এবং ব্যবহারকারীদের ডেটা বিতরণ করে। অ্যাপাচি স্পার্কের জন্য কেসগুলি ব্যবহার করুন প্রায়শই মেশিন / গভীর লার্নিং, গ্রাফ প্রসেসিংয়ের সাথে সম্পর্কিত।

1
পান্ডাসুডিএফ এবং পাইয়ারো 0.15.0
pysparkইএমআর ক্লাস্টারগুলিতে চলমান বেশ কয়েকটি কাজের জন্য আমি সম্প্রতি বেশ কিছু ত্রুটি পেতে শুরু করেছি । এরোরা হ'ল java.lang.IllegalArgumentException at java.nio.ByteBuffer.allocate(ByteBuffer.java:334) at org.apache.arrow.vector.ipc.message.MessageSerializer.readMessage(MessageSerializer.java:543) at org.apache.arrow.vector.ipc.message.MessageChannelReader.readNext(MessageChannelReader.java:58) at org.apache.arrow.vector.ipc.ArrowStreamReader.readSchema(ArrowStreamReader.java:132) at org.apache.arrow.vector.ipc.ArrowReader.initialize(ArrowReader.java:181) at org.apache.arrow.vector.ipc.ArrowReader.ensureInitialized(ArrowReader.java:172) at org.apache.arrow.vector.ipc.ArrowReader.getVectorSchemaRoot(ArrowReader.java:65) at org.apache.spark.sql.execution.python.ArrowPythonRunner$$anon$1.read(ArrowPythonRunner.scala:162) at org.apache.spark.sql.execution.python.ArrowPythonRunner$$anon$1.read(ArrowPythonRunner.scala:122) at org.apache.spark.api.python.BasePythonRunner$ReaderIterator.hasNext(PythonRunner.scala:406) at org.apache.spark.InterruptibleIterator.hasNext(InterruptibleIterator.scala:37) at org.apache.spark.sql.execution.python.ArrowEvalPythonExec$$anon$2.<init>(ArrowEvalPythonExec.scala:98) at org.apache.spark.sql.execution.python.ArrowEvalPythonExec.evaluate(ArrowEvalPythonExec.scala:96) at org.apache.spark.sql.execution.python.EvalPythonExec$$anonfun$doExecute$1.apply(EvalPythonExec.scala:127)... এগুলি সমস্তই applyএকটি …

1
অ্যাপাচি স্পার্ক: পুনরায় বিভাজন, বাছাই এবং জোড়ায় ক্যাশে করার প্রভাব
আমি কোনও টেবিলে যোগদান করার সময় স্পার্কের আচরণটি অন্বেষণ করছি। আমি ডেটাব্রিক্স ব্যবহার করছি। আমার ডামি দৃশ্যটি হ'ল: ডেটাফ্রেম এ হিসাবে বাহ্যিক সারণি পড়ুন (অন্তর্নিহিত ফাইলগুলি ডেল্টা ফর্ম্যাটে রয়েছে) ডেটাফ্রেম বিটিকে ডেটাফ্রেম এ হিসাবে নির্দিষ্ট নির্দিষ্ট কলামগুলির সাথে নির্দিষ্ট করুন কলাম 1 এবং কলাম 2 এ ডেটাফ্রেমগুলি এ এবং বিতে …

1
স্পার্ক: ইউডিএফ বহুবার কার্যকর করা হয়েছিল
নিম্নলিখিত কোড সহ আমার একটি ডেটাফ্রেম রয়েছে: def test(lat: Double, lon: Double) = { println(s"testing ${lat / lon}") Map("one" -> "one", "two" -> "two") } val testUDF = udf(test _) df.withColumn("test", testUDF(col("lat"), col("lon"))) .withColumn("test1", col("test.one")) .withColumn("test2", col("test.two")) এখন লগগুলি পরীক্ষা করে, আমি জানতে পেরেছি যে প্রতিটি সারির জন্য ইউডিএফ 3 …

3
পান্ডাদের ডেথফ্রেমে গ্রুপযুক্ত পাইথন ফাংশন প্রয়োগ করা - গণনার গতি বাড়ানোর সবচেয়ে দক্ষ পদ্ধতির কী?
আমি বেশ বড় পান্ডাস ডেটা ফ্রেমের সাথে কাজ করছি - আমার ডেটাসেটটি নীচের সেটআপটির অনুরূপ df: import pandas as pd import numpy as np #--------------------------------------------- SIZING PARAMETERS : R1 = 20 # .repeat( repeats = R1 ) R2 = 10 # .repeat( repeats = R2 ) R3 = 541680 # …
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.