পান্ডাসুডিএফ এবং পাইয়ারো 0.15.0


12

pysparkইএমআর ক্লাস্টারগুলিতে চলমান বেশ কয়েকটি কাজের জন্য আমি সম্প্রতি বেশ কিছু ত্রুটি পেতে শুরু করেছি । এরোরা হ'ল

java.lang.IllegalArgumentException
    at java.nio.ByteBuffer.allocate(ByteBuffer.java:334)
    at org.apache.arrow.vector.ipc.message.MessageSerializer.readMessage(MessageSerializer.java:543)
    at org.apache.arrow.vector.ipc.message.MessageChannelReader.readNext(MessageChannelReader.java:58)
    at org.apache.arrow.vector.ipc.ArrowStreamReader.readSchema(ArrowStreamReader.java:132)
    at org.apache.arrow.vector.ipc.ArrowReader.initialize(ArrowReader.java:181)
    at org.apache.arrow.vector.ipc.ArrowReader.ensureInitialized(ArrowReader.java:172)
    at org.apache.arrow.vector.ipc.ArrowReader.getVectorSchemaRoot(ArrowReader.java:65)
    at org.apache.spark.sql.execution.python.ArrowPythonRunner$$anon$1.read(ArrowPythonRunner.scala:162)
    at org.apache.spark.sql.execution.python.ArrowPythonRunner$$anon$1.read(ArrowPythonRunner.scala:122)
    at org.apache.spark.api.python.BasePythonRunner$ReaderIterator.hasNext(PythonRunner.scala:406)
    at org.apache.spark.InterruptibleIterator.hasNext(InterruptibleIterator.scala:37)
    at org.apache.spark.sql.execution.python.ArrowEvalPythonExec$$anon$2.<init>(ArrowEvalPythonExec.scala:98)
    at org.apache.spark.sql.execution.python.ArrowEvalPythonExec.evaluate(ArrowEvalPythonExec.scala:96)
    at org.apache.spark.sql.execution.python.EvalPythonExec$$anonfun$doExecute$1.apply(EvalPythonExec.scala:127)...

এগুলি সমস্তই applyএকটি পান্ডাস সিরিজের ফাংশনে ঘটে বলে মনে হচ্ছে । আমি কেবলমাত্র পরিবর্তনটি পেয়েছি তা pyarrowশনিবার (05/10/2019) আপডেট হয়েছে। টেস্টগুলি 0.14.1 দিয়ে কাজ করছে বলে মনে হচ্ছে

সুতরাং আমার প্রশ্নটি হ'ল যদি কেউ জানেন যে এটি নতুন আপডেট হওয়া পেয়ারোতে বাগ আছে বা এমন কোনও উল্লেখযোগ্য পরিবর্তন রয়েছে যা ভবিষ্যতে প্যান্ডাস ইউডিএফ ব্যবহার করা কঠিন করে তুলবে?

উত্তর:


15

এটি কোনও বাগ নয়। আমরা ০.০৫.০ তে একটি গুরুত্বপূর্ণ প্রোটোকল পরিবর্তন করেছি যা জায়ার তীরের পুরানো সংস্করণগুলির সাথে পাইয়ারোর ডিফল্ট আচরণকে অসম্পূর্ণ করে তোলে - আপনার স্পার্ক পরিবেশটি পুরানো সংস্করণ ব্যবহার করছে বলে মনে হচ্ছে।

আপনার বিকল্পগুলি হয়

  • ARROW_PRE_0_15_IPC_FORMAT=1আপনি যেখান থেকে পাইথন ব্যবহার করছেন সেখানে পরিবেশের পরিবর্তনশীল সেট করুন
  • আপাতত পেয়ারো <0.15.0 এ ডাউনগ্রেড করুন।

আশা করি স্পার্ক সম্প্রদায় শীঘ্রই জাভাতে 0.15.0 এ আপগ্রেড করতে সক্ষম হবে যাতে এই সমস্যাটি চলে যায়।

এটি http://arrow.apache.org/blog/2019/10/06/0.15.0-re कृपया/ এ আলোচনা করা হয়েছে

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.