প্রশ্ন ট্যাগ «pyspark»

স্পার্ক পাইথন এপিআই (পাইসপার্ক) অ্যাপাচি-স্পার্ক প্রোগ্রামিং মডেলটি পাইথনে প্রকাশ করে।

13
কীভাবে পিসপার্কে ডেটাফ্রেম কলামের নাম পরিবর্তন করবেন?
আমি পান্ডাস ব্যাকগ্রাউন্ড থেকে এসেছি এবং সিএসভি ফাইলগুলি থেকে ডেটাফ্রেমে ডেটা পড়তে অভ্যস্ত এবং তারপরে সহজ কমান্ডটি ব্যবহার করে কলামের নামগুলি দরকারী কিছুতে পরিবর্তিত করব: df.columns = new_column_name_list তবে, sqlContext ব্যবহার করে তৈরি করা pyspark ডেটা ফ্রেমগুলিতে একই কাজ করে না। আমি সহজেই এটি করতে কেবলমাত্র সমাধানটি হ'ল নিম্নলিখিতটি: df …

2
স্কালা বনাম পাইথনের জন্য দুর্দান্ত পারফরম্যান্স
আমি স্কেলার চেয়ে পাইথনকে পছন্দ করি। তবে, স্পার্ক যেমন স্থানীয়ভাবে স্কালায় লেখা হয়, আমি প্রত্যাশা করছিলাম যে স্পষ্টত কারণে আমার কোডটি স্কালায় পাইথন সংস্করণের চেয়ে দ্রুত চলবে obvious এই অনুমানের সাথে, আমি কিছু 1 জিবি ডেটার জন্য কিছু খুব সাধারণ প্রাক প্রসেসিং কোডের স্কালা সংস্করণটি শিখতে এবং লিখতে ভেবেছিলাম। ডেটার …

15
কিভাবে স্পার্কে ইনফো লগিং বন্ধ করবেন?
আমি এডাব্লুএস ইসি 2 গাইড ব্যবহার করে স্পার্ক ইনস্টল করেছি bin/pysparkএবং স্পার্ক প্রম্পটে পৌঁছানোর জন্য স্ক্রিপ্টটি ব্যবহার করে আমি প্রোগ্রামটি সূক্ষ্মভাবে চালু করতে পারি এবং দ্রুত শুরু কুইড সফলভাবে করতে পারি। তবে, INFOপ্রতিটি কমান্ডের পরে কীভাবে সমস্ত ভার্বোজ লগিং বন্ধ করা যায় তা আমি আমার জীবনের জন্য অনুধাবন করতে পারি …

2
কিভাবে একটি স্পার্ক ডেটাফ্রেমে একটি ধ্রুবক কলাম যুক্ত করবেন?
আমি DataFrameকিছু স্বেচ্ছাচারিত মান সহ একটি কলাম যুক্ত করতে চাই (এটি প্রতিটি সারির জন্য একই)। আমি withColumnনিম্নলিখিত হিসাবে ব্যবহার করার সময় একটি ত্রুটি পাই : dt.withColumn('new_column', 10).head(5) --------------------------------------------------------------------------- AttributeError Traceback (most recent call last) <ipython-input-50-a6d0257ca2be> in <module>() 1 dt = (messages 2 .select(messages.fromuserid, messages.messagetype, floor(messages.datetime/(1000*60*5)).alias("dt"))) ----> 3 dt.withColumn('new_column', 10).head(5) /Users/evanzamir/spark-1.4.1/python/pyspark/sql/dataframe.pyc …

9
আমি কীভাবে একটি স্পার্ক ডেটাফ্রেমে (পাইএসপার্ক ব্যবহার করে) একটি নতুন কলাম যুক্ত করব?
আমার একটি স্পার্ক ডেটাফ্রেম রয়েছে (পাইস্পার্ক 1.5.1 ব্যবহার করে) এবং একটি নতুন কলাম যুক্ত করতে চাই। আমি কোনও সাফল্য ছাড়াই নিম্নলিখিতগুলি চেষ্টা করেছি: type(randomed_hours) # => list # Create in Python and transform to RDD new_col = pd.DataFrame(randomed_hours, columns=['new_col']) spark_new_col = sqlContext.createDataFrame(new_col) my_df_spark.withColumn("hours", spark_new_col["new_col"]) এটি ব্যবহার করে একটি ত্রুটিও পেয়েছে: …

19
পাইথন শেলটিতে পাইপার্ক আমদানি করা হচ্ছে
এটি অন্য ফোরামে অন্য কারও প্রশ্নের একটি অনুলিপি যা কখনও উত্তর দেওয়া হয়নি, তাই আমি ভেবেছিলাম যে আমার একই সমস্যা আছে বলে আমি এখানে এটি আবার জিজ্ঞাসা করব। (দেখুন http://geekple.com/blogs/feeds/Xgzu7/posts/351703064084736 ) আমি আমার মেশিনে স্পার্কটি সঠিকভাবে ইনস্টল করেছি এবং আমার পাইথন ইন্টারপ্রেটার হিসাবে ./bin/pyspark ব্যবহার করার সময় ত্রুটি ছাড়াই পাইপارک …

12
স্পার্কের সাথে সিএসভি ফাইল লোড করুন
আমি স্পার্কে নতুন এবং আমি স্পার্ক সহ একটি ফাইল থেকে সিএসভি ডেটা পড়ার চেষ্টা করছি। আমি যা করছি তা এখানে: sc.textFile('file.csv') .map(lambda line: (line.split(',')[0], line.split(',')[1])) .collect() আমি এই কলটি আমার ফাইলের প্রথম দুটি কলামের একটি তালিকা দেবে বলে আমি আশা করব তবে আমি এই ত্রুটিটি পাচ্ছি: File "<ipython-input-60-73ea98550983>", line 1, …

9
স্পার্ক ডেটা ফ্রেম কলামটি অজগর তালিকায় রূপান্তর করুন
আমি দুটি কলাম, এমভিভি এবং গণনা সহ একটি ডেটাফ্রেমে কাজ করি। +---+-----+ |mvv|count| +---+-----+ | 1 | 5 | | 2 | 9 | | 3 | 3 | | 4 | 1 | আমি এমভিভি মান এবং গণনা মান সমন্বিত দুটি তালিকা পেতে চাই। কিছুটা এইরকম mvv = [1,2,3,4] …

5
রান্না অ্যাপ্লিকেশন স্পার্ক করুন
আমার একটি চলমান স্পার্ক অ্যাপ্লিকেশন রয়েছে যেখানে এটি এমন সমস্ত কোর দখল করে যেখানে আমার অন্যান্য অ্যাপ্লিকেশনগুলিকে কোনও সংস্থান বরাদ্দ করা হবে না। আমি কিছু দ্রুত গবেষণা করেছিলাম এবং লোকেরা কমান্ডটি মারতে YARN কিল বা / বিন / স্পার্ক-ক্লাস ব্যবহার করার পরামর্শ দিয়েছিল। যাইহোক, আমি সিডিএইচ সংস্করণ ব্যবহার করছি এবং …

10
ফিল্টার পাইপার্ক ডাটাফ্রেম কলামের সাথে কোনও মান নেই
আমি একটি পাইস্পার্ক ডেটা ফ্রেম ফিল্টার করার চেষ্টা করছি যার Noneসারি মান হিসাবে রয়েছে : df.select('dt_mvmt').distinct().collect() [Row(dt_mvmt=u'2016-03-27'), Row(dt_mvmt=u'2016-03-28'), Row(dt_mvmt=u'2016-03-29'), Row(dt_mvmt=None), Row(dt_mvmt=u'2016-03-30'), Row(dt_mvmt=u'2016-03-31')] এবং আমি একটি স্ট্রিং মান দিয়ে সঠিকভাবে ফিল্টার করতে পারি: df[df.dt_mvmt == '2016-03-31'] # some results here তবে এটি ব্যর্থ: df[df.dt_mvmt == None].count() 0 df[df.dt_mvmt != None].count() 0 …

5
স্ট্রিং টাইপ থেকে পিএসপার্কে ডাবল প্রকারে কীভাবে ডেটাফ্রেম কলাম পরিবর্তন করবেন
আমার কাছে স্ট্রিং হিসাবে কলাম সহ একটি ডেটাফ্রেম রয়েছে। আমি কলামের প্রকারটি পাইসপার্কে ডাবল প্রকারে পরিবর্তন করতে চেয়েছিলাম। নিম্নলিখিতটি উপায়, আমি করেছি: toDoublefunc = UserDefinedFunction(lambda x: x,DoubleType()) changedTypedf = joindf.withColumn("label",toDoublefunc(joindf['show'])) কেবল জানতে চেয়েছিলেন, লজিস্টিক রিগ্রেশন চালানোর সময় এটি কি এটি করার সঠিক উপায়, আমি কিছুটা ত্রুটি পাচ্ছি, তাই আমি আশ্চর্য …

5
ডেটাফ্রেম গ্রুপটি স্পার্ক করুন এবং অবতরণ ক্রমে সাজান (পাইপর্ক)
আমি পাইস্পার্ক (পাইথন ২.7.৯ / স্পার্ক ১.৩.১) ব্যবহার করছি এবং একটি ডেটা ফ্রেম গ্রুপঅবজেক্ট রয়েছে যা আমাকে ফিল্ডিং এবং সাজানোর ক্রম অনুসারে বাছাই করতে হবে। কোডের এই অংশের মাধ্যমে এটি অর্জনের চেষ্টা করা হচ্ছে। group_by_dataframe.count().filter("`count` >= 10").sort('count', ascending=False) তবে এটি নিম্নলিখিত ত্রুটি ছুড়ে ফেলে। sort() got an unexpected keyword argument …

18
আমি কীভাবে চালকের অজগর সংস্করণটি স্পার্কে সেট করব?
আমি স্পার্ক 1.4.0-rc2 ব্যবহার করছি তাই আমি স্পার্ক সহ পাইথন 3 ব্যবহার করতে পারি। আমি যদি যোগ করিexport PYSPARK_PYTHON=python3 আমার .bashrc ফাইলটিতে যুক্ত করি তবে অজগর 3 দিয়ে ইন্টারেক্টিভভাবে স্পার্ক চালাতে পারি However তবে, আমি যদি স্থানীয় মোডে স্ট্যান্ড স্টোন প্রোগ্রাম চালাতে চাই তবে আমি একটি ত্রুটি পেয়েছি: Exception: Python …

2
স্পার্ক: পাইথন আমার ব্যবহারের ক্ষেত্রে স্ক্যালাকে উল্লেখযোগ্যভাবে ছাড়িয়ে যায় কেন?
পাইথন এবং স্কালা ব্যবহার করার সময় স্পার্কের পারফরম্যান্সের তুলনা করতে আমি উভয় ভাষায় একই কাজ তৈরি করেছি এবং রানটাইম তুলনা করেছি। আমি উভয় চাকরিই প্রায় একই পরিমাণে সময় নেওয়ার প্রত্যাশা করেছিল, তবে পাইথন 27minচাকরীটি কেবল গ্রহণ করেছিল , যখন স্কালার কাজটি 37min(প্রায় ৪০% বেশি সময়!) নিয়েছিল । আমি জাভাতেও একই …

1
Pyspark df থেকে PostgresSQL এ 50 মিলিয়নেরও বেশি রচনা, সেরা দক্ষ পদ্ধতির
কয়েক মিলিয়ন রেকর্ড সন্নিবেশনের সবচেয়ে কার্যকর উপায় কী বলে স্পার্ক ডেটাফ্রেম থেকে পোস্টগ্রিস টেবিলগুলিতে 50 মিলিয়ন। অতীতে আমি স্পার্ক থেকে এমএসএসকিউএল পর্যন্ত বাল্ক কপি এবং ব্যাচের আকারের বিকল্পটি ব্যবহার করে সফল হয়েছি । পোস্টগ্রিসের জন্য এখানে কি অনুরূপ কিছু থাকতে পারে? আমার চেষ্টা করা কোড এবং প্রক্রিয়াটি চালাতে যে সময়টি …

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.