প্রশ্ন ট্যাগ «dataframe»

একটি ডেটা ফ্রেম একটি সারণী তথ্য কাঠামো। সাধারণত, এটিতে ডেটা থাকে যেখানে সারিগুলি পর্যবেক্ষণ এবং কলামগুলি বিভিন্ন ধরণের ভেরিয়েবল হয়। যদিও "ডেটা ফ্রেম" বা "ডেটা ফ্রেম" এই ধারণার জন্য বেশ কয়েকটি ভাষায় (আর, অ্যাপাচি স্পার্ক, ডিডল, ম্যাপেল, পাইথনের পান্ডাস লাইব্রেরি এবং জুলিয়ার ডেটা ফ্রেম লাইব্রেরি) শব্দ ব্যবহৃত হয়েছে, "টেবিল" শব্দটি ব্যবহৃত হয় ম্যাটল্যাব এবং এসকিউএল।

7
পান্ডস ডেটাফ্রেমে ফিলেনা () কেবলমাত্র কয়েকটি কলাম স্থানে রয়েছে
আমি 0 টির সাথে কোনও কলামের উপসেটের জন্য 0 এর সাথে কোনও পান্ডাস ডেটা ফ্রেমে কোনও মান পূরণ করার চেষ্টা করছি। যখন আমি করি: import pandas as pd df = pd.DataFrame(data={'a':[1,2,3,None],'b':[4,5,None,6],'c':[None,None,7,8]}) print df df.fillna(value=0, inplace=True) print df আউটপুট: a b c 0 1.0 4.0 NaN 1 2.0 5.0 NaN 2 …
145 python  pandas  dataframe 

5
কীভাবে 3 টি সেটে ডেটা বিভক্ত করবেন (ট্রেন, বৈধতা এবং পরীক্ষা)?
আমার কাছে পান্ডাস ডেটাফ্রেম রয়েছে এবং আমি এটিকে 3 টি আলাদা সেটে ভাগ করতে চাই wish আমি জানি যে থেকে ট্রেন_স্টেট_স্প্লিট ব্যবহার করে sklearn.cross_validation, কেউ ডেটা দুটি সেটে বিভাজন করতে পারে (ট্রেন এবং পরীক্ষা)। তবে আমি তিনটি উপায়ে ডেটা বিভক্ত করার কোনও সমাধান খুঁজে পাইনি। সাধারণত, আমি মূল তথ্য সূচকগুলি …

2
পান্ডাস মাল্টিআইডেক্স ডেটা ফ্রেমে সারি নির্বাচন করুন
যার সূচকটি মাল্টিআইডেক্স হয় তার কোনও ডাটাফ্রেমের সারি / ফিল্টার সর্বাধিক সাধারণ পান্ডা উপায়গুলি কী কী ? একক মান / লেবেলের উপর ভিত্তি করে স্লাইসিং এক বা একাধিক স্তর থেকে একাধিক লেবেলের উপর ভিত্তি করে স্লাইসিং বুলিয়ান শর্ত এবং অভিব্যক্তিগুলিতে ফিল্টারিং কোন পরিস্থিতিতে কোন পরিস্থিতিতে প্রযোজ্য সরলতার জন্য অনুমান: ইনপুট …

7
পান্ডস ডেটাফ্রেমে কোন কলামগুলিতে কোনও NaN মান রয়েছে তা কীভাবে সন্ধান করবেন
এখানে এবং সেখানে ছড়িয়ে ছিটিয়ে থাকা সম্ভাব্য NaN মানযুক্ত একটি পান্ডাস ডেটাফ্রেম দেওয়া হয়েছে: প্রশ্ন: কোন কলামগুলিতে NaN মান রয়েছে তা আমি কীভাবে নির্ধারণ করব? বিশেষত, আমি কি এনএএনএস সহ কলামের নামের একটি তালিকা পেতে পারি?
144 python  pandas  dataframe  nan 

8
প্রতিটি গ্রুপের প্রথম সারিটি কীভাবে নির্বাচন করবেন?
আমার নিম্নলিখিত হিসাবে ডেটাফ্রেম উত্পন্ন হয়েছে: df.groupBy($"Hour", $"Category") .agg(sum($"value") as "TotalValue") .sort($"Hour".asc, $"TotalValue".desc)) ফলাফলগুলি দেখতে দেখতে: +----+--------+----------+ |Hour|Category|TotalValue| +----+--------+----------+ | 0| cat26| 30.9| | 0| cat13| 22.1| | 0| cat95| 19.6| | 0| cat105| 1.3| | 1| cat67| 28.5| | 1| cat4| 26.8| | 1| cat13| 12.6| | 1| cat23| …


14
একটি কলামে NA মানগুলির সংখ্যা নির্ধারণ করুন
আমি NAএকটি ডেটা ফ্রেম কলামে মানগুলির সংখ্যা গণনা করতে চাই । বলুন আমার ডেটা ফ্রেমটি কল করা হয়েছে dfএবং আমি যে কলামটির কথা বিবেচনা করছি তার নাম col। আমি যেভাবে সামনে এসেছি তা নিম্নলিখিত: sapply(df$col, function(x) sum(length(which(is.na(x))))) এটি করার জন্য এটি কি ভাল / সবচেয়ে কার্যকর উপায়?
142 r  dataframe 

8
পান্ডাস ডেটা ফ্রেম সূচকের নাম পরিবর্তন করুন
ডেটটাইম সূচক সহ আমি শিরোনাম ছাড়াই একটি সিএসভি ফাইল করেছি। আমি সূচি এবং কলামের নাম পরিবর্তন করতে চাই, তবে df.rename () দিয়ে কেবল কলামের নামই পুনরায় নামকরণ করা হবে। বাগ? আমি সংস্করণ 0.12.0 এ আছি In [2]: df = pd.read_csv(r'D:\Data\DataTimeSeries_csv//seriesSM.csv', header=None, parse_dates=[[0]], index_col=[0] ) In [3]: df.head() Out[3]: 1 0 …
142 python  pandas  dataframe 

9
প্যানডাস ডেটাফ্রেমে পূর্বের মানগুলি দিয়ে NaN গুলি কীভাবে প্রতিস্থাপন করবেন?
ধরুন আমার কাছে কিছু NaNএস সহ একটি ডেটা ফ্রেম রয়েছে : >>> import pandas as pd >>> df = pd.DataFrame([[1, 2, 3], [4, None, None], [None, None, 9]]) >>> df 0 1 2 0 1 2 3 1 4 NaN NaN 2 NaN NaN 9 আমাকে যা করতে হবে তা …

3
কীভাবে আর-তে একটি ডেটা.ফ্রেম সংরক্ষণ করবেন?
আমি আর-তে একটি ডেটা ফ্রেম তৈরি করেছি যা খুব বড় নয়, তবে এটি তৈরি করতে বেশ কিছুটা সময় লাগে। আমি এটি একটি ফাইল হিসাবে সংরক্ষণ করতে চাই, যা আমি আর এর চেয়ে আবার খুলতে পারি?
137 r  dataframe 

2
কিভাবে একটি স্পার্ক ডেটাফ্রেমে একটি ধ্রুবক কলাম যুক্ত করবেন?
আমি DataFrameকিছু স্বেচ্ছাচারিত মান সহ একটি কলাম যুক্ত করতে চাই (এটি প্রতিটি সারির জন্য একই)। আমি withColumnনিম্নলিখিত হিসাবে ব্যবহার করার সময় একটি ত্রুটি পাই : dt.withColumn('new_column', 10).head(5) --------------------------------------------------------------------------- AttributeError Traceback (most recent call last) <ipython-input-50-a6d0257ca2be> in <module>() 1 dt = (messages 2 .select(messages.fromuserid, messages.messagetype, floor(messages.datetime/(1000*60*5)).alias("dt"))) ----> 3 dt.withColumn('new_column', 10).head(5) /Users/evanzamir/spark-1.4.1/python/pyspark/sql/dataframe.pyc …

7
যার নামটিতে একটি নির্দিষ্ট স্ট্রিং রয়েছে তার কলাম সন্ধান করুন
কলামের নাম সহ আমার একটি ডেটাফ্রেম রয়েছে এবং আমি একটি নির্দিষ্ট স্ট্রিং রয়েছে এমন একটিটি খুঁজতে চাই, তবে এটির সাথে ঠিক মেলে না। আমি অনুসন্ধান করছি 'spike'কলাম নামে পছন্দ মধ্যে 'spike-2', 'hey spike', 'spiked-in'( 'spike'অংশ সবসময় ক্রমাগত যায়)। আমি কলামের নামটি স্ট্রিং বা একটি ভেরিয়েবল হিসাবে ফিরে আসতে চাই, তাই …

5
পান্ডস ডাটাফ্রেমে প্রতিটি গ্রুপের প্রথম সারি পাওয়া যায়
আমার DataFrameনীচের মতো পান্ডা আছে । df = pd.DataFrame({'id' : [1,1,1,2,2,3,3,3,3,4,4,5,6,6,6,7,7], 'value' : ["first","second","second","first", "second","first","third","fourth", "fifth","second","fifth","first", "first","second","third","fourth","fifth"]}) আমি এটিকে ["আইডি", "মান"] দ্বারা গ্রুপ করতে এবং প্রতিটি গোষ্ঠীর প্রথম সারিটি পেতে চাই। id value 0 1 first 1 1 second 2 1 second 3 2 first 4 2 second 5 3 …
137 python  pandas  dataframe 

6
স্ক্যান্ডার্ন দিয়ে প্যান্ডাস ডেটা ফ্রেম কলামগুলি স্কেলিং
আমার কাছে মিশ্র প্রকারের কলামগুলির সাথে একটি পান্ডাস ডেটা ফ্রেম রয়েছে এবং আমি কিছু কলামে স্ক্লার্ন এর মিনি_ম্যাক্স_স্কেলার প্রয়োগ করতে চাই। আদর্শভাবে, আমি এই জায়গায় রূপান্তরগুলি করতে চাই, তবে এখনও এটি করার কোনও উপায় খুঁজে পাইনি। আমি নিম্নলিখিত কোড লিখেছি যা কাজ করে: import pandas as pd import numpy as …

4
দুটি পান্ডাস ডেটাফ্রেম কলামের অভিধান তৈরি করার সর্বাধিক দক্ষ উপায় কোনটি?
নিম্নলিখিত পান্ডাস ডেটাফ্রেমকে সংগঠিত করার সবচেয়ে কার্যকরী উপায় কী: ডেটা = Position Letter 1 a 2 b 3 c 4 d 5 e মত অভিধানে alphabet[1 : 'a', 2 : 'b', 3 : 'c', 4 : 'd', 5 : 'e']?

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.