আর ব্যবহার করার সময় এটি ব্যবহার করে "অনুশীলন" ডেটাসেটগুলি লোড করা সহজ
data(iris)
বা
data(mtcars)
পান্ডাদের জন্যও কি তেমন কিছু আছে? আমি জানি যে আমি অন্য কোনও পদ্ধতি ব্যবহার করে লোড করতে পারি, কিছু অন্তর্নির্মিত আছে কিনা তা জানতে আগ্রহী।
আর ব্যবহার করার সময় এটি ব্যবহার করে "অনুশীলন" ডেটাসেটগুলি লোড করা সহজ
data(iris)
বা
data(mtcars)
পান্ডাদের জন্যও কি তেমন কিছু আছে? আমি জানি যে আমি অন্য কোনও পদ্ধতি ব্যবহার করে লোড করতে পারি, কিছু অন্তর্নির্মিত আছে কিনা তা জানতে আগ্রহী।
উত্তর:
যেহেতু আমি মূলত এই উত্তরটি লিখেছি তাই আমি পাইথনের নমুনা ডেটা সেটগুলিতে অ্যাক্সেসের জন্য এখন উপলভ্য বহু উপায়ে এটি আপডেট করেছি। ব্যক্তিগতভাবে, আমি ইতিমধ্যে যে প্যাকেজটি ব্যবহার করছি (সাধারণত সমুদ্র সৈকত বা পান্ডাস) ব্যবহার করি as আপনার যদি অফলাইন অ্যাক্সেসের প্রয়োজন হয় তবে কোয়েল্টের সাথে ডেটা সেট ডেটা ইনস্টল করা একমাত্র বিকল্প বলে মনে হচ্ছে।
উজ্জ্বল প্লট করা প্যাকেজটিতে seaborn
বেশ কয়েকটি অন্তর্নির্মিত নমুনা ডেটা সেট রয়েছে।
import seaborn as sns
iris = sns.load_dataset('iris')
iris.head()
sepal_length sepal_width petal_length petal_width species
0 5.1 3.5 1.4 0.2 setosa
1 4.9 3.0 1.4 0.2 setosa
2 4.7 3.2 1.3 0.2 setosa
3 4.6 3.1 1.5 0.2 setosa
4 5.0 3.6 1.4 0.2 setosa
আপনি যদি আমদানি করতে না চান seaborn
তবে তার নমুনা ডেটা সেটগুলি অ্যাক্সেস করতে চান তবে আপনি সমুদ্রের নমুনা ডেটার জন্য @ andrewwowens এর পদ্ধতির ব্যবহার করতে পারেন:
iris = pd.read_csv('https://raw.githubusercontent.com/mwaskom/seaborn-data/master/iris.csv')
নোট করুন যে বিভাগযুক্ত কলামগুলিতে থাকা স্যাম্পল ডেটা সেটগুলিতে তাদের কলামের ধরণটি সংশোধন করেছেsns.load_dataset()
এবং সরাসরি ইউআরএল থেকে পেয়ে ফলাফল একই রকম নাও হতে পারে। আইরিস এবং টিপসের নমুনা ডেটা সেটগুলি পান্ডাস গিথুব রেপোতেও এখানে পাওয়া যায় ।
যেহেতু যে কোনও ডেটাসেটের মাধ্যমে পড়া যায় pd.read_csv()
, এই আর ডেটা সেট সংগ্রহস্থল থেকে URL টি অনুলিপি করে সমস্ত আর এর নমুনা ডেটা সেট অ্যাক্সেস করা সম্ভব ।
আর নমুনা ডেটা সেট লোড করার অতিরিক্ত উপায় অন্তর্ভুক্ত
statsmodel
import statsmodels.api as sm
iris = sm.datasets.get_rdataset('iris').data
এবং PyDataset
from pydataset import data
iris = data('iris')
scikit-learn
পান্ডাস ডেটা ফ্রেমের পরিবর্তে নমুনা ডেটা নমপি অ্যারে হিসাবে ফিরিয়ে দেয়।
from sklearn.datasets import load_iris
iris = load_iris()
# `iris.data` holds the numerical values
# `iris.feature_names` holds the numerical column names
# `iris.target` holds the categorical (species) values (as ints)
# `iris.target_names` holds the unique categorical names
কুইল্ট হ'ল ডেটাসেট ম্যানেজার যা ডেটাসেট পরিচালনার সুবিধার্থে তৈরি হয়েছিল। এটিতে অনেকগুলি সাধারণ নমুনা ডেটাসেট অন্তর্ভুক্ত রয়েছে যেমন uciml নমুনা সংগ্রহস্থল থেকে প্রাপ্ত কয়েকটি । দ্রুত প্রারম্ভিক পৃষ্ঠা শো ইনস্টল এবং Iris ডেটা সেট আমদানি করতে দেয়:
# In your terminal
$ pip install quilt
$ quilt install uciml/iris
কোনও ডেটাসেট ইনস্টল করার পরে, এটি স্থানীয়ভাবে অ্যাক্সেসযোগ্য, তাই আপনি অফলাইনে ডেটা নিয়ে কাজ করতে চাইলে এটি সেরা বিকল্প।
import quilt.data.uciml.iris as ir
iris = ir.tables.iris()
sepal_length sepal_width petal_length petal_width class
0 5.1 3.5 1.4 0.2 Iris-setosa
1 4.9 3.0 1.4 0.2 Iris-setosa
2 4.7 3.2 1.3 0.2 Iris-setosa
3 4.6 3.1 1.5 0.2 Iris-setosa
4 5.0 3.6 1.4 0.2 Iris-setosa
কুইল্ট ডেটাসেট সংস্করণকেও সমর্থন করে এবং প্রতিটি ডেটাসেটের একটি সংক্ষিপ্ত বিবরণ অন্তর্ভুক্ত করে ।
rpy2
মডিউল এই জন্য তৈরি করা হয়:
from rpy2.robjects import r, pandas2ri
pandas2ri.activate()
r['iris'].head()
উৎপাদনের
Sepal.Length Sepal.Width Petal.Length Petal.Width Species
1 5.1 3.5 1.4 0.2 setosa
2 4.9 3.0 1.4 0.2 setosa
3 4.7 3.2 1.3 0.2 setosa
4 4.6 3.1 1.5 0.2 setosa
5 5.0 3.6 1.4 0.2 setosa
পান্ডাস 0.19 অবধি আপনি পান্ডার নিজস্ব rpy
ইন্টারফেস ব্যবহার করতে পারেন :
import pandas.rpy.common as rcom
iris = rcom.load_data('iris')
print(iris.head())
উৎপাদনের
Sepal.Length Sepal.Width Petal.Length Petal.Width Species
1 5.1 3.5 1.4 0.2 setosa
2 4.9 3.0 1.4 0.2 setosa
3 4.7 3.2 1.3 0.2 setosa
4 4.6 3.1 1.5 0.2 setosa
5 5.0 3.6 1.4 0.2 setosa
rpy2
পাইথন অবজেক্টগুলিতে বস্তু রূপান্তরR
করার একটি উপায়ও সরবরাহ করে :
import pandas as pd
import rpy2.robjects as ro
import rpy2.robjects.conversion as conversion
from rpy2.robjects import pandas2ri
pandas2ri.activate()
R = ro.r
df = conversion.ri2py(R['mtcars'])
print(df.head())
উৎপাদনের
mpg cyl disp hp drat wt qsec vs am gear carb
0 21.0 6 160 110 3.90 2.620 16.46 0 1 4 4
1 21.0 6 160 110 3.90 2.875 17.02 0 1 4 4
2 22.8 4 108 93 3.85 2.320 18.61 1 1 4 1
3 21.4 6 258 110 3.08 3.215 19.44 1 0 3 1
4 18.7 8 360 175 3.15 3.440 17.02 0 0 3 2
rcom.load_data('iris')
?
যেকোন প্রকাশ্যে উপলভ্য .csv ফাইলটি তার ইউআরএল ব্যবহার করে খুব দ্রুত পান্ডায় লোড করা যায়। মূলত ইউসিআই সংরক্ষণাগার থেকে আইরিস ডেটাसेट ব্যবহার করে এখানে একটি উদাহরণ দেওয়া আছে।
import pandas as pd
file_name = "https://raw.githubusercontent.com/uiuc-cse/data-fa14/gh-pages/data/iris.csv"
df = pd.read_csv(file_name)
df.head()
আপনি কেবলমাত্র প্রদত্ত ইউআরএল থেকে লোড করেছেন .csv ফাইল শিরোলেখ হিসাবে এখানে আউটপুট।
>>> df.head()
sepal_length sepal_width petal_length petal_width species
0 5.1 3.5 1.4 0.2 setosa
1 4.9 3.0 1.4 0.2 setosa
2 4.7 3.2 1.3 0.2 setosa
3 4.6 3.1 1.5 0.2 setosa
4 5.0 3.6 1.4 0.2 setosa
এর জন্য একটি স্মরণীয় সংক্ষিপ্ত ইউআরএল https://j.mp/iriscsv
। এই সংক্ষিপ্ত ইউআরএলটি কেবল টাইপ করা থাকলে এবং এটি অনুলিপি-পেস্ট করা না হলে কাজ করবে।
iris.names
ডেটাফ্রেমে পরীক্ষিত বিল্টিন পান্ডাস খুব সুবিধাজনক।
MakeMixedDataFrame ():
In [22]: import pandas as pd
In [23]: pd.util.testing.makeMixedDataFrame()
Out[23]:
A B C D
0 0.0 0.0 foo1 2009-01-01
1 1.0 1.0 foo2 2009-01-02
2 2.0 0.0 foo3 2009-01-05
3 3.0 1.0 foo4 2009-01-06
4 4.0 0.0 foo5 2009-01-07
অন্যান্য পরীক্ষার ডেটাফ্রেম বিকল্পসমূহ :
MakeDataFrame ():
In [24]: pd.util.testing.makeDataFrame().head()
Out[24]:
A B C D
acKoIvMLwE 0.121895 -0.781388 0.416125 -0.105779
jc6UQeOO1K -0.542400 2.210908 -0.536521 -1.316355
GlzjJESv7a 0.921131 -0.927859 0.995377 0.005149
CMhwowHXdW 1.724349 0.604531 -1.453514 -0.289416
ATr2ww0ctj 0.156038 0.597015 0.977537 -1.498532
MakeMissingDataframe () :
In [27]: pd.util.testing.makeMissingDataframe().head()
Out[27]:
A B C D
qyXLpmp1Zg -1.034246 1.050093 NaN NaN
v7eFDnbQko 0.581576 1.334046 -0.576104 -0.579940
fGiibeTEjx -1.166468 -1.146750 -0.711950 -0.205822
Q8ETSRa6uY 0.461845 -2.112087 0.167380 -0.466719
7XBSChaOyL -1.159962 -1.079996 1.585406 -1.411159
MakeTimeDataFrame () :
In [28]: pd.util.testing.makeTimeDataFrame().head()
Out[28]:
A B C D
2000-01-03 -0.641226 0.912964 0.308781 0.551329
2000-01-04 0.364452 -0.722959 0.322865 0.426233
2000-01-05 1.042171 0.005285 0.156562 0.978620
2000-01-06 0.749606 -0.128987 -0.312927 0.481170
2000-01-07 0.945844 -0.854273 0.935350 1.165401