পান্ডায় নমুনা ডেটাসেট


92

আর ব্যবহার করার সময় এটি ব্যবহার করে "অনুশীলন" ডেটাসেটগুলি লোড করা সহজ

data(iris)

বা

data(mtcars)

পান্ডাদের জন্যও কি তেমন কিছু আছে? আমি জানি যে আমি অন্য কোনও পদ্ধতি ব্যবহার করে লোড করতে পারি, কিছু অন্তর্নির্মিত আছে কিনা তা জানতে আগ্রহী।


উত্তর:


112

যেহেতু আমি মূলত এই উত্তরটি লিখেছি তাই আমি পাইথনের নমুনা ডেটা সেটগুলিতে অ্যাক্সেসের জন্য এখন উপলভ্য বহু উপায়ে এটি আপডেট করেছি। ব্যক্তিগতভাবে, আমি ইতিমধ্যে যে প্যাকেজটি ব্যবহার করছি (সাধারণত সমুদ্র সৈকত বা পান্ডাস) ব্যবহার করি as আপনার যদি অফলাইন অ্যাক্সেসের প্রয়োজন হয় তবে কোয়েল্টের সাথে ডেটা সেট ডেটা ইনস্টল করা একমাত্র বিকল্প বলে মনে হচ্ছে।

সমুদ্রযুক্ত

উজ্জ্বল প্লট করা প্যাকেজটিতে seabornবেশ কয়েকটি অন্তর্নির্মিত নমুনা ডেটা সেট রয়েছে।

import seaborn as sns

iris = sns.load_dataset('iris')
iris.head()
   sepal_length  sepal_width  petal_length  petal_width species
0           5.1          3.5           1.4          0.2  setosa
1           4.9          3.0           1.4          0.2  setosa
2           4.7          3.2           1.3          0.2  setosa
3           4.6          3.1           1.5          0.2  setosa
4           5.0          3.6           1.4          0.2  setosa

পান্ডা

আপনি যদি আমদানি করতে না চান seabornতবে তার নমুনা ডেটা সেটগুলি অ্যাক্সেস করতে চান তবে আপনি সমুদ্রের নমুনা ডেটার জন্য @ andrewwowens এর পদ্ধতির ব্যবহার করতে পারেন:

iris = pd.read_csv('https://raw.githubusercontent.com/mwaskom/seaborn-data/master/iris.csv')

নোট করুন যে বিভাগযুক্ত কলামগুলিতে থাকা স্যাম্পল ডেটা সেটগুলিতে তাদের কলামের ধরণটি সংশোধন করেছেsns.load_dataset() এবং সরাসরি ইউআরএল থেকে পেয়ে ফলাফল একই রকম নাও হতে পারে। আইরিস এবং টিপসের নমুনা ডেটা সেটগুলি পান্ডাস গিথুব রেপোতেও এখানে পাওয়া যায়

নমুনা ডেটাসেট

যেহেতু যে কোনও ডেটাসেটের মাধ্যমে পড়া যায় pd.read_csv(), এই আর ডেটা সেট সংগ্রহস্থল থেকে URL টি অনুলিপি করে সমস্ত আর এর নমুনা ডেটা সেট অ্যাক্সেস করা সম্ভব ।

আর নমুনা ডেটা সেট লোড করার অতিরিক্ত উপায় অন্তর্ভুক্ত statsmodel

import statsmodels.api as sm

iris = sm.datasets.get_rdataset('iris').data

এবং PyDataset

from pydataset import data

iris = data('iris')

সাইকিট-শিখুন

scikit-learn পান্ডাস ডেটা ফ্রেমের পরিবর্তে নমুনা ডেটা নমপি অ্যারে হিসাবে ফিরিয়ে দেয়।

from sklearn.datasets import load_iris

iris = load_iris()
# `iris.data` holds the numerical values
# `iris.feature_names` holds the numerical column names
# `iris.target` holds the categorical (species) values (as ints)
# `iris.target_names` holds the unique categorical names

কুইল্ট

কুইল্ট হ'ল ডেটাসেট ম্যানেজার যা ডেটাসেট পরিচালনার সুবিধার্থে তৈরি হয়েছিল। এটিতে অনেকগুলি সাধারণ নমুনা ডেটাসেট অন্তর্ভুক্ত রয়েছে যেমন uciml নমুনা সংগ্রহস্থল থেকে প্রাপ্ত কয়েকটিদ্রুত প্রারম্ভিক পৃষ্ঠা শো ইনস্টল এবং Iris ডেটা সেট আমদানি করতে দেয়:

# In your terminal
$ pip install quilt
$ quilt install uciml/iris

কোনও ডেটাসেট ইনস্টল করার পরে, এটি স্থানীয়ভাবে অ্যাক্সেসযোগ্য, তাই আপনি অফলাইনে ডেটা নিয়ে কাজ করতে চাইলে এটি সেরা বিকল্প।

import quilt.data.uciml.iris as ir

iris = ir.tables.iris()
   sepal_length  sepal_width  petal_length  petal_width        class
0           5.1          3.5           1.4          0.2  Iris-setosa
1           4.9          3.0           1.4          0.2  Iris-setosa
2           4.7          3.2           1.3          0.2  Iris-setosa
3           4.6          3.1           1.5          0.2  Iris-setosa
4           5.0          3.6           1.4          0.2  Iris-setosa

কুইল্ট ডেটাসেট সংস্করণকেও সমর্থন করে এবং প্রতিটি ডেটাসেটের একটি সংক্ষিপ্ত বিবরণ অন্তর্ভুক্ত করে ।


10
উত্তরটি কেবলমাত্র না হওয়া উচিত, প্যান্ডাসের সাহায্যে লোড করা যায় এমন কোনও "অনুশীলন" ডেটাসেট নেই।
গিয়াকোমো

15

rpy2মডিউল এই জন্য তৈরি করা হয়:

from rpy2.robjects import r, pandas2ri
pandas2ri.activate()

r['iris'].head()

উৎপাদনের

   Sepal.Length  Sepal.Width  Petal.Length  Petal.Width Species
1           5.1          3.5           1.4          0.2  setosa
2           4.9          3.0           1.4          0.2  setosa
3           4.7          3.2           1.3          0.2  setosa
4           4.6          3.1           1.5          0.2  setosa
5           5.0          3.6           1.4          0.2  setosa

পান্ডাস 0.19 অবধি আপনি পান্ডার নিজস্ব rpyইন্টারফেস ব্যবহার করতে পারেন :

import pandas.rpy.common as rcom
iris = rcom.load_data('iris')
print(iris.head())

উৎপাদনের

   Sepal.Length  Sepal.Width  Petal.Length  Petal.Width Species
1           5.1          3.5           1.4          0.2  setosa
2           4.9          3.0           1.4          0.2  setosa
3           4.7          3.2           1.3          0.2  setosa
4           4.6          3.1           1.5          0.2  setosa
5           5.0          3.6           1.4          0.2  setosa

rpy2পাইথন অবজেক্টগুলিতে বস্তু রূপান্তরR করার একটি উপায়ও সরবরাহ করে :

import pandas as pd
import rpy2.robjects as ro
import rpy2.robjects.conversion as conversion
from rpy2.robjects import pandas2ri
pandas2ri.activate()

R = ro.r

df = conversion.ri2py(R['mtcars'])
print(df.head())

উৎপাদনের

    mpg  cyl  disp   hp  drat     wt   qsec  vs  am  gear  carb
0  21.0    6   160  110  3.90  2.620  16.46   0   1     4     4
1  21.0    6   160  110  3.90  2.875  17.02   0   1     4     4
2  22.8    4   108   93  3.85  2.320  18.61   1   1     4     1
3  21.4    6   258  110  3.08  3.215  19.44   1   0     3     1
4  18.7    8   360  175  3.15  3.440  17.02   0   0     3     2

4
পরামর্শের জন্য ধন্যবাদ। আমি এটি করছিলাম কিন্তু এটি "স্বাচ্ছন্দ্য" লঙ্ঘন করে যে ডেটা আরে পাওয়া যায় It এটি এমন একটি সমাধান যা এটি সম্পন্ন করে!
canyon289

4
এইচএম? কি সম্পর্কে এত কঠিন rcom.load_data('iris')?
unutbu

সম্ভবত কিছুই না, আমি বুঝতে পারি আমি খুব পিক হতে পারি। আমি উত্তর প্রশংসা করি!
canyon289

4
লক্ষ্য করুন pandas.rpyহয়েছিল 0.20 সরানো । আর এর সাথে ইন্টারফেস করার rpy2জন্য প্রস্তাবিত বিকল্প।
joelostblom

13

যেকোন প্রকাশ্যে উপলভ্য .csv ফাইলটি তার ইউআরএল ব্যবহার করে খুব দ্রুত পান্ডায় লোড করা যায়। মূলত ইউসিআই সংরক্ষণাগার থেকে আইরিস ডেটাसेट ব্যবহার করে এখানে একটি উদাহরণ দেওয়া আছে।

import pandas as pd

file_name = "https://raw.githubusercontent.com/uiuc-cse/data-fa14/gh-pages/data/iris.csv"
df = pd.read_csv(file_name)
df.head()

আপনি কেবলমাত্র প্রদত্ত ইউআরএল থেকে লোড করেছেন .csv ফাইল শিরোলেখ হিসাবে এখানে আউটপুট।

>>> df.head()
   sepal_length  sepal_width  petal_length  petal_width species
0           5.1          3.5           1.4          0.2  setosa
1           4.9          3.0           1.4          0.2  setosa
2           4.7          3.2           1.3          0.2  setosa
3           4.6          3.1           1.5          0.2  setosa
4           5.0          3.6           1.4          0.2  setosa

এর জন্য একটি স্মরণীয় সংক্ষিপ্ত ইউআরএল https://j​.mp/iriscsv। এই সংক্ষিপ্ত ইউআরএলটি কেবল টাইপ করা থাকলে এবং এটি অনুলিপি-পেস্ট করা না হলে কাজ করবে।


ওয়েবসাইটটি নিচে নেই। বিবরণ জন্য আর্কাইভ.িক.ইকি.ইডুiris.names
এমএল

0

ডেটাফ্রেমে পরীক্ষিত বিল্টিন পান্ডাস খুব সুবিধাজনক।

MakeMixedDataFrame ():

In [22]: import pandas as pd

In [23]: pd.util.testing.makeMixedDataFrame()
Out[23]:
     A    B     C          D
0  0.0  0.0  foo1 2009-01-01
1  1.0  1.0  foo2 2009-01-02
2  2.0  0.0  foo3 2009-01-05
3  3.0  1.0  foo4 2009-01-06
4  4.0  0.0  foo5 2009-01-07

অন্যান্য পরীক্ষার ডেটাফ্রেম বিকল্পসমূহ :

MakeDataFrame ():

In [24]: pd.util.testing.makeDataFrame().head()
Out[24]:
                   A         B         C         D
acKoIvMLwE  0.121895 -0.781388  0.416125 -0.105779
jc6UQeOO1K -0.542400  2.210908 -0.536521 -1.316355
GlzjJESv7a  0.921131 -0.927859  0.995377  0.005149
CMhwowHXdW  1.724349  0.604531 -1.453514 -0.289416
ATr2ww0ctj  0.156038  0.597015  0.977537 -1.498532

MakeMissingDataframe () :

In [27]: pd.util.testing.makeMissingDataframe().head()
Out[27]:
                   A         B         C         D
qyXLpmp1Zg -1.034246  1.050093       NaN       NaN
v7eFDnbQko  0.581576  1.334046 -0.576104 -0.579940
fGiibeTEjx -1.166468 -1.146750 -0.711950 -0.205822
Q8ETSRa6uY  0.461845 -2.112087  0.167380 -0.466719
7XBSChaOyL -1.159962 -1.079996  1.585406 -1.411159

MakeTimeDataFrame () :

In [28]: pd.util.testing.makeTimeDataFrame().head()
Out[28]:
                   A         B         C         D
2000-01-03 -0.641226  0.912964  0.308781  0.551329
2000-01-04  0.364452 -0.722959  0.322865  0.426233
2000-01-05  1.042171  0.005285  0.156562  0.978620
2000-01-06  0.749606 -0.128987 -0.312927  0.481170
2000-01-07  0.945844 -0.854273  0.935350  1.165401
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.