তালিকাগুলির পান্ডা কলাম, প্রতিটি তালিকার উপাদানগুলির জন্য একটি সারি তৈরি করুন


163

আমার একটি ডেটাফ্রেম রয়েছে যেখানে কয়েকটি ঘরে একাধিক মানের তালিকা থাকে। একটি কক্ষে একাধিক মান সংরক্ষণ করার পরিবর্তে, আমি ডেটাফ্রেমটি প্রসারিত করতে চাই যাতে তালিকার প্রতিটি আইটেম তার নিজস্ব সারি (অন্যান্য সমস্ত কলামে একই মান সহ) পায়। সুতরাং আমি যদি:

import pandas as pd
import numpy as np

df = pd.DataFrame(
    {'trial_num': [1, 2, 3, 1, 2, 3],
     'subject': [1, 1, 1, 2, 2, 2],
     'samples': [list(np.random.randn(3).round(2)) for i in range(6)]
    }
)

df
Out[10]: 
                 samples  subject  trial_num
0    [0.57, -0.83, 1.44]        1          1
1    [-0.01, 1.13, 0.36]        1          2
2   [1.18, -1.46, -0.94]        1          3
3  [-0.08, -4.22, -2.05]        2          1
4     [0.72, 0.79, 0.53]        2          2
5    [0.4, -0.32, -0.13]        2          3

আমি কীভাবে দীর্ঘ ফর্মে রূপান্তর করব, যেমন:

   subject  trial_num  sample  sample_num
0        1          1    0.57           0
1        1          1   -0.83           1
2        1          1    1.44           2
3        1          2   -0.01           0
4        1          2    1.13           1
5        1          2    0.36           2
6        1          3    1.18           0
# etc.

সূচকটি গুরুত্বপূর্ণ নয়, বিদ্যমান কলামগুলি সূচি হিসাবে সেট করা ঠিক আছে এবং চূড়ান্ত ক্রমটি গুরুত্বপূর্ণ নয়।


11
পান্ডাস 0.25 থেকে আপনি এটি df.explode('samples')সমাধান করতেও ব্যবহার করতে পারেন । explodeআপাতত কেবল একটি কলাম বিস্ফোরিত সমর্থন করতে পারে।
cs95

উত্তর:


48
lst_col = 'samples'

r = pd.DataFrame({
      col:np.repeat(df[col].values, df[lst_col].str.len())
      for col in df.columns.drop(lst_col)}
    ).assign(**{lst_col:np.concatenate(df[lst_col].values)})[df.columns]

ফলাফল:

In [103]: r
Out[103]:
    samples  subject  trial_num
0      0.10        1          1
1     -0.20        1          1
2      0.05        1          1
3      0.25        1          2
4      1.32        1          2
5     -0.17        1          2
6      0.64        1          3
7     -0.22        1          3
8     -0.71        1          3
9     -0.03        2          1
10    -0.65        2          1
11     0.76        2          1
12     1.77        2          2
13     0.89        2          2
14     0.65        2          2
15    -0.98        2          3
16     0.65        2          3
17    -0.30        2          3

PS এখানে আপনি কিছুটা সাধারণ সমাধান পেতে পারেন


আপডেট: কিছু ব্যাখ্যা: আইএমও এই কোডটি বোঝার সবচেয়ে সহজ উপায় হল এটি ধাপে ধাপে কার্যকর করার চেষ্টা করা:

নিম্নলিখিত লাইনে আমরা এক কলামে মানগুলি পুনরাবৃত্তি করছি Nযেখানে N- সম্পর্কিত তালিকার দৈর্ঘ্য:

In [10]: np.repeat(df['trial_num'].values, df[lst_col].str.len())
Out[10]: array([1, 1, 1, 2, 2, 2, 3, 3, 3, 1, 1, 1, 2, 2, 2, 3, 3, 3], dtype=int64)

এটি সমস্ত কলামের জন্য সাধারণকরণযোগ্য, স্কেলারের মানগুলি সহ:

In [11]: pd.DataFrame({
    ...:           col:np.repeat(df[col].values, df[lst_col].str.len())
    ...:           for col in df.columns.drop(lst_col)}
    ...:         )
Out[11]:
    trial_num  subject
0           1        1
1           1        1
2           1        1
3           2        1
4           2        1
5           2        1
6           3        1
..        ...      ...
11          1        2
12          2        2
13          2        2
14          2        2
15          3        2
16          3        2
17          3        2

[18 rows x 2 columns]

ব্যবহার করে np.concatenate()আমরা listকলামে সমস্ত মান সমতল করতে পারি ( samples) এবং একটি 1 ডি ভেক্টর পেতে পারি:

In [12]: np.concatenate(df[lst_col].values)
Out[12]: array([-1.04, -0.58, -1.32,  0.82, -0.59, -0.34,  0.25,  2.09,  0.12,  0.83, -0.88,  0.68,  0.55, -0.56,  0.65, -0.04,  0.36, -0.31])

এই সব একসাথে রাখা:

In [13]: pd.DataFrame({
    ...:           col:np.repeat(df[col].values, df[lst_col].str.len())
    ...:           for col in df.columns.drop(lst_col)}
    ...:         ).assign(**{lst_col:np.concatenate(df[lst_col].values)})
Out[13]:
    trial_num  subject  samples
0           1        1    -1.04
1           1        1    -0.58
2           1        1    -1.32
3           2        1     0.82
4           2        1    -0.59
5           2        1    -0.34
6           3        1     0.25
..        ...      ...      ...
11          1        2     0.68
12          2        2     0.55
13          2        2    -0.56
14          2        2     0.65
15          3        2    -0.04
16          3        2     0.36
17          3        2    -0.31

[18 rows x 3 columns]

ব্যবহার pd.DataFrame()[df.columns]গ্যারান্টি দিবে যে আমরা মূল ক্রমে কলামগুলি নির্বাচন করছি ...


3
এটি গ্রহণযোগ্য উত্তর হওয়া উচিত। বর্তমানে গৃহীত উত্তরটি এর তুলনায় অনেক ধীর।
আয়রিন

1
আমি কীভাবে এটি ঠিক করতে পারি তা বুঝতে পারি না: টাইপ এরির: 'নিরাপদ' নিয়ম অনুসারে dtype ('float64') থেকে dtype ('int64') এ অ্যারে ডেটা কাস্ট করা যায় না
গ্রেগ

1
স্ট্যাকগুলি অনুসন্ধানের পুরো ঘন্টা সময় পাওয়া 10+ এর মধ্যে এটিই আমার পক্ষে একমাত্র উত্তর। ধন্যবাদ ম্যাকসু 🙏
অলিস্টেমম্যান

1
দ্রষ্টব্য যে এটি সারিগুলিকে ড্রপ করে যার lst_colসম্পূর্ণ খালি তালিকা রয়েছে ; এই সারিগুলি রাখতে এবং সেগুলির lst_colসাথে জনবসতি স্থাপন np.nanকরতে, আপনি df[lst_col] = df[lst_col].apply(lambda x: x if len(x) > 0 else [np.nan])এই পদ্ধতিটি ব্যবহার করার আগে ঠিক করতে পারেন । স্পষ্টতই .maskতালিকাগুলি ফিরে আসবে না, তাই .apply
চার্লস ডেভিস

এটি একটি দুর্দান্ত উত্তর যা গ্রহণযোগ্য হওয়া উচিত। যদিও এটি একটি কালো-যাদু স্তরের জবাব, এবং আমি একের জন্য এই পদক্ষেপগুলি বাস্তবে কী করে তার জন্য কিছু ব্যাখ্যা প্রশংসা করব।
ifly6

129

আমার প্রত্যাশার চেয়ে কিছুটা দীর্ঘ:

>>> df
                samples  subject  trial_num
0  [-0.07, -2.9, -2.44]        1          1
1   [-1.52, -0.35, 0.1]        1          2
2  [-0.17, 0.57, -0.65]        1          3
3  [-0.82, -1.06, 0.47]        2          1
4   [0.79, 1.35, -0.09]        2          2
5   [1.17, 1.14, -1.79]        2          3
>>>
>>> s = df.apply(lambda x: pd.Series(x['samples']),axis=1).stack().reset_index(level=1, drop=True)
>>> s.name = 'sample'
>>>
>>> df.drop('samples', axis=1).join(s)
   subject  trial_num  sample
0        1          1   -0.07
0        1          1   -2.90
0        1          1   -2.44
1        1          2   -1.52
1        1          2   -0.35
1        1          2    0.10
2        1          3   -0.17
2        1          3    0.57
2        1          3   -0.65
3        2          1   -0.82
3        2          1   -1.06
3        2          1    0.47
4        2          2    0.79
4        2          2    1.35
4        2          2   -0.09
5        2          3    1.17
5        2          3    1.14
5        2          3   -1.79

আপনি যদি অনুক্রমিক সূচক চান তবে আপনি ফলাফলটিতে আবেদন করতে পারেন reset_index(drop=True)

আপডেট :

>>> res = df.set_index(['subject', 'trial_num'])['samples'].apply(pd.Series).stack()
>>> res = res.reset_index()
>>> res.columns = ['subject','trial_num','sample_num','sample']
>>> res
    subject  trial_num  sample_num  sample
0         1          1           0    1.89
1         1          1           1   -2.92
2         1          1           2    0.34
3         1          2           0    0.85
4         1          2           1    0.24
5         1          2           2    0.72
6         1          3           0   -0.96
7         1          3           1   -2.72
8         1          3           2   -0.11
9         2          1           0   -1.33
10        2          1           1    3.13
11        2          1           2   -0.65
12        2          2           0    0.10
13        2          2           1    0.65
14        2          2           2    0.15
15        2          3           0    0.64
16        2          3           1   -0.10
17        2          3           2   -0.76

ধন্যবাদ, প্রতিটি আইটেমকে তার নিজস্ব কলামে পাওয়ার জন্য আবেদন করার প্রথম ধাপটি একটি বিশাল সহায়তা। আমি এটি করতে কিছুটা ভিন্ন উপায়ে আসতে পেরেছি, তবে এরপরেও বেশ কয়েকটি ধাপ জড়িত রয়েছে। স্পষ্টতই পান্ডসে এটি করা সহজ নয়!
মারিয়াস

1
দুর্দান্ত উত্তর। আপনি প্রতিস্থাপন করে এটি একটি বিট খাটো করতে পারেন df.apply(lambda x: pd.Series(x['samples']),axis=1)সঙ্গে df.samples.apply(pd.Series)
ডেনিস গোলোমাজভ

1
পাঠকদের জন্য দ্রষ্টব্য: এটি পারফরম্যান্স সম্পর্কিত সমস্যার সাথে ভয়াবহভাবে ভুগছে। নমপি ব্যবহার করে আরও অনেক পারফরম্যান্ট সমাধানের জন্য এখানে দেখুন ।
cs95

2
যখন সারিগুলির স্যাম্পলগুলির সংখ্যা এক নয় তবে এর সমাধান কী?
সারাহদাটা

এখানেdf.explode() প্রদর্শিত হিসাবে @ সারাহাটাটা ব্যবহার করুন।
cs95

63

পান্ডাস> = 0.25

সিরিজ এবং ডেটাফ্রেম পদ্ধতিগুলি এমন একটি .explode()পদ্ধতি নির্ধারণ করে যা পৃথক সারিগুলিতে তালিকা বিস্ফোরিত করে। তালিকার মতো কলামটি বিস্ফোরণে ডক্স বিভাগটি দেখুন ।

df = pd.DataFrame({
    'var1': [['a', 'b', 'c'], ['d', 'e',], [], np.nan], 
    'var2': [1, 2, 3, 4]
})
df
        var1  var2
0  [a, b, c]     1
1     [d, e]     2
2         []     3
3        NaN     4

df.explode('var1')

  var1  var2
0    a     1
0    b     1
0    c     1
1    d     2
1    e     2
2  NaN     3  # empty list converted to NaN
3  NaN     4  # NaN entry preserved as-is

# to reset the index to be monotonically increasing...
df.explode('var1').reset_index(drop=True)

  var1  var2
0    a     1
1    b     1
2    c     1
3    d     2
4    e     2
5  NaN     3
6  NaN     4

নোট করুন যে এটি তালিকা এবং স্কেলারের মিশ্র কলামগুলি, পাশাপাশি খালি তালিকা এবং NaN যথাযথভাবে পরিচালনা করে (এটি repeatভিত্তিক সমাধানগুলির একটি অপূর্ণতা )।

তবে, আপনার অবশ্যই লক্ষ্য করা উচিত যে explodeকেবলমাত্র একটি একক কলামে (আপাতত) কাজ করে।

পিএস: আপনি যদি স্ট্রিংগুলির একটি কলামটি বিস্ফোরণ করতে চান তবে আপনার প্রথমে বিভাজকের উপর বিভক্ত হওয়া দরকার, তারপরে ব্যবহার করুন explode। আমার এই (খুব) সম্পর্কিত উত্তর দেখুন।


8
অবশেষে, পান্ডাদের জন্য একটি বিস্ফোরণ ()!
কাই

2
পরিশেষে! Mindblown! উপরের @ ম্যাক্সইউর দুর্দান্ত উত্তর কিন্তু এটি বিষয়গুলিকে আরও সরল করে তুলেছে।
আসক্ত

12

আপনি এটি ব্যবহার করতে পারেন pd.concatএবং এর pd.meltজন্য:

>>> objs = [df, pd.DataFrame(df['samples'].tolist())]
>>> pd.concat(objs, axis=1).drop('samples', axis=1)
   subject  trial_num     0     1     2
0        1          1 -0.49 -1.00  0.44
1        1          2 -0.28  1.48  2.01
2        1          3 -0.52 -1.84  0.02
3        2          1  1.23 -1.36 -1.06
4        2          2  0.54  0.18  0.51
5        2          3 -2.18 -0.13 -1.35
>>> pd.melt(_, var_name='sample_num', value_name='sample', 
...         value_vars=[0, 1, 2], id_vars=['subject', 'trial_num'])
    subject  trial_num sample_num  sample
0         1          1          0   -0.49
1         1          2          0   -0.28
2         1          3          0   -0.52
3         2          1          0    1.23
4         2          2          0    0.54
5         2          3          0   -2.18
6         1          1          1   -1.00
7         1          2          1    1.48
8         1          3          1   -1.84
9         2          1          1   -1.36
10        2          2          1    0.18
11        2          3          1   -0.13
12        1          1          2    0.44
13        1          2          2    2.01
14        1          3          2    0.02
15        2          1          2   -1.06
16        2          2          2    0.51
17        2          3          2   -1.35

শেষ, আপনার যদি প্রয়োজন হয় তবে প্রথম তিনটি কলামের ভিত্তিতে বাছাই করতে পারেন।


1
তালিকার দৈর্ঘ্য কত হবে এবং / অথবা যদি সেগুলির একই দৈর্ঘ্য থাকে তবে আপনি যদি কোনও অগ্রিম জানেন তবে এটি কেবলমাত্র কাজ করে?
চিল

9

এটিকে আরও ভাল করে বোঝার জন্য রোমান পেকারের সমাধানের ধাপে ধাপে কাজ করার চেষ্টা করে আমি আমার নিজস্ব সমাধান নিয়ে এসেছি, যা meltকিছু বিভ্রান্তিকর স্ট্যাকিং এবং সূচক পুনরায় সেট করা এড়াতে ব্যবহার করে। আমি বলতে পারি না এটি স্পষ্টতই একটি পরিষ্কার সমাধান যদিও:

items_as_cols = df.apply(lambda x: pd.Series(x['samples']), axis=1)
# Keep original df index as a column so it's retained after melt
items_as_cols['orig_index'] = items_as_cols.index

melted_items = pd.melt(items_as_cols, id_vars='orig_index', 
                       var_name='sample_num', value_name='sample')
melted_items.set_index('orig_index', inplace=True)

df.merge(melted_items, left_index=True, right_index=True)

আউটপুট (স্পষ্টতই আমরা এখন আসল নমুনা কলামটি ড্রপ করতে পারি):

                 samples  subject  trial_num sample_num  sample
0    [1.84, 1.05, -0.66]        1          1          0    1.84
0    [1.84, 1.05, -0.66]        1          1          1    1.05
0    [1.84, 1.05, -0.66]        1          1          2   -0.66
1    [-0.24, -0.9, 0.65]        1          2          0   -0.24
1    [-0.24, -0.9, 0.65]        1          2          1   -0.90
1    [-0.24, -0.9, 0.65]        1          2          2    0.65
2    [1.15, -0.87, -1.1]        1          3          0    1.15
2    [1.15, -0.87, -1.1]        1          3          1   -0.87
2    [1.15, -0.87, -1.1]        1          3          2   -1.10
3   [-0.8, -0.62, -0.68]        2          1          0   -0.80
3   [-0.8, -0.62, -0.68]        2          1          1   -0.62
3   [-0.8, -0.62, -0.68]        2          1          2   -0.68
4    [0.91, -0.47, 1.43]        2          2          0    0.91
4    [0.91, -0.47, 1.43]        2          2          1   -0.47
4    [0.91, -0.47, 1.43]        2          2          2    1.43
5  [-1.14, -0.24, -0.91]        2          3          0   -1.14
5  [-1.14, -0.24, -0.91]        2          3          1   -0.24
5  [-1.14, -0.24, -0.91]        2          3          2   -0.91

6

যারা রোমান পেকারের উত্তরের এমন সংস্করণ সন্ধান করছেন যা ম্যানুয়াল কলামের নামকরণ এড়ায়:

column_to_explode = 'samples'
res = (df
       .set_index([x for x in df.columns if x != column_to_explode])[column_to_explode]
       .apply(pd.Series)
       .stack()
       .reset_index())
res = res.rename(columns={
          res.columns[-2]:'exploded_{}_index'.format(column_to_explode),
          res.columns[-1]: '{}_exploded'.format(column_to_explode)})

4

আমি খুঁজে পেয়েছি সবচেয়ে সহজ উপায় ছিল:

  1. samplesকলামটিকে ডেটা ফ্রেমে রূপান্তর করুন
  2. আসল ডিএফের সাথে যোগদান করা
  3. দ্রবণ

এখানে দেখানো হয়েছে:

    df.samples.apply(lambda x: pd.Series(x)).join(df).\
melt(['subject','trial_num'],[0,1,2],var_name='sample')

        subject  trial_num sample  value
    0         1          1      0  -0.24
    1         1          2      0   0.14
    2         1          3      0  -0.67
    3         2          1      0  -1.52
    4         2          2      0  -0.00
    5         2          3      0  -1.73
    6         1          1      1  -0.70
    7         1          2      1  -0.70
    8         1          3      1  -0.29
    9         2          1      1  -0.70
    10        2          2      1  -0.72
    11        2          3      1   1.30
    12        1          1      2  -0.55
    13        1          2      2   0.10
    14        1          3      2  -0.44
    15        2          1      2   0.13
    16        2          2      2  -1.44
    17        2          3      2   0.73

এটি লক্ষণীয় যে এটি কেবলমাত্র কাজ করতে পারে কারণ প্রতিটি পরীক্ষায় একই সংখ্যার নমুনা থাকে (3)। বিভিন্ন নমুনা আকারের পরীক্ষার জন্য আরও কিছু চালাকের প্রয়োজন হতে পারে।


2

খুব দেরিতে উত্তর তবে আমি এটি যুক্ত করতে চাই:

ভ্যানিলা পাইথন ব্যবহার করে একটি দ্রুত সমাধান যা ওপির sample_numউদাহরণে কলামটিও যত্ন করে । আমার নিজস্ব বড় ডেটাসেটে 10 মিলিয়নেরও বেশি সারি এবং 28 মিলিয়ন সারিগুলির ফলস্বরূপ এটি প্রায় 38 সেকেন্ড সময় নেয়। গৃহীত সমাধানটি পুরো পরিমাণে ডেটা সহ পুরোপুরি ভেঙে যায় এবং memory errorআমার সিস্টেমে 128 গিগাবাইট র‌্যাম রয়েছে।

df = df.reset_index(drop=True)
lstcol = df.lstcol.values
lstcollist = []
indexlist = []
countlist = []
for ii in range(len(lstcol)):
    lstcollist.extend(lstcol[ii])
    indexlist.extend([ii]*len(lstcol[ii]))
    countlist.extend([jj for jj in range(len(lstcol[ii]))])
df = pd.merge(df.drop("lstcol",axis=1),pd.DataFrame({"lstcol":lstcollist,"lstcol_num":countlist},
index=indexlist),left_index=True,right_index=True).reset_index(drop=True)

2

এছাড়াও খুব দেরীতে, তবে এখানে কার্ভি 1 এর একটি উত্তর যা আপনার কাছে পান্ডাস>> 0.25 সংস্করণ না থাকলে আমার পক্ষে ভাল কাজ করেছে: https://stackoverflow.com/a/52511166/10740287

উপরের উদাহরণের জন্য আপনি লিখতে পারেন:

data = [(row.subject, row.trial_num, sample) for row in df.itertuples() for sample in row.samples]
data = pd.DataFrame(data, columns=['subject', 'trial_num', 'samples'])

গতি পরীক্ষা:

%timeit data = pd.DataFrame([(row.subject, row.trial_num, sample) for row in df.itertuples() for sample in row.samples], columns=['subject', 'trial_num', 'samples'])

প্রতি লুপটিতে 1.33 এমএস ± 74.8 µ গুলি (7 of রানের গড় ± দশমিক দেব। 1000 লুপ প্রতিটি)

%timeit data = df.set_index(['subject', 'trial_num'])['samples'].apply(pd.Series).stack().reset_index()

প্রতি লুপটিতে 4.9 এমএস ± 189 (গুলি (7 of রানের গড় ± দশমিক দেব, প্রতিটি 100 লুপ)

%timeit data = pd.DataFrame({col:np.repeat(df[col].values, df['samples'].str.len())for col in df.columns.drop('samples')}).assign(**{'samples':np.concatenate(df['samples'].values)})

প্রতি লুপটিতে 1.38 এমএস ± 25 µ গুলি (7 of রানের গড় ± স্ট্যান্ড। ডিভ। প্রতি 1000 লুপ)


1
import pandas as pd
df = pd.DataFrame([{'Product': 'Coke', 'Prices': [100,123,101,105,99,94,98]},{'Product': 'Pepsi', 'Prices': [101,104,104,101,99,99,99]}])
print(df)
df = df.assign(Prices=df.Prices.str.split(',')).explode('Prices')
print(df)

পান্ডাস> = 0.25 সংস্করণে এটি ব্যবহার করে দেখুন


1
ইতিমধ্যে একটি তালিকা .str.split(',')কারণ প্রয়োজন নেই Prices
ওরেন
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.