পান্ডাস ডেটা ফ্রেমে অনুরূপ মানের শতাংশের গণনা করুন

14

আমার কাছে dfদুটি কলাম সহ একটি ডেটাফ্রেম রয়েছে: স্ক্রিপ্ট (পাঠ্য সহ) এবং স্পিকার

Script  Speaker
aze     Speaker 1 
art     Speaker 2
ghb     Speaker 3
jka     Speaker 1
tyc     Speaker 1
avv     Speaker 2 
bhj     Speaker 1

এবং আমি নিম্নলিখিত তালিকা আছে: L = ['a','b','c']

নিম্নলিখিত কোড সহ,

df = (df.set_index('Speaker')['Script'].str.findall('|'.join(L))
        .str.join('|')
        .str.get_dummies()
        .sum(level=0))
print (df)

আমি এই তথ্য ফ্রেমটি পেয়েছি df2:

Speaker     a    b    c
Speaker 1   2    1    1
Speaker 2   2    0    0
Speaker 3   0    1    0

df2নিম্নলিখিত ডাটাফ্রেমের জন্য স্পিকারের দ্বারা কথিত সমস্ত লাইনের শতাংশের মান হিসাবে আমার ডেটাফ্রেমের প্রতিটি লাইনের জন্য আমি আমার কোডটিতে কোন লাইন যুক্ত করতে পারি df3:

Speaker     a    b    c
Speaker 1   50%  25%   25%
Speaker 2  100%    0   0
Speaker 3   0   100%   0

— অ্যালেক্স দানা
সূত্র

8

আপনি sumপ্রথম অক্ষটি বরাবর ভাগ করতে পারেন এবং তারপরে স্ট্রিংয়ে কাস্ট করতে পারেন এবং যুক্ত করতে পারেন %:

out = (df.set_index('Speaker')['Script'].str.findall('|'.join(L))
         .str.join('|')
         .str.get_dummies()
         .sum(level=0))

(out/out.sum(0)[:,None]).mul(100).astype(int).astype(str).add('%')

            a     b    c
Speaker                  
Speaker1   50%   25%  25%
Speaker2  100%    0%   0%
Speaker3    0%  100%   0%

— yatu
সূত্র

5

আপনার মূল ডেটাফ্রেম থেকে শুরু করে আপনি যদি%% এবং গোষ্ঠীযুক্ত ডমি না চান তবে আপনি নীচের মতো পুরো স্ক্রিপ্টটি পরিবর্তন করতে পারেন:

m = df.set_index('Speaker')['Script'].str.findall('|'.join(L)) #creates a list of matches
m = m.explode().reset_index() #explode to a series 
final = pd.crosstab(m['Speaker'],m['Script'],normalize='index').mul(100) # percentage pivot

Script         a      b     c
Speaker                      
Speaker 1   50.0   25.0  25.0
Speaker 2  100.0    0.0   0.0
Speaker 3    0.0  100.0   0.0

আপনি যদি শতাংশটি চান না তবে কেবল ব্যবহার করুন:

pd.crosstab(m['Speaker'],m['Script'])

Script     a  b  c
Speaker           
Speaker 1  2  1  1
Speaker 2  2  0  0
Speaker 3  0  1  0

দ্রষ্টব্য: এটি সংস্করণ হিসাবে পান্ডাস 0.25+ ব্যবহার করে

— anky
সূত্র

3

(df.set_index('Speaker')['Script'].str.extractall(f'({"|".join(L)})')
   .groupby('Speaker')[0].value_counts(normalize=True)
   .unstack(fill_value=0)
)

আউটপুট:

0            a     b     c
Speaker                   
Speaker 1  0.5  0.25  0.25
Speaker 2  1.0  0.00  0.00
Speaker 3  0.0  1.00  0.00

— কোয়াং হোয়াং
সূত্র

2

উদাহরণস্বরূপ আপনি নিম্নলিখিত কোডের লাইন দিয়ে চেষ্টা করতে পারেন:

df = (df/df.sum(axis=1)[:, None]).mul(100).astype(int)

আপনি যে ডেটা সরবরাহ করেন তা সহ:

import pandas as pd
import numpy as np
data = {'a':[2,2,0],'b':[1,0,1],'c':[1,0,0]}
df = pd.DataFrame(data)
df = (df/df.sum(axis=1)[:, None]).mul(100).astype(int)
print(df)

আউটপুট:

     a   b   c
0   50  25  25
1  100   0   0
2    0 100   0

অথবা, যদি আপনি '%' চিহ্নটি যুক্ত করতে চান:

df = (df / df.sum(axis=1)[:, None]).mul(100).astype(int).astype(str) + '%'

আউটপুট:

      a     b    c
0   50%   25%  25%
1  100%    0%   0%
2    0%  100%   0%

— সেলিয়াস স্টিংহার
সূত্র