আমার কাছে df
দুটি কলাম সহ একটি ডেটাফ্রেম রয়েছে: স্ক্রিপ্ট (পাঠ্য সহ) এবং স্পিকার
Script Speaker
aze Speaker 1
art Speaker 2
ghb Speaker 3
jka Speaker 1
tyc Speaker 1
avv Speaker 2
bhj Speaker 1
এবং আমি নিম্নলিখিত তালিকা আছে: L = ['a','b','c']
নিম্নলিখিত কোড সহ,
df = (df.set_index('Speaker')['Script'].str.findall('|'.join(L))
.str.join('|')
.str.get_dummies()
.sum(level=0))
print (df)
আমি এই তথ্য ফ্রেমটি পেয়েছি df2
:
Speaker a b c
Speaker 1 2 1 1
Speaker 2 2 0 0
Speaker 3 0 1 0
df2
নিম্নলিখিত ডাটাফ্রেমের জন্য স্পিকারের দ্বারা কথিত সমস্ত লাইনের শতাংশের মান হিসাবে আমার ডেটাফ্রেমের প্রতিটি লাইনের জন্য আমি আমার কোডটিতে কোন লাইন যুক্ত করতে পারি df3
:
Speaker a b c
Speaker 1 50% 25% 25%
Speaker 2 100% 0 0
Speaker 3 0 100% 0