আমি একটি অজগর মানচিত্রের শব্দ গণনা প্রোগ্রাম লিখছি। সমস্যাটি হ'ল ডেটাগুলিতে অনেকগুলি বর্ণমালার অক্ষর রয়েছে, আমি পাইথনের একটি স্ট্রিং থেকে বর্ণমালার অক্ষর ব্যতীত সবকিছু ছিটকে এই পোস্টটি পেয়েছি যা রেজেক্স ব্যবহার করে একটি দুর্দান্ত সমাধান দেখায়, তবে আমি কীভাবে এটি প্রয়োগ করব তা নিশ্চিত নই
def mapfn(k, v):
print v
import re, string
pattern = re.compile('[\W_]+')
v = pattern.match(v)
print v
for w in v.split():
yield w, 1
আমি আশঙ্কা করছি যে বিষয়টি সম্পর্কে আমি লাইব্রেরি reবা এমনকি রেজেক্স কীভাবে ব্যবহার করব তা নিশ্চিত নই । আমি নিশ্চিত নই যে vকোনও অ-অক্ষর অক্ষর ছাড়াই নতুন লাইনটি পুনরুদ্ধার করতে কীভাবে আগত স্ট্রিংয়ে (কোনও বইয়ের লাইন) রেজেেক্স প্যাটার্নটি প্রয়োগ করতে হবে ।
পরামর্শ?
vএটি একটি বইয়ের পুরো লাইন (বিশেষত মোবিড় ডিক), আমি চরিত্রের মাধ্যমে নয় বরং কথায় কথায় কথায় চলছি। সুতরাং কিছু শব্দের শেষে একটি "," থাকতে পারে তাই "উদাসীনতা", "অভিমান" দিয়ে মানচিত্র তৈরি করে না।