আমি পাইপার্ক অ্যাপ্লিকেশনগুলির সাথে কাজ করার জন্য আইপিথন নোটবুকটি ব্যবহার করছি। 50k রেঞ্জের আয়ের আওতাধীন কিনা তা নির্ধারণ করতে আমার কাছে প্রচুর শ্রেণীবদ্ধ কলাম সহ একটি সিএসভি ফাইল রয়েছে। আমি আয়ের সীমা নির্ধারণ করতে সমস্ত ইনপুট গ্রহণ করে একটি শ্রেণিবদ্ধকরণ অ্যালগরিদম সম্পাদন করতে চাই। আমাকে ম্যাপযুক্ত ভেরিয়েবলগুলিতে ভেরিয়েবলের একটি অভিধান তৈরি করতে হবে এবং প্রক্রিয়াকরণের জন্য সংখ্যায় ভেরিয়েবলগুলি মানচিত্র করতে একটি মানচিত্র ফাংশন ব্যবহার করতে হবে। মূলত, আমি আমার ডেটাসেটটি একটি সংখ্যাসূচক আকারে রাখতে চাই যাতে আমি মডেলগুলি বাস্তবায়নে কাজ করতে পারি।
ডেটা সেটটিতে শ্রেণীবদ্ধ কলামগুলি যেমন শিক্ষা, বৈবাহিক অবস্থা, শ্রমজীবী শ্রেণি ইত্যাদি রয়েছে someone কেউ আমাকে কীভাবে এগুলিকে পিএসপার্কে সংখ্যাসূচক কলামগুলিতে রূপান্তর করতে পারেন আমাকে বলতে পারেন?
workclass = {'?':0,'Federal-gov':1,'Local-gov':2,'Never- worked':3,'Private':4,'Self-emp-inc':5,'Self-emp-not-inc':6,'State-gov':7,'Without-pay':8}
আমি কাজের শ্রেণীর জন্য কী মানের জোড়গুলির সাথে একটি নমুনা অভিধান তৈরি করেছি। তবে, আমি কীভাবে এটি মানচিত্রের ফাংশনে ব্যবহার করতে এবং CSV ফাইলে শ্রেণিবদ্ধ তথ্যগুলিকে সংশ্লিষ্ট মানের সাথে প্রতিস্থাপন করতে জানি না।
wc = pd.read_csv('PATH', usecols = ['Workclass'])
df = pd.DataFrame(wc)
wcdict = {' ?':0,' Federal-gov':1,' Local-gov':2,' Never-worked':3,' Private':4,' Self-emp-inc':5,' Self-emp-n-inc':6,' State-gov':7,' Without-pay':8}
df_new = df.applymap(lambda s: wcdict.get(s) if s in wcdict else s)
print(df_new)
শ্রেণিবদ্ধ তথ্যগুলিকে সংখ্যাসূচক ডেটাতে রূপান্তর করতে আমি সাধারণ অজগরটিতে এই কোডটি লিখেছি। এটা ঠিক কাজ করে। আমি স্পার্ক প্রসঙ্গে রূপান্তরটি করতে চাই। এবং, ডেটা উত্সে 9 টি শ্রেণিবদ্ধ কলাম রয়েছে। সব 9 কলামের জন্য কেভি জুড়ি রাখার জন্য অভিধান আপডেট প্রক্রিয়াটি স্বয়ংক্রিয় করার কোনও উপায় আছে কি?