আমি একটি খুব বড় ডেটাসেটের সাথে কাজ করার চেষ্টা করছি যা এর সাথে কিছু মানক অক্ষর নেই। চাকরীর চশমা অনুসারে আমার ইউনিকোড ব্যবহার করা দরকার তবে আমি হতবাক। (এবং বেশ সম্ভবত এটি সব ভুল করছেন wrong)
আমি সিএসভি ব্যবহার করে এটি খুলি:
15 ncesReader = csv.reader(open('geocoded_output.csv', 'rb'), delimiter='\t', quotechar='"')
তারপরে, আমি এটিকে দিয়ে এনকোড করার চেষ্টা করব:
name=school_name.encode('utf-8'), street=row[9].encode('utf-8'), city=row[10].encode('utf-8'), state=row[11].encode('utf-8'), zip5=row[12], zip4=row[13],county=row[25].encode('utf-8'), lat=row[22], lng=row[23])
আমি ল্যাট এবং এলএনজি বাদে সমস্ত কিছু এনকোড করছি কারণ এগুলি একটি এপিআইতে প্রেরণ করা দরকার। আমি যখন যা ব্যবহার করতে পারি তাতে ডেটাসেটটি বিশ্লেষণ করার জন্য যখন প্রোগ্রামটি চালাচ্ছি, তখন আমি নিম্নলিখিত ট্রেসব্যাকটি পাই।
Traceback (most recent call last):
File "push_into_db.py", line 80, in <module>
main()
File "push_into_db.py", line 74, in main
district_map = buildDistrictSchoolMap()
File "push_into_db.py", line 32, in buildDistrictSchoolMap
county=row[25].encode('utf-8'), lat=row[22], lng=row[23])
UnicodeDecodeError: 'ascii' codec can't decode byte 0xd1 in position 2: ordinal not in range(128)
আমি মনে করি আমার আপনাকে বলা উচিত যে আমি পাইথন ২.7.২ ব্যবহার করছি, এবং এটি জ্যাঙ্গো ১.৪ এ একটি অ্যাপ তৈরির অংশ। আমি এই বিষয়টিতে বেশ কয়েকটি পোস্ট পড়েছি তবে এগুলির কোনওটিই সরাসরি প্রয়োগ করা হবে বলে মনে হয় না। যে কোন সাহায্য সাদরে গৃহীত হবে।
আপনি এটিও জানতে চাইতে পারেন যে সমস্যাটি সৃষ্টিকারী কিছু মানহীন অক্ষর Ñ এবং সম্ভবত É É are