সম্ভবত আপনার সমস্যাটি হ'ল আপনি এটিকে পার্স করেছেন ঠিক আছে, এবং এখন আপনি এক্সএমএল এর বিষয়বস্তু মুদ্রণের চেষ্টা করছেন এবং কিছু বিদেশী ইউনিকোড অক্ষর থাকার কারণে আপনি পারবেন না। আপনার ইউনিকোড স্ট্রিংটিকে প্রথম ascii হিসাবে এনকোড করার চেষ্টা করুন:
unicodeData.encode('ascii', 'ignore')
'উপেক্ষা' অংশটি এটিকে কেবল সেই চরিত্রগুলি এড়িয়ে যেতে বলবে। পাইথন ডক্স থেকে:
>>> u = unichr(40960) + u'abcd' + unichr(1972)
>>> u.encode('utf-8')
'\xea\x80\x80abcd\xde\xb4'
>>> u.encode('ascii')
Traceback (most recent call last):
File "<stdin>", line 1, in ?
UnicodeEncodeError: 'ascii' codec can't encode character '\ua000' in position 0: ordinal not in range(128)
>>> u.encode('ascii', 'ignore')
'abcd'
>>> u.encode('ascii', 'replace')
'?abcd?'
>>> u.encode('ascii', 'xmlcharrefreplace')
'ꀀabcd޴'
আপনি এই নিবন্ধটি পড়তে চাইতে পারেন: http://www.joelonsoftware.com/articles/Unicode.html , যা আমি যা চলছে তার একটি প্রাথমিক টিউটোরিয়াল হিসাবে খুব দরকারী বলে মনে করি। পড়ার পরে, আপনি এমন অনুভূতি থামিয়ে দেবেন যে আপনি কী অনুমান করছেন তা কেবল অনুমান করছেন (বা কমপক্ষে আমার ক্ষেত্রে এটি ঘটেছে)।
unicode()
?