আমি বর্তমানে একটি HTML ফাইল get_text()
পার্সিং এবং কল করার জন্য বিউটিফুল স্যুপ ব্যবহার করছি , তবে মনে হচ্ছে আমার অনেকগুলি a xa0 ইউনিকোড ফাঁকা স্থান উপস্থাপন করে রেখে চলেছে। পাইথন ২.7-এ সমস্ত মুছে ফেলার এবং এগুলিকে স্পেসে পরিণত করার কোনও কার্যকর উপায় আছে কি? আমি অনুমান করি যে আরও সাধারণ প্রশ্নটি হবে, ইউনিকোড বিন্যাস অপসারণের কোনও উপায় আছে কি?
আমি ব্যবহার করার চেষ্টা করেছি: line = line.replace(u'\xa0',' ')
যেমনটি অন্য থ্রেডের পরামর্শ অনুসারে, তবে এটি a xa0 এরটিকে u এর মধ্যে পরিবর্তিত করেছে, সুতরাং এখন আমি তার পরিবর্তে সর্বত্র "ইউ" রেখেছি। ):
সম্পাদনা: সমস্যাটি সমাধান হয়ে গেছে বলে মনে হচ্ছে str.replace(u'\xa0', ' ').encode('utf-8')
, তবে কেবল না .encode('utf-8')
করেই এটি replace()
অযৌক্তিক চরিত্রগুলিও ছড়িয়ে দেয় বলে মনে হচ্ছে, উদাহরণস্বরূপ xc2। কেউ কি এই ব্যাখ্যা করতে পারেন?
u''
S এর পরিবর্তে s ব্যবহার করুন ''
। :-)
u' '
প্রতিস্থাপনটি ব্যবহার করতে হবে, এটির নয় ' '
। মূল স্ট্রিংটি কি ইউনিকোড এক?