চরিত্রের এনকোডিংয়ের সমস্যাগুলির সাথে আমি প্রায়শই পাঠ্য ফাইলগুলি (যেমন আমার স্থানীয় ভাষায় সাবটাইটেল ফাইল, ফারসি ) এর মুখোমুখি হই । এই ফাইলগুলি উইন্ডোজে তৈরি করা হয়েছে এবং একটি অনুপযুক্ত এনকোডিং (এএনএসআই বলে মনে হচ্ছে) দিয়ে সংরক্ষণ করা হয়েছে, যা জিব্রিশ এবং অপঠনযোগ্য বলে মনে হচ্ছে:
উইন্ডোজে, নীচের মতো এনকোডিংটি ইউটিএফ -8 এ রূপান্তর করতে নোটপ্যাড ++ ব্যবহার করে সহজেই এটি ঠিক করা যায় :
এবং সঠিক পাঠযোগ্য ফলাফলটি এরকম:
আমি জিএনইউ / লিনাক্সে অনুরূপ সমাধানের জন্য অনেক অনুসন্ধান করেছি, তবে দুর্ভাগ্যক্রমে প্রস্তাবিত সমাধানগুলি (যেমন এই প্রশ্নটি ) কার্যকর হয় না। সর্বোপরি, আমি লোকদের পরামর্শ দেখেছি iconv
এবং recode
তবে এই সরঞ্জামগুলির সাথে আমার কোনও ভাগ্য হয়নি। আমি অনুসরণ সহ অনেক কমান্ড পরীক্ষা করেছি এবং সমস্ত ব্যর্থ হয়েছে:
$ recode ISO-8859-15..UTF8 file.txt
$ iconv -f ISO8859-15 -t UTF-8 file.txt > out.txt
$ iconv -f WINDOWS-1252 -t UTF-8 file.txt > out.txt
এর কোনটিই কাজ করেনি!
আমি উবুন্টু -14.04 ব্যবহার করছি এবং আমি একটি সহজ সমাধান (জিইউআই বা সিএলআই) সন্ধান করছি যা নোটপ্যাড ++ এর মতোই কাজ করে।
"সরল" হওয়ার একটি গুরুত্বপূর্ণ বিষয় হ'ল ব্যবহারকারীর উত্স এনকোডিং নির্ধারণের প্রয়োজন হয় না; বরং উত্স এনকোডিংটি স্বয়ংক্রিয়ভাবে সরঞ্জামটির মাধ্যমে সনাক্ত করা উচিত এবং কেবলমাত্র লক্ষ্য এনকোডিং ব্যবহারকারীর দ্বারা সরবরাহ করা উচিত। তবে তবুও, আমি এমন একটি কার্যকরী সমাধান সম্পর্কে জানতে পেরে খুশি হব যা উত্সের এনকোডিং সরবরাহ করতে হবে।
কারও যদি বিভিন্ন সমাধান পরীক্ষা করার জন্য টেস্ট-কেসের প্রয়োজন হয় তবে উপরের উদাহরণটি এই লিঙ্কটির মাধ্যমে অ্যাক্সেসযোগ্য ।
iso-639
কিন্তু যে পারেন পাওয়া যাবে বলে মনে হচ্ছে না iconv
বা recode
। কমপক্ষে, আমি এটি আউটপুটে দেখতে পাচ্ছি না iconv -l
।
vim
কিন্তু এটি কার্যকর হয়নি।
vim '+set fileencoding=utf-8' '+wq' file.txt
।