আমি যে ফাইলটি নিয়ে কাজ করছি তার মধ্যে একটি অদ্ভুত চরিত্রটি সনাক্ত করার চেষ্টা করছি:
$ cat file
�
$ od file
0000000 005353
0000002
$ od -c file
0000000 353 \n
0000002
$ od -x file
0000000 0aeb
0000002
ফাইলটি আইএসও -8859 এনকোডিং ব্যবহার করছে এবং ইউটিএফ -8 এ রূপান্তর করা যাবে না:
$ iconv -f ISO-8859 -t UTF-8 file
iconv: conversion from `ISO-8859' is not supported
Try `iconv --help' or `iconv --usage' for more information.
$ iconv -t UTF-8 file
iconv: illegal input sequence at position 0
$ file file
file: ISO-8859 text
আমার মূল প্রশ্নটি আমি কীভাবে od
এখানে আউটপুট ব্যাখ্যা করতে পারি ? আমি এই পৃষ্ঠাটি ব্যবহার করার চেষ্টা করছি যা আমাকে বিভিন্ন চরিত্রের উপস্থাপনার মধ্যে অনুবাদ করতে দেয় তবে এটি আমাকে বলে যে 005353
একটি "হেক্স কোড পয়েন্ট" হিসাবে 卓
যা সঠিক মনে হয় না এবং 0aeb
"হেক্স কোড পয়েন্ট" হিসাবে এটি ૫
আবার ভুল বলে মনে হয় ।
সুতরাং, আমি তিনটি বিকল্প কোন ব্যবহার করতে পারেন ( 355
, 005353
বা 0aeb
) খুঁজে বের করতে কি চরিত্র তারা প্রতিনিধিত্ব অনুমিত হয়?
এবং হ্যাঁ, আমি ইউনিকোড সরঞ্জাম দিয়ে চেষ্টা করেছি তবে এটি কোনও বৈধ ইউটিএফ চরিত্র বলে মনে হয় না:
$ uniprops $(cat file)
U+FFFD ‹�› \N{REPLACEMENT CHARACTER}
\pS \p{So}
All Any Assigned Common Zyyy So S Gr_Base Grapheme_Base Graph X_POSIX_Graph
GrBase Other_Symbol Print X_POSIX_Print Symbol Specials Unicode
যদি আমি ইউনিকোড ইউ + এফএফএফডি চরিত্রের বর্ণনাটি বুঝতে পারি তবে এটি কোনও দুর্ভাগ্যযুক্ত চরিত্রের স্থানধারক ছাড়া মোটেই বাস্তব চরিত্র নয়। ফাইলটি যেহেতু ইউটিএফ -8 এনকোডড নয় সেহেতু এটি বোঝা যায়।
ë
ডেটা অন্য প্রোগ্রামে ব্যবহার করা হয় তখন আমি কী দেখি! তবে আমি কীভাবে এটি জানতে পারি? আমি যে ডেটা সরবরাহ করি তা কোথাও না? কিভাবে তুমি এটা খুজে পেলে? ওহ আমি চেষ্টা করেছিলেন iconv
সঙ্গে -f ISO-8859
কিন্তু এটি অভিযোগ conversion from
আইএসও-8859 'supported` করা হয় না।
eb
এবং 0x
হেক্স সূচক বা যা কিছু তা উপেক্ষা করার দরকার ছিল । এই ধরণের জিনিস সম্পর্কে আমার অজ্ঞতা গভীর। আপনি কি এমন একটি পোস্ট পোস্ট করতে পারবেন যাতে ব্যাখ্যা করে @ স্টেফেনকিট?
iconv
সাফল্য হত; এবং / অথবা আপনি এটি উইকিপিডিয়ায় যেমন সন্ধান করতে পারতেন। এই খুব নির্দিষ্ট এনকোডিংয়ের জন্য, fileformat.info/info/unicode/char/00eb/index.htm এছাড়াও কাজ করে (ইউনিকোড 128-255 রেঞ্জের আইএসও -8859-1 এর সমতুল্য, যদিও কোনও ইউটিএফ এনকোডিং এর সাথে সামঞ্জস্যপূর্ণ নয়) )।
iconv
অভিযোগ করেছেন কারণ আপনি উত্স অক্ষর সেটটি নির্দিষ্ট করেন নি, তাই এটি আপনার ডিফল্ট ব্যবহার করে যা সম্ভবত ইউটিএফ -8 রয়েছে।)