আমি এটি থেকে চেক করার কোনও ভাল উপায় জানি না bash
, তবে পাইথনের একটি বিল্ট-ইন ইউনিকোড ডাটাবেস রয়েছে যা আপনি এটির মতো স্ক্রিপ্টে ব্যবহার করতে পারেন:
#!/usr/bin/env python
import sys, unicodedata
for ch in sys.stdin.read().decode('utf-8'):
try:
print unicodedata.name(ch)
except ValueError:
print 'codepoint ', ord(ch)
আপনি এই স্ক্রিপ্টটি এটির মতো ব্যবহার করতে পারেন (ধরে নিয়েছেন যে আপনি এটি বলেছেন unicode-names
):
$ echo 'abc©áοπρσ' | unicode-names
LATIN SMALL LETTER A
LATIN SMALL LETTER B
LATIN SMALL LETTER C
COPYRIGHT SIGN
LATIN SMALL LETTER A WITH ACUTE
GREEK SMALL LETTER OMICRON
GREEK SMALL LETTER PI
GREEK SMALL LETTER RHO
GREEK SMALL LETTER SIGMA
codepoint 10
ডাটাবেসটি যে ValueError
কোনও অক্ষর সম্পর্কে জানে না তার জন্য ব্যতিক্রম ছুঁড়ে ফেলেছে, তাই আমরা তাদের কোডপয়েন্টগুলি দশমিক দশকে মুদ্রণ করি (এগুলি সাধারণত ছাপানো অক্ষর নয়)।
ক্যাভেট: স্ক্রিপ্টটি ধরে নিয়েছে যে আপনার টার্মিনালটি ইউটিএফ -8 এনকোডযুক্ত। যদি এটি না হয় তবে আপনার decode()
পদ্ধতির যুক্তিটি পরিবর্তন করা উচিত । পাইথন একটি এনকোডিংগুলির একটি বিস্তৃত নির্বাচন সমর্থন করে, আপনার অবশ্যই সেখানে থাকবে in
echo -n …— | uniname -bcegpu