আমি কীভাবে শেল থেকে নন-এএসসিআইআই অক্ষরগুলি সনাক্ত করতে পারি?


13

সব নন- ASCII অক্ষর এবং লাইন নম্বর যার উপর তারা একটি ফাইলে ঘটতে যেমন একটি কমান্ড লাইন ইউটিলিটি ব্যবহার করে মুদ্রণ এটি একটি সহজ উপায় আছে কি grep, awk, perl, ইত্যাদি?

আমি একটি পাঠ্য ফাইলের এনকোডিংটি ইউটিএফ -8 থেকে এএসসিআইআইতে পরিবর্তন করতে চাই, তবে এটি করার আগে, ফাইল রূপান্তর রুটিন দ্বারা প্রভাবিত অপ্রত্যাশিত চরিত্রের পরিবর্তনগুলি এড়াতে ম্যানুয়ালি ASCII অক্ষরগুলির সমস্ত উদাহরণ ম্যানুয়ালি প্রতিস্থাপন করতে চান।

উত্তর:


14
$ perl -ne 'print "$. $_" if m/[\x80-\xFF]/'  utf8.txt
2 Pour être ou ne pas être
4 Byť či nebyť
5 是或不

অথবা

$ grep -n -P '[\x80-\xFF]' utf8.txt
2:Pour être ou ne pas être
4:Byť či nebyť
5:是或不

যেখানে utf8.txt হয়

$ cat utf8.txt
To be or not to be.
Pour être ou ne pas être
Om of niet zijn
Byť či nebyť
是或不

1
ধন্যবাদ। পার্ল স্নিপেট সরাসরি কাজ করে তবে গ্রেপ সংস্করণটি জিএনইউ গ্রেপ 2.16 এর সাথে কাজ করে না। আমি এটির মাধ্যমে এটি তৈরি করতে সক্ষম হয়েছি LC_ALL=C grep -n -P [$'\x80'-$'\xFF']:, যেখানে প্রথম বিট বন্ধন বন্ধ করে দেয়।
জো কর্নেলি

4

আমি একটি পাঠ্য ফাইলের এনকোডিংটি ইউটিএফ -8 থেকে এএসসিআইআইতে পরিবর্তন করতে চাই ...

... অ-এসসিআইআই অক্ষরগুলির সমস্ত দর্শন প্রতিস্থাপন করুন ...

তারপরে আপনার রূপান্তর সরঞ্জামটি বলুন।

$ iconv -c -f UTF-8 -t ASCII <<< 'Look at 私.'
Look at .

$ iconv -c -f UTF-8 -t ASCII//translit <<< 'áēìöų'
aeiou

তিনি বলেছিলেন যে তিনি নিজেই সেই প্রতিস্থাপনটি করতে চান। সম্ভবত সবচেয়ে উপযুক্ত প্রতিস্থাপনটি প্রসঙ্গ নির্ভর।
4o
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.