UTF-8 এতে না একটি অক্ষরসেট শুধু ইউনিকোড জন্য একটি এনকোডিং। প্রথম 128 টি অক্ষর ASCII এর মতো তবে উচ্চ 128 বাইটে পৃথক। উচ্চ বিট সেট (বা> = 0x80) সহ একটি বাইট ASCII এ একটি বর্ধিত অক্ষর যখন ইউটিএফ -8 এ এটি একটি বহু-বাইট অনুক্রমের সূচনা বাইট নির্দেশ করে। উপরে 0x93 বা 0x94 এর ক্ষেত্রে এটি। তবে আমি ফাইলটিতে অদ্ভুত কিছু দেখছি না। এগুলি হ'ল স্মার্ট উক্তি বা খোলার এবং ক্লোজিন কোটের বিভিন্ন ফর্মের সাথে উদ্ধৃতি, যা আপনি প্রায়শই এমএস ওয়ার্ডের মতো সমৃদ্ধ পাঠ্য সম্পাদক ব্যবহার করার সময় দেখতে পান
সম্পাদন করা
প্রশ্নটি সম্পাদিত হয়েছে। আমি মনে করি এটি কারণ আপনি ভুল সরঞ্জামটি বেছে নিয়েছেন। encode
মেনু আইটেম এনকোডিং পরিবর্তন যদি আপনি আমাদের ভুল অক্ষর প্রদর্শন করা হয়। এটি কেবল ডিস্ক থেকে অন্য এনকোডিংয়ের মতো একই বাইট সিকোয়েন্সটিকে বিবেচনা করে। যেহেতু এএসসিআইআই এবং ইউটিএফ -8 পৃথক, আপনার একটি অবিকৃত ইউটিএফ -8 বাইট ক্রম থাকবে এবং উপরের ফলাফলটি দেখুন। convert to UTF-8
পুরো ইনপুট বাইটগুলি পরিবর্তন করার জন্য আপনাকে এটি চয়ন করতে হবে
আপনি এএনএসআই এবং এএসসিআইআইকেও বিভ্রান্ত করেছেন। এএনএসআই প্রায়শই উইন্ডোজ -১২২২ বোঝায় যা ইংরেজি উইন্ডোজ এবং কিছু পশ্চিমা ইউরোপ ভাষায় ব্যবহৃত একটি চরিত্র সেট। এটি আইএসও 8859-1 এর একটি সুপারস্টেট, যদিও আইএসও 8859-1 এএনএসআই হিসাবেও রেফার করা যেতে পারে। আইএসও 8859-1 হ'ল ইউনিকোডের প্রথম 256 কোডপয়েন্টস, সুতরাং এটি ইউনিকোডের একটি উপসেট, তবে এটি ইউটিএফ -8 এনকোডিংয়ের সাথে সামঞ্জস্যপূর্ণ নয়। এএসসিআইআই একটি 7-বিট চরিত্রের সেট এবং এটিএনএসআইর একটি উপসেট যা 8 টি বিট দ্বারা এনকোড করা হয়, তবে এটি কখনও কখনও এএনএসআই হিসাবেও উল্লেখ করা হয়, যদিও খুব সঠিক নয় although
https://en.wikipedia.org/wiki/ANSI_character_set
সাধারণত চরিত্র সেটগুলির মধ্যে সম্পর্কটি নিম্নরূপ
ASCII < ISO 8859-1 < Windows-1252
^
Unicode