সিম্প্লিফাইড চাইনিজে আমার একটি পাঠ্য রয়েছে, যা ইউটিএফ -8 পড়ার সাথে সাথে শুরু হয় ´ÓºÜ¾ÃÒÔÇ°¿ªÊ¼
, যা ম্যান্ডারিনটুলস থেকে অনলাইন সরঞ্জাম ( মেরামত দুর্নীতিগ্রস্ত চীনা ইমেলের প্রথম অনুসন্ধানের ফলাফল ) সঠিকভাবে সংশোধন করে 从很久以前开始
, তবে এটি কীভাবে স্থির করেছিল তা পরিষ্কার নয়। অনলাইন সরঞ্জাম এবং একটি হেক্স সম্পাদক ব্যবহার করে আমি জানি যে প্রতিটি অক্ষর নির্দিষ্ট দৈর্ঘ্য 32-বিট হিসাবে এনকোড করা আছে:
c2b4 c393 从
c2ba c39c 很
c2be c383 久
c392 c394 以
c387 c2b0 前
c2bf c2aa 开
c38a c2bc 始
এটি আরও দেখায় যে একটি অক্ষর সি 2 ** - সি 3 ** সীমাতে দুটি 16-বিট শব্দ হিসাবে এনকোড করা আছে। ইউটিএফ -16 এর সাথে প্রথম 16-বিট শব্দটি সর্বদা 0 এই অক্ষরগুলির জন্য থাকে। ইউটিএফ -8 এগুলির জন্য কেবল অক্ষর প্রতি 24 বিট ব্যবহার করে এবং কোডপেজ 936 এখানে কেবল অক্ষর অনুসারে 16 বিট ব্যবহার করে। সঠিক এনকোডিং রূপান্তর নির্ধারণ করতে আমি কোন পদ্ধতিটি ব্যবহার করতে পারি?
utf-8 উপস্থাপনা:
e4bb 8e 从
e5be 88 很
e4b9 85 久
e4bb a5 以
e589 8d 前
e5bc 80 开
e5a7 8b 始
সিপি 936 প্রতিনিধিত্ব:
b4d3 从
badc 很
bec3 久
d2d4 以
c7b0 前
bfaa 开
cabc 始