নোটপ্যাড ++ এ এএনএসআই থেকে ইউটিএফ -8


25

এএনএসআইতে আমার একটি পাঠ্য এনকোড রয়েছে:

এএনএসআই পাঠ্য ফাইল

আমি যখন এটি ইউটিএফ -8 এ রূপান্তর করার চেষ্টা করেছি (নোটপ্যাড ++ মেনু এনকোডিং> ইউটিএফ -8 ব্যবহার করে), আমি কিছু অদ্ভুত অক্ষর পেয়েছি:

ইউটিএফ -8 পাঠ্য ফাইল

আমি ভেবেছিলাম যে ইউটিএফ -8 হ'ল এএনএসআইয়ের সুপারস্টার এবং পরবর্তীকালে আমার এ জাতীয় সমস্যা হবে না। আমি কি এইসব অদ্ভুত চরিত্রের প্রয়োগ এড়াতে পারি?


পরবর্তী চিত্রটিতে আমি কী অদ্ভুত তা দেখছি না
ফুক্লভি

আমি অ-প্রদর্শনযোগ্য অক্ষর বোঝাতে চাইছি। এড়ানো কোন উপায়?
ব্যবহারকারী3658425

আপনি প্রশ্ন সম্পাদনা করেছেন? আমি মনে করি আমি চিত্রগুলি বিপরীত দেখতে
পেয়েছি

1
হ্যাঁ দুঃখিত, আমি আমার শেষ সম্পাদনাটি ধাক্কা দিয়েছিলাম কারও সাথে এখানে ছবিগুলি যুক্ত করার পরে, সংযোজনটি মুছে ফেলা: আপনি যদি এগুলিকে আবার যুক্ত করতে পারেন তবে দুর্দান্ত হবে!
ব্যবহারকারী 3658425

উত্তর:


38

UTF-8 এতে না একটি অক্ষরসেট শুধু ইউনিকোড জন্য একটি এনকোডিং। প্রথম 128 টি অক্ষর ASCII এর মতো তবে উচ্চ 128 বাইটে পৃথক। উচ্চ বিট সেট (বা> = 0x80) সহ একটি বাইট ASCII এ একটি বর্ধিত অক্ষর যখন ইউটিএফ -8 এ এটি একটি বহু-বাইট অনুক্রমের সূচনা বাইট নির্দেশ করে। উপরে 0x93 বা 0x94 এর ক্ষেত্রে এটি। তবে আমি ফাইলটিতে অদ্ভুত কিছু দেখছি না। এগুলি হ'ল স্মার্ট উক্তি বা খোলার এবং ক্লোজিন কোটের বিভিন্ন ফর্মের সাথে উদ্ধৃতি, যা আপনি প্রায়শই এমএস ওয়ার্ডের মতো সমৃদ্ধ পাঠ্য সম্পাদক ব্যবহার করার সময় দেখতে পান

সম্পাদন করা

প্রশ্নটি সম্পাদিত হয়েছে। আমি মনে করি এটি কারণ আপনি ভুল সরঞ্জামটি বেছে নিয়েছেন। encodeমেনু আইটেম এনকোডিং পরিবর্তন যদি আপনি আমাদের ভুল অক্ষর প্রদর্শন করা হয়। এটি কেবল ডিস্ক থেকে অন্য এনকোডিংয়ের মতো একই বাইট সিকোয়েন্সটিকে বিবেচনা করে। যেহেতু এএসসিআইআই এবং ইউটিএফ -8 পৃথক, আপনার একটি অবিকৃত ইউটিএফ -8 বাইট ক্রম থাকবে এবং উপরের ফলাফলটি দেখুন। convert to UTF-8পুরো ইনপুট বাইটগুলি পরিবর্তন করার জন্য আপনাকে এটি চয়ন করতে হবে

নোটপ্যাড এনকোডিং

আপনি এএনএসআই এবং এএসসিআইআইকেও বিভ্রান্ত করেছেন। এএনএসআই প্রায়শই উইন্ডোজ -১২২২ বোঝায় যা ইংরেজি উইন্ডোজ এবং কিছু পশ্চিমা ইউরোপ ভাষায় ব্যবহৃত একটি চরিত্র সেট। এটি আইএসও 8859-1 এর একটি সুপারস্টেট, যদিও আইএসও 8859-1 এএনএসআই হিসাবেও রেফার করা যেতে পারে। আইএসও 8859-1 হ'ল ইউনিকোডের প্রথম 256 কোডপয়েন্টস, সুতরাং এটি ইউনিকোডের একটি উপসেট, তবে এটি ইউটিএফ -8 এনকোডিংয়ের সাথে সামঞ্জস্যপূর্ণ নয়। এএসসিআইআই একটি 7-বিট চরিত্রের সেট এবং এটিএনএসআইর একটি উপসেট যা 8 টি বিট দ্বারা এনকোড করা হয়, তবে এটি কখনও কখনও এএনএসআই হিসাবেও উল্লেখ করা হয়, যদিও খুব সঠিক নয় although

https://en.wikipedia.org/wiki/ANSI_character_set

সাধারণত চরিত্র সেটগুলির মধ্যে সম্পর্কটি নিম্নরূপ

ASCII < ISO 8859-1 < Windows-1252
        ^
        Unicode

ধন্যবাদ, এনকোডিং সহ চরসেটটি বিশৃঙ্খলা করার জন্য দুঃখিত। এই অ প্রদর্শনযোগ্য অক্ষরগুলি এড়ানোর কোনও উপায় আছে এবং এর পরিবর্তে কিছু প্রদর্শনযোগ্য উদ্ধৃতি রয়েছে?
ব্যবহারকারী 3658425

@ ব্যবহারকারী3658425 দয়া করে আমার সম্পাদনা দেখুন
ফুক্লভি

1
আমি উপরের এএনএসআই / এএসসিআইআই তথ্যও সম্পাদনা করেছি
ফুচলভি

3
মনে রাখবেন, সাধারণভাবে, "বাইট অর্ডার চিহ্ন ব্যতীত ইউটিএফ -8" আপনি যা চান তা হ'ল। অতীতে অন্য অনেকে বলেছে, "ইউটিএফ -8 হ'ল একমাত্র দরকারী স্ট্রিং এনকোডিং" "
Riking

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.