UTF-8 এনকোড করতে পারে কত অক্ষর?


100

যদি ইউটিএফ -8 8 বিট হয়, তবে এর অর্থ এই নয় যে কেবলমাত্র সর্বোচ্চ 256 টি আলাদা অক্ষর থাকতে পারে?

প্রথম 128 কোড পয়েন্টগুলি ASCII এর মতো। তবে এটি বলেছে ইউটিএফ -8 মিলিয়ন অবধি চরিত্রকে সমর্থন করতে পারে?

কিভাবে কাজ করে?


4
আপনি যদি এই প্রশ্নটির পুনর্নির্মাণ করতে পারেন তবে সমস্ত উত্তরগুলি ভুল। আমার উত্তর পড়ুন: স্ট্যাকওভারফ্লো.com
ইভান ক্যারল

ইউনিকোডের ইউটিএফ -8, ইউটিএফ -16, ইউটিএফ -32 এনকোডিংগুলিতে সংখ্যাটি তার কোড ইউনিটে বিটের সংখ্যা, যার মধ্যে এক বা একাধিক একটি ইউনিকোড কোডপয়েন্টকে এনকোড করে।
টম ব্লডজেট

4
কিছুক্ষণ আগে আমি এ প্রশ্নের উত্তর সোজা করার প্রয়াসে দিয়েছি: আপনি যদি উত্তরের উত্তরটি বেছে নিয়েছিলেন যা পুরো আক্ষরিকভাবে কেবল একটি একক উইকিপিডিয়া উদ্ধৃতি যা পুরো গল্পটি বলে না (আশা করি আমার আপডেট) অনেক পরিষ্কার)
ইভান ক্যারল

উত্তর:


137

ইউটিএফ -8 সারাক্ষণ একটি বাইট ব্যবহার করে না, এটি 1 থেকে 4 বাইট।

প্রথম 128 টি অক্ষরের (ইউএস-এএসসিআইআই) একটি বাইট দরকার।

পরবর্তী 1,920 টি অক্ষর এনকোড করতে দুটি বাইট প্রয়োজন। এটি প্রায় সমস্ত লাতিন বর্ণমালা এবং গ্রীক, সিরিলিক, কপটিক, আর্মেনিয়ান, হিব্রু, আরবি, সিরিয়াক এবং টানা বর্ণমালা এবং পাশাপাশি ডায়াক্রিটিকাল চিহ্নগুলির সংমিশ্রণকে অন্তর্ভুক্ত করে।

বাকী বেসিক বহুভাষিক প্লেনের অক্ষরের জন্য তিনটি বাইটের প্রয়োজন হয়, এতে বেশিরভাগ চীনা, জাপানি এবং কোরিয়ান [সিজেকে] অক্ষর সহ সাধারণ ব্যবহারে কার্যত সমস্ত অক্ষর [12] থাকে।

ইউনিকোডের অন্যান্য প্লেনে অক্ষরের জন্য চারটি বাইটের প্রয়োজন রয়েছে, যার মধ্যে কম সাধারণ সিজেকে অক্ষর, বিভিন্ন historicতিহাসিক স্ক্রিপ্ট, গাণিতিক চিহ্ন এবং ইমোজি (চিত্রের প্রতীক) অন্তর্ভুক্ত রয়েছে।

উত্স: উইকিপিডিয়া


হাই @ জুইপ্পি আমি এতে নতুন new কিছু আছে যা আমি পাই না! বিএমপি 2 বাইট ব্যবহার করে আপনি বলেন 3? আমি কি ভূল?
চিপার্তেটিজ

4
@ চিপের্তেটিজ, বিএমপি প্রকৃতপক্ষে ১ b বিট, সুতরাং এটি অক্ষর প্রতি ধ্রুবক দৈর্ঘ্যের সাথে ইউটিএফ -১ as হিসাবে এনকোড করা যেতে পারে (ইউটিএফ -16 এছাড়াও 16 বিটের বাইরে যাওয়ার পক্ষে সমর্থন করে তবে এটি একটি কঠিন অনুশীলন, এবং অনেকগুলি বাস্তবায়ন এটি সমর্থন করে না)। যাইহোক, ইউটিএফ -8 এর জন্য আপনাকে এটির কতক্ষণ সময় লাগবে তা এনকোড করতে হবে, যাতে আপনি কিছু বিট হারাবেন। যে কারণে সম্পূর্ণ বিএমপি এনকোড করতে আপনার 3 বাইট প্রয়োজন need এটি অপ্রয়োজনীয় বলে মনে হতে পারে তবে মনে রাখবেন যে ইউটিএফ -16 সর্বদা 2 বাইট ব্যবহার করে তবে ইউটিএফ -8 বেশিরভাগ লাতিন-ভিত্তিক ভাষার অক্ষরের জন্য প্রতিটি চরিত্রের জন্য একটি বাইট ব্যবহার করে। কমপ্যাক্ট হিসাবে এটি দ্বিগুণ তৈরি।
sanderd17

ওপি-র প্রশ্নের মূল জোর এটি সম্পর্কিত যে কেন এটি ইউটিএফ -8 বলা হয় - এটি সত্যই এর উত্তর দেয় না।
jbyrd

43

ইউটিএফ -8 প্রতি চরিত্রের জন্য 1-4 বাইট ব্যবহার করে: এসকিআই অক্ষরের জন্য একটি বাইট (প্রথম 128 ইউনিকোড মানগুলি এসকিআইয়ের সমান)। তবে এর জন্য কেবল 7 বিট প্রয়োজন। যদি সর্বোচ্চ ("চিহ্ন") বিট সেট করা থাকে তবে এটি একটি বহু-বাইট ক্রমের সূচনা নির্দেশ করে; একটানা উচ্চ বিট সেট সংখ্যা বাইট সংখ্যা, তারপর একটি 0, এবং বাকী বিট মান মান অবদান নির্দেশ করে। অন্যান্য বাইটের জন্য, সর্বোচ্চ দুটি বিট হবে 1 এবং 0 এবং বাকী 6 বিট মানটির জন্য।

সুতরাং একটি চার বাইট অনুক্রম 11110 দিয়ে শুরু হবে ... (এবং ... = মানটির জন্য তিন বিট) তারপরে তিনটি বাইটের সাথে প্রতিটি 6 টি বিট মান সহ 21 টি বিট মান দেয়। 2 ^ 21 ইউনিকোড অক্ষরের সংখ্যা ছাড়িয়ে গেছে, তাই ইউনিকোডের সমস্তটি ইউটিএফ 8-তে প্রকাশ করা যেতে পারে।


@ নিকল না, মানে 3 বাইট উদাহরণস্বরূপ, যদি একটি multibyte ক্রম প্রথম বাইট শুরু 1111, প্রথম 1 ইঙ্গিত করে যে এটা হয় একটি multibyte ক্রম প্রারম্ভে, তারপরে পরপর 1 এর সংখ্যা সংখ্যা নির্দেশ করে অতিরিক্ত ক্রমানুসারে বাইট (তাই একটি প্রথম বাইট 110, 1110, বা 11110 হয় শুরু হবে)।
কোডক্লাউন 42

জন্য RFC 3629. আপনার শব্দের জন্য প্রমাণ পাওয়া tools.ietf.org/html/rfc3629#section-3 । তবে, আমি বুঝতে পারি না কেন দ্বিতীয় বাইট 110XXXX 10xxxxxx এর শুরুতে আমাকে "10" স্থাপন করা দরকার? কেন কেবল 110 xxxxxx xxxxxxxx নয়?
kolobok

4
সফ্টওয়্যারেনজেনারিং.স্ট্যাকেক্সেঞ্জাওয়েজ.কোশনস / 262227/… এ উত্তর পেয়েছে । কেবল সুরক্ষার কারণে (যদি স্রোতের মাঝামাঝি কোনও একক বাইটটি ক্ষতিগ্রস্থ হয়)
কলোবক

@ কোলোবোক আহ। সানস সুরক্ষা আপনি তারপরে একটি 21-বিট মান 3 বাইটে (3 বিট দৈর্ঘ্য এবং 21-বিট ইঙ্গিত করে) এনকোড করতে পারেন। : ডি সম্ভবত এটি এত অর্থপূর্ণ নয় যদিও কমপক্ষে WRT পশ্চিমা ভাষাগুলি।
কোডক্লাউন 42

আমি অনুমান করছি যে নিকল এটি জিজ্ঞাসা করেছে কিন্তু ... বিটের পরিবর্তে পরবর্তী বাইটগুলি উপস্থাপন করে যদি সেই প্রথম বাইটের বাকী বিটের কী ঘটে?
c6754

27

এই টেবিল অনুযায়ী * ইউটিএফ -8 সমর্থন করা উচিত :

2 31 = 2,147,483,648 টি অক্ষর

তবে, আরএফসি 3629 সম্ভাব্য মানগুলিকে সীমাবদ্ধ করেছে, সুতরাং এখন আমরা 4 বাইটে ক্যাপড করেছি , যা আমাদের দেয়

2 21 = 2,097,152 টি অক্ষর

নোট করুন যে এই অক্ষরগুলির একটি ভাল অংশ কাস্টম ব্যবহারের জন্য "সংরক্ষিত" রয়েছে, যা আসলে আইকন-ফন্টগুলির জন্য বেশ কার্যকর।

* উইকিপিডিয়ায় 6 বাইট সহ একটি টেবিল প্রদর্শন করা হয়েছে - তারা নিবন্ধটি আপডেট করেছে।

2017-07-11: একাধিক বাইট সহ এনকোড করা একই কোড পয়েন্টটিকে দ্বিগুণ গণনা করার জন্য সংশোধন করা হয়েছে


এই উত্তরটি সম্ভব এনকোডিংগুলির সংখ্যা দ্বিগুণ গণনা। একবার আপনি সমস্ত 2 ^ 7 গণনা করলে, আপনি আবার 2 ^ 11, 2 ^ 16 ইত্যাদিতে এগুলি গণনা করতে পারবেন না possible
জিমি

@ জিমি আপনি কি নিশ্চিত যে আমি দ্বিগুন গণনা করছি? 0xxxxxxx7 টি ব্যবহারযোগ্য বিট 110xxxxx 10xxxxxxদেয় , আরও 11 দেয় - কোনও ওভারল্যাপ নেই। প্রথম বাইট 0প্রথম ক্ষেত্রে শুরু হয় , এবং 1দ্বিতীয় ক্ষেত্রে in
এমপেন

@ এমপেন তাই কোন কোড পয়েন্ট 00000001সংরক্ষণ করে এবং কোনটি 11000000 100000001সঞ্চয় করে?
ইভান ক্যারল

4
@ ইভানক্রোল উহহ .... পয়েন্ট নেওয়া হয়েছে। একই কোড পয়েন্টটি এনকোড করার একাধিক উপায় রয়েছে তা বুঝতে পারি নি।
এমপেন

4
আমি নিজেই এটির উত্তর দেওয়ার চেষ্টা করে এগিয়ে গেলাম, দেখুন আপনি কি মনে করেন এটি আরও উত্তম ব্যাখ্যা এবং প্রশ্নের উত্তর: stackoverflow.com/a/45042566/124486
ইভান ক্যারল

23

ইউনিকোড বনাম ইউটিএফ -8

ইউনিকোড অক্ষরের কোড পয়েন্টগুলি সমাধান করে। ইউটিএফ -8 ইউনিকোডের স্টোরেজ মেকানিজম। ইউনিকোডে একটি অনুমান রয়েছে। ইউটিএফ -8 একটি অনুমান আছে। তাদের উভয়েরই আলাদা সীমা রয়েছে। ইউটিএফ -8 এর আলাদা wardsর্ধ্বমুখী রয়েছে।

ইউনিকোড

ইউনিকোডকে "প্লেন" দিয়ে মনোনীত করা হয়েছে প্রতিটি বিমান 2 16 কোড পয়েন্ট বহন করে । ইউনিকোডে 17 টি প্লেন রয়েছে। মোট 17 * 2^16কোড পয়েন্টের জন্য। প্রথম প্লেনে, সমতল 0 বা বিএমপি , এটা কি বহন করে এর ওজন বিশেষ।

সমস্ত সংক্ষিপ্ত বিবরণ ব্যাখ্যা করার পরিবর্তে, আমাকে কেবল প্লেনগুলির উপরের নিবন্ধটি উদ্ধৃত করি।

17 টি বিমান 1,114,112 কোড পয়েন্টের সমন্বয় করতে পারে। এর মধ্যে ২,০৪৮ জন সরোগেট, non 66 জন নন-চরিত্রের, এবং ১৩7,৪68। জন সরকারী নিয়োগের জন্য 974,530 রেখে ব্যক্তিগত ব্যবহারের জন্য সংরক্ষিত রয়েছে।

ইউটিএফ -8

এবার উপরের লিঙ্কে ফিরে যাওয়া যাক,

ইউটিএফ -8 দ্বারা ব্যবহৃত এনকোডিং স্কিমটি 2 31 কোড পয়েন্টের (32,768 প্লেন) অনেক বড় সীমা দ্বারা ডিজাইন করা হয়েছিল এবং 4 বাইটের মধ্যে সীমাবদ্ধ থাকলেও 2 21 কোড পয়েন্ট (32 প্লেন) এনকোড করতে পারে [[3] যেহেতু ইউনিকোডটি ইউটিএফ -16 দ্বারা এনকোড করা যায় এমন 17 টি প্লেনের কোড পয়েন্ট সীমাবদ্ধ করে, 0x10FFFF এর উপরে কোড পয়েন্টগুলি ইউটিএফ -8 এবং ইউটিএফ -32 এ অবৈধ।

সুতরাং আপনি দেখতে পাচ্ছেন যে আপনি ইউটিএফ -8 এ এমন স্টাফ রাখতে পারেন যা বৈধ ইউনিকোড নয়। কেন? কারণ ইউটিএফ -8 এমন কোড পয়েন্টগুলিকে সংযুক্ত করে যা ইউনিকোড এমনকি সমর্থন করে না।

ইউটিএফ -8, এমনকি একটি চার বাইট সীমাবদ্ধতা সহ, ২ 21 কোড পয়েন্ট সমর্থন করে , যা এর চেয়ে অনেক বেশি17 * 2^16


20

2,164,864 "অক্ষরগুলি" ইউটিএফ -8 দ্বারা সম্ভাব্যভাবে কোড করা যেতে পারে।

এই নম্বরটি , যা এনকোডিংয়ের কাজ থেকে আসে:27 + 211 + 216 + 221

  • 1-বাইট 0xxxxxxxচরগুলিতে এনকোডিংয়ের জন্য 7 টি বিট রয়েছে (0x00-0x7F)

  • 2-বাইট 110xxxxx 10xxxxxxচরগুলিতে এনকোডিংয়ের জন্য 11 টি বিট রয়েছে (প্রথম বাইটের জন্য 0xC0-0xDF; দ্বিতীয়টির জন্য 0x80-0xBF)

  • 3-বাইট 1110xxxx 10xxxxxx 10xxxxxxচরগুলিতে এনকোডিংয়ের জন্য 16 টি বিট থাকে (প্রথম বাইটের জন্য 0xE0-0xEF; ধারাবাহিকতা বাইটগুলির জন্য 0x80-0xBF)

  • 4-বাইট 11110xxx 10xxxxxx 10xxxxxx 10xxxxxxচরগুলিতে এনকোডিংয়ের জন্য 21 টি বিট থাকে (প্রথম বাইটের জন্য 0xF0-0xF7; ধারাবাহিকতা বাইটগুলির জন্য 0x80-0xBF)

আপনি দেখতে পাচ্ছেন এটি বর্তমান ইউনিকোডের (1,112,064 টি অক্ষর) তুলনায় উল্লেখযোগ্যভাবে বড়।

হালনাগাদ

আমার প্রাথমিক গণনা ভুল কারণ এটি অতিরিক্ত নিয়ম বিবেচনা করে না। আরও তথ্যের জন্য এই উত্তরের মন্তব্য দেখুন।


4
আপনার গণিতটি ইউটিএফ -8 বিধিটিকে সম্মান করে না যে কেবলমাত্র সংক্ষিপ্ততম কোড ইউনিট ক্রমটি কোডপয়েন্টকে এনকোড করার অনুমতিপ্রাপ্ত। সুতরাং, 00000001 ইউ + 0001 এর জন্য বৈধ তবে 11110000 10000000 10000000 10000001 নয়। রেফ: সারণী 3-7। সুসংহত UTF-8 বাইট সিকোয়েন্সস । এছাড়াও, প্রশ্নের টেবিলের মাধ্যমে সরাসরি উত্তর দেওয়া হয়: আপনি সীমাটি সীমাবদ্ধ করে দিন। (তারা ইউটিএফ -16 এর জন্য সার্গেটগুলি বাদ দিতে অসন্তুষ্ট)।
টম ব্লডজেট

টম - আপনার মন্তব্যের জন্য ধন্যবাদ! আমি এই বিধিনিষেধ সম্পর্কে অজানা ছিলাম। আমি টেবিলটি 3-7 দেখেছি এবং সংখ্যাগুলি চালিয়েছি এবং মনে হচ্ছে 1,083,392 সম্ভাব্য বৈধ ক্রম রয়েছে।
রুবেন রেস

এটি একটি সঠিক উত্তর। অন্যান্য উত্তরগুলি সবেমাত্র বন্ধ হয়ে 2^21গেছে এবং সম্ভব সমস্ত সংমিশ্রণগুলি ভুলে গেছে।
মানু মঞ্জুনাথ

6

ইউটিএফ -8 হ'ল একটি চরিত্রের জন্য সর্বনিম্ন 8 বিট সহ একটি পরিবর্তনশীল দৈর্ঘ্যের এনকোডিং । উচ্চতর কোড পয়েন্ট সহ অক্ষর 32 বিট নিতে হবে


4
এটি বিভ্রান্তিকর। আপনার কাছে থাকা দীর্ঘতম কোড পয়েন্টটি হ'ল 11110xxx 10xxxxxx 10xxxxxx 10xxxxxxপ্রকৃত চরিত্রটি এনকোড করার জন্য কেবল 21 বিট ব্যবহার করা যেতে পারে।
বরিস

6
আমি বলেছিলাম কোড পয়েন্টগুলি 32 বিটগুলি এনকোড করতে লাগতে পারে, আমি কখনও দাবি করি নি যে (প্রবর্তন করে) আপনি 32 বিট ইউটিএফ -8 এ 2 ^ 32 টি অক্ষর এনকোড করতে পারবেন। তবে এটি বরং মোটা, যেহেতু আপনি ইউটিএফ -8-তে সমস্ত বিদ্যমান ইউনিকোড অক্ষরগুলি এনকোড করতে পারবেন এবং আপনি ইউটিএফ -8 থেকে 48 বিট প্রসারিত করলে আরও বেশি এনকোড করতে পারবেন (যা বিদ্যমান তবে অবনমিত রয়েছে) তবে আমি নিশ্চিত না যে এটি কী বিভ্রান্তিমূলক বিষয়।
ছদ্মবেশ

4

উইকিপিডিয়া থেকে উদ্ধৃতি: "ইউটিএফ -8 ইউনিকোড অক্ষরটিতে 1,112,064 কোড পয়েন্টের প্রতিটি এনকোড করে এক থেকে চার 8-বিট বাইট (ইউনিকোড স্ট্যান্ডার্ডে" অক্টেটস "হিসাবে চিহ্নিত) ব্যবহার করে।"

কিছু লিঙ্ক:


1

ইউনিকোড স্ট্যান্ডার্ড এবং সম্পর্কিত তথ্য যেমন তাদের FAQ এন্ট্রি, UTF-8 UTF-16, UTF-32 এবং BOM দেখুন । এটি কোনও মসৃণ নৌযান নয়, তবে এটি অনুমোদনযোগ্য তথ্য এবং আপনি ইউটিএফ -8 সম্পর্কে অন্য কোথাও যা পড়তে পারেন তার বেশিরভাগই সন্দেহজনক।

"ইউটিএফ -8" এর "8" কোড ইউনিটের দৈর্ঘ্যের সাথে সম্পর্কিত বিটের । কোড ইউনিটগুলি হ'ল অক্ষরগুলিকে এনকোড করার জন্য সত্তা ব্যবহৃত হয়, সাধারণ এক-টু ওয়ান ম্যাপিং হিসাবে অগত্যা নয়। UTF-8 একটি অক্ষর এনকোড করতে কোড ইউনিটের একটি চলক সংখ্যার ব্যবহার করে।

ইউটিএফ -8 এ এনকোড করা যায় এমন অক্ষরগুলির সংগ্রহটি ইউটিএফ -16 বা ইউটিএফ -32, যেমন সমস্ত ইউনিকোড অক্ষর হিসাবে একই। এগুলি সমস্ত গোটা ইউনিকোড কোডিং স্পেসকে এনকোড করে, এতে ননচার্যাক্টর এবং আনসাইন না হওয়া কোড পয়েন্টও অন্তর্ভুক্ত থাকে।


0

যদিও আমি বর্তমান সর্বাধিক ইউটিএফ -8 কোডগুলিতে (2,164,864) এমপেনের সাথে একমত (যদিও নীচে তালিকাভুক্ত করা হয়েছে, আমি তার বিষয়ে মন্তব্য করতে পারিনি), আপনি যদি ইউটিএফ -8 এর 2 টি বড় বিধিনিষেধ অপসারণ করেন তবে তিনি 2 স্তরের দ্বারা বন্ধ আছেন: মাত্র 4 বাইট সীমা এবং কোড 254 এবং 255 ব্যবহার করা যাবে না (তিনি কেবল 4 বাইট সীমাটি সরিয়ে দিয়েছেন)।

শুরুর কোড 254 বিট (মাল্টি-বিট পতাকা সেট 1, 6 1 এর একটি গণনা, এবং টার্মিনাল 0, কোনও অতিরিক্ত বিট নেই) শুরু করার প্রাথমিক ব্যবস্থা অনুসরণ করে আপনাকে 6 টি অতিরিক্ত বাইটস (6 10 xxxxxxx গ্রুপ, অতিরিক্ত 2 work) দিয়ে কাজ করার জন্য দেয় 36 কোড)।

255 শুরুর কোডটি বেসিক সেটআপটি সঠিকভাবে অনুসরণ করে না, 0 টার্মিনাল নেই তবে সমস্ত বিট ব্যবহার করা হয়, আপনাকে 7 অতিরিক্ত বাইট দেয় (মাল্টি-বিট পতাকা সেট 1, 7 1 এর একটি গণনা, এবং কোনও টার্মিনাল 0 নেই কারণ সমস্ত বিট ব্যবহৃত হয় ; 7 10XXXX গ্রুপ, অতিরিক্ত 2 ^ 42 কোড)।

এগুলিকে যুক্ত করা 4,468,982,745,216 এর একটি চূড়ান্ত সর্বোচ্চ উপস্থাপনযোগ্য চরিত্র সেট দেয়। এটি বর্তমান ব্যবহারের সমস্ত অক্ষর, পুরানো বা মৃত ভাষা এবং বিশ্বাসযোগ্য হারানো ভাষার চেয়ে বেশি। অ্যাঞ্জেলিক বা আকাশচুম্বী লিপি কেউ?

এছাড়াও এমন একক বাইট কোড রয়েছে যা ইউটিএফ -8 স্ট্যান্ডার্ডে 254 এবং 255: 128-191 এবং অন্য কয়েকটি ছাড়াও উপেক্ষা / উপেক্ষা করা হয়। কিছু স্থানীয়ভাবে কীবোর্ড দ্বারা ব্যবহৃত হয়, উদাহরণস্বরূপ কোড 128 সাধারণত একটি মোছা ব্যাকস্পেস হয়। অন্যান্য শুরুর কোডগুলি (এবং সম্পর্কিত ব্যাপ্তিগুলি) এক বা একাধিক কারণে ( https://en.wikedia.org/wiki/UTF-8#In अवैध_byte_sequences) অবৈধ ।


-1

ইউনিকোড দৃ U়ভাবে ইউটিএফ -8 এ বিবাহিত। ইউনিকোড বিশেষত 2 ^ 21 কোড পয়েন্টগুলি (2,097,152 টি অক্ষর) সমর্থন করে যা ইউটিএফ -8 দ্বারা সমর্থিত কোড পয়েন্টের ঠিক একই সংখ্যা। উভয় সিস্টেমে কোড পয়েন্ট ইত্যাদির জন্য একই 'মৃত' স্থান এবং সীমাবদ্ধ অঞ্চলগুলি সংরক্ষণ করে ... জুন ২০১ 2018 পর্যন্ত সর্বাধিক সাম্প্রতিক সংস্করণ, ইউনিকোড ১১.০-এ রয়েছে ১৩43,,৩9 অক্ষরের একটি পুস্তক

ইউনিকোড স্ট্যান্ডার্ড থেকে। ইউনিকোড FAQ

ইউনিকোড স্ট্যান্ডার্ডটি ইউ +0000..U + 10FFFF পরিসরে অক্ষরগুলি এনকোড করে, যা 21-বিট কোড স্পেসের সমান।

ইউটিএফ -8 উইকিপিডিয়া পৃষ্ঠা থেকে। ইউটিএফ -8 বর্ণনা

2003 সালে ইউনিকোড কোড-স্পেস 21-বিট মানগুলিতে সীমাবদ্ধ হওয়ার পরে, ইউটিএফ -8 সংজ্ঞা দেওয়া হয়েছে কোড পয়েন্টগুলি এক থেকে চার বাইটে এনকোড করার জন্য, ...


21 বিট বৃত্তাকার হয়। ইউনিকোড 1,114,112 কোডপয়েন্টগুলি (U + 0000 থেকে U + 10FFFF) এর মত সমর্থন করে। (কখনও কখনও 65536 এর 17 বিমান হিসাবে বর্ণনা করা হয়))
টম

@ টমব্লডজেট, আপনি সঠিক বলেছেন। এই আলোচনা থেকে সর্বাধিক প্রাসঙ্গিক গ্রহণযোগ্যতাটি হ'ল ইউটিএফ -8 ইউনিকোড স্ট্যান্ডার্ডে বর্তমান নির্ধারিত সমস্ত পয়েন্টকে এনকোড করতে পারে এবং সম্ভবত বেশ কিছু সময়ের জন্য এটি সক্ষম হতে পারে।
নামটি
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.