ইউটিএফ -8 লক্ষ লক্ষ নতুন চরিত্রের সাথে একটি বিজাতীয় ভাষার অন্তর্ভুক্তিকে সমর্থন করতে সক্ষম হবে?


86

ইভেন্টে একটি ভিনগ্রহী আক্রমণ ঘটল এবং আমরা আমাদের বিদ্যমান কম্পিউটার সিস্টেমে তাদের ভাষাগুলি সমর্থন করতে বাধ্য হয়েছিলাম, ইউটিএফ -8 কি তাদের সম্ভাব্য বিশাল পরিমাণে অক্ষরের অনুমতি দেওয়ার জন্য ডিজাইন করা হয়েছে?

(অবশ্যই, আমরা জানি না এলিয়েনদের আসলে ভাষা আছে কিনা, তারা কীভাবে বা কীভাবে যোগাযোগ করে, তবে তর্কের খাতিরে, দয়া করে কেবল তারা কল্পনা করে দেখুন)।

উদাহরণস্বরূপ, যদি তাদের ভাষায় লক্ষ লক্ষ নতুন গাইফ, চিহ্ন এবং / অথবা সংমিশ্রিত অক্ষর সমন্বিত থাকে , তবে ইউটিএফ -8 তাত্ত্বিকভাবে এই নতুন গ্লাইফগুলি অন্তর্ভুক্ত করার জন্য এবং তবুও বিদ্যমান সমস্ত সফ্টওয়্যার সমর্থন করার জন্য তাত্ত্বিকভাবে প্রসারিত করা যেতে পারে?

গ্লাইফগুলি যদি বর্তমান আকারের সীমাবদ্ধতাগুলি ছাড়িয়ে যায় এবং একটি গ্লাইফ উপস্থাপনের জন্য আরও বাইট প্রয়োজন হয় তবে আমি আরও আগ্রহী। ঘটনা হল UTF-8 পারে না প্রসারিত করা, যে প্রমাণ নয় যে হল UTF-32 ওভার একক সুবিধা কেবল নিম্ন অক্ষরের আকার?


16
"তাদের ভাষাগুলি সমর্থন করুন " (আমার জোর) ... কত? আমরা কি নিশ্চিত যে ভাষাগুলি অক্ষরে বিভক্ত হতে পারে? সম্ভবত ভাষা স্থানিক সম্পর্কের উপর ভিত্তি করে। - টেড চিয়াং "আপনার জীবনের গল্প", আপনার জীবনের গল্প এবং অন্যান্য দেখুন । সর্বোপরি, এটি কেবলমাত্র এক্স-বাইটস-এ (সর্বাধিক বিষয়-বিষয়) max সবচেয়ে খারাপ কথা, এটি অনুমানমূলক বাজে কথা। (আপনি কী জিজ্ঞাসা করছেন তা পরিষ্কার নয়)
স্ক্যান্ট রোজার

6
@ স্ক্যানটরোজার গৃহীত উত্তর প্রশ্নের উদ্দেশ্য হিসাবে যেমনটি উত্তর দেওয়া হয়েছিল ঠিক তেমন উত্তর দেয়।
কিউস

11
গৃহীত উত্তরটি আমাদের ইউটিএফ -8, ইউটিএফ -16, এবং ইউটিএফ -32 এর সত্য ঘটনা বলার দুর্দান্ত কাজ করে। আপনি কেবল উইকিপিডিয়ায় এটি সন্ধান করতে পারেন। "ভিনগ্রহের আক্রমণ" হিসাবে, উত্তরটি একে একে কীভাবে সম্বোধন করে তা আমি দেখতে পাই না।
স্ক্যান্ট রজার

10
সম্পর্কিত (স্ট্যাক ওভারফ্লোতে): ইউটিএফ -8 সমস্ত সাধারণ ভাষার জন্য যথেষ্ট?
ইয়ানিস

9
ইউনিকোড ভাষা সমর্থন করে না, এটি অক্ষরকে সমর্থন করে - লিখিত আকারে অর্থ উপস্থাপন করতে ব্যবহৃত গ্লাইফগুলি। অনেকগুলি মানুষের ভাষায় স্ক্রিপ্ট নেই এবং তাই ইউনিকোড দ্বারা সমর্থন করা যায় না। অনেক প্রাণীর যোগাযোগের কথা উল্লেখ না করে তবে লিখিত ভাষা নেই। ইলাস্ট্রেশন বা শব্দহীন কমিকস দ্বারা যোগাযোগ ইউনিকোড দ্বারা সমর্থন করা যায় না যেহেতু গ্লাইফগুলির সেট সীমাবদ্ধ নয়। সংজ্ঞা অনুসারে আমরা জানি না এলিয়েনরা কীভাবে যোগাযোগ করে, তাই আপনার প্রশ্নের উত্তর দেওয়া অসম্ভব। আপনি যদি জানতে চান যে ইউনিকোড কতগুলি স্বতন্ত্র অক্ষরকে সমর্থন করতে পারে তবে আপনার অবশ্যই স্পষ্ট করা উচিত :)
জ্যাকবিবি

উত্তর:


109

ইউনিকোড স্ট্যান্ডার্ডে এড়াতে প্রচুর জায়গা রয়েছে। ইউনিকোড কোডপয়েন্টগুলি "প্লেন" এবং "ব্লক "গুলিতে সংগঠিত হয়। মোট ১ plan টি প্লেনের মধ্যে বর্তমানে ১১ জন নিরপত রয়েছে । প্রতিটি প্লেন 65,536 টি অক্ষর ধারণ করে, সুতরাং একটি এলিয়েন ভাষার জন্য বাঁচার জন্য বাস্তবিক অর্ধ মিলিয়ন কোডপয়েন্ট রয়েছে (যদি না আমরা প্রথম যোগাযোগের আগে আরও সমস্ত ইমোজি দিয়ে সেগুলি পূরণ না করি)। ইউনিকোড ৮.০ অনুসারে, মোট ১২০,7377 কোড পয়েন্টকে মোট (মোট ক্ষমতার প্রায় 10%) বরাদ্দ দেওয়া হয়েছে, প্রায় একই পরিমাণটি নিযুক্ত না হলেও ব্যক্তিগত, অ্যাপ্লিকেশন-নির্দিষ্ট ব্যবহারের জন্য সংরক্ষিত রয়েছে। মোট, 974,530 কোডপয়েন্টগুলি স্বাক্ষরবিহীন।

ইউটিএফ -8 ইউনিকোডের একটি নির্দিষ্ট এনকোডিং, এবং বর্তমানে কোড পয়েন্ট প্রতি চারটি অক্টেট (বাইটস) সীমাবদ্ধ যা ইউটিএফ -16 এর সীমাবদ্ধতার সাথে মেলে। বিশেষত, ইউটিএফ -16 কেবল 17 টি প্লেন সমর্থন করে। পূর্বে, ইউটিএফ -8 কোডডপয়েন্ট প্রতি 6 টি অক্টেট সমর্থন করেছিল এবং 32768 প্লেন সমর্থন করার জন্য ডিজাইন করা হয়েছিল। নীতিগতভাবে এই 4 বাইট সীমাটি উত্তোলন করা যেতে পারে, তবে এটি ইউনিকোডের বর্তমান সংস্থার কাঠামোটি ভেঙে ফেলবে এবং ইউটিএফ -16 এর পর্যায়ক্রমে বেরিয়ে আসতে হবে - নির্দিষ্ট অপারেটিং সিস্টেম এবং প্রোগ্রামিংয়ে এটি কীভাবে প্রবেশ করানো হয়েছে তা বিবেচনা করে অদূর ভবিষ্যতে ঘটে যাওয়ার সম্ভাবনা কম ভাষা।

ইউটিএফ -১ still এখনও প্রচলিত ব্যবহারের একমাত্র কারণ হ'ল এটি ত্রুটিযুক্ত ইউসিএস -২ এনকোডিংয়ের একটি এক্সটেনশন যা কেবলমাত্র একটি একক ইউনিকোড বিমানকে সমর্থন করে। এটি অন্যথায় ইউটিএফ -8 (স্থির-প্রস্থ নয়) এবং ইউটিএফ -32 (ASCII উপযুক্ত নয়, সাধারণ ডেটার জন্য জায়গার অপচয় নয়) থেকে অনাকাঙ্ক্ষিত বৈশিষ্ট্যগুলির উত্তরাধিকার সূত্রে প্রাপ্ত হয় এবং এন্ডিয়েনসনেস ঘোষণা করার জন্য বাইট অর্ডার চিহ্নের প্রয়োজন হয়। এই সমস্যাগুলি সত্ত্বেও ইউটিএফ -১ still এখনও জনপ্রিয়, আমি খুব আশাবাদী নই যে এটি খুব শীঘ্রই নিজের দ্বারা পরিবর্তিত হতে চলেছে। আশা করা যায়, আমাদের নতুন এলিয়েন ওভারলর্ডরা তাদের শাসনের এই প্রতিবন্ধকতাটি দেখতে পাবে এবং তাদের জ্ঞানের ভিত্তিতে ইউটিএফ -16 কে পৃথিবীর মুখ থেকে নিষিদ্ধ করবে


7
প্রকৃতপক্ষে, ইউটিএফ -8 ইউটিএফ -16 এর সাথে মেলে যাতে কেবল 4-বাইট-সীমাবদ্ধতার একটি অংশে সীমাবদ্ধ। বিশেষত, এর 17/32 থেকে, অর্ধেকের চেয়ে কিছুটা বেশি।
Deduplicator

5
উইন্ডোজের বাইরে আমি অন্য কোনও ওএস সম্পর্কে জানি না যেখানে ওএসের বেশিরভাগ প্রোগ্রাম ইউটিএফ 16 ব্যবহার করে। ওএসএক্স প্রোগ্রামগুলি সাধারণত ইউটিএফ 8, অ্যান্ড্রয়েড প্রোগ্রামগুলি সাধারণত ইউটিএফ 8, লিনাক্স সাধারণত ইউটিএফ 8 হয়। উইন্ডোজ মারা যাবার জন্য আমাদের যা প্রয়োজন কেবল তা (এটি ইতিমধ্যে মোবাইল স্পেসে মৃতের মতো)
স্লাইটব্যাটম্যান

23
যতক্ষণ না আমরা প্রথমটির সাথে যোগাযোগের আগে আরও বেশি ইমোজি দিয়ে এগুলি পূরণ করি ... সেখানে আপনার এটি রয়েছে। এলিয়েনের সাথে শান্তিপূর্ণ যোগাযোগের জন্য সর্বাধিক উল্লেখযোগ্য হুমকি ইমোজি mo আমরা নষ্ট হয়ে গেছি।
রিক্সার

13
পছন্দ করেছেন জেভিএম ভিত্তিক যে কোনও কিছু ইউটিএফ -১ uses ব্যবহার করে (অ্যান্ড্রয়েড পাশাপাশি, আপনি কেন এটি বলেন না তাও নিশ্চিত নন), জাভাস্ক্রিপ্ট ইউটিএফ -১ uses ব্যবহার করে এবং জাভা এবং জাভাস্ক্রিপ্ট সর্বাধিক জনপ্রিয় ভাষা হিসাবে দেওয়া হয়েছে, ইউটিএফ -১ any যে কোনও সময় কোথাও যাচ্ছে না শীঘ্রই.
ম্যালকম

5
কাইসার্লুদি "বেশিরভাগ লিনাক্স কোড ইউনিকোডের জন্য ইউটিএফ 32 ব্যবহার করে", হ্যাঁ, না। সিরিয়াসলি কোথায় আপনি এই ধারণা পেয়েছেন? এমনকি একটি wfopen সিস্কল বা অন্য কিছু নেই, এটি সমস্ত উপায়ে ইউটিএফ 8। হেল এমনকি পাইথন এবং জাভা - উভয়ই historicalতিহাসিক কারণে স্ট্রিংগুলি ইউটিএফ -16 হিসাবে সংজ্ঞায়িত করে - যখন প্রয়োজন হয় তখন ব্যতীত স্ট্রিংগুলিকে ইউটিএফ -16 হিসাবে সংরক্ষণ করে না .. বড় মেমরির সুবিধা এবং কোনও কার্যকারিতা হিট করে না (এবং রূপান্তরগুলি হ্যান্ডেল করার জন্য অতিরিক্ত কোড থাকা সত্ত্বেও - মেমরি ব্যয়বহুল, সিপিইউ সস্তা)। একই অ্যান্ড্রয়েডের জন্য যায় - এনডিকে জেস্ট্রিংটি ইউটিএফ 8, বেশিরভাগ কারণেই গুগল ইঞ্জিনিয়াররা উন্মাদ নয়।
ভু

30

যদি ইউটিএফ -8 প্রকৃতপক্ষে প্রসারিত করা হয় তবে আমাদের প্রতিনিধিত্ব করতে পারে এমন পরম সর্বোচ্চটি লক্ষ্য করা উচিত। ইউটিএফ -8 এটির মতো কাঠামোযুক্ত:

Char. number range  |        UTF-8 octet sequence
   (hexadecimal)    |              (binary)
--------------------+---------------------------------------------
0000 0000-0000 007F | 0xxxxxxx
0000 0080-0000 07FF | 110xxxxx 10xxxxxx
0000 0800-0000 FFFF | 1110xxxx 10xxxxxx 10xxxxxx
0001 0000-0010 FFFF | 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

( আরএফসি থেকে নির্লজ্জভাবে অনুলিপি করা হয়েছে ।) আমরা দেখতে পাই যে প্রথম বাইটটি সর্বদা কতগুলি ফলো-আপ বাইট বর্তমান চরিত্রটি তৈরি করে তা নিয়ন্ত্রণ করে।

আমরা যদি এটি 8 বাইট পর্যন্ত বাড়ানোর অনুমতি প্রদান করি তবে আমরা অতিরিক্ত নন-ইউনিকোড উপস্থাপনা পাই

111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
11111110 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
11111111 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx

এই কৌশলটি আমাদের আসতে দেয় সর্বাধিক সম্ভাব্য উপস্থাপনা গণনা করা

  10000000₂
+ 00100000₂ * 01000000₂
+ 00010000₂ * 01000000₂^2
+ 00001000₂ * 01000000₂^3
+ 00000100₂ * 01000000₂^4
+ 00000010₂ * 01000000₂^5
+ 00000001₂ * 01000000₂^6
+ 00000001₂ * 01000000₂^7

বা বেস 10 এ:

  128
+  32 * 64
+  16 * 64^2
+   8 * 64^3
+   4 * 64^4
+   2 * 64^5
+   1 * 64^6
+   1 * 64^7

যা আমাদের সর্বোচ্চ পরিমাণ 4,468,982,745,216 হিসাবে উপস্থাপন করে।

সুতরাং, যদি এই 4 বিলিয়ন ( বা ট্রিলিয়ন, আপনি যেমন খুশি হন ) অক্ষরগুলি এলিয়েন ভাষাগুলির প্রতিনিধিত্ব করতে যথেষ্ট হয় তবে আমি যথেষ্ট ইতিবাচক যে আমরা নূন্যতম চেষ্টা করে আমাদের নতুন এলিয়েন ওভারলর্ডদের খুশি করতে বর্তমান ইউটিএফ -8 প্রসারিত করতে পারি ;-)


8
বর্তমানে ইউটিএফ -8 0x10FFFF পর্যন্ত কেবল কোড পয়েন্টের মধ্যে সীমাবদ্ধ - তবে এটি কেবল ইউটিএফ -16 এর সাথে সামঞ্জস্যের জন্য। যদি এটি প্রসারিত করার প্রয়োজন হয় তবে 0x7FFFFFFF (এটি 2³¹-1) পর্যন্ত কোড পয়েন্ট দিয়ে কীভাবে এটি বাড়ানো যায় সে সম্পর্কে কোনও দ্বিধা নেই। তবে এর বাইরেও আমি পরস্পরবিরোধী সংজ্ঞা দেখতে পেয়েছি। আমি যে সংজ্ঞাটি দেখেছি তা 111111xxসম্ভব প্রথম বাইট হিসাবে সর্বোচ্চ ২³² কোড পয়েন্টের জন্য পাঁচটি এক্সটেনশন বাইট দ্বারা অনুসরণ করা। তবে এটি কেবল প্রথম 2³¹ কোড পয়েন্টগুলির জন্য আপনি যে সংজ্ঞাটি দিয়েছিলেন তার সাথেই সামঞ্জস্যপূর্ণ।
ক্যাস্পারড

2
হ্যাঁ, উইকিপিডিয়া ইউটিএফ -16 সম্পর্কে কিছু বলছে, যখন সত্যিকার অর্থে তাদের ইউনিকোড বা আইএসও 10646 (প্রসঙ্গের উপর নির্ভর করে) বোঝায়। আসলে, বোঝায় যা RFC 3629 সাল থেকে হল UTF-8 হয় U + এ 10FFFF পরলোক (অথবা undefined F4 8F BF BFহল UTF-8 বাইটে)। সুতরাং, এর বাইরে আমি এখানে যা কিছু উল্লেখ করেছি তা হ'ল খাঁটি জল্পনা। অবশ্যই, কেউ অন্য এক্সটেনশানগুলির কথা ভাবতে পারে, যেখানে একটি উচ্চ প্রথম বাইট অনুসরণ করে অন্য কিছু কাঠামোকে বোঝায় (এবং আশা করি প্রক্রিয়াটিতে স্ব-সমন্বয়টি ধ্বংস করবেন না)। আমি যতটা সম্ভব বাস্তব ইউটিএফ -8 এর কাছাকাছি হওয়ার জন্য বাইট স্কিমটি সম্পূর্ণ করার চেষ্টা করেছি।
বোল্ডউইন

4
এটি 4 ট্রিলিয়ন, কোয়াড্রিলিয়ন নয়।
Ypnypn

1
নিম্নলিখিত বাইটগুলির সংখ্যা সর্বদা প্রথম বাইটে শীর্ষস্থানীয়দের সংখ্যার চেয়ে কম হওয়ার জন্য কঠোরভাবে প্রয়োজনীয় নয়। পার্ল আসলে ইউটিএফ -8 এর অভ্যন্তরীণ বৈকল্পিক সমর্থন করে (2000 সাল থেকে) যেখানে 5, 6 এবং 7 বাইট ফর্মগুলি এই উত্তরটির সমান, তবে FF72 বিট সংরক্ষণের জন্য সক্ষম 13-বাইট কোড ইউনিট প্রবর্তন করে। 2 ^ 36 ওভার যেকোনো কিছু অবিশেষে হয় খুব ব্যয়বহুল, কিন্তু এটা একটা 64-বিট int- এ এবং তারপর কিছু এনকোডিং পারেন।
hobbs

7

RFC3629 চরিত্র প্রতি চার বাইট সর্বাধিক হল UTF-8 সীমিত, 0x10FFFF সর্বোচ্চ মান সঙ্গে, 1.112.064 কোড পয়েন্ট সর্বোচ্চ দেয়। স্পষ্টতই এই বিধিনিষেধ অপসারণ করা যেতে পারে এবং মান প্রসারিত হতে পারে, তবে এটি বিদ্যমান কোডের যে এই সীমাতে কাজ করে তার জন্য একটি ব্রেকিং পরিবর্তন প্রমাণ করবে।

ডেটা-ফাইলের দৃষ্টিকোণ থেকে, এটি কোনও ব্রেকিং পরিবর্তন হবে না কারণ স্ট্যান্ডার্ডটি এই ভিত্তিতে কাজ করে যে যদি প্রতিটি বাইটের সর্বাধিক উল্লেখযোগ্য বিট (এমএসবি) সেট করা থাকে তবে পরবর্তী বাইটটি এনকোডিংয়ের অংশ। আরএফসি 3629 এর আগেও, স্ট্যান্ডার্ডটি 31 বিটের মধ্যে সীমাবদ্ধ ছিল, চতুর্থ বাইটের এমএসবিটি সেট না করে রেখে।

0x10FFFF এর বাইরে স্ট্যান্ডার্ড প্রসারিত করা UTF-8 এর যদিও ইউটিএফ -16 এর সাথে আংশিক ডেটা সামঞ্জস্যতা ভঙ্গ করবে।


5
সুতরাং তাত্ত্বিকভাবে, ডেটা পিছনের দিকে সামঞ্জস্যপূর্ণ হবে, কিন্তু কোডটি সহজাতভাবে মানকে সংশোধন করার সাথে সামঞ্জস্য করবে না?
কিউস

2
@ কিউস, এটি একটি বৈধ পয়েন্ট। যে কোনও বিদ্যমান ইউটিএফ -8 ফাইল প্রাকৃতিকভাবে সুসংগত হবে যেমন আরও কয়েক মিলিয়ন কোড পয়েন্ট সমন্বিত করতে সর্বাধিক 6 বাইট, তবে ইউটিএফ -8 হ্যান্ডেল করার জন্য ডিজাইন করা অনেকগুলি বিদ্যমান গ্রন্থাগার সম্ভবত সেই এক্সটেনশনটি পরিচালনা করবে না।
ডেভিড আরনো

4
UTF-16 মারাত্মকভাবে বিরতি হবে। এটি কেবলমাত্র 0x10FFFF পর্যন্ত কোড পয়েন্টকে সমর্থন করতে পারে।
gnasher729

1
@ gnasher729: আপনি যতটা ভাবেন তত বড় ইস্যু নয়। প্রাক-ইউনিকোড শিফ্ট মানগুলির মাধ্যমে এটি সমাধান করে (জাপানের জন্য শিফট জেআইএস)। তারা কেবলমাত্র একটি সংরক্ষিত / অব্যবহৃত অক্ষর (0xFFFD?) কে একটি "শিফট চরিত্র" হিসাবে চিহ্নিত করতে চান যা এনকোডিংটিকে আরও প্রসারিত আকারে স্থানান্তর করে। সম্ভবত ইউটিএফ 32।
মাকিং হাঁস

4

সত্যিকার অর্থে, কেবলমাত্র 2 টি ইউনিকোড কোড-পয়েন্ট কোডগুলি অক্ষরগুলি একত্রিত করে যদি অসীম অনেকগুলি গ্লাইফের পক্ষে থাকে।

উদাহরণস্বরূপ, কোরিয়ান হাঙ্গুল বর্ণমালার জন্য ইউনিকোড যে দুটি উপায় এনকোড করেছে তার তুলনা করুন: হ্যাঙ্গুল সিলেবলস এবং হাঙ্গুল জামো । অক্ষরটি হ'ল Hangul Syllabelsএকক কোড পয়েন্ট C6C3যেখানে এর মধ্যে Hangul Jamoতিনটি কোড-পয়েন্ট 110B(ㅇ) 116E(ㅜ) 11B9(ㅅ) রয়েছে। স্পষ্টতই, অক্ষরগুলির সংমিশ্রণগুলি ব্যবহার করে কম কোড পয়েন্ট বেশি লাগে তবে লেখার পক্ষে কম দক্ষ কারণ প্রতিটি অক্ষর লেখার জন্য আরও বাইট প্রয়োজন।

এই কৌশলটি সহ, বর্তমানে ইউটিএফ -8 বা ইউটিএফ -16 এ এনকোড করা যায় এমন কোড-পয়েন্টগুলির সংখ্যার বাইরে যাওয়ার দরকার নেই।

আমি অনুমান করি যে যদি এ ভাষার লোকেরা যদি পার্থিব ভাষার চেয়ে ম্যাসেজের জন্য আরও অনেক বাইটের প্রয়োজন হয় তবে এলিয়েনরা কীভাবে বিরক্ত হবে। যদি তারা কিছু মনে করেন না, বলুন, তাদের লক্ষ লক্ষ চরিত্রের প্রত্যেকটির প্রতিনিধিত্ব করে বলুন, 100 ক অক্ষর সংমিশ্রণ করে, তারপর কোনও সমস্যা নেই; অন্যদিকে, যদি আর্থলিংয়ের চেয়ে বেশি বাইট ব্যবহার করতে বাধ্য করা তাদেরকে দ্বিতীয়-শ্রেণির নাগরিকের মতো অনুভব করে তবে আমরা কিছু সংঘাতের মধ্যে থাকতে পারি ( আমরা ইতিমধ্যে ইউটিএফ -8 এর সাথে পর্যবেক্ষণ করি না তার বিপরীতে )।


এটি কেবল তখনই ঘটে যদি ভিনগ্রহের ভাষার অক্ষরগুলি প্রকৃতপক্ষে আরও সীমিত গ্রাফিমের সমন্বয়ে গঠিত। এটি ক্ষেত্রে নাও হতে পারে।
জ্যাকবিবি

1
যতদূর আমি সচেতন, এমন কোনও প্রয়োজন নেই যে অক্ষরের সংমিশ্রণের পৃথক গ্রাফিমের সাথে সম্পর্কিত হওয়া দরকার। ইউনিকোড এফএকিউ এ বিষয়ে নীরব, তবে আমার ধারণাটি যে লেআউট ইঞ্জিনের জন্য গ্রাফিমের অনুক্রম নয় এমন সংযুক্ত ক্রমগুলি সমর্থন করা কোনও শক্ত কাজ হবে না, কারণ উভয় ক্ষেত্রেই পূর্বনির্ধারিত গ্লাইফের প্রয়োজন হবে।
ওয়েন

এই এলিয়েনরা কতদিন বেঁচে থাকে এবং শৈশবকালে কতগুলি চরিত্র গ্রাফিমগুলিতে ক্ষয় করতে পারে না? এবং জিপ জিপ করার পরেও কি হম্পুল পচে যাওয়া হাঙ্গুলের চেয়ে তার বাইট সুবিধা ধরে রাখে?
দামিয়ান ইয়ারিক

-2

সম্পাদনা: প্রশ্নটি এখন "মিলিয়ন নতুন চরিত্র" বলে। এটি উত্তর দেওয়া সহজ করে তোলে:

কোন । ইউটিএফ -8 একটি ইউনিকোড এনকোডিং। ইউনিকোডে একটি কোডস্পেস রয়েছে যা 1,114,112 স্বতন্ত্র কোডপয়েন্টগুলিকে অনুমতি দেয় এবং বর্তমানে এক মিলিয়নেরও কম কম সাইন ইন করা হয়েছে। সুতরাং ইউনিকোডে লক্ষ লক্ষ নতুন চরিত্র সমর্থন করা সম্ভব নয়। সংজ্ঞা অনুসারে কোনও ইউনিকোড এনকোডিং ইউনিকোড দ্বারা নির্ধারিত সংখ্যার চেয়ে বেশি অক্ষরকে সমর্থন করতে পারে না। (অবশ্যই আপনি আরও একটি স্তর এনকোড করে প্রতারণা করতে পারেন - যে কোনও ধরণের ডেটা কেবল দুটি অক্ষর দ্বারা প্রতিনিধিত্ব করা যেতে পারে))


মূল প্রশ্নের উত্তর দিতে:

ইউনিকোড ভাষা যেমন সমর্থন করে না এটি অক্ষরকে সমর্থন করে - লিখিত আকারে ভাষার প্রতিনিধিত্ব করতে ব্যবহৃত প্রতীকগুলি।

সমস্ত মানব ভাষার লিখিত উপস্থাপনা নেই, তাই সমস্ত মানব ভাষা ইউনিকোড দ্বারা সমর্থিত হতে পারে না। অধিকন্তু অনেক প্রাণী যোগাযোগ করে তবে তাদের লিখিত ভাষা নেই। উদাহরণস্বরূপ তিমিগুলিতে একটি রূপের যোগাযোগ রয়েছে যা কোনও ভাষা বলতে যথেষ্ট জটিল, তবে কোনও লিখিত রূপ নেই (এবং এটি বিদ্যমান ফোনেটিক স্বরলিপি দ্বারা ক্যাপচার করা যায় না)। সুতরাং পৃথিবীর সমস্ত ভাষাও ইউনিকোড দ্বারা সমর্থিত হতে পারে না।

আরও খারাপ কিছু মৌমাছির ভাষার মতো। কেবল এটির লিখিত ফর্মই নয়, অর্থপূর্ণভাবে এটি লিখিত আকারে প্রতিনিধিত্ব করা যায় না। ভাষাটি একধরণের নাচ যা মূলত একটি দিক নির্দেশ করে তবে এটি সূর্যের বর্তমান অবস্থানের উপর নির্ভর করে। সুতরাং নাচের কেবল নির্দিষ্ট স্থান এবং সময়ে যেখানে এটি সঞ্চালিত হয় সেখানে তথ্যগত মান থাকে। একটি প্রতীকী বা পাঠ্য উপস্থাপনায় এমন তথ্য অন্তর্ভুক্ত থাকতে হবে (সূর্যের অবস্থান, অবস্থান) যা মৌমাছির ভাষা বর্তমানে প্রকাশ করতে পারে না।

এমনকি যোগাযোগের একটি লিখিত বা প্রতীকী রূপটি ইউনিকোডে প্রতিনিধিত্ব করা সম্ভব নাও হতে পারে। উদাহরণস্বরূপ উদাহরণস্বরূপ বা শব্দহীন কমিকস ইউনিকোড দ্বারা সমর্থন করা যায় না যেহেতু গ্লাইফগুলির সেট সীমাবদ্ধ নয়। আপনি বিমানবন্দরের মতো আন্তর্জাতিক সেটিংগুলিতে প্রচুর চিত্রাঙ্কিত যোগাযোগ লক্ষ্য করবেন, সুতরাং এটি অকল্পনীয় নয় যে মহাকাশ ভ্রমণকারী এলিয়েনদের একটি বর্ণচিত্র চিত্রাবলম্বী ভাষা ব্যবহার করতে বিকশিত হয়েছে।

এমনকি যদি কোনও এলিয়েন বর্ণের একটি সীমাবদ্ধ চিহ্ন সহ একটি রাইটিং সিস্টেমের সাথে ভাষা ছিল, তবে ইউনিকোডে এই সিস্টেমটি সমর্থন করা সম্ভব নাও হতে পারে। ইউনিকোড প্রত্যাশাগুলির রৈখিক অনুক্রম হিসাবে প্রত্যাশা করে। সংগীত স্বরলিপি এমন একটি রচনার পদ্ধতির উদাহরণ যা ইউনিকোডে পুরোপুরি উপস্থাপন করা যায় না, কারণ অর্থ প্রতীকগুলির পছন্দ এবং উল্লম্ব এবং অনুভূমিক স্থান উভয় ক্ষেত্রেই এনকোড থাকে। (ইউনিকোড পৃথক সংগীত প্রতীককে সমর্থন করে তবে স্কোরকে এনকোড করতে পারে না)) পলফোনিক সংগীত (অসাধারণ নয়) বা অনুরূপ জটিলতার যোগাযোগের একটি চ্যানেল ব্যবহার করে যে এলিয়েন রেস যোগাযোগ করেছিল, খুব সম্ভবত একটি অর্কেস্ট্রাল স্কোরের মতো দেখতে একটি লেখার ব্যবস্থা থাকতে পারে এবং ইউনিকোড এটি সমর্থন করতে পারে না।

তবে যুক্তির স্বার্থে ধরে নিতে দেয় যে সমস্ত ভাষা এমনকি বিদেশী ভাষাও একটি সীমাবদ্ধ সেট থেকে নির্বাচিত প্রতীকগুলির একটি রৈখিক ক্রম হিসাবে প্রকাশ করা যেতে পারে। বিদেশী আক্রমণের জন্য কি ইউনিকোড যথেষ্ট বড়? ইউনিকোডে বর্তমানে এক মিলিয়নেরও কম কোডপয়েন্ট রয়েছে। চীনা ভাষায় সর্বাধিক বিস্তৃত চীনা অভিধান অনুসারে এক লক্ষ হাজার অক্ষর রয়েছে (বর্তমানে তারা ইউনিকোড স্বতন্ত্র অক্ষর হিসাবে সমর্থিত নয়)। তাই চাইনিজদের জটিলতার সাথে দশটি ভাষাই ইউনিকোডের সমস্তটি ব্যবহার করতে পারে। পৃথিবীতে আমাদের শত শত স্বতন্ত্র লেখার ব্যবস্থা রয়েছে তবে ভাগ্যক্রমে বেশিরভাগেরই মতাদর্শগত নয় বরং বর্ণানুক্রমিক এবং তাই অল্প সংখ্যক চরিত্র রয়েছে। যদি সমস্ত লিখিত ভাষাগুলি চাইনিজদের মতো আদর্শগ্রন্থ ব্যবহার করে তবে ইউনিকোড পৃথিবীর পক্ষেও যথেষ্ট বড় হবে না। বর্ণমালা ব্যবহার বক্তৃতা থেকে প্রাপ্ত যা কেবলমাত্র সীমিত সংখ্যক ফোনমেস ব্যবহার করে, তবে এটি মানব পদার্থবিজ্ঞানের জন্য বিশেষত। এমনকি এক ডজন এলিয়েন গ্রহ এমনকি মাত্র কয়েক ডজন আদর্শমূলক লেখার ব্যবস্থা ইউনিকোড সমর্থন করতে পারে তার চেয়ে বেশি হতে পারে। এখন বিবেচনা করুন যে এই এলিয়েন ইতিমধ্যে পৃথিবীর আগে অন্য গ্রহগুলিতে আক্রমণ করেছে এবং তাদের লেখার ব্যবস্থাটিকে অক্ষরগুলির সেটে অন্তর্ভুক্ত করেছে যা সমর্থন করতে হবে।

বর্তমান এনকোডিংগুলির সম্প্রসারণ বা পরিবর্তন, বা নতুন এনকোডিংগুলির প্রবর্তন এটি সমাধান করবে না, যেহেতু সীমাবদ্ধতা ইউনিকোড দ্বারা সমর্থিত কোড পয়েন্টগুলির সংখ্যায়।

উত্তর সম্ভবত না হয়।


5
আপনার কল্পনার অভাব রয়েছে। নাচের কোরিওগ্রাফারদের কাছে প্রচুর ভাষা এবং পরিভাষা রয়েছে যা তারা স্টেজ অভিনেতাদের অভিনয় করতে নাচগুলি বর্ণনা করতে ও শেখাতে ব্যবহার করতে পারেন। আমরা যদি মৌমাছিরা কী যোগাযোগ করছে তা যদি আমরা জানতে পারি তবে আমরা অবশ্যই এটির জন্য একটি লিখিত পরিভাষা তৈরি করতে পারি। সর্বোপরি, আজ আমাদের লিখিত বেশিরভাগ ভাষা শব্দের এনকোডিং। এনকোডিং চলাচল সমস্ত এনকোডিং শব্দ থেকে আলাদা নয়।
হোয়াটসাইম

3
এই উত্তরের অংশগুলি ভাল তবে এটি কেবল লিখিত আকারে নয়, এটি সম্ভবত লিখিত আকারে উপস্থাপন করা যায় না "এটি কেবল সাধারণ ভুল। তথ্য পৌঁছে দেয় এমন কোনও কিছু বিটকে হ্রাস করা যেতে পারে এবং বিটগুলিতে হ্রাস করা কোনও কিছু আপনার পছন্দ মতো চরিত্রের যে কোনও প্রবাহে রূপান্তরিত হতে পারে।
স্টিভেন বার্নাপ

2
@ স্টিভেন বার্নাপ ট্রু, তবে ইউনিকোড বিটসের ক্রম ছাড়া আরও কিছু নয়। এটি সেই বিটগুলির ব্যাখ্যার একটি উপায়, এটি মোটামুটি অনড়। হ্যাঁ, ইউনিকোড অক্ষর সেটটি চিত্র থেকে সিএনসির নির্দেশাবলীতে যেকোন কিছু উপস্থাপনের জন্য বাড়ানো যেতে পারে তবে এটি একটি খুব আলাদা প্রাণী হবে।
ওভেন

4
মনে রাখবেন যে ইউনিকোড প্রতীকগুলি (বেশিরভাগ ভাষায়) বায়ুচাপের প্রকরণের বিভিন্নতার নিদর্শনগুলি বর্ণনা করে এবং বেশিরভাগ ভাষার ক্ষেত্রে এটি প্রকৃতপক্ষে সেই নিদর্শনগুলির সাথে মেলে একটি মোটামুটি কৃপণ কাজ করে।
স্টিভেন বার্নাপ 21

3
সুতরাং আপনি এই বাক্যটি বলতে চান "আপনার বামে 15 ডিগ্রি সূর্যের সাথে 45 সেকেন্ড উড়ে, তারপর সূর্যের সাথে 10 সেকেন্ডে আপনার ডানদিকে 10 ডিগ্রি উড়ে যাওয়া" অসম্ভব? এটি অবশ্যই প্রসঙ্গ হিসাবে সূর্যের অবস্থান প্রয়োজন।
স্টিভেন বার্নাপ
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.