ইউনিকোডে চীনা অক্ষরের সম্পূর্ণ পরিসর কত?


95

U + 4E00..U + 9FFF সম্পূর্ণ সেটটির অংশ, তবে সমস্ত নয়


4
আমি শুধু সময় সময় এইভাবে আপডেট হবে এটা পরিবর্তনশীল একটি স্ট্যাটিক উত্তর দান tgan ratger পরিবর্তন লিংক কিছু করাই ভালো ব্লক ব্যাপ্তি হিসাবে এখানে একটি উইকিপিডিয়া নিবন্ধের লিঙ্ক হবে ... en.wikipedia.org/wiki/CJK_Unified_Ideographs
user930067

উত্তর:


104

আপনি সিজেকে ইউনিকোড এফএকিউর মাধ্যমে একটি সম্পূর্ণ তালিকা পেতে পারেন (যার মধ্যে "চীনা, জাপানি এবং কোরিয়ান" অক্ষর রয়েছে)

" পূর্ব এশীয় স্ক্রিপ্ট " নথিতে উল্লেখ রয়েছে:

হ্যান আইডিওগ্রাফ সহ ব্লকসমূহ

সারণী 12-2 তে দেখানো হয়েছে, ইউনিকোড স্ট্যান্ডার্ডের পাঁচটি প্রধান ব্লকে হান আদর্শিক চরিত্রগুলি পাওয়া যায়

সারণী 12-2। হ্যান আইডিওগ্রাফ সহ ব্লকসমূহ

Block                                   Range       Comment
CJK Unified Ideographs                  4E00-9FFF   Common
CJK Unified Ideographs Extension A      3400-4DBF   Rare
CJK Unified Ideographs Extension B      20000-2A6DF Rare, historic
CJK Unified Ideographs Extension C      2A700–2B73F Rare, historic
CJK Unified Ideographs Extension D      2B740–2B81F Uncommon, some in current use
CJK Unified Ideographs Extension E      2B820–2CEAF Rare, historic
CJK Compatibility Ideographs            F900-FAFF   Duplicates, unifiable variants, corporate characters
CJK Compatibility Ideographs Supplement 2F800-2FA1F Unifiable variants

দ্রষ্টব্য: সময়ের সাথে ব্লকের ব্যাপ্তিগুলি বিকশিত হতে পারে: সর্বশেষটি সিজেকে ইউনিফাইড আইডিয়াগ্রাফগুলিতে রয়েছে

উইকিপিডিয়া:


আপনি ইউ + এসি00 - ইউ + ডি 7 এএফ (হ্যাঙ্গুল সিলেবলস) অন্তর্ভুক্ত করতে চাইতে পারেন।
ফ্লিম

12
@ ফ্লিম: হ্যাঙ্গুল চীনা মানের অংশ নয়; হাঙ্গুল কোরিয়ান। কোরিয়ান ভাষা হানজা ("চীনা স্ক্রিপ্ট") ব্যবহার করে তবে খুব কম এবং কেবল কিছু প্রথাগত জিনিসের জন্য (যেমন পদ-নাম, স্মৃতিসৌধ, স্থান ...) যা হ্যাঙ্গুলে প্রতিলিপি করা যায় না। ওপি বিশেষত চাইনিজদের সম্পর্কে জিজ্ঞাসা করেছিল, তাই উত্তরদাতার হ্যাঙ্গুল অন্তর্ভুক্ত করার দরকার ছিল না। :-)
omninonsense

4
তালিকার বিরামচিহ্ন ("。") coverেকে নেই বলে মনে হচ্ছে।
মিশা ওলিওস্কি

4
@ মাইচাওলিওস্কি সিজেকে প্রতীক এবং বিরামচিহ্ন পরিসীমা 3000-303F
মারিয়ানো

আমি শিখেছি যে সিজেকে ইউনিফাইড আইডিয়াগ্রাফ এক্সটেনশন এ 3400 থেকে 4 ডিএফ-এর পরিবর্তে 3400 থেকে 4 ডিবিএফ পর্যন্ত হয়।
লারনার ঝাং

48

ইউনিকোডে বর্তমানে 74605 সিজেকে অক্ষর রয়েছে। সিজেকে চরিত্রগুলিতে কেবল চীনা ব্যবহার করা অক্ষরই নয়, জাপানীজ কানজি, কোরিয়ান হানজা এবং ভিয়েতনামী চু নোমও অন্তর্ভুক্ত রয়েছে । কিছু ফ্রেম অক্ষর না চীনা অক্ষর।

1) সিজেকে ইউনিফাইড আইডিয়াগ্রাফ ব্লক থেকে 20941 টি অক্ষর ।

কোড U + 4E00 থেকে U + 9FCC তে পয়েন্ট করে।

  1. U + 4E00 - U + 62FF
  2. U + 6300 - U + 77FF
  3. U + 7800 - U + 8CFF
  4. U + 8D00 - U + 9FCC

2) সিজেকিউআই এক্সট্রা ব্লক থেকে 6582 টি অক্ষর ।

কোড U + 3400 থেকে U + 4DB5 পয়েন্ট করে । ইউনিকোড 3.0 (1999)

3) সিজেকিউআইআই এক্সট বি ব্লকের 42711 টি অক্ষর ।

কোড U + 20000 থেকে U + 2A6D6 পয়েন্ট করে। ইউনিকোড ৩.১ (2001)।

  1. U + 20000 - U + 215FF
  2. U + 21600 - U + 230FF
  3. U + 23100 - U + 245FF
  4. U + 24600 - U + 260FF
  5. U + 26100 - U + 275FF
  6. U + 27600 - U + 290FF
  7. U + 29100 - U + 2A6DF

3) সিজেকিউআই এক্সট্রা সি ব্লক থেকে 4149 টি অক্ষর ।

কোড U + 2A700 থেকে U + 2B734 পয়েন্ট করে । ইউনিকোড 5.2 (২০০৯)।

4) সিজেকিউআই এক্সট্রা ডি ব্লকের 222 টি অক্ষর ।

কোড U + 2B740 থেকে U + 2B71D তে পয়েন্ট করে । ইউনিকোড 6.0 (2010)

5) সিজেকিউআই এক্সট্রা ই ব্লক।

শীঘ্রই আসছে

উপরেরটি যদি পর্যাপ্ত পরিমাণে স্প্যাগেটি না হয় তবে জ্ঞাত সমস্যাগুলি একবার দেখুন । মজা করুন =)


4
হাই, আপনি কি সিজেকে আদর্শ (উদাহরণস্বরূপ বেসিক প্লেন থেকে) উদাহরণ দিতে পারেন যা চিনের চরিত্র নয়? আমি ভেবেছিলাম যে অন্যান্য ভাষাগুলির (জাপানি, কোরিয়ান) চরিত্রগুলিও যেগুলি চীনা অক্ষর নয় সেগুলি অন্য একটি ব্লকে উপস্থিত হয় (উদাহরণস্বরূপ হ্যাঙ্গুল জামো ব্লক, কোরিয়ার ক্ষেত্রে) ...
অ্যাডাম বার্লি

'গুকজা', 'কোকুজি' এবং 'ছা নাম' দেখার চেষ্টা করুন। U + 4E44, 乄, একটি জাপানি-কেবল সিজেকে চরিত্র।
22gǻňạcểơửṩ

21

চাইনিজ অক্ষরের জন্য সঠিক ব্যাপ্তিগুলি (এক্সটেনশনগুলি বাদে) [\u2E80-\u2FD5\u3190-\u319f\u3400-\u4DBF\u4E00-\u9FCC\uF900-\uFAAD]

  1. [\u2e80-\u2fd5]

সিজেকে রেডিক্যালস পরিপূরকটি একটি ইউনিকোড ব্লক, যা প্রায়শই অবস্থানগত, কাংজি রেডিক্যালগুলির ফর্মযুক্ত। তারা অভিধান সূচক এবং অন্যান্য সিজেকে আইডোগ্রাফিক সংগ্রহগুলিতে র‌্যাডিক্যাল-স্ট্রোক দ্বারা সংগঠিত শিরোনাম ব্যবহৃত হয়।

  1. [\u3190-\u319f]

কানবুন হ'ল একটি ইউনিকোড ব্লক যা ক্লাসিকাল চীনা গ্রন্থগুলির জাপানি অনুলিপিগুলিতে পাঠ্যের ক্রমটি নির্দেশ করতে ব্যবহৃত টীকাগুলির অক্ষরযুক্ত।

  1. [\u3400-\u4DBF]

সিজেকে ইউনিফাইড আইডিয়াগ্রাফ এক্সটেনশন-এ একটি ইউনিকোড ব্লক যা বিরল হান আদর্শের সমন্বিত।

  1. [\u4E00-\u9FCC]

সিজেকে ইউনিফাইড আইডियोगাফস একটি ইউনিকোড ব্লক যা আধুনিক চীনা এবং জাপানি ভাষায় ব্যবহৃত সর্বাধিক সাধারণ সিজেকে আইডোগ্রাফ রয়েছে।

  1. [\uF900-\uFAAD]

সিজেকে সামঞ্জস্যতা আইডियोगাফগুলি হ'ল অক্ষরগুলি ধারণ করতে একটি ইউনিকোড ব্লক তৈরি করা হয়েছিল যা ইউনিকোড এবং সেই এনকোডিংগুলির মধ্যে রাউন্ড-ট্রিপ সামঞ্জস্যতা বজায় রাখার জন্য সিএনকে ইউনিফাইড আইডোগ্রাফ অ্যাসাইনমেন্ট ছাড়াও অন্যান্য প্রতিষ্ঠিত অক্ষর এনকোডিংগুলিতে একাধিক স্থানে এনকোড করা হ্যান অক্ষরগুলি ধারণ করে।

বিশদগুলির জন্য দয়া করে এখানে উল্লেখ করুন এবং এক্সটেনশনগুলি অন্যান্য উত্তরে সরবরাহ করা হয়েছে।


যিনি এই উত্তরটিকে হ্রাস করেছেন তিনি দয়া করে আমাকে কারণটি বলতে পারেন?
লারনার ঝাং

4
আমি ডাউনভোট করিনি, তবে বি, সি, ডি এবং ই এক্সটেনশানটির কী হবে?
সুরগাচ

@ সুরগাচ এই এক্সটেনশানগুলি অন্যান্য উত্তরে সঠিকভাবে সরবরাহ করা হয়েছে, সুতরাং আমার এটি পুনরায় লেখার দরকার নেই। আমি কেবল স্পষ্টভাবে এর মধ্যে রেঞ্জগুলি পৃথক করেছিলাম।
লারনার ঝাং

১. সিজেকে রেডিকালস পরিপূরকের পরিসীমা 2E80—2EFF 2. কংজি র‌্যাডিকালগুলি চীনা অক্ষর নয়, এটি একটি চীনা অক্ষরের গ্রাফিক্যাল উপাদান, এটি র‌্যাডিকালগুলি প্রকাশ করার জন্য বিশেষভাবে ব্যবহৃত হয়, .eg ⼻ (U + 2F3B) এবং express (U + 5F73) ), ⻜ (U + 2EDC) এবং 飞 (U + 98DE) ৩. আপনি যদি মনে করেন কানবুনটি চাইনিজ চর, তবে কেন সিজেকে সামঞ্জস্যতা আইডোগ্রাফগুলি নয়? কেন সিজেকে চিঠিপত্র এবং মাসগুলি বন্ধ নয়?
ভয়েজার

@ ইমবলার আপনার পরামর্শের জন্য ধন্যবাদ। আমি মনে করি যখন আমরা চিনেসের চরিত্রটি প্রক্রিয়া করি তখন আমাদের কংজি র‌্যাডিক্যালস এবং কানবুন বিবেচনা করা উচিত। সিজেকে সামঞ্জস্যতার আদর্শগুলি ভাল তবে সংযুক্ত সিজেকে চিঠিগুলি এবং মাসগুলি খুব বিরল এবং আমার মনে হয় না সেগুলি আমাদের বিবেচনা করা উচিত।
লারনার ঝাং

10

ইউনিকোড সংস্করণ 11.0.0

ইউনিকোডে চাইনিজ, জাপানি এবং কোরিয়ান (সিজেকে) স্ক্রিপ্টগুলি একটি সাধারণ পটভূমি ভাগ করে, যা সম্মিলিতভাবে সিজেকে অক্ষর হিসাবে পরিচিত।

এই ব্যাপ্তিগুলিতে প্রায়শই অ-বরাদ্দকৃত বা সংরক্ষিত কোড পয়েন্ট থাকে (যেমন U + 2E9A , U + 2EF4 - 2EFF),

চীনা অক্ষর

bottom  top     reference(also have a look at wiki page)    block name
4E00    9FEF    http://www.unicode.org/charts/PDF/U4E00.pdf CJK Unified Ideographs
3400    4DBF    http://www.unicode.org/charts/PDF/U3400.pdf CJK Unified Ideographs Extension A
20000   2A6DF   http://www.unicode.org/charts/PDF/U20000.pdf    CJK Unified Ideographs Extension B
2A700   2B73F   http://www.unicode.org/charts/PDF/U2A700.pdf    CJK Unified Ideographs Extension C
2B740   2B81F   http://www.unicode.org/charts/PDF/U2B740.pdf    CJK Unified Ideographs Extension D
2B820   2CEAF   http://www.unicode.org/charts/PDF/U2B820.pdf    CJK Unified Ideographs Extension E
2CEB0   2EBEF   https://www.unicode.org/charts/PDF/U2CEB0.pdf   CJK Unified Ideographs Extension F
3007    3007    https://zh.wiktionary.org/wiki/%E3%80%87    in block CJK Symbols and Punctuation
  • ইন CJK ইউনিফাইড ইডিওগ্রাফ ব্লক, আমি অনেক উত্তর উপরের 9FCC আবদ্ধ ব্যবহার লক্ষ্য কিন্তু U + এ 9FCD (鿍) প্রকৃতপক্ষে একটি চীনা গৃহস্থালির কাজ হয়। এবং এই ব্লকের সমস্ত অক্ষর হ'ল চীনা অক্ষর (জাপানি বা কোরিয়ান ভাষাতেও ব্যবহৃত হয়)।
  • সিজেকে ইউনিফাইড আইডিয়োগোহস এক্স এর বেশিরভাগ অক্ষর (এক্সট্রাফ এফ বাদে, কেবলমাত্র 17% এক্স এফ চীনা অক্ষর), চিরাচরিত চীনা অক্ষর, যা খুব কমই চীনে ব্যবহৃত হয়।
  • Zero হ'ল চীনা চরিত্রের রূপটি শূন্য এবং আজও ব্যবহারে রয়েছে

সুতরাং পরিসীমা হয়

[0x3007,0x3007], [0x3400,0x4DBF], [0x4E00,0x9FEF], [0x20000,0x2EBFF]

সিজেকে অক্ষর তবে কখনও চীনা ব্যবহার হয় না

এগুলি কেবল সামঞ্জস্যের জন্য ব্যবহৃত হ্যান Common

কোনও চীনা বই, নিবন্ধ, লেখাগুলি ইত্যাদিতে এগুলি প্রদর্শিত দেখা প্রায় অসম্ভব is

এখানে সমস্ত অক্ষরের সাথে একটি অনুরূপ গ্লাইফ-অভিন্ন চিনা অক্ষর রয়েছে। যেমন 金 (U + F90A) এবং 金 (U + 91D1), তারা গ্লাইফে অভিন্ন।

 F900    FAFF   https://www.unicode.org/charts/PDF/UF900.pdf  CJK Compatibility Ideographs
2F800   2FA1F   https://www.unicode.org/charts/PDF/U2F800.pdf CJK Compatibility Ideographs Supplement

সিজেকে সম্পর্কিত প্রতীক

2E80    2EFF    http://www.unicode.org/charts/PDF/U2E80.pdf CJK Radicals Supplement

2F00    2FDF    http://www.unicode.org/charts/PDF/U2F00.pdf Kangxi Radicals 
2FF0    2FFF    https://unicode.org/charts/PDF/U2FF0.pdf    Ideographic Description Character
3000    303F    https://www.unicode.org/charts/PDF/U3000.pdf    CJK Symbols and Punctuation
3100    312f    https://unicode.org/charts/PDF/U3100.pdf    Bopomofo
31A0    31BF    https://unicode.org/charts/PDF/U31A0.pdf    Bopomofo Extended
31C0    31EF    http://www.unicode.org/charts/PDF/U31C0.pdf CJK Strokes
3200    32FF    https://unicode.org/charts/PDF/U3200.pdf    Enclosed CJK Letters and Months
3300    33FF    https://unicode.org/charts/PDF/U3300.pdf    CJK Compatibility
FE30    FE4F    https://www.unicode.org/charts/PDF/UFE30.pdf    CJK Compatibility Forms
FF00    FFEF    https://www.unicode.org/charts/PDF/UFF00.pdf    Halfwidth and Fullwidth Forms
1F200   1F2FF   https://www.unicode.org/charts/PDF/U1F200.pdf   Enclosed Ideographic Supplement
  • কিছু ব্লক যেমন হ্যাঙ্গুল সামঞ্জস্য জামো চাইনিজের সাথে সম্পর্ক না থাকার কারণে পরিত্যক্ত হয় are
  • কংজি র‌্যাডিকালগুলি চাইনিজ অক্ষর নয়, এটি কোনও চীনা অক্ষরের গ্রাফিক্যাল উপাদান, এটি র‌্যাডিক্যালস, .eg ⼻ (U + 2F3B) এবং 彳 (U + 5F73), ⻜ (U + 2EDC) এবং 飞 (U +) প্রকাশ করতে বিশেষভাবে ব্যবহৃত হয় 98 ডি)

অন্যান্য সাধারণ বিরামচিহ্নগুলি চীনা ভাষায় উপস্থিত হয়

এটি একটি বিস্তৃত পরিসীমা, কিছু বিরামচিহ্ন সম্ভবত ব্যবহৃত হয় না, কিছু বিরামচিহ্ন যেমন চীনাতে ……”“এত বেশি ব্যবহৃত হয়।

0000    007F    https://unicode.org/charts/PDF/U0000.pdf    C0 Controls and Basic Latin 
2000    206F    https://unicode.org/charts/PDF/U2000.pdf    General Punctuation
……

চীন সম্পর্কিত অনেকগুলি চিহ্ন রয়েছে, যেমন ইয়েজিং হেক্সাগ্রাম প্রতীক বা কানবুন , তবে যাইহোক এটি অফ-টপিক। আমি চাইনিজ চরিত্রগুলি কী তা সম্পর্কে আরও ভাল ব্যাখ্যা করতে সিজেকে নন-চাইনিজ-চরিত্রগুলি লিখি। এবং উপরের পরিসীমাগুলি ইতিমধ্যে গণিত এবং অন্যান্য বিশিষ্টতার স্বরলিপি ব্যতীত প্রায় সমস্ত অক্ষর চীনা লেখায় প্রদর্শিত হয়।

পরিপূরক

সিজেকে প্রতীক এবং বিরামচিহ্ন

 、。〃〄々〆〇〈〉《》「」『』【】〒〓〔〕〖〗〘〙〚〛〜〝〞〟〠〡〢〣〤〥〦〧〨〩〪〭〮〯〫〬〰〱〲〳〴〵〶〷〸〹〺〻〼〽 〾 〿

অর্ধদ্বীপ এবং ফুলউইথ ফর্ম

!"#$%&'()*+,-./0123456789:;<=>?@ABCDEFGHIJKLMNOPQRSTUVWXYZ[\]^_`abcdefghijklmnopqrstuvwxyz{|}~⦅⦆。「」、・ヲァィゥェォャュョッーアイウエオカキクケコサシスセソタチツテトナニヌネノハヒフヘホマミムメモヤユヨラリルレロワン゙゚ᄀᄁᆪᄂᆬᆭᄃᄄᄅᆰᆱᆲᆳᆴᆵᄚᄆᄇᄈᄡᄉᄊᄋᄌᄍᄎᄏᄐᄑ하ᅢᅣᅤᅥᅦᅧᅨᅩᅪᅫᅬᅭᅮᅯᅰᅱᅲᅳᅴᅵ¢£¬ ̄¦¥₩│←↑→↓■○

উল্লেখ করুন

  1. https://zh.wikedia.org/wiki/%E6%B1%89%E5%AD%97 (চীনা ভাষায় ডান পাশের বারটি দেখুন)
  2. https://zh.wikedia.org/wiki/%E4%B8%AD%E6%97%A5%E9%9F৯93%E7%9B%B8%E5%AE%B9%E8%A1%A8%E6 % 84% 8F% E6% 96% 87% E5% AD% 97 (নীচের টেবিলটি লক্ষ্য করুন)
  3. http://www.unicode.org

2

ইউনিকোড কোডগুলি যেগুলি অন্যরা উত্তর দেয় তা অবশ্যই চীনা ইউনিকোডের বেশিরভাগ অক্ষরকে কভার করে তবে এগুলি থেকে অন্য কয়েকটি কোড ব্লকও পরীক্ষা করে দেখুন।

CJK_UNIFIED_IDEOGRAPHS
CJK_UNIFIED_IDEOGRAPHS_EXTENSION_A
CJK_UNIFIED_IDEOGRAPHS_EXTENSION_B
CJK_UNIFIED_IDEOGRAPHS_EXTENSION_C
CJK_UNIFIED_IDEOGRAPHS_EXTENSION_D
CJK_UNIFIED_IDEOGRAPHS_EXTENSION_E
CJK_COMPATIBILITY
CJK_COMPATIBILITY_FORMS
CJK_COMPATIBILITY_IDEOGRAPHS
CJK_COMPATIBILITY_IDEOGRAPHS_SUPPLEMENT
CJK_RADICALS_SUPPLEMENT
CJK_STROKES
CJK_SYMBOLS_AND_PUNCTUATION
ENCLOSED_CJK_LETTERS_AND_MONTHS
ENCLOSED_IDEOGRAPHIC_SUPPLEMENT
KANGXI_RADICALS
IDEOGRAPHIC_DESCRIPTION_CHARACTERS

আমার সম্পূর্ণ আলোচনা এখানে দেখুন । এবং এই সাইটটি ইউনিকোড ব্রাউজ করার জন্য সুবিধাজনক।


1

সংক্ষেপে বলতে গেলে মনে হয় এগুলি হ'ল:

var blocks = [
  [0x3400, 0x4DB5],
  [0x4E00, 0x62FF],
  [0x6300, 0x77FF],
  [0x7800, 0x8CFF],
  [0x8D00, 0x9FCC],
  [0x2e80, 0x2fd5],
  [0x3190, 0x319f],
  [0x3400, 0x4DBF],
  [0x4E00, 0x9FCC],
  [0xF900, 0xFAAD],
  [0x20000, 0x215FF],
  [0x21600, 0x230FF],
  [0x23100, 0x245FF],
  [0x24600, 0x260FF],
  [0x26100, 0x275FF],
  [0x27600, 0x290FF],
  [0x29100, 0x2A6DF],
  [0x2A700, 0x2B734],
  [0x2B740, 0x2B81D]
]
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.