প্রকৃত ব্যবহারে সর্বাধিক সাধারণ নন-বিএমপি ইউনিকোড অক্ষরগুলি কী কী? [বন্ধ]


108

আপনার অভিজ্ঞতায় ইউনিকোডের কোন অক্ষর, কোডপয়েন্টস, বিএমপির বাইরের (বেসিক বহুভাষিক প্লেন) এখন পর্যন্ত সবচেয়ে সাধারণ? এইগুলি যা ইউটিএফ -8 এ 4 বাইট বা ইউটিএফ -16 এ সারোগেটের প্রয়োজন।

আমি উত্তর চাইনিজ ও নাম ব্যবহার করা কিন্তু না জাপানি অক্ষর সবচেয়ে ব্যাপক ফ্রেম multibyte অক্ষর সেট অন্তর্ভুক্ত হবে বলে আশা করা থাকেন, কিন্তু প্রকল্পে আমি, ইংরেজি উইকিঅভিধান সবচেয়ে কাজ করবেন, তখন আমরা দেখা গিয়েছে যে গথিক বর্ণমালা হয় এখনও পর্যন্ত আরও সাধারণ।

হালনাগাদ

আমি নন-বিএমপি অক্ষরের জন্য পুরো উইকিপিডিয়াস স্ক্যান করার জন্য বেশ কয়েকটি সফটওয়্যার সরঞ্জাম লিখেছি এবং আমার অবাক করে দিয়েছি যে জাপানী উইকিপিডিয়ায়ও গথিক বর্ণমালা সবচেয়ে সাধারণ। এটি চাইনিজ উইকিপিডিয়ায়ও সত্য তবে এটিতে "characters", "𠬠" এবং "𩷶" সহ অনেকগুলি চীনা অক্ষর 50 বা 70 বার পর্যন্ত ব্যবহৃত হয়েছিল।


1
@ হিপ্পিট্রেইল: মূল সমস্যাটি হ'ল উত্তরটি আপনি যে ধরণের পাঠ্যের সাথে কাজ করছেন তার উপর নির্ভর করবে। আপনি যদি লিনিয়ার বি তে পাঠ্য তালিকাভুক্ত কোনও প্রত্নতাত্ত্বিক প্রকল্পে কাজ করেন তবে আপনি একটি আধুনিক জাপানি অভিধানে কাজ করার সময়টির চেয়ে আলাদা নন-বিএমপি অক্ষর দেখতে পাবেন। সুতরাং পাঠ্যগুলির অন্তত প্রকারটি সঙ্কুচিত না করে এটি অবশ্যই খুব বিস্তৃত।
সেলসেকে

উত্তর:


95

ইমোজি এখন পর্যন্ত সবচেয়ে সাধারণ নন-বিএমপি অক্ষর। Otherwise, অন্যথায় আনন্দের অশ্রু সহ ইউ + 1F602 ফ্যাক্স হিসাবে পরিচিত, এটি টুইটারের পাবলিক স্ট্রিমের মধ্যে সর্বাধিক সাধারণ। এটি টিলডের চেয়ে বেশি ঘন ঘন ঘটে!



1
আমি ওয়েবে প্রচলিত ক্রল থেকে পাঠ্য ব্যবহারের পরিসংখ্যান দেখছি, এবং দেখেছি যে ইমোজিগুলি এখন ওয়েবে সর্বাধিক সাধারণ নন-বিএমপি অক্ষর। এগুলি অবশ্যই টুইটারে সাধারণ নয়। 😂 এখনও সবচেয়ে সাধারণ একটি।
আরএসপিয়ার

1
@ কুইকপ্লসোন উত্স: emojistats.org
নিউতেচ

62

দুর্দান্ত প্রশ্ন!

উত্তরটি গাণিতিক অক্ষর। এই গত ডিসেম্বরে আমি পুরো পাবমেড ওপেন অ্যাক্সেস কর্পাসের স্ক্যান করেছি এবং এতে জ্যোতিষী চরিত্রগুলির জন্য এই পরিসংখ্যান নিয়ে এসেছি।

নীচের পরিসংখ্যানগুলির মধ্যে প্রথম সংখ্যাটি হ'ল পুরো কর্পাসে প্রতিটি প্রদত্ত কোড পয়েন্টের কয়টি অনুলিপি পেয়েছি। প্রথমে যদিও আপেক্ষিক ফ্রিকোয়েন্সি সম্পর্কে আপনাকে ধারণা দেওয়ার জন্য, এখানে এই কর্পাসের শীর্ষ দশটি ট্রান্স-এএসসিআইআই কোড পয়েন্ট রয়েছে:

 2663710 U+002013 ‹–›  GC=Pd    EN DASH
 1065594 U+0000A0 ‹ ›  GC=Zs    NO-BREAK SPACE
 1009762 U+0000B1 ‹±›  GC=Sm    PLUS-MINUS SIGN
  784139 U+002212 ‹−›  GC=Sm    MINUS SIGN
  602377 U+002003 ‹ ›  GC=Zs    EM SPACE
  528576 U+0003BC ‹μ›  GC=Ll    GREEK SMALL LETTER MU
  519669 U+0003B2 ‹β›  GC=Ll    GREEK SMALL LETTER BETA
  512312 U+0003B1 ‹α›  GC=Ll    GREEK SMALL LETTER ALPHA
  491842 U+00200A ‹ ›  GC=Zs    HAIR SPACE
  462505 U+0000B0 ‹°›  GC=So    DEGREE SIGN

এবং এখানে এখন ট্রান্স-বিএমপি কোড পয়েন্টগুলি, প্রতারণামূলক ফ্রিকোয়েন্সি অনুসারে:

     544 U+01D49E ‹𝒞›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL C
     450 U+01D4AF ‹𝒯›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL T
     385 U+01D4AE ‹𝒮›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL S
     292 U+01D49F ‹𝒟›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL D
     285 U+01D4B3 ‹𝒳›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL X
     262 U+01D4A9 ‹𝒩›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL N
     258 U+01D4AB ‹𝒫›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL P
     254 U+01D4A2 ‹𝒢›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL G
     185 U+01D49C ‹𝒜›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL A
     178 U+01D53C ‹𝔼›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL E
     137 U+01D4AA ‹𝒪›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL O
      56 U+01D4A5 ‹𝒥›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL J
      48 U+01D4A6 ‹𝒦›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL K
      44 U+01D4B1 ‹𝒱›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL V
      43 U+01D4B2 ‹𝒲›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL W
      42 U+01D4B4 ‹𝒴›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL Y
      41 U+01D4B5 ‹𝒵›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL Z
      35 U+01D4B0 ‹𝒰›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL U
      30 U+01D4AC ‹𝒬›  GC=Lu    MATHEMATICAL SCRIPT CAPITAL Q
      23 U+01D54A ‹𝕊›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL S
      21 U+01D539 ‹𝔹›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL B
      19 U+01D5A7 ‹𝖧›  GC=Lu    MATHEMATICAL SANS-SERIF CAPITAL H
      18 U+01D517 ‹𝔗›  GC=Lu    MATHEMATICAL FRAKTUR CAPITAL T
      15 U+01D4C3 ‹𝓃›  GC=Ll    MATHEMATICAL SCRIPT SMALL N
      14 U+01D535 ‹𝔵›  GC=Ll    MATHEMATICAL FRAKTUR SMALL X
      13 U+01D4BF ‹𝒿›  GC=Ll    MATHEMATICAL SCRIPT SMALL J
      11 U+01D540 ‹𝕀›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL I
       9 U+01D465 ‹𝑥›  GC=Ll    MATHEMATICAL ITALIC SMALL X
       9 U+01D4CE ‹𝓎›  GC=Ll    MATHEMATICAL SCRIPT SMALL Y
       9 U+01D538 ‹𝔸›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL A
       8 U+01D4C2 ‹𝓂›  GC=Ll    MATHEMATICAL SCRIPT SMALL M
       8 U+01D54D ‹𝕍›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL V
       7 U+01D4B6 ‹𝒶›  GC=Ll    MATHEMATICAL SCRIPT SMALL A
       7 U+01D4BE ‹𝒾›  GC=Ll    MATHEMATICAL SCRIPT SMALL I
       7 U+01D4CC ‹𝓌›  GC=Ll    MATHEMATICAL SCRIPT SMALL W
       7 U+01D516 ‹𝔖›  GC=Lu    MATHEMATICAL FRAKTUR CAPITAL S
       7 U+01D4BE ‹𝒾›  GC=Ll    MATHEMATICAL SCRIPT SMALL I
       7 U+01D4CC ‹𝓌›  GC=Ll    MATHEMATICAL SCRIPT SMALL W
       7 U+01D516 ‹𝔖›  GC=Lu    MATHEMATICAL FRAKTUR CAPITAL S
       4 U+01D4CF ‹𝓏›  GC=Ll    MATHEMATICAL SCRIPT SMALL Z
       4 U+01D53B ‹𝔻›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL D
       4 U+01D54B ‹𝕋›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL T
       3 U+01D4BB ‹𝒻›  GC=Ll    MATHEMATICAL SCRIPT SMALL F
       3 U+01D4CA ‹𝓊›  GC=Ll    MATHEMATICAL SCRIPT SMALL U
       3 U+01D507 ‹𝔇›  GC=Lu    MATHEMATICAL FRAKTUR CAPITAL D
       3 U+01D542 ‹𝕂›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL K
       3 U+01D546 ‹𝕆›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL O
       2 U+01D4BD ‹𝒽›  GC=Ll    MATHEMATICAL SCRIPT SMALL H
       2 U+01D4C5 ‹𝓅›  GC=Ll    MATHEMATICAL SCRIPT SMALL P
       2 U+01D505 ‹𝔅›  GC=Lu    MATHEMATICAL FRAKTUR CAPITAL B
       2 U+01D50E ‹𝔎›  GC=Lu    MATHEMATICAL FRAKTUR CAPITAL K
       2 U+01D541 ‹𝕁›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL J
       2 U+01D543 ‹𝕃›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL L
       2 U+100002 ‹􀀂›  GC=Co    <private use character>
       1 U+01D4B8 ‹𝒸›  GC=Ll    MATHEMATICAL SCRIPT SMALL C
       1 U+01D4C1 ‹𝓁›  GC=Ll    MATHEMATICAL SCRIPT SMALL L
       1 U+01D53D ‹𝔽›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL F
       1 U+01D53E ‹𝔾›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL G
       1 U+01D54C ‹𝕌›  GC=Lu    MATHEMATICAL DOUBLE-STRUCK CAPITAL U
       1 U+01D6A4 ‹𝚤›  GC=Ll    MATHEMATICAL ITALIC SMALL DOTLESS I
       1 U+01D7D9 ‹𝟙›  GC=Nd    MATHEMATICAL DOUBLE-STRUCK DIGIT ONE

আমি সত্যই কামনা করি তারা জানত যে তারা কী করতে ইউ + 100002 ব্যবহার করছে। :(

যদি সেগুলি আপনার ব্রাউজারে প্রদর্শিত হচ্ছে না, আপনার জর্জ ডুরাসের সিম্বোলা ফন্টটি ইনস্টল করা উচিত । এটিতে মজাদার ইউনিকোড .0.০.০ কোড পয়েন্টও রয়েছে।


আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.