কোন বিষয়গুলি ইউনিকোডের চেয়ে মানুষকে জাপানি-নির্দিষ্ট এনকোডিংগুলি ব্যবহার করতে পরিচালিত করে?


24

কাজের জায়গায় আমি শিফট-জেআইএস এবং অন্যান্য এনকোডিংগুলিতে প্রচুর জাপানি পাঠ্য ফাইলগুলি দেখতে পাই। এটি সমস্ত কম্পিউটার ব্যবহারকারীর জন্য অনেকগুলি মুজিবাকে (অপঠিত অক্ষর) সমস্যা সৃষ্টি করে। ইউনিকোডের উদ্দেশ্য ছিল সমস্ত ভাষার জন্য একটি একক অক্ষর সেট নির্ধারণ করে এই ধরণের সমস্যাটি সমাধান করা এবং ইউটিএফ -8 সিরিয়ালাইজেশন ইন্টারনেটে ব্যবহারের জন্য প্রস্তাবিত। তাহলে কেন সবাই জাপানী-নির্দিষ্ট এনকোডিংগুলি ইউটিএফ -8 এ স্যুইচ করেন না? ইউটিএফ -8 এর কোন সমস্যা বা অসুবিধাগুলি মানুষকে পিছনে ফেলেছে?

সম্পাদনা: ডাব্লু 3 সি ইউনিকোডের সাথে কিছু জ্ঞাত সমস্যাগুলির তালিকা দিয়েছে , এটিও একটি কারণ হতে পারে?


প্রকৃতপক্ষে আরও বেশি জনপ্রিয় সাইটগুলি ইউটিএফ -8 এ রয়েছে, একটি উদাহরণ ニ コ ニ コ 動画 এবং は て な
কেন লি

8
কেন সবাই আইএসও -8851-1 থেকে ইউটিএফ -8 এ স্যুইচ করে না?
ysdx

1
এখানে যাওয়ার সময় উল্লেখ করা হয়েছে যে শিফট-জিস -> ইউটিএফ -8 রূপান্তরটি নিখরচায় নয়, এটি শাইফট-জিআইএস যেখানে এটি ইতিমধ্যে ব্যবহৃত হচ্ছে সেখানে চালিয়ে যাওয়ার বড় কারণ হবে। আমি দেখতে পেয়েছি যে অচলনীয় ফ্যাক্টয়েড আশ্চর্যজনক, যদিও আমি আশা করছিলাম যে এখানে উত্তরগুলির মধ্যে একটি আরও বিশদে যেতে পারে বা কমপক্ষে দাবির জন্য কোনও উত্স সরবরাহ করতে পারে তবে তাদের কোনওটিই তা করে না।
কাইল স্ট্র্যান্ড


@ লডউইগশুলজ ধন্যবাদ এখনও খুব বেশি বিশদ নয়, তবে কমপক্ষে একটি সরকারী উত্স ...
কাইল স্ট্র্যান্ড

উত্তর:


28

এক কথায়: উত্তরাধিকার।

ইউনিকোড উপলব্ধ / জনপ্রিয় হওয়ার আগে শিফট-জেআইএস এবং অন্যান্য এনকোডিংগুলি ব্যবহার করা হয়েছিল, যেহেতু জাপানিদের মোটেই এনকোড করার একমাত্র উপায় ছিল। সংস্থাগুলি অবকাঠামোগত বিনিয়োগ করেছে যা কেবল শিফট-জেআইএসকে সমর্থন করে। এমনকি যদি যে পরিকাঠামো এখন ইউনিকোড সমর্থন করে, তারা এখনও বিভিন্ন ছোটো থেকে কারণে শিফট-নামক JIS সঙ্গে আটকে আছে এটা কাজ করে তাই চি-স্পর্শ-এটা ধরে এনকোডিং-কি? থেকে মাইগ্রেট সব বিদ্যমান-নথি-is-খুব-ব্যয়বহুল

অনেক পশ্চিমা সংস্থাগুলি এখনও একই কারণে ASCII বা লাতিন -১ ব্যবহার করছে, এটি কখনই সমস্যার কারণ হিসাবে দেখা যায় না।


8
জাপানি সফ্টওয়্যার শিল্প ... নতুন সফ্টওয়্যার / স্ট্যান্ডার্ডগুলি ব্যবহারের ক্ষেত্রে ময়লার চেয়ে ধীর।
মার্ক হোসাং

2
@ মার্ক ট্রুয়ারের শব্দগুলি কম কথা ছিল! (আমি জাপানিজ আইটি / /
_-

5
সত্য, তবে পশ্চিমা সংস্থাগুলির অজুহাত রয়েছে যে আমাদের লিগ্যাসি সফ্টওয়্যারটি হার্ড-কোডেড অনুমানের সাথে পূর্ণ যা 1 বাইট = 1 অক্ষর, যা ইউটিএফ -8 এ রূপান্তরটি আরও দীর্ঘকাল ধরে এমবিসিএস-ক্লিন কোড লিখতে হয়েছিল এমন এশিয়ানদের চেয়ে শক্ত করে তোলে।
dan04

@ মারকহোসঙ্গ আমি নিশ্চিত করেছিলাম যে আপনার বক্তব্যটি 100% সঠিক (আমি টোকিওতে জাপানি সংস্থার হয়ে কাজ করি)
হাসান তারেক

9

এই কারণগুলি যা আমি মনে করি ইউটিএফ -8 বা অন্য ইউনিকোড উপস্থাপনাটি স্ক্রিপ্টিং ভাষার জন্য মূল রূপটি এনকোডিং রুবি নয়, যা মূলত জাপানে উন্নত হয়েছিল:

  • কারণ 1: হান একীকরণ । চরিত্রটি সেট করে ("বর্ণমালা" এখানে সঠিক হবে কিনা তা নিশ্চিত নয়) ব্যবহৃত চীন, কোরিয়া এবং জাপান সব সম্পর্কিত, সাধারণ ইতিহাস থেকে বিবর্তিত হয়েছে, বিবরণ সম্পর্কে নিশ্চিত নয়। ইউনিকোড কনসোর্টিয়াম 3তিহাসিক একই চরিত্রের সমস্ত রূপগুলি (চাইনিজ, জাপানি এবং কোরিয়ান) এনকোড করতে কেবলমাত্র একটি একক ইউনিকোড কোড পয়েন্ট নষ্ট করার সিদ্ধান্ত নিয়েছে, এমনকি তার চেহারাটি 3 টি ভাষায় ভিন্ন হলেও। তাদের যুক্তি হ'ল, পাঠ্যটি প্রদর্শন করতে ব্যবহৃত ফন্টের মাধ্যমে উপস্থিতি নির্ধারণ করা উচিত।

স্পষ্টতই, এই যুক্তিটি জাপানি ব্যবহারকারীরা যেমনটি হাস্যকর বলে মনে করেছিলেন তেমনি এটি ইংরেজী পাঠকদের পক্ষে যুক্তিযুক্ত হতে হবে যে, যেহেতু লাতিন বর্ণমালা গ্রীক বর্ণমালা থেকে উদ্ভূত হয়েছে, গ্রীক বর্ণমালার জন্য একটিমাত্র কোড পয়েন্ট থাকা যথেষ্ট " α "এবং ল্যাটিন" এ ", এবং ব্যবহারের ফন্টের মাধ্যমে উপস্থিতিটি স্থির করা যাক। ("Β" = "বি", "γ" = "জি" ইত্যাদির জন্য একই)

(দ্রষ্টব্য যে আমি যদি গ্রীক অক্ষরগুলি স্ট্যাকেক্সচেঞ্জে এখানে অন্তর্ভুক্ত করতে পারতাম না)

  • কারণ 2: অক্ষর অক্ষরের রূপান্তর। ইউনিকোড থেকে অক্ষর রূপান্তর করতে লেগ্যাসি জাপানীজ এনকোডিংগুলি এবং পিছনে সারণীগুলির প্রয়োজন, অর্থাত ইউনিকোড কোড-পয়েন্ট মান থেকে উত্তরাধিকার কোড পয়েন্ট মান এবং এর বিপরীতে কোনও সাধারণ গণনা নেই। রূপান্তরকালে কিছু তথ্যের ক্ষতি হয় কারণ একটি এনকোডিংয়ের সমস্ত কোড পয়েন্টের অন্য এনকোডিংয়ে একটি অনন্য উপস্থাপনা থাকে না।

আরও কারণ দেওয়া যেতে পারে যে আমি আর মনে নেই।


এটি প্রদর্শিত হয় 2.0 এর হিসাবে রুবি ইউটিএফ -8 কে ডিফল্ট হিসাবে গ্রহণ করেছে। তবে হান একীকরণকে ইউনিকোডের বিশ্বে একটি খুব গুরুত্বপূর্ণ কুঁচকে (এবং বেশ বিতর্কিত ইস্যু ) বলে মনে হচ্ছে যা স্পষ্টতই যথেষ্ট মনোযোগ পাচ্ছে না, যেহেতু আমি এর আগে কখনও শুনিনি।
কাইল স্ট্র্যান্ড

এবং এখানে হান একীকরণ ইস্যু সম্পর্কিত একটি উইকিপিডিয়া নিবন্ধ: en.wikedia.org/wiki/Han_unifications যে সত্যই একটি বৈধ ইস্যু বলে মনে হচ্ছে, দুর্দান্ত উত্তর! এছাড়াও, তারিখ হারানো একটি ভাল কারণ হবে।
spbnick

8

ডিজেজের উত্তরটির কাছে সত্যের একটি শক্তিশালী উপাদান রয়েছে তবে শিফট-জেআইএস এবং অন্যরা এখনও ব্যবহারে থাকার আরও একটি কারণ রয়েছে: ইউটিএফ -8 বেশিরভাগ ভাষার জন্য ভয়াবহভাবে অদক্ষ, বেশিরভাগ সিজেকে সেটে। শিফট-জেআইএস, আইআইআরসি, একটি দুটি-বাইট প্রশস্ত এনকোডিং যেখানে ইউটিএফ -8 সাধারণত 3-বাইট এবং মাঝে মধ্যে এমনকি সিজেকে এবং অন্যদের সাথে এর এনকোডিংগুলিতে 4-বাইটও থাকে।


7
যদিও এটি সত্য, সর্বদা ইউটিএফ -16 এর বিকল্প রয়েছে, যা শিফট-জেআইএসের মতো দক্ষ হতে পারে। আমি আরও যুক্তি দিয়ে বলছি যে বিভিন্ন এনকোডিংগুলি নিয়ে কাজ করার মাথাব্যথা এই দিন এবং বয়সের আকারের সামান্য বৃদ্ধিের তুলনায় অনেক বেশি। এটি অন্যভাবে বলতে গেলে, আমি এখনও কেউ এটি ব্যবহার করে শিফট-জেআইএসের পক্ষে দক্ষতার যুক্তিটি কখনও শুনিনি । ;-)
প্রতারণা করুন

5
যদিও আমি আলস্য এবং জড়তার অজুহাত হিসাবে ব্যবহৃত দক্ষতার সমস্যাটি শুনেছি।
আমার সঠিক মতামত

1
ইউটিএফ -16 বেসিক ASCII অক্ষর তৈরি করে [যার মধ্যে একটি বড় সংখ্যা যেমন এইচটিএমএল রয়েছে] দ্বিগুণ হয়ে যায়। আমি এটি বুঝতে পারি, এটি শেষ পর্যন্ত জাপানি ওয়েবপৃষ্ঠাগুলির জন্য ইউটিএফ -8 এর চেয়েও খারাপ UTF-16 তৈরি করে।
র্যান্ডম 832

2
@ জাস্ট আমার সঠিক মতামত: "উত্স দেখুন" বা সমতুল্য চেষ্টা করুন। ধরে নিই যে সমস্ত আসল পাঠ জাপানি ভাষায় রয়েছে, এখানে প্রচুর কীওয়ার্ড এবং এর মতো ইংরেজি থেকে এসেছে, এবং এটি ASCII তে উপস্থাপিত হয়েছে।
ডেভিড থর্নলে

4
একটি কারণ আমার এই শব্দ তাই আমরা এটি করতে পরে । আমি নিশ্চিত যে দক্ষতার স্থিতিশীলতার সাথে একেবারে কিছুই করার নেই। আমার কাছে এটি কেবল জড়তা এবং উত্তরাধিকার। প্রকৃতপক্ষে আমি এটিও মনে করি যে এটি জাপানি প্রোগ্রামারদের দ্বারা উত্পাদিত বেশিরভাগ কোড অন্যান্য জাপানি মানুষের জন্য, তাই তারা ইউনিকোডের মতো কিছু ব্যবহার করার প্রয়োজনও বোধ করে না।
জুলিয়ান গের্তাউল্ট

2

প্রাথমিক কারণগুলির মধ্যে স্ট্রিং আকার / মেমরির ব্যবহার গণনা করুন।

ইউটিএফ -8 এ, পূর্ব-এশিয়ান ভাষার ঘন ঘন তাদের চরিত্রগুলির জন্য 3 বা ততোধিক বাইটের প্রয়োজন হয় need ইউটিএফ -১ using ব্যবহারের তুলনায় গড়ে তাদের 50% বেশি মেমোরি দরকার - এর পরেরটি ইতিমধ্যে দেশীয় এনকোডিংয়ের চেয়ে কম দক্ষ।

প্রতারণার দ্বারা চিহ্নিত হিসাবে অন্যান্য প্রধান কারণ উত্তরাধিকার হবে।


2

লিগ্যাসি এবং স্টোরেজ আকার যেমন অন্যেরা বলেছেন, তবে আরও একটি জিনিস রয়েছে: কাতাকানা চরিত্র।

শিফট-জেআইএসে কাতাকানা চরিত্রগুলি উপস্থাপন করতে এটি কেবল একটি বাইট লাগবে, সুতরাং কাতাকানাসহ জাপানি পাঠ্যগুলি প্রতি চরিত্রের চেয়ে কম 2 বাইট (একটি 50/50 মিশ্রণের জন্য 1.5) লাগে, যা শিফট-জেআইএসকে UTF-16 (2 বাইট) এর চেয়ে কিছুটা দক্ষ করে তোলে / চর), এবং ইউটিএফ -8 (3 বাইট / চর) এর চেয়ে অনেক বেশি দক্ষ।

সস্তা স্টোরেজ এটিকে একটি আরও ছোট সমস্যা তৈরি করা উচিত ছিল, তবে দৃশ্যত তা নয়।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.