ইউনিকোড স্ট্যান্ডার্ডের বাইরে একটি অক্ষর হ'ল এক বা একাধিক গ্রাফিম দ্বারা গঠিত পাঠ্যের স্বতন্ত্র একক । ইউনিকোড স্ট্যান্ডার্ডটি "অক্ষর" হিসাবে যা সংজ্ঞায়িত করে তা আসলে গ্রাফিম এবং অক্ষরের মিশ্রণ। ইউনিকোড পৃথক অক্ষর হিসাবে জুস্টপোজযুক্ত গ্রাফেমগুলির ব্যাখ্যার জন্য নিয়ম সরবরাহ করে।
একটি ইউনিকোড কোড পয়েন্ট হ'ল প্রতিটি ইউনিকোড চরিত্রের জন্য নির্ধারিত একটি অনন্য নম্বর (যা হয় কোনও চরিত্র বা গ্রাফিয়াম)।
দুর্ভাগ্যক্রমে, ইউনিকোড বিধিগুলি কিছু জাস্টস্পোজযুক্ত গ্রাফিমগুলিকে ইতিমধ্যে নিজস্ব কোড পয়েন্ট ( প্রাকম্পোজিত ফর্ম ) রয়েছে এমন অন্যান্য গ্রাফি হিসাবে ব্যাখ্যা করতে দেয় । এর অর্থ হ'ল ইউনিকোডে একটি চরিত্র উপস্থাপনের একাধিক উপায় রয়েছে। ইউনিকোড নর্মালাইজেশন এই সমস্যাটি সম্বোধন করে।
একটি গ্লাইফ হ'ল একটি চরিত্রের চাক্ষুষ প্রতিনিধিত্ব। একটি ফন্ট একটি নির্দিষ্ট অক্ষর (ইউনিকোড অক্ষর নয়) জন্য গ্লাইফগুলির একটি সেট সরবরাহ করে। প্রতিটি চরিত্রের জন্য, সম্ভাব্য গ্লাইফগুলির একটি অসীম সংখ্যা রয়েছে।
মার্ক আমেরিকে একটি উত্তর
প্রথম, যেমনটি আমি বলেছি, প্রতিটি চরিত্রের জন্য অসীম সম্ভাব্য গ্লাইফ রয়েছে তাই না, একটি চরিত্র "সর্বদা একক গালিফ দ্বারা প্রতিনিধিত্ব করা হয় না"। ইউনিকোড গ্লিফগুলির সাথে নিজেকে খুব বেশি উদ্বিগ্ন করে না এবং কোড কোডের চার্টে এটি যে জিনিসগুলি সংজ্ঞায়িত করে তা অবশ্যই গ্লাইফ নয়। সমস্যাটি হ'ল উভয়ই সমস্ত চরিত্র নয়। তাহলে তারা কি?
বৃহত্তর সত্তা, গ্রাফি বা চরিত্র কোনটি? অক্ষর বা বিরামচিহ্ন নয় এমন পাঠ্যে এমন গ্রাফিক উপাদানগুলিকে কী বলে? একটি শব্দ যা দ্রুত মনে জাগে তা হ'ল গ্রাফেম। এটি এমন একটি শব্দ যা "কোনও পাঠ্যের একটি গ্রাফিকাল ইউনিট" ধারণাটি অবিকলভাবে সাজিয়ে তোলে। আমি এই সংজ্ঞাটি দিচ্ছি: একটি গ্রাফিম লিখিত পাঠ্যের মধ্যে সবচেয়ে ছোট স্বতন্ত্র উপাদান ।
কেউ অন্য পথে যেতে পারে এবং বলতে পারে যে গ্রাফিগুলি অক্ষর দ্বারা গঠিত, তবে তারপরে এগুলিকে "চাইনিজ গ্রাফেমিস" বলা হত, এবং সেই সমস্ত বিট এবং টুকরা চীনা গ্রাফিকসগুলি পরিবর্তে "অক্ষর" বলা হত। যাইহোক, এটি সব পিছনে। গ্রাফিমগুলি পৃথক ছোট বিট এবং টুকরা। চরিত্রগুলি আরও বিকশিত হয়। "গ্লাইফগুলি কম্পোজেবল" এই বাক্যাংশটি ইউনিকোডের প্রসঙ্গে "বর্ণগুলি কমপোজযোগ্য" হিসাবে আরও ভালভাবে বলা যেতে পারে।
ইউনিকোড অক্ষরগুলি সংজ্ঞায়িত করে তবে গ্রাফিক্সগুলিও সংজ্ঞায়িত করে যা অন্যান্য গ্রাফি বা অক্ষরগুলির সাথে রচিত হয়। আপনি রচিত সেই বিদ্বানগুলি এর একটি দুর্দান্ত উদাহরণ। যদি তারা ধরা পড়ে তবে তারা ইউনিকোডের পরবর্তী সংস্করণে নিজস্ব কোড পয়েন্ট পাবে;)
এই সমস্ত ক্ষেত্রে একটি পুনরাবৃত্ত উপাদান রয়েছে। উচ্চ স্তরে, গ্রাফিমগুলি অক্ষরগুলিকে গ্রাফিমে পরিণত হয়, তবে এটি সমস্তভাবেই গ্রাফিম হয়।
টিএস-এর জবাব
স্ট্যান্ডার্ডের প্রথম অধ্যায়টি বলে: "ইউনিকোড অক্ষর এনকোডিং বর্ণমালার অক্ষর, আদর্শগত অক্ষর এবং চিহ্নগুলিকে সমানভাবে বিবেচনা করে, যার অর্থ তারা কোনও মিশ্রণে এবং সমান সুবিধা সহ ব্যবহার করতে পারবেন"। এই বিবৃতি দেওয়া, আমাদের মান কিছু শর্তাবলীর জন্য প্রস্তুত করা উচিত। কখনও কখনও যথাযথ পরিভাষা একটি মান বিকাশের সাথে সাথে পূর্ববর্তী ক্ষেত্রেই পরিষ্কার হয়ে যায়।
এটি প্রায়শই কোনও ভাষার আনুষ্ঠানিক সংজ্ঞায় ঘটে যে দুটি মৌলিক বিষয় একে অপরের শর্তে সংজ্ঞায়িত হয়। উদাহরণস্বরূপ,
এক্সএমএলে একটি উপাদান সম্ভবত একটি সূচনা ট্যাগ হিসাবে সংজ্ঞায়িত করা হয় সম্ভবত কন্টেন্ট দ্বারা অনুসরণ করা হয়, তার পরে একটি শেষ ট্যাগ হয়। বিষয়বস্তু একটি উপাদান, চরিত্রের ডেটা বা অন্যান্য কয়েকটি সম্ভাব্য জিনিস হিসাবে পরিবর্তিত হয়। স্ব-রেফারেন্সিয়াল সংজ্ঞাগুলির একটি প্যাটার্ন ইউনিকোড স্ট্যান্ডার্ডেও অন্তর্ভুক্ত:
গ্রাফিম একটি কোড পয়েন্ট বা একটি অক্ষর।
একটি চরিত্র এক বা একাধিক গ্রাফিমের ক্রম থেকে রচিত।
এই দুটি সংজ্ঞার সাথে যখন প্রথম মুখোমুখি হয় তখন পাঠক প্রথম ভিত্তিতে কোনও সংকেতকে বিন্দু হিসাবে চিহ্নিত করার বিষয়ে আপত্তি জানাতে পারে তবে এটি সর্বদা সত্য নয়। দুটি কোড পয়েন্টের একটি ক্রম কখনও কখনও স্বাভাবিকের অধীনে একটি কোড কোড পয়েন্টকে
এনকোড করে এবং সেই এনকোডযুক্ত কোড পয়েন্টটি চরিত্রটি উপস্থাপন করে যা চিত্র 2.7 তে চিত্রিত হয়েছে
। কোড পয়েন্টগুলির সিকোয়েন্সগুলি যা অন্য কোড পয়েন্টগুলিকে এনকোড করে। এটি কিছুটা জটিল হয়ে উঠছে এবং আমরা এমন স্তরেও পৌঁছতে পারি নি যেখানে ইউটিএফ -8 এর মতো অক্ষর এনকোডিং স্কিমগুলি কোড পয়েন্টগুলি বাইট সিকোয়েন্সগুলিতে এনকোড করতে ব্যবহৃত হয়।
কিছু প্রসঙ্গে, উদাহরণস্বরূপ , ডায়াক্রিটিক্স সম্পর্কিত একটি পণ্ডিত নিবন্ধ
এবং কোনও চরিত্রের স্বতন্ত্র অংশটি নিজেই লেখায় প্রদর্শিত হতে পারে। সেই প্রসঙ্গে স্বতন্ত্র চরিত্রের অংশটিকে একটি চরিত্র হিসাবে বিবেচনা করা যেতে পারে, তাই এটি ইউনিকোড স্ট্যান্ডার্ডটিও নমনীয়ভাবে বজায় রাখে sense
মার্ক অ্যাভেরি যেমন উল্লেখ করেছেন, একটি চরিত্রকে আরও জটিল জিনিস তৈরি করা যেতে পারে। এটি হ'ল প্রতিটি চরিত্র ইচ্ছা করলে গ্রাফি হিসাবে কাজ করতে পারে। সমস্ত রচনার চূড়ান্ত ফলাফল এমন একটি বিষয় যা "ব্যবহারকারী একটি চরিত্র হিসাবে মনে করেন"। মানক বা এই আলোচনায়, আদর্শের মধ্যে বা এই আলোচনায় কোনও বাস্তব প্রতিরোধের উপস্থিতি বলে মনে হচ্ছে না যে উচ্চ স্তরের স্তরের এই জিনিসগুলি ব্যবহারকারীকে পৃথক চরিত্র হিসাবে মনে করে text এই শব্দটি ওভারলোডিং এড়াতে, আমরা কোনও ক্ষেত্রে যেখানে চরিত্র রচনা করতে ব্যবহৃত অংশগুলি উল্লেখ করতে চাই সেখানে "গ্রাফি" ব্যবহার করতে পারি।
অনেক সময় ইউনিকোড স্ট্যান্ডার্ডটি এর পরিভাষা সহ পুরো জায়গা জুড়ে থাকে। উদাহরণস্বরূপ, অধ্যায় 3
ইউটিএফ -8 কে একটি "এনকোডিং ফর্ম" হিসাবে সংজ্ঞায়িত করেছে যেখানে শব্দকোষটি "এনকোডিং ফর্ম" কে অন্য কিছু হিসাবে এবং ইউটিএফ -8 কে "চরিত্রের এনকোডিং স্কিম" হিসাবে সংজ্ঞায়িত করেছে। আরেকটি উদাহরণ হ'ল "গ্রাফিম_বেস" এবং "গ্রাফিম_একসেট", যা ভুল হিসাবে স্বীকৃত তবে তা অব্যাহত রয়েছে কারণ এগুলি শুদ্ধ করা কিছুটা কাজ। স্ট্যান্ডার্ড দ্বারা নিযুক্ত পরিভাষা আরও শক্ত করার জন্য এখনও কাজ বাকি আছে।
গ্রাফিম যোজক সমন্বয় যোগে জন্য প্রস্তাবনা বুঝেছি ভুল যখন এটা বলেন যে "Graphemes এক ক্রমের সাথে বা তার বেশি এনকোড অক্ষর আছে যা ব্যবহারকারীদের অক্ষর হিসাবে মনে মিলা আছে।" পরিবর্তে এটি পড়া উচিত, "এক বা একাধিক গ্রাফিক্সের ক্রম ব্যবহারকারী রচনা হিসাবে কী ভাবছেন তা রচনা করে।" তারপরে এটি "গ্রাফিক সিক্যুয়েন্স" শব্দটি "চরিত্রের অনুক্রম" শব্দটি থেকে আলাদাভাবে ব্যবহার করতে পারে। উভয় পদই কার্যকর। "গ্রাফিম সিকোয়েন্স" সুন্দরভাবে ছোট ছোট টুকরা থেকে একটি চরিত্র গঠনের প্রক্রিয়া বোঝায় imp "চরিত্রের অনুক্রম" এর অর্থ আমরা সাধারণত কী বোঝাতে চাইছি এটি বোঝাতে: "ব্যবহারকারীকে চরিত্র হিসাবে যে জিনিসগুলি মনে করে সেগুলির একটি ক্রম"।
কখনও কখনও একজন প্রোগ্রামার সত্যই গ্রাফিম সিকোয়েন্সগুলির স্তরে কাজ করতে চায়, সুতরাং এই অনুক্রমগুলি পরীক্ষা ও পরিচালনা করার পদ্ধতিগুলি পাওয়া উচিত, তবে সাধারণত, পাঠ্য প্রক্রিয়া করার সময়, এটি "চরিত্রের সিকোয়েন্সগুলি" চালানোর জন্য যথেষ্ট (ব্যবহারকারী কী মনে করেন) একটি চরিত্র হিসাবে) এবং সিস্টেমকে নিম্ন-স্তরের বিশদটি পরিচালনা করতে দিন।
এই আলোচনার এ পর্যন্ত আচ্ছাদিত প্রতিটি ক্ষেত্রে, অবিভাজ্য উপাদানগুলি উল্লেখ করতে "গ্রাফি" ব্যবহার করা পরিষ্কার এবং রচিত সত্তাকে উল্লেখ করার জন্য "চরিত্র" ব্যবহার করা পরিষ্কার। এই ব্যবহার উভয় পদের দীর্ঘ-প্রতিষ্ঠিত অর্থগুলি আরও ভালভাবে প্রতিফলিত করে।