ইউনিকোডে কেন এত জায়গা এবং লাইন ব্রেক রয়েছে?


19

ইউনিকোডে সম্ভবত 50 টি স্পেস রয়েছে

\ U0009 \ u000A- \ u000D \ u0020 \ u0085 \ u00A0 \ u1680 \ u180E \ u2000- \ u200A \ u2028 \ u2029 \ u202F \ u205F \ u3000] [\ u0009 \ u000A- \ u000D \ u0020 \ u0085 \ u00A0 \ u1680 \ u180E \ u2000- \ u200A \ u2028 \ u2029 \ u202F \ u205F \ u3000

এবং 6 লাইন বিরতি

কেবল সিআরএলএফ, এলএফ, সিআরই নয়, এনইএল (ইউ + 0085), পিএস (ইউ + 2029) এবং এলএস (ইউ + 2028)।

সম্ভবত আমি বেশিরভাগ স্পেস এবং পিএস ("অনুচ্ছেদ বিভাজক") বুঝতে পারি তবে "নেক্সট লাইন" এবং "লাইন বিভাজক" কীসের জন্য ভাল?

এগুলি দেখতে অনেকগুলি বড় কমিটির দ্বারা উদ্ভাবিত বলে মনে হচ্ছে যেখানে প্রত্যেকে নিজের নিজের জায়গা চায় এবং নেতাদের প্রত্যেককে একটি করে লাইন দেওয়া হয়। তবে গুরুত্ব সহকারে, যখন আপনার প্রোগ্রামিং ভাষাটি সমর্থন না করে আপনি কীভাবে এটি ব্যবহার করবেন (বা যেমন জাভা যেমন এটি ভুল করে)?


1
জাভা কীভাবে এটি "ভুল" করে?
বিলি ওনিল

প্রায় সম্পূর্ণ, এস। stackoverflow.com/questions/4304928/...
maaartinus

2
@ মাআর্টিনাস: (আমি বিশ্বাস করতে পারি না যে আমি সবকিছুর জাভা রক্ষা করছি) জাভা চরিত্রের ক্লাসগুলি নির্দিষ্ট অক্ষরের বর্ণনায় প্রয়োগ করার জন্য নথিভুক্ত করা হয়। ইউনিকোড আরও অক্ষর সরবরাহ করে যা দেখতে এই অক্ষর শ্রেণীর সাথে মানানসই লাগে তবে ইউনিকোড নিয়মিত প্রকাশের ভাষা সংজ্ঞায়িত করে না; কেবলমাত্র অক্ষর এনকোডিং। জাভা সম্পূর্ণরূপে এটির নির্দিষ্ট অনুযায়ী সঠিক আচরণ করে - এটি হ'ল স্পেসস্পেসের সাথে মিল। আপনি যদি ইউনিকোড স্ট্যান্ডার্ডের খালি জায়গা হিসাবে দেখা যায় এমন সমস্ত কিছুর সাথে এটি মিলিয়ে দেখতে চান তবে আপনাকে এটি নিজেরাই লিখতে হবে।
বিলি ওনিল

2
তথ্য জন্য Thx। যাইহোক, তবে তারা Pattern.compile2010গত বছরের সংজ্ঞা অনুযায়ী কাজ করে রেজিজেসগুলি ফিরতে একটি পদ্ধতি তৈরি করতে মুক্ত । তারা এমন একটি পদ্ধতি তৈরি করতেও নির্দ্বিধায় Pattern.compileLatestUTSযা স্পষ্টভাবে বর্ণনা করবে, নতুন স্পেসিফিকেশন অনুসারে অর্থটি পরিবর্তিত হবে।
মার্টিনাস

2
জাভা মত দেখায় অবশেষে করেনি : ফিক্স / তাদের Regex বাস্তবায়ন আধুনিকীকরণ, পিছন সামঞ্জস্য সমস্যা প্রতিরোধ করার একটি বেছে নেওয়ার ফ্ল্যাগ ব্যবহার stackoverflow.com/a/4307261/1172352
peterflynn

উত্তর:


15

সম্ভবত আমি বেশিরভাগ স্পেস এবং পিএস ("অনুচ্ছেদ বিভাজক") বুঝতে পারি, তবে "নেক্সট লাইন" এবং "লাইন বিভাজক" কী জন্য ভাল

নেক্সট লাইন (U + 0085) প্রায়শই EBCDIC সিস্টেমে (0x15 হিসাবে) নিউলাইন চরিত্র হিসাবে ব্যবহৃত হয়। এটি সিআর + এলএফ এর মতো তবে একটি চরিত্র হিসাবে।

লাইন SEPARATOR (U + 2028) এবং অনুচ্ছেদ SEPARATOR (ইউ + 2029) ইউনিকোড স্ট্যান্ডার্ডের ৫.৮ বিভাগে ব্যাখ্যা করা হয়েছে , যা তাদের এইচটিএমএল-এর একটি সরল-পাঠ্য সংস্করণ হিসাবে বর্ণনা করে <br>এবং <p>"নিউলাইন" এর এই ফাংশনগুলিকে নিস্পষ্ট করতে। তবে অনুশীলনে, এই চরিত্রগুলি বেশি ব্যবহৃত হয় না।


1
ভাল ব্যাখ্যা, তবে আমার জন্য এর অর্থ: কমিটির নেতাদের প্রতি এক লাইন বিরতি।
মার্টিনাস

5
@ মাআর্টিনাস নোপ পূর্ববর্তী সমস্ত বিবাদমান মান অনুযায়ী এক লাইন বিরতি এবং ইউনিকোড স্ট্যান্ডার্ড থেকে আরও 2 টি দ্ব্যর্থহীন।
মিলিণ্ড আর

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.