চরিত্রের এনকোডিংয়ের সমস্যাগুলির পরীক্ষার জন্য "লরেম ইপসাম" ফাইলগুলির একটি সেট রয়েছে?

Question 1

বিন্যাসের জন্য আমাদের বিখ্যাত "Lorem ipsum" পাঠ্যটি দেখতে কেমন তা পরীক্ষা করার জন্য রয়েছে।

আমি যেটি সন্ধান করছি তা হ'ল পাঠ্যযুক্ত ফাইলগুলির একটি সেট যা বিভিন্ন বিভিন্ন এনকোডিংয়ের সাথে এনকোডযুক্ত রয়েছে যা আমি আমার JUnit পরীক্ষায় কিছু পদ্ধতি যা পরীক্ষামূলক ফাইলগুলি পড়ার সময় অক্ষর এনকোডিংয়ের সাথে ডিল করছে তা পরীক্ষা করার জন্য ব্যবহার করতে পারি।

উদাহরণ:

একটি ISO 8859-1এনকোডযুক্ত পরীক্ষা ফাইল এবং একটি Windows-1252এনকোডযুক্ত পরীক্ষা-ফাইল রয়েছে। উইন্ডোজ -1222 এ অঞ্চলের পার্থক্যগুলি ট্রিগার করতে হবে 80 ₁₆ - 9 এফ ₁₆ । অন্য কথায় এটি আইএসও 8859-1 থেকে আলাদা করার জন্য অবশ্যই এই অঞ্চলের কমপক্ষে একটি চরিত্র থাকা উচিত।

সম্ভবত টেস্ট-ফাইলগুলির সেরা সেটটি হ'ল যেখানে প্রতিটি এনকোডিংয়ের জন্য টেস্ট-ফাইলটিতে তার সমস্ত অক্ষর একবার থাকে। তবে আমি স্টাফ সম্পর্কে সচেতন নই - আমরা কি এই এনকোডিংয়ের জিনিসগুলি পছন্দ করি, তাই না? :-)

চরিত্র-এনকোডিং ইস্যুগুলির জন্য কি টেস্ট-ফাইলগুলির এমন সেট রয়েছে?

Question 2

আইসিইউ পরীক্ষার স্যুট ফাইলগুলি ব্যবহার করার চেষ্টা সম্পর্কে কীভাবে ? আপনার পরীক্ষার জন্য আপনার যা প্রয়োজন তা সেগুলি কিনা তা আমি জানি না, তবে তারা অন্তত: ইউটিএফ থেকে ম্যাপিং ফাইলগুলি / থেকে কমপক্ষে সম্পূর্ণরূপে সম্পূর্ণ বলে মনে হচ্ছে: আইসিইউ পরীক্ষার ফাইলগুলির জন্য রেপোটিতে লিঙ্ক

Question 3

ডায়াক্রিটিক্স সম্পর্কিত উইকিপিডিয়া নিবন্ধটি বেশ বিস্তৃত, দুর্ভাগ্যক্রমে আপনাকে এই অক্ষরগুলি ম্যানুয়ালি বের করতে হবে। এছাড়াও প্রতিটি ভাষার জন্য কিছু স্মৃতিবিজ্ঞানের উপস্থিতি থাকতে পারে। উদাহরণস্বরূপ পোলিশে আমরা ব্যবহার করি:

জাżółć গালি জাźń

যার মধ্যে একটি সঠিক বাক্যে সমস্ত 9 পোলিশ ডায়াক্রিটিকস রয়েছে। আর একটি দরকারী অনুসন্ধানের ইঙ্গিতটি হ'ল প্যাংগ্রাম : বর্ণমালার প্রতিটি অক্ষর অন্তত একবার ব্যবহার করে বাক্য :

স্প্যানিশ ভাষায়, " এল ভেলোজ মুর্সিগালাগো হিন্দি কমিয়া ফেলিজ কার্ডিলো ই কিউই। লা সিগিসিয়া টাকাবা এল স্যাক্সোফান ডিট্রিস ডেল প্যালেনিক দে পাজা। " (সমস্ত ২ letters টি বর্ণ এবং ডায়াক্রিটিকস)।

রাশিয়ান ভাষায়, " Съешь же ещё этих мягких французских французских булок, да выпей чаю " (সমস্ত 33 রাশিয়ান সিরিলিক বর্ণমালা অক্ষর)।

পেংগ্রামগুলির তালিকায় একটি বিস্তৃত সংক্ষিপ্তসার রয়েছে। যে কেউ এটিকে সরল করে গুটিয়ে রাখতে যত্নশীল:

public interface NationalCharacters {
  String spanish();
  String russian();
  //...
}

গ্রন্থাগার?

Question 4

আমি কোনও সম্পূর্ণ পাঠ্য নথি জানি না, তবে আপনি যদি সমস্ত অক্ষর সেটগুলির একটি সাধারণ ওভারভিউ দিয়ে শুরু করতে পারেন তবে এখানে কিছু ফাইল উপলব্ধ রয়েছে ftp.unicode.org সার্ভারে available

উদাহরণস্বরূপ এখানে উইন্ডোজ -১২২২। প্রথম কলামটি হেক্সাডেসিমাল অক্ষরের মান এবং দ্বিতীয়টি ইউনিকোড মান।

ftp://ftp.unicode.org/Public/MAPPINGS/VendORS/MICSFT/WINDOWS/CP1250.TXT

Question 5

ওয়েল, আমি লোরেম ইপসাম থেকে আমার পাঠ্য চর সেটগুলি তৈরি করতে একটি অনলাইন সরঞ্জাম ব্যবহার করেছি। আমি বিশ্বাস করি এটি আপনাকে সহায়তা করতে পারে। আমার কাছে এমন একটি নেই যা একক পৃষ্ঠায় সমস্ত বিভিন্ন অক্ষর রয়েছে।

http://generator.lorem-ipsum.info /