বিন্যাসের জন্য আমাদের বিখ্যাত "Lorem ipsum" পাঠ্যটি দেখতে কেমন তা পরীক্ষা করার জন্য রয়েছে।
আমি যেটি সন্ধান করছি তা হ'ল পাঠ্যযুক্ত ফাইলগুলির একটি সেট যা বিভিন্ন বিভিন্ন এনকোডিংয়ের সাথে এনকোডযুক্ত রয়েছে যা আমি আমার JUnit পরীক্ষায় কিছু পদ্ধতি যা পরীক্ষামূলক ফাইলগুলি পড়ার সময় অক্ষর এনকোডিংয়ের সাথে ডিল করছে তা পরীক্ষা করার জন্য ব্যবহার করতে পারি।
উদাহরণ:একটি ISO 8859-1এনকোডযুক্ত পরীক্ষা ফাইল এবং একটি Windows-1252এনকোডযুক্ত পরীক্ষা-ফাইল রয়েছে। উইন্ডোজ -1222 এ অঞ্চলের পার্থক্যগুলি ট্রিগার করতে হবে 80 16 - 9 এফ 16 । অন্য কথায় এটি আইএসও 8859-1 থেকে আলাদা করার জন্য অবশ্যই এই অঞ্চলের কমপক্ষে একটি চরিত্র থাকা উচিত।
সম্ভবত টেস্ট-ফাইলগুলির সেরা সেটটি হ'ল যেখানে প্রতিটি এনকোডিংয়ের জন্য টেস্ট-ফাইলটিতে তার সমস্ত অক্ষর একবার থাকে। তবে আমি স্টাফ সম্পর্কে সচেতন নই - আমরা কি এই এনকোডিংয়ের জিনিসগুলি পছন্দ করি, তাই না? :-)
চরিত্র-এনকোডিং ইস্যুগুলির জন্য কি টেস্ট-ফাইলগুলির এমন সেট রয়েছে?