বিন্যাসের জন্য আমাদের বিখ্যাত "Lorem ipsum" পাঠ্যটি দেখতে কেমন তা পরীক্ষা করার জন্য রয়েছে।
আমি যেটি সন্ধান করছি তা হ'ল পাঠ্যযুক্ত ফাইলগুলির একটি সেট যা বিভিন্ন বিভিন্ন এনকোডিংয়ের সাথে এনকোডযুক্ত রয়েছে যা আমি আমার JUnit পরীক্ষায় কিছু পদ্ধতি যা পরীক্ষামূলক ফাইলগুলি পড়ার সময় অক্ষর এনকোডিংয়ের সাথে ডিল করছে তা পরীক্ষা করার জন্য ব্যবহার করতে পারি।
উদাহরণ:একটি ISO 8859-1
এনকোডযুক্ত পরীক্ষা ফাইল এবং একটি Windows-1252
এনকোডযুক্ত পরীক্ষা-ফাইল রয়েছে। উইন্ডোজ -1222 এ অঞ্চলের পার্থক্যগুলি ট্রিগার করতে হবে 80 16 - 9 এফ 16 । অন্য কথায় এটি আইএসও 8859-1 থেকে আলাদা করার জন্য অবশ্যই এই অঞ্চলের কমপক্ষে একটি চরিত্র থাকা উচিত।
সম্ভবত টেস্ট-ফাইলগুলির সেরা সেটটি হ'ল যেখানে প্রতিটি এনকোডিংয়ের জন্য টেস্ট-ফাইলটিতে তার সমস্ত অক্ষর একবার থাকে। তবে আমি স্টাফ সম্পর্কে সচেতন নই - আমরা কি এই এনকোডিংয়ের জিনিসগুলি পছন্দ করি, তাই না? :-)
চরিত্র-এনকোডিং ইস্যুগুলির জন্য কি টেস্ট-ফাইলগুলির এমন সেট রয়েছে?