চরিত্রের এনকোডিংয়ের সমস্যাগুলির পরীক্ষার জন্য "লরেম ইপসাম" ফাইলগুলির একটি সেট রয়েছে?


85

বিন্যাসের জন্য আমাদের বিখ্যাত "Lorem ipsum" পাঠ্যটি দেখতে কেমন তা পরীক্ষা করার জন্য রয়েছে।

আমি যেটি সন্ধান করছি তা হ'ল পাঠ্যযুক্ত ফাইলগুলির একটি সেট যা বিভিন্ন বিভিন্ন এনকোডিংয়ের সাথে এনকোডযুক্ত রয়েছে যা আমি আমার JUnit পরীক্ষায় কিছু পদ্ধতি যা পরীক্ষামূলক ফাইলগুলি পড়ার সময় অক্ষর এনকোডিংয়ের সাথে ডিল করছে তা পরীক্ষা করার জন্য ব্যবহার করতে পারি।

উদাহরণ:

একটি ISO 8859-1এনকোডযুক্ত পরীক্ষা ফাইল এবং একটি Windows-1252এনকোডযুক্ত পরীক্ষা-ফাইল রয়েছে। উইন্ডোজ -1222 এ অঞ্চলের পার্থক্যগুলি ট্রিগার করতে হবে 80 16 - 9 এফ 16 । অন্য কথায় এটি আইএসও 8859-1 থেকে আলাদা করার জন্য অবশ্যই এই অঞ্চলের কমপক্ষে একটি চরিত্র থাকা উচিত।

সম্ভবত টেস্ট-ফাইলগুলির সেরা সেটটি হ'ল যেখানে প্রতিটি এনকোডিংয়ের জন্য টেস্ট-ফাইলটিতে তার সমস্ত অক্ষর একবার থাকে। তবে আমি স্টাফ সম্পর্কে সচেতন নই - আমরা কি এই এনকোডিংয়ের জিনিসগুলি পছন্দ করি, তাই না? :-)

চরিত্র-এনকোডিং ইস্যুগুলির জন্য কি টেস্ট-ফাইলগুলির এমন সেট রয়েছে?


4
+1: আমি একটি ইউটিএফ -8 ডিকোডার বাস্তবায়নের জন্য বেশ কিছুটা সময় ব্যয় করেছি। সমস্ত কোণার কেসগুলি হ্যান্ডেল করার জন্য আপনার ভাবার চেয়ে আরও বেশি ইউনিট পরীক্ষার প্রয়োজন।
রায়েডওয়াল্ড

4
"বিভিন্ন বিভিন্ন এনকোডিং সহ পাঠ্য এনকোড করা হয়েছে": ভাল কভারেজের জন্য আপনি অবৈধ বাইটগুলি ধারণ করে এমন নমুনা বাইট সিকোয়েন্সগুলিও চান। ইউটিএফ -২ উইকিপিডিয়া পৃষ্ঠা অনুসারে, এই মামলাগুলিকে ভুলভাবে পরিচালনা করা কিছু হাই প্রোফাইল পণ্যগুলিতে সুরক্ষিত দুর্বলতার পরিচয় দিয়েছে।
রায়েডওয়াল্ড

@ রেডওয়াল্ড অবশ্যই, এটি একটি ভাল বিষয়। আমি এই সম্পর্কে সচেতন ছিল না। আমার মতে এনকোডিংয়ের সমস্যার জন্য একটি পরিপক্ক টেস্ট-স্যুটের আরও একটি কারণ। এটি ফাইলের সেট হতে হবে না। এটি পরীক্ষার ডেটা সরবরাহকারী একটি গ্রন্থাগারও হতে পারে যা JUnit পরীক্ষায় ব্যবহৃত হতে পারে। উদাহরণস্বরূপ এটি নমুনা বাইট সিকোয়েন্সগুলি ডিকোডিংয়ের পরে তুলনা করার জন্য সাধারণ চরসেট এবং রেফারেন্স স্ট্রিংয়ের জন্য সমালোচনামূলক / অবৈধ বাইট সিকোয়েন্স সরবরাহ করতে পারে। কেবলমাত্র কিছু চিন্তাভাবনা এবং আমি অবাক হই যে কীভাবে এই এনকোডিং স্টাফটি চারপাশের সমস্ত লিবে পরীক্ষা করা হয়েছিল ...
ফ্যাবিয়ান বার্নি

উত্তর:


26

আইসিইউ পরীক্ষার স্যুট ফাইলগুলি ব্যবহার করার চেষ্টা সম্পর্কে কীভাবে ? আপনার পরীক্ষার জন্য আপনার যা প্রয়োজন তা সেগুলি কিনা তা আমি জানি না, তবে তারা অন্তত: ইউটিএফ থেকে ম্যাপিং ফাইলগুলি / থেকে কমপক্ষে সম্পূর্ণরূপে সম্পূর্ণ বলে মনে হচ্ছে: আইসিইউ পরীক্ষার ফাইলগুলির জন্য রেপোটিতে লিঙ্ক


আমার প্রিয় এখনও পর্যন্ত +1। আমি 1 ঘন্টা ডকুমেন্টেশনে পড়েছি এবং এটি আমার প্রয়োজনীয় সমস্ত কিছুই মনে হয় - কমপক্ষে ইউনিকোড সম্পর্কিত স্টাফের জন্য।
ফ্যাবিয়ান বার্নি

আমি মনে করি এটি এখন পর্যন্ত সেরা উত্তর। আমি এটি গ্রহণ করেছি এবং আশা করি আপনি এটির জন্য কিছু খ্যাতি পাবেন। যদি এক সপ্তাহ আগে উত্তর দেওয়া হয় তবে আমি নিশ্চিত যে এখানে অন্যান্য উত্তরের তুলনায় এটি আরও ভাল রান করতে পারে। যাইহোক ধন্যবাদ!
ফ্যাবিয়ান বার্নি

42

ডায়াক্রিটিক্স সম্পর্কিত উইকিপিডিয়া নিবন্ধটি বেশ বিস্তৃত, দুর্ভাগ্যক্রমে আপনাকে এই অক্ষরগুলি ম্যানুয়ালি বের করতে হবে। এছাড়াও প্রতিটি ভাষার জন্য কিছু স্মৃতিবিজ্ঞানের উপস্থিতি থাকতে পারে। উদাহরণস্বরূপ পোলিশে আমরা ব্যবহার করি:

জাżółć গালি জাźń

যার মধ্যে একটি সঠিক বাক্যে সমস্ত 9 পোলিশ ডায়াক্রিটিকস রয়েছে। আর একটি দরকারী অনুসন্ধানের ইঙ্গিতটি হ'ল প্যাংগ্রাম : বর্ণমালার প্রতিটি অক্ষর অন্তত একবার ব্যবহার করে বাক্য :

  • স্প্যানিশ ভাষায়, " এল ভেলোজ মুর্সিগালাগো হিন্দি কমিয়া ফেলিজ কার্ডিলো ই কিউই। লা সিগিসিয়া টাকাবা এল স্যাক্সোফান ডিট্রিস ডেল প্যালেনিক দে পাজা। " (সমস্ত ২ letters টি বর্ণ এবং ডায়াক্রিটিকস)।

  • রাশিয়ান ভাষায়, " Съешь же ещё этих мягких французских французских булок, да выпей чаю " (সমস্ত 33 রাশিয়ান সিরিলিক বর্ণমালা অক্ষর)।

পেংগ্রামগুলির তালিকায় একটি বিস্তৃত সংক্ষিপ্তসার রয়েছে। যে কেউ এটিকে সরল করে গুটিয়ে রাখতে যত্নশীল:

public interface NationalCharacters {
  String spanish();
  String russian();
  //...
}

গ্রন্থাগার?


4
নিশ্চিতভাবেই এটি একটি +1 উত্তর। আমি আশাবাদে কিছুটা অপেক্ষা করব যে সেখানে সত্যিকারের পরীক্ষা-ফাইলগুলির একটি সুচিন্তিত সেট রয়েছে। কারণ অন্যের উপরেও এনকোডিংগুলি রয়েছে ইত্যাদি I আমি মনে করি প্রতিটি এনকোডিংয়ের জন্য পার্থক্যকে ট্রিগার করার জন্য টেস্ট ফাইল রাখা খুব ভাল। তবে সম্ভবত আমি ভুল এবং তাদের অস্তিত্বের অস্তিত্বের কারণগুলিও রয়েছে।
ফ্যাবিয়ান বার্নি

8

আমি কোনও সম্পূর্ণ পাঠ্য নথি জানি না, তবে আপনি যদি সমস্ত অক্ষর সেটগুলির একটি সাধারণ ওভারভিউ দিয়ে শুরু করতে পারেন তবে এখানে কিছু ফাইল উপলব্ধ রয়েছে ftp.unicode.org সার্ভারে available

উদাহরণস্বরূপ এখানে উইন্ডোজ -১২২২। প্রথম কলামটি হেক্সাডেসিমাল অক্ষরের মান এবং দ্বিতীয়টি ইউনিকোড মান।

ftp://ftp.unicode.org/Public/MAPPINGS/VendORS/MICSFT/WINDOWS/CP1250.TXT


+1 আপনার প্রচেষ্টার জন্য ধন্যবাদ। ফাইলগুলির খুব আকর্ষণীয় সংস্থান।
ফ্যাবিয়ান বার্নি

1

ওয়েল, আমি লোরেম ইপসাম থেকে আমার পাঠ্য চর সেটগুলি তৈরি করতে একটি অনলাইন সরঞ্জাম ব্যবহার করেছি। আমি বিশ্বাস করি এটি আপনাকে সহায়তা করতে পারে। আমার কাছে এমন একটি নেই যা একক পৃষ্ঠায় সমস্ত বিভিন্ন অক্ষর রয়েছে।

http://generator.lorem-ipsum.info /


4
Lorem ipsum কেবল লাতিন ভাষায় যেমন লাতিন অক্ষর নিয়ে গঠিত। এটি এখানে জিজ্ঞাসা করা হয় না। বিটিডব্লিউ
টমাসজ নুরকিউইচ
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.