চিঠি এন-গ্রাম বিভিন্ন কারণে শব্দের পরিবর্তে ব্যবহৃত হয়:
1) প্রদত্ত ভাষার জন্য প্রয়োজনীয় শব্দের তালিকাটি বেশ বড়, সম্ভবত 100,000 আপনি যদি দ্রুত, দ্রুত, দ্রুত, দ্রুত, উপবাস, উপবাস, ... সমস্ত ভিন্ন শব্দ হিসাবে বিবেচনা করেন। ৮০ টি ভাষার জন্য আপনার প্রচুর শব্দ হিসাবে প্রায় 80x প্রয়োজন, প্রচুর জায়গা - 50+ মেগাবাইট।
২) ২-অক্ষরের বর্ণমালার জন্য চিঠির সংখ্যাটি 26 ** 3 বা প্রায় 17,000 এবং চতুর্ভুজগুলির জন্য (এন = 4) প্রায় 450,000 সেই বর্ণমালা ব্যবহার করে সমস্ত ভাষাতে আবৃত হয়। 30-100 অক্ষরের বৃহত্তর বর্ণমালায় এন-গ্রামগুলির জন্য অনুরূপ তবে কিছুটা বড় সংখ্যা। হান স্ক্রিপ্টে 4000+ অক্ষরযুক্ত সিজেকে ভাষার জন্য, ইউনিগ্রাম (এন = 1) যথেষ্ট। কিছু ইউনিকোড স্ক্রিপ্টগুলির জন্য, প্রতি স্ক্রিপ্টের জন্য কেবল একটি ভাষা রয়েছে (গ্রীক, আর্মেনিয়ান), সুতরাং কোনও বর্ণের সংমিশ্রণের প্রয়োজন নেই (তথাকথিত নীল-গ্রাম এন = 0)
৩) শব্দগুলির সাথে, আপনার অভিধানের কোনও তথ্য নেই যখন অভিধানে নেই একটি শব্দ দেওয়া হয়েছে, যখন চিঠি এন-গ্রাম সহ আপনার প্রায়শই সেই শব্দের মধ্যে কমপক্ষে কয়েকটি কার্যকর বর্ণের সংমিশ্রণ থাকে।
সিএলডি 2 ল্যাটিন, সিরিলিক এবং আরবি সহ বেশিরভাগ ইউনিকোড স্ক্রিপ্টগুলির জন্য বর্ণমালা ব্যবহার করে, সিজেকে স্ক্রিপ্টগুলির জন্য ইউনিগ্রাম, অন্যান্য স্ক্রিপ্টগুলির জন্য নীলগ্রাম এবং আলাদা করার জন্য সীমিত সংখ্যক যথেষ্ট স্বতন্ত্র এবং মোটামুটি সাধারণ সম্পূর্ণ শব্দ এবং জোড় শব্দ যুক্ত করে পরিসংখ্যানগত-অনুরূপ ভাষার, যেমন ইন্দোনেশিয়ান এবং মালয় এর মতো শক্ত গ্রুপগুলির মধ্যে। চিঠি বিগ্রামগুলি এবং ট্রিগারগুলি খুব অল্প সংখ্যক ভাষার মধ্যে পার্থক্য করার জন্য দরকারী (প্রায় আটটি, https://docs.google.com/docament/d/1NtErs467Ub4yklEfK0C9AYef06G_1_9NHL5dPuKIH7k/edit দেখুন), তবে কয়েক ডজন ভাষা আলাদা করার জন্য অকেজো। সুতরাং, সিএলডি 2 এই সংমিশ্রণটি ব্যবহার করে প্রতিটি বর্ণের সংমিশ্রণের সাথে শীর্ষ তিনটি সম্ভবত ভাষা ব্যবহার করে কোয়াডগ্রাম ব্যবহার করে। এটি প্রায় 1.5 এমবি টেবিল সহ 80 টি ভাষা এবং প্রায় 5MB টেবিলের সাথে আরও বিশদে 160 টি ভাষা কভার করতে দেয়।