2
শব্দের পরিবর্তে পাঠ্য ভাষার সনাক্তকরণে এন-গ্রাম ব্যবহার করা হয় কেন?
দুটি জনপ্রিয় ভাষা শনাক্তকরণ গ্রন্থাগারে, সি ++ এর জন্য কমপ্যাক্ট ল্যাঙ্গুয়েজ ডিটেক্টর 2 এবং জাভার জন্য ভাষা সনাক্তকারী , উভয়ই পাঠ্য বৈশিষ্ট্যগুলি বের করার জন্য (চরিত্র ভিত্তিক) এন-গ্রাম ব্যবহার করেছেন। ব্যাগ-অফ-শব্দের (একক শব্দ / অভিধান) কেন ব্যবহার করা হয় না এবং ব্যাগ-অফ-শব্দের এবং এন-গ্রামগুলির সুবিধা এবং অসুবিধা কী? এছাড়াও, পাঠ্য …