পাঠ্য ডেটা নিয়ে কাজ করে এমন প্রতিটি অ্যালগরিদমের একটি শব্দভাণ্ডার রয়েছে। ওয়ার্ড টুভেকের ক্ষেত্রে, শব্দভাণ্ডারটি ইনপুট কর্পাসের সমস্ত শব্দের সমন্বয়ে বা সর্বনিম্ন-ফ্রিকোয়েন্সি থ্রেশহোল্ডের উপরে অন্তর্ভুক্ত।
অ্যালগরিদমগুলি তাদের শব্দভান্ডারের বাইরে থাকা শব্দগুলিকে উপেক্ষা করে। তবে আপনার সমস্যাটিকে নতুন করে বলার উপায় রয়েছে যে মূলত কোনও শব্দভাণ্ডারের শব্দ নেই।
মনে রাখবেন যে শব্দগুলি কেবল ওয়ার্ড টুভেভে "টোকেন"। এগুলি এনগ্রাম হতে পারে বা তারা অক্ষর হতে পারে। আপনার শব্দভাণ্ডার সংজ্ঞায়নের একটি উপায় হ'ল কমপক্ষে X বারের প্রতিটি শব্দ আপনার শব্দভাণ্ডারে থাকে। তারপরে আপনার শব্দভাণ্ডারে সর্বাধিক সাধারণ "সিলেবলস" (অক্ষরের এনগ্রাম) যুক্ত করা হয়। তারপরে আপনি আপনার শব্দভান্ডারে স্বতন্ত্র অক্ষর যুক্ত করুন।
এইভাবে আপনি যেকোনও শব্দের সংজ্ঞা দিতে পারবেন
- আপনার শব্দভান্ডার একটি শব্দ
- আপনার শব্দভাণ্ডারে সিলেবলের একটি সেট
- আপনার শব্দভাণ্ডারে অক্ষর এবং সিলেবলের সংযুক্ত সেট