প্রাকৃতিক ভাষা প্রক্রিয়াকরণ (এনএলপি) কার্যের জন্য একটি শব্দ শব্দের এম্বেডিং হিসাবে প্রায়শই ওয়ার্ড 2vec ভেক্টর ব্যবহার করে। যাইহোক, অনেক অজানা শব্দ থাকতে পারে যা শব্দ 2vec ভেক্টর দ্বারা ধরা পড়ে না কেবল এই কারণে যে এই শব্দগুলি প্রায়শই প্রশিক্ষণের ডেটাতে যথেষ্ট পরিমাণে দেখা যায় না (অনেকগুলি বাস্তবায়ন শব্দভাণ্ডারে কোনও শব্দ যুক্ত করার আগে একটি ন্যূনতম গণনা ব্যবহার করে)। উদাহরণস্বরূপ টুইটারের পাঠ্যের ক্ষেত্রে এটি বিশেষত ঘটতে পারে, যেখানে শব্দগুলি প্রায়শই ভুল বানান থাকে।
দীর্ঘ স্বল্পমেয়াদী (এলএসটিএম) নেটওয়ার্ক ব্যবহার করে সেন্টিমেন্টের পূর্বাভাসের মতো এনএলপি টাস্কের মডেলিং করার সময় কীভাবে এই অজানা শব্দগুলি পরিচালনা করা উচিত? আমি দুটি বিকল্প দেখতে পাচ্ছি:
- শব্দ 2vec অভিধানে একটি 'অজানা শব্দ' টোকেন যুক্ত করা হচ্ছে।
- এই অজানা শব্দগুলি মুছে ফেলা যাতে LSTM এমনকি শব্দটি বাক্যে ছিল তা জানে না।
এই শব্দগুলি পরিচালনা করার পছন্দের উপায় কী?