LSTM ব্যবহার করে ভাষা মডেলিংয়ের কার্যগুলিতে অজানা শব্দগুলি পরিচালনা করা ling

প্রাকৃতিক ভাষা প্রক্রিয়াকরণ (এনএলপি) কার্যের জন্য একটি শব্দ শব্দের এম্বেডিং হিসাবে প্রায়শই ওয়ার্ড 2vec ভেক্টর ব্যবহার করে। যাইহোক, অনেক অজানা শব্দ থাকতে পারে যা শব্দ 2vec ভেক্টর দ্বারা ধরা পড়ে না কেবল এই কারণে যে এই শব্দগুলি প্রায়শই প্রশিক্ষণের ডেটাতে যথেষ্ট পরিমাণে দেখা যায় না (অনেকগুলি বাস্তবায়ন শব্দভাণ্ডারে কোনও শব্দ যুক্ত করার আগে একটি ন্যূনতম গণনা ব্যবহার করে)। উদাহরণস্বরূপ টুইটারের পাঠ্যের ক্ষেত্রে এটি বিশেষত ঘটতে পারে, যেখানে শব্দগুলি প্রায়শই ভুল বানান থাকে।

দীর্ঘ স্বল্পমেয়াদী (এলএসটিএম) নেটওয়ার্ক ব্যবহার করে সেন্টিমেন্টের পূর্বাভাসের মতো এনএলপি টাস্কের মডেলিং করার সময় কীভাবে এই অজানা শব্দগুলি পরিচালনা করা উচিত? আমি দুটি বিকল্প দেখতে পাচ্ছি:

শব্দ 2vec অভিধানে একটি 'অজানা শব্দ' টোকেন যুক্ত করা হচ্ছে।
এই অজানা শব্দগুলি মুছে ফেলা যাতে LSTM এমনকি শব্দটি বাক্যে ছিল তা জানে না।

এই শব্দগুলি পরিচালনা করার পছন্দের উপায় কী?

— পীর
সূত্র

আমি এর আগে একই ধরণের প্রশ্নের উত্তর দিয়েছি; যদিও প্রশ্নটি তখন এলএসটিএম-এর জন্য সুনির্দিষ্ট ছিল না, মনে হচ্ছে আমি সেখানে যা লিখেছি তার মধ্যে বেশিরভাগই ঠিক তেমন প্রযোজ্য হবে: stats.stackexchange.com/questions/163005/…

— fnl

উত্তর:

বিকল্প 1 (একটি অজানা শব্দ টোকেন যুক্ত করা) কীভাবে বেশিরভাগ লোকেরা এই সমস্যাটি সমাধান করে।

বিকল্প 2 (অজানা শব্দগুলি মুছে ফেলা) একটি খারাপ ধারণা কারণ এটি বাক্যটিকে এমনভাবে রূপান্তর করে যা এলএসটিএমকে প্রশিক্ষণ দেওয়া হয়েছিল তার সাথে সামঞ্জস্যপূর্ণ নয়।

আরেকটি বিকল্প যা সম্প্রতি বিকশিত হয়েছে তা হ'ল প্রতিটি শব্দটির জন্য একটি কনভ্যুশনাল নিউরাল নেটওয়ার্ক বা একটি পৃথক এলএসটিএম ব্যবহার করে প্রতিটি শব্দের অক্ষরগুলিকে একসাথে প্রসেস করে এমন প্রতিটি শব্দের জন্য অন-ফ্লাই এম্বেডিং শব্দ তৈরি করা। এই কৌশলটি ব্যবহার করে আপনার মডেল কখনও কোনও শব্দের মুখোমুখি হবে না যা এটি এম্বেডিং তৈরি করতে পারে না।

— হারুন
সূত্র

হাই অ্যারন, আপনি কি আমাকে এমন কয়েকজন পয়েন্টার (কাগজপত্র বা কোড) দিতে পারেন যা আপনার তৃতীয় বিকল্পটি ব্যবহার করে?

— ভবিষ্যদ্বাণীগুলি

arxiv.org/abs/1508.02096 এখানে একটি

— হারুন

কোড: github.com/wlin12/JNN

— চেঙ্ক

আর একটি সাম্প্রতিক এক (EMNLP 2017) arxiv.org/abs/1707.06961 কোড github.com/yuvalpinter/

— মিমিক

-1

বিরল শব্দের ম্যাপিংয়ের সহজ অর্থ হ'ল আমরা সেই শব্দগুলি মুছব এবং তাদের প্রশিক্ষণের ডেটাতে টোকেন দিয়ে প্রতিস্থাপন করব। এইভাবে আমাদের মডেল কোনও বিরল শব্দ জানে না। এটি স্মুথিংয়ের একটি অপরিশোধিত রূপ কারণ মডেল ধরে নিয়েছে যে টোকেনটি সত্যিকারের ডেটাতে আসলে কখনও ঘটবে না বা আরও ভাল তবুও এটি এই এন-গ্রামকে পুরোপুরি উপেক্ষা করে।

— কনস্টান্টটাইন
সূত্র

দয়া করে এই উত্তরে যথেষ্ট যোগ করুন। উদাহরণস্বরূপ দাবিটি ব্যাক আপ করুন যে "অজানা শব্দ টোকেন যুক্ত হ'ল সর্বোত্তম বিকল্প"।

— জিম