শব্দ 2vec কীভাবে অদেখা শব্দগুলি সনাক্ত করতে এবং ইতিমধ্যে প্রশিক্ষিত ডেটার সাথে তাদের সম্পর্কিত করতে ব্যবহার করা যেতে পারে


11

আমি ওয়ার্ড টুভেক জেনসিম মডেলটিতে কাজ করছিলাম এবং এটি সত্যিই আকর্ষণীয় মনে হয়েছিল। মডেলটির সাথে চেক করার সময় কোনও অজানা / অদেখা শব্দটি প্রশিক্ষিত মডেল থেকে কীভাবে অনুরূপ পদ পেতে সক্ষম হবে তা সন্ধান করতে আমি ছেদ করছি am

এটা কি সম্ভব? এর জন্য কি ওয়ার্ড টুভেক করা যায়? বা প্রশিক্ষণ কর্পাসের সমস্ত শব্দ থাকা দরকার যাগুলির সাথে আমি মিল খুঁজে পেতে চাই।

উত্তর:


9

পাঠ্য ডেটা নিয়ে কাজ করে এমন প্রতিটি অ্যালগরিদমের একটি শব্দভাণ্ডার রয়েছে। ওয়ার্ড টুভেকের ক্ষেত্রে, শব্দভাণ্ডারটি ইনপুট কর্পাসের সমস্ত শব্দের সমন্বয়ে বা সর্বনিম্ন-ফ্রিকোয়েন্সি থ্রেশহোল্ডের উপরে অন্তর্ভুক্ত।

অ্যালগরিদমগুলি তাদের শব্দভান্ডারের বাইরে থাকা শব্দগুলিকে উপেক্ষা করে। তবে আপনার সমস্যাটিকে নতুন করে বলার উপায় রয়েছে যে মূলত কোনও শব্দভাণ্ডারের শব্দ নেই।

মনে রাখবেন যে শব্দগুলি কেবল ওয়ার্ড টুভেভে "টোকেন"। এগুলি এনগ্রাম হতে পারে বা তারা অক্ষর হতে পারে। আপনার শব্দভাণ্ডার সংজ্ঞায়নের একটি উপায় হ'ল কমপক্ষে X বারের প্রতিটি শব্দ আপনার শব্দভাণ্ডারে থাকে। তারপরে আপনার শব্দভাণ্ডারে সর্বাধিক সাধারণ "সিলেবলস" (অক্ষরের এনগ্রাম) যুক্ত করা হয়। তারপরে আপনি আপনার শব্দভান্ডারে স্বতন্ত্র অক্ষর যুক্ত করুন।

এইভাবে আপনি যেকোনও শব্দের সংজ্ঞা দিতে পারবেন

  1. আপনার শব্দভান্ডার একটি শব্দ
  2. আপনার শব্দভাণ্ডারে সিলেবলের একটি সেট
  3. আপনার শব্দভাণ্ডারে অক্ষর এবং সিলেবলের সংযুক্ত সেট

3

word2vec শব্দকে পরমাণু হিসাবে বিবেচনা করে। অজানা শব্দের জন্য অর্থবহ ভেক্টর পেতে আপনার হয় হয় either

  • এই পরমাণুগুলি কী কী তা পরিবর্তন করুন, যেমন জেমসেমফের উত্তরের মতো চিঠি এন-গ্রামে স্যুইচ করুন, বা
  • আপনার শব্দের ভিতরে কী রয়েছে তা স্পষ্টভাবে দেখায় এমন একটি আলাদা মডেল ব্যবহার করুন, উদাহরণস্বরূপ https://github.com/Leonard-Xu/CWE- এর CWE মডেলটি ব্যবহার করা সহজ।

1
github.com/facebookresearch/fastText ভাল কাজ করছে বলে মনে হচ্ছে
জোচিম ওয়াগনার

হ্যাঁ, আমি চেষ্টা করেছি কিন্তু রূপচর্চা বিভাজনের মতো কাজগুলির সাথে ভাল কাজ করে না।
গাউরাস


0

শব্দটি শব্দভাণ্ডারে না থাকলে 2 টু শব্দ এবং ফাস্ট টেক্সট ব্যর্থ হয়। একটি ত্রুটি নিক্ষেপ। এটি সম্পর্কিত শব্দের জন্য স্কোরের একটি তালিকা দেয় তবে একটি অদেখা শব্দটি শব্দভাণ্ডারে থাকবে না তাই না? সুতরাং, এটি অদেখা শব্দ সমস্যার সমাধান করে কীভাবে?

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.