আমাদের ডেটা সেটগুলিতে আমরা যেখানে শব্দার্থক অনুসন্ধান করতে চাই সেখানে আমরা একটি সমস্যাটি সমাধান করার চেষ্টা করছি, যেমন আমাদের একটি ডোমেন-নির্দিষ্ট ডেটা রয়েছে (উদাহরণস্বরূপ: অটোমোবাইলগুলি নিয়ে কথা বলার বাক্য)
আমাদের তথ্য বাক্যগুলির একগুচ্ছ এবং আমরা যা চাই তা হল একটি বাক্য প্রদান এবং বাক্যগুলি ফিরে পাওয়া যা:
- সেই বাক্যাংশের মতোই
- বাক্যটির অনুরূপ একটি বাক্যের একটি অংশ রয়েছে
- একটি বাক্য যা প্রাসঙ্গিকভাবে একই অর্থ হয়
আমি আপনাকে একটি উদাহরণ দেওয়ার চেষ্টা করি মনে করি আমি "অভিজ্ঞতা কেনা" বাক্যাংশটি অনুসন্ধান করি, আমার এই বাক্যগুলি পাওয়া উচিত:
- আমি কখনই ভাবিনি যে গাড়ী কেনা সাইন ইন এবং কিনতে 30 মিনিটেরও বেশি সময় নিতে পারে।
আমি একটি গাড়ি পেয়েছি যা আমার পছন্দ হয়েছিল এবং ক্রয় প্রক্রিয়াটি
সোজা এবং সহজআমি গাড়ি শপিংয়ে যেতে একেবারে ঘৃণা করি, তবে আজ আমি খুশি হয়েছি
আমি এই বিষয়টির উপরে জোর দিতে চাই যে আমরা প্রসঙ্গগত সাদৃশ্য খুঁজছি এবং কেবল একটি জোরদার শব্দ অনুসন্ধান নয়।
বাক্যটি যদি বিভিন্ন শব্দের ব্যবহার করে তবে এটি এটির সন্ধান করাও উচিত।
যে জিনিসগুলি আমরা ইতিমধ্যে চেষ্টা করেছি:
ওমেনেটিক অনুসন্ধান আমাদের এখানে যে সমস্যার মুখোমুখি হয়েছিল তা হ'ল আমাদের কাছে থাকা ডেটা থেকে অনটোলজি তৈরি হচ্ছে বা সে জন্য আমাদের আগ্রহের বিভিন্ন ডোমেন থেকে অনটোলজি উপলব্ধ।
ইলাস্টিক অনুসন্ধান (BM25 + ভেক্টর (টিএফ-আইডিএফ)), আমরা এটি চেষ্টা করেছিলাম যেখানে এটি কয়েকটি বাক্য দিয়েছে তবে নির্ভুলতা এতটা দুর্দান্ত ছিল না। যথার্থতাটিও খারাপ ছিল। আমরা একটি মানব-সজ্জিত ডেটাসেটের বিরুদ্ধে চেষ্টা করেছি, এটি কেবলমাত্র প্রায় 10% বাক্য পেতে সক্ষম হয়েছিল।
আমরা একবার বাক্য-ট্রান্সফরমারগুলিতে উল্লিখিত মতো বিভিন্ন এম্বেডিং চেষ্টা করেছিলাম এবং উদাহরণটি দিয়েও গিয়েছিলাম এবং আমাদের মানব-সংশ্লেষিত সেটটির বিরুদ্ধে মূল্যায়ন করার চেষ্টা করেছি এবং এটিরও খুব কম যথার্থতা ছিল।
আমরা ELMO চেষ্টা করেছিলাম । এটি আমাদের প্রত্যাশার চেয়ে ভাল তবে তবুও নিখুঁততা ছিল এবং কোসাইন মানটি নীচে নিলে বাক্যগুলি বিবেচনা করা উচিত নয় এমন সিদ্ধান্ত নেওয়ার জন্য একটি জ্ঞানীয় বোঝা রয়েছে। এটি এমনকি 3 পয়েন্টে প্রযোজ্য।
যে কোন ধরণের সাহায্য গ্রহন করা হবে. অগ্রিম সহায়তার জন্য অনেক ধন্যবাদ