এটি বেশিরভাগ নির্ভর করে আপনি কতটা "অত্যাধুনিক" (SOTA) বনাম আপনি কতটা গভীরভাবে যেতে চান তার উপর নির্ভর করে (পাং উদ্দেশ্যে ...)।
আপনি যদি ওয়ার্ড টুভেক, গ্লোভ বা ফাস্টটেক্সট দ্বারা প্রদত্ত কেবল অগভীর শব্দ এম্বেডিংয়ের সাথে বেঁচে থাকতে পারেন তবে আমার মনে হয় ওয়ার্ড মোভার দূরত্ব (ডাব্লুএমডি [হ্যাঁ, সত্যই ...]) (সংক্ষিপ্ত) নথিটি দূরত্ব পরিমাপ করার জন্য একটি দুর্দান্ত ফাংশন [1] । এমনকি আমি অতীতে বেশ কয়েকটি পাইথন নোটবুকও দেখেছি যা এই দূরত্ব পরিমাপের জন্য "টিউটোরিয়াল" সরবরাহ করে, তাই এটি চালিয়ে যাওয়া সত্যিই সহজ।
যাইহোক, আপনি যদি SOTA এর প্রতি বেশি আগ্রহী হন তবে আপনাকে গভীর (ক্রম উপস্থাপনা) শেখার দিকে নজর রাখতে হবে, আপনার বাক্যগুলি থেকে একধরণের পুনরাবৃত্তি নেটওয়ার্ক ব্যবহার করে যা একটি বিষয় মডেল শিখবে। শব্দের সংমিশ্রণের (শব্দার্থক) সংযোজন ছাড়াও, নির্ভরতাগুলি ব্যবহার করে বিষয়গুলির উপস্থাপনাগুলি শিখিয়ে এই পদ্ধতিগুলি [ভাল, পুরানো] "ব্যাগ-অফ-শব্দের" পদ্ধতির বাইরে চলে যায়বাক্যে শব্দের [গুলি]। উদাহরণস্বরূপ, সেনটেনশন লেভেল রিকারেন্ট টপিক মডেল (এসএলআরটিএম) একটি আরও আকর্ষণীয় গভীর, পুনরাবৃত্তি মডেল যা আরও বেশি etতিহ্যবাহী এলডিএ (ব্লাই এট আল।) বা এলএসএ (ল্যান্ডাওর এট আল।) এর ধারণার উপর ভিত্তি করে, তবে এটি কেবল একটি আরএক্সিভি কাগজ (তাই সমস্ত ডিফল্ট "পিষে-পর্যালোচিত গবেষণা সম্পর্কে" লবনের সাবধানতা অবলম্বন করুন "প্রয়োগ করা উচিত ...) [2]। কোনওটিই কম নয়, কাগজটির কাছে অনেকগুলি চমৎকার পয়েন্টার এবং রেফারেন্স রয়েছে আপনার গবেষণা শুরু করার জন্য যদি আপনি এই খরগোশের গর্তটি নীচে যেতে চান তবে।
পরিশেষে, এটি স্পষ্ট করে বলা উচিত যে আমি দাবি করি না যে এগুলি যথাক্রমে ব্যাগ-অফ-শব্দের এবং সিকোয়েন্স মডেলগুলির জন্য সেরা-সম্পাদনার পদ্ধতিগুলির উপর সম্মত। তবে তাদের "সেরা" সোটা যাই হোক না কেন আপনার কাছে খুব কাছাকাছি হওয়া উচিত এবং কমপক্ষে একটি দুর্দান্ত সূচনা পয়েন্ট হিসাবে পরিবেশন করা উচিত।
[1] ম্যাট জে কুশনার এট আল। ওয়ার্ড এম্বেডিং থেকে ডকুমেন্টের দূরত্ব জেএমএলআর, 2015, মেশিন লার্নিংয়ের 32 তম আন্তর্জাতিক সম্মেলনের কার্যক্রম।
[2] ফি তিয়ান এবং অন্যান্য। এসএলআরটিএম: নিজের জন্য কথা বলার বিষয়গুলি। arXiv 1604.02038, 2016।