প্রথমত, আগে আমরা আরম্ভ আমি সুপারিশ করছি যে আপনি যেমন নেটওয়ার্কে অনুরূপ প্রশ্ন পড়ুন /datascience/25053/best-practical-algorithm-for-sentence-similarity এবং HTTPS: // Stackoverflow। কম / প্রশ্ন / 62328 / is-সেখানে একটি-অ্যালগরিদম যে-বলে-শব্দার্থিক-আদল অফ দুই বাক্যাংশ
বাক্যগুলির সাদৃশ্য নির্ধারণের জন্য আমাদের কী ধরণের ডেটা রয়েছে তা বিবেচনা করতে হবে। উদাহরণস্বরূপ, আপনার যদি একটি লেবেলযুক্ত ডেটাসেট অর্থাত্ অনুরূপ বাক্য এবং ভিন্ন ভিন্ন বাক্য থাকে তবে বাক্যগুলিকে শ্রেণিবদ্ধ করার জন্য একটি তদারক করা অ্যালগরিদম ব্যবহার করার জন্য একটি সোজা এগিয়ে যাওয়ার পদ্ধতি হতে পারে।
বাক্য কাঠামোগত মিল নির্ধারণ করতে পারে এমন একটি পদ্ধতির অর্থ হবে শব্দের এমবেডিং অ্যালগরিদমগুলি অর্থাৎ ওয়ার্ড 2vec দ্বারা উত্পাদিত ভেক্টর শব্দটি গড়ে। এই অ্যালগরিদমগুলি প্রতিটি শব্দের জন্য একটি ভেক্টর তৈরি করে এবং এর মধ্যে কোজাইন মিলটি শব্দের মধ্যে শব্দার্থক মিলের প্রতিনিধিত্ব করে। (ড্যানিয়েল এল 2017)
শব্দ ভেক্টর ব্যবহার করে আমরা শব্দের মিল খুঁজে পেতে নিম্নলিখিত মেট্রিকগুলি ব্যবহার করতে পারি।
- শব্দের শব্দের এমবেডিংয়ের মধ্যে কোসিন দূরত্ব
- শব্দের এমবেডিংয়ের মধ্যে ইউক্যালিডিয়ান দূরত্ব
কোসিন মিল একই অভ্যন্তরীণ পণ্য স্থানের দুটি অ-শূন্য ভেক্টরগুলির মধ্যে মিলের একটি পরিমাপ যা তাদের মধ্যবর্তী কোণটির কোসাইনকে পরিমাপ করে। কোসাইন কোণটি তাদের সামগ্রীর ক্ষেত্রে বাক্যগুলির মধ্যে ওভারল্যাপের পরিমাপ।
দুটি শব্দের ভেক্টরের মধ্যে ইউক্লিডিয়ান দূরত্ব সম্পর্কিত শব্দের ভাষাগত বা শব্দার্থক মিলটি পরিমাপ করার জন্য একটি কার্যকর পদ্ধতি সরবরাহ করে। (ফ্রাঙ্ক ডি 2015)
বিকল্পভাবে আপনি বাক্যটির মিল নির্ধারণ করতে বাক্যগুলির আইজেনভেেক্টর গণনা করতে পারেন।
ইগেনভেেক্টরগুলি সমীকরণের লিনিয়ার সিস্টেমের সাথে যুক্ত (যেমন ম্যাট্রিক্স সমীকরণ) ভেক্টরগুলির একটি বিশেষ সেট। এখানে প্রতিটি ক্লাস্টারের জন্য একটি বাক্য মিল ম্যাট্রিক্স উত্পন্ন হয় এবং ম্যাট্রিক্সের জন্য ইগেনভেেক্টর গণনা করা হয়। আপনি এই কাগজে https://pdfs.semanticscholar.org/ca73/bbc99be157074d8aad17ca8535e2cd956815.pdf এ বাক্য র্যাঙ্কিংয়ের জন্য ইগেনভেেক্টর ভিত্তিক পদ্ধতির উপর আরও পড়তে পারেন
সোর্স কোডের জন্য সিরাজ রাওয়ালের কাছে শব্দ ভেক্টরগুলির একটি সেট তৈরি করার জন্য একটি পাইথন নোটবুক রয়েছে। ভেক্টর শব্দটি তখন শব্দের মধ্যে মিল খুঁজে পেতে ব্যবহার করা যেতে পারে। উত্স কোডটি এখানে https://github.com/llSourcell/word_vectors_game_of_thrones-LIVE এ উপলব্ধ
আরেকটি বিকল্প হ'ল ওরিলির একটি টিউটোরিয়াল যা নথিগুলির মধ্যে সাদৃশ্য নির্ধারণের জন্য জিনসিন পাইথন লাইব্রেরিটি ব্যবহার করে। এই টিউটোরিয়ালটি টোকেনাইজ করতে NLTK ব্যবহার করে তারপরে কর্পাস থেকে একটি টিএফ-আইডিএফ (টার্ম ফ্রিকোয়েন্সি-ইনভার্স ডকুমেন্ট ফ্রিকোয়েন্সি) মডেল তৈরি করে। তারপরে টিএফ-আইডিএফ নথির সাদৃশ্য নির্ধারণের জন্য ব্যবহৃত হয়। টিউটোরিয়ালটি এখানে পাওয়া যায় https://www.oreilly.com/learning/how-do-i-compare-docament-sistanceity-used-python