এটি সঠিক স্ট্যাক সাইট কিনা তা নিশ্চিত নয়, তবে এখানে রয়েছে।

.সিমরিটিসিটি পদ্ধতি কীভাবে কাজ করে?

বাহ স্পাইসি দুর্দান্ত! এর টিডিআইডিএফ মডেলটি আরও সহজ হতে পারে, তবে কেবলমাত্র এক লাইনের কোডের সাথে ডাব্লু 2 ভি ?!

স্পাইসি অ্যান্ড্রাজিবার্নিকের তাঁর 10 লাইনের টিউটোরিয়ালে আমাদের .s মিলিটির পদ্ধতিটি টোকেন, সেন্ট, শব্দ শঙ্ক এবং ডকসে চালানো যেতে পারে can

পরে nlp = spacy.load('en')এবং doc = nlp(raw_text) আমরা করতে পারি। টোকেন এবং খণ্ডগুলির মধ্যে সাদৃশ্য কোয়েরি। তবে এই .similarityপদ্ধতিতে পর্দার আড়ালে কী গণনা করা হচ্ছে ?

স্পাসি এর মধ্যে ইতিমধ্যে অবিশ্বাস্যরূপে সহজ রয়েছে .vector, যা ডাব্লু 2 ভি ভেক্টরকে গ্লোভ মডেল থেকে প্রশিক্ষিত হিসাবে গণনা করে (একটি .tfidfবা .fasttextপদ্ধতিটি কত শীতল হবে ?)।

মডেলটি কেবল এই দুটি ডাব্লু 2 ভি, .ভেেক্টর, ভেক্টরগুলির মধ্যে কোসাইন মিলকে গণনা করছে বা অন্য কিছু ম্যাট্রিক্সের তুলনা করছে? স্পেসিফিকেশন ডকুমেন্টেশনে পরিষ্কার নয় ; কোন সাহায্য প্রশংসা!

— whs2k
সূত্র

1

".tfidf বা .ftetext পদ্ধতিটি কত শীতল হবে?" ডক্স FastText সঙ্গে দস্তানা ভেক্টর প্রতিস্থাপন একটি উদাহরণ প্রদান। এটি সম্ভবত তাদের একসাথে থাকার মতো নয়। গিথুব

— কার্ল জি

12

সংক্ষেপে উত্তরটি খুঁজে পেয়েছি, হ্যাঁ:

সস কোডের লিঙ্ক Link

return numpy.dot(self.vector, other.vector) / (self.vector_norm * other.vector_norm)

এটি দেখতে কোস্টিনের মিলের জন্য সূত্রের মতো দেখায় এবং স্পেক্টি দিয়ে ভেক্টরগুলি তৈরি করা হয়েছিল বলে মনে হয় .vectorযা ডকুমেন্টেশন বলে যে গ্লোভের ডাব্লু 2 ভি মডেল থেকে প্রশিক্ষিত।

— whs2k
সূত্র

6

ডিফল্টরূপে এটি ভোজ্যর শব্দের জন্য দস্তাবেজের গড় গড় সহ কোসাইন মিল।

আপনি একটি হুক সেট করেও এটি কাস্টমাইজ করতে পারেন doc.user_hooks['similarity']। এই পাইপলাইন উপাদানটি সাদৃশ্য ফাংশনগুলিকে মোড়কে দেয়, একইরূপটি কাস্টমাইজ করা সহজ করে তোলে:

https://github.com/explosion/spaCy/blob/develop/spacy/pipeline.pyx#L50

— syllogism_
সূত্র

কৌশলগতভাবে, আপনি কৌশলটির সাথে লিঙ্ক করেছেন বলে মনে হয় SentenceSegmenter।

— কার্ল জি

স্পাসি-র মধ্যে কীভাবে একইতা পদ্ধতি গণনা করা হয়?

.সিমরিটিসিটি পদ্ধতি কীভাবে কাজ করে?