স্পাসি-র মধ্যে কীভাবে একইতা পদ্ধতি গণনা করা হয়?


13

এটি সঠিক স্ট্যাক সাইট কিনা তা নিশ্চিত নয়, তবে এখানে রয়েছে।

.সিমরিটিসিটি পদ্ধতি কীভাবে কাজ করে?

বাহ স্পাইসি দুর্দান্ত! এর টিডিআইডিএফ মডেলটি আরও সহজ হতে পারে, তবে কেবলমাত্র এক লাইনের কোডের সাথে ডাব্লু 2 ভি ?!

স্পাইসি অ্যান্ড্রাজিবার্নিকের তাঁর 10 লাইনের টিউটোরিয়ালে আমাদের .s মিলিটির পদ্ধতিটি টোকেন, সেন্ট, শব্দ শঙ্ক এবং ডকসে চালানো যেতে পারে can

পরে nlp = spacy.load('en')এবং doc = nlp(raw_text) আমরা করতে পারি। টোকেন এবং খণ্ডগুলির মধ্যে সাদৃশ্য কোয়েরি। তবে এই .similarityপদ্ধতিতে পর্দার আড়ালে কী গণনা করা হচ্ছে ?

স্পাসি এর মধ্যে ইতিমধ্যে অবিশ্বাস্যরূপে সহজ রয়েছে .vector, যা ডাব্লু 2 ভি ভেক্টরকে গ্লোভ মডেল থেকে প্রশিক্ষিত হিসাবে গণনা করে (একটি .tfidfবা .fasttextপদ্ধতিটি কত শীতল হবে ?)।

মডেলটি কেবল এই দুটি ডাব্লু 2 ভি, .ভেেক্টর, ভেক্টরগুলির মধ্যে কোসাইন মিলকে গণনা করছে বা অন্য কিছু ম্যাট্রিক্সের তুলনা করছে? স্পেসিফিকেশন ডকুমেন্টেশনে পরিষ্কার নয় ; কোন সাহায্য প্রশংসা!


1
".tfidf বা .ftetext পদ্ধতিটি কত শীতল হবে?" ডক্স FastText সঙ্গে দস্তানা ভেক্টর প্রতিস্থাপন একটি উদাহরণ প্রদান। এটি সম্ভবত তাদের একসাথে থাকার মতো নয়। গিথুব
কার্ল জি

উত্তর:


12

সংক্ষেপে উত্তরটি খুঁজে পেয়েছি, হ্যাঁ:

সস কোডের লিঙ্ক Link

return numpy.dot(self.vector, other.vector) / (self.vector_norm * other.vector_norm)

এটি দেখতে কোস্টিনের মিলের জন্য সূত্রের মতো দেখায় এবং স্পেক্টি দিয়ে ভেক্টরগুলি তৈরি করা হয়েছিল বলে মনে হয় .vectorযা ডকুমেন্টেশন বলে যে গ্লোভের ডাব্লু 2 ভি মডেল থেকে প্রশিক্ষিত।


6

ডিফল্টরূপে এটি ভোজ্যর শব্দের জন্য দস্তাবেজের গড় গড় সহ কোসাইন মিল।

আপনি একটি হুক সেট করেও এটি কাস্টমাইজ করতে পারেন doc.user_hooks['similarity']। এই পাইপলাইন উপাদানটি সাদৃশ্য ফাংশনগুলিকে মোড়কে দেয়, একইরূপটি কাস্টমাইজ করা সহজ করে তোলে:

https://github.com/explosion/spaCy/blob/develop/spacy/pipeline.pyx#L50


কৌশলগতভাবে, আপনি কৌশলটির সাথে লিঙ্ক করেছেন বলে মনে হয় SentenceSegmenter
কার্ল জি
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.