আমি কীভাবে শব্দের অর্থগত মিলের পরিমাপ করতে পারি?

20

শব্দের অর্থগত মিল খুঁজে বের করার সেরা উপায় কী? ওয়ার্ড টুভেক ঠিক আছে, তবে আদর্শ নয়:

# Using the 840B word Common Crawl GloVe vectors with gensim:

# 'hot' is closer to 'cold' than 'warm'
In [7]: model.similarity('hot', 'cold')
Out[7]: 0.59720456121072973

In [8]: model.similarity('hot', 'warm')
Out[8]: 0.56784095376659627

# Cold is much closer to 'hot' than 'popular'
In [9]: model.similarity('hot', 'popular')
Out[9]: 0.33708479049537632

এনএলটিকের ওয়ার্ডনেট পদ্ধতিগুলি কেবল হাল ছেড়ে দিতে দেখা যাচ্ছে:

In [25]: print wn.synset('hot.a.01').path_similarity(wn.synset('warm.a.01'))
None

অন্যান্য বিকল্প কি কি?

— টমাস জনসন
সূত্র

1

আপনি কি বলতে পারবেন যে ওয়ার্ড 2vec আদর্শ নয়? ওয়ার্ড টুভেক শব্দের অর্থগত মিলটি ক্যাপচার করার জন্য তৈরি করা হয়েছে, তবে কেন এটি আদর্শ নয়?

— শশাঙ্ক গুপ্তা

3

হ্যাঁ, এজন্য আমি প্রশ্নের উদাহরণগুলি দিয়েছি। পুনরাবৃত্তি করার জন্য: 'হট' এবং 'কোল্ড' হ'ল বিপরীত শব্দ, তবে এগুলি 'হট' এবং 'উষ্ণ' এর চেয়ে অনেক বেশি মিল (সমান শব্দের সাথে), যা প্রতিশব্দটির খুব কাছাকাছি। 'হট' এর অর্থ 'জনপ্রিয়' (উদাহরণস্বরূপ, একটি "গরম আইটেম" )ও হতে পারে তবে "গরম" এবং "ঠান্ডা" "গরম এবং" জনপ্রিয় "এর চেয়ে একে অপরের নিকটে রয়েছে তাই শব্দ 2vec আদর্শ নয় কারণ এটি বিপরীত স্কোরগুলিকে স্কোর করে (যা শব্দার্থ বিরোধী) সমার্থক শব্দগুলির চেয়ে বেশি মিল (যা শব্দার্থগত সমতুল্য)

— টমাস জনসন

তারপর আরো একটি উপযুক্ত এমবেডিং পদ্ধতি ব্যবহার করুন: বিপরীতার্থক শব্দের-সমার্থক শব্দ পার্থক্য জন্য শব্দ Embeddings মধ্যে Distributional আভিধানিক কনট্রাস্ট একীভূত

— Emre

11

প্রতিশব্দ এবং প্রতিশব্দ উপর ভিত্তি করে ওয়ার্ড 2vec মিল খুঁজে পায় না। যদি শব্দ দুটি একই প্রসঙ্গে থাকে তবে ওয়ার্ড 2vec একটি উচ্চতর মিল দেয়। যেমন ক্যালিফোর্নিয়ায় আবহাওয়া ছিল _____। ফাঁকা গরম এবং ঠান্ডা উভয় দ্বারা পূরণ করা যেতে পারে তাই সাদৃশ্যটি বেশি হবে। এই ধারণাটিকে প্যারাডাইমেটিক সম্পর্ক বলে।

আপনি যদি হাইপারনেমস, সম্মোহক, প্রতিশব্দ, প্রতিশব্দ হিসাবে সম্পর্ক ক্যাপচার করতে আগ্রহী হন তবে আপনাকে যে কোনও ওয়ারনেট ভিত্তিক মিলের মাপকাঠি ব্যবহার করতে হবে। ওয়ার্ডনেটের ভিত্তিতে অনেকগুলি মিলের ব্যবস্থা রয়েছে। আপনি এই লিঙ্কটি পরীক্ষা করতে পারেন http://ws4jdemo.appspot.com/

— ত্রিদীপ রথ
সূত্র

7

ইন শব্দার্থিক মিল এর জন্য পাঠ্য বিশ্লেষণমূলক সরঞ্জাম , তারা অর্ডার 2 বাক্য মধ্যে মিল খুঁজে পেতে একটি আলগোরিদিম উন্নত। তবে আপনি যদি ঘনিষ্ঠভাবে পড়েন তবে তারা একটি ম্যাট্রিক্সে শব্দের সাদৃশ্য খুঁজে পান এবং বাক্যগুলির মধ্যে মিল খুঁজে পান together সুতরাং, শব্দের মিল খুঁজে পাওয়ার জন্য এটি শট হতে পারে।

এছাড়াও SimLex-999: সাথে (জেনুইন) মিল প্রাক্কলন শব্দার্থিক মডেল মূল্যায়ন , তারা পার্থক্য ব্যাখ্যা associationএবং similarityসেইসাথে যা সম্ভবত আপনার পর্যবেক্ষণ জন্য কারণ। উদাহরণস্বরূপ, কফি এবং একটি কাপ। এগুলি সাদৃশ্যপূর্ণ নয় তবে তারা সাহসী। সুতরাং কেবল সাদৃশ্য বিবেচনা করা একটি ভিন্ন ফলাফল দেয়। লেখকরা তাদের অনুমান করার জন্য বিভিন্ন মডেলের পরামর্শ দেন।

— হিমা বর্ষা
সূত্র

ব্রোকেন লিংক, "শব্দার্থত মিলের জন্য পাঠ্য বিশ্লেষণ সরঞ্জাম"।

— xian

2

ওয়ার্ড 2vec বেশিরভাগ পরিস্থিতিতে একটি ভাল সূচনা পয়েন্ট। এটা তোলে করেন CBOW পদ্ধতি ব্যবহার করে ভবিষ্যদ্বাণী প্রণালী দ্বারা ক্যাপচার শব্দার্থবিদ্যা। এটি অনুবাদগুলির অনুমতি দেয় (সবচেয়ে পুনরাবৃত্ত উদাহরণ হিসাবে আমি আবার এখানে রাখতে পারি), ভি (কিং) - ভি (রানী) ~~ ভি (পুরুষ) - ভি (মহিলা) এবং আরও অনেক কিছু।

তাহলে সমস্যাটা কি? বিষয়টি শব্দের অর্থে অস্পষ্টতার মধ্যে রয়েছে। যখনই শব্দটির নিজস্ব দুটি ভিন্ন প্রসঙ্গে দুটি ভিন্ন অর্থ হয়, ভেক্টর শব্দের সত্যই উভয় প্রসঙ্গ থেকে দূরে থাকবেন। পাইথন ~ বোয়া (উভয় সাপ) এবং পাইথন - জাভা (উভয় প্রোগ্রামিং ভাষা) ..

কোন বিকল্প?

"প্রতিশব্দ" এর খুব নির্দিষ্ট উদ্দেশ্যে আপনি যদি ওয়ার্ডনেট চান তবে আদর্শ জায়গা হবে। এটি ব্যবহার এবং ঘটনাগুলির ভিত্তিতে অন্তর্নিহিত সম্পর্কের চেয়ে দুটি শব্দের সুস্পষ্ট সম্পর্ককে ক্যাপচার করে।

ওয়ার্ডনেট প্রায়শই অভিধান হিসাবে তৈরি করা হয় - যেখানে ওয়ার্ড 2vec ব্যবহারের মাধ্যমে খনন করা হয়।

— দীপন মেহতা
সূত্র

0

একটি প্রসঙ্গে মুক্ত ব্যাকরণে, আমি মনে করি এটি শব্দের ঘনিষ্ঠতা নির্ধারণ করা সত্যই অসম্ভব। আপনি যা করতে পারেন তা হ'ল লিক্সন ভেক্টর ব্যবহার করুন এবং তারপরে যদি কোনও শব্দ দুটি অভিধানের মধ্যে মানগুলির সাথে কাছাকাছি থাকে তবে মানটি কাছাকাছি হওয়া উচিত।

— তামাশা
সূত্র