আমি কীভাবে শব্দের অর্থগত মিলের পরিমাপ করতে পারি?


20

শব্দের অর্থগত মিল খুঁজে বের করার সেরা উপায় কী? ওয়ার্ড টুভেক ঠিক আছে, তবে আদর্শ নয়:

# Using the 840B word Common Crawl GloVe vectors with gensim:

# 'hot' is closer to 'cold' than 'warm'
In [7]: model.similarity('hot', 'cold')
Out[7]: 0.59720456121072973

In [8]: model.similarity('hot', 'warm')
Out[8]: 0.56784095376659627

# Cold is much closer to 'hot' than 'popular'
In [9]: model.similarity('hot', 'popular')
Out[9]: 0.33708479049537632

এনএলটিকের ওয়ার্ডনেট পদ্ধতিগুলি কেবল হাল ছেড়ে দিতে দেখা যাচ্ছে:

In [25]: print wn.synset('hot.a.01').path_similarity(wn.synset('warm.a.01'))
None

অন্যান্য বিকল্প কি কি?


1
আপনি কি বলতে পারবেন যে ওয়ার্ড 2vec আদর্শ নয়? ওয়ার্ড টুভেক শব্দের অর্থগত মিলটি ক্যাপচার করার জন্য তৈরি করা হয়েছে, তবে কেন এটি আদর্শ নয়?
শশাঙ্ক গুপ্তা

3
হ্যাঁ, এজন্য আমি প্রশ্নের উদাহরণগুলি দিয়েছি। পুনরাবৃত্তি করার জন্য: 'হট' এবং 'কোল্ড' হ'ল বিপরীত শব্দ, তবে এগুলি 'হট' এবং 'উষ্ণ' এর চেয়ে অনেক বেশি মিল (সমান শব্দের সাথে), যা প্রতিশব্দটির খুব কাছাকাছি। 'হট' এর অর্থ 'জনপ্রিয়' (উদাহরণস্বরূপ, একটি "গরম আইটেম" )ও হতে পারে তবে "গরম" এবং "ঠান্ডা" "গরম এবং" জনপ্রিয় "এর চেয়ে একে অপরের নিকটে রয়েছে তাই শব্দ 2vec আদর্শ নয় কারণ এটি বিপরীত স্কোরগুলিকে স্কোর করে (যা শব্দার্থ বিরোধী) সমার্থক শব্দগুলির চেয়ে বেশি মিল (যা শব্দার্থগত সমতুল্য)
টমাস জনসন

উত্তর:


11

প্রতিশব্দ এবং প্রতিশব্দ উপর ভিত্তি করে ওয়ার্ড 2vec মিল খুঁজে পায় না। যদি শব্দ দুটি একই প্রসঙ্গে থাকে তবে ওয়ার্ড 2vec একটি উচ্চতর মিল দেয়। যেমন ক্যালিফোর্নিয়ায় আবহাওয়া ছিল _____। ফাঁকা গরম এবং ঠান্ডা উভয় দ্বারা পূরণ করা যেতে পারে তাই সাদৃশ্যটি বেশি হবে। এই ধারণাটিকে প্যারাডাইমেটিক সম্পর্ক বলে।

আপনি যদি হাইপারনেমস, সম্মোহক, প্রতিশব্দ, প্রতিশব্দ হিসাবে সম্পর্ক ক্যাপচার করতে আগ্রহী হন তবে আপনাকে যে কোনও ওয়ারনেট ভিত্তিক মিলের মাপকাঠি ব্যবহার করতে হবে। ওয়ার্ডনেটের ভিত্তিতে অনেকগুলি মিলের ব্যবস্থা রয়েছে। আপনি এই লিঙ্কটি পরীক্ষা করতে পারেন http://ws4jdemo.appspot.com/


7

ইন শব্দার্থিক মিল এর জন্য পাঠ্য বিশ্লেষণমূলক সরঞ্জাম , তারা অর্ডার 2 বাক্য মধ্যে মিল খুঁজে পেতে একটি আলগোরিদিম উন্নত। তবে আপনি যদি ঘনিষ্ঠভাবে পড়েন তবে তারা একটি ম্যাট্রিক্সে শব্দের সাদৃশ্য খুঁজে পান এবং বাক্যগুলির মধ্যে মিল খুঁজে পান together সুতরাং, শব্দের মিল খুঁজে পাওয়ার জন্য এটি শট হতে পারে।

এছাড়াও SimLex-999: সাথে (জেনুইন) মিল প্রাক্কলন শব্দার্থিক মডেল মূল্যায়ন , তারা পার্থক্য ব্যাখ্যা associationএবং similarityসেইসাথে যা সম্ভবত আপনার পর্যবেক্ষণ জন্য কারণ। উদাহরণস্বরূপ, কফি এবং একটি কাপ। এগুলি সাদৃশ্যপূর্ণ নয় তবে তারা সাহসী। সুতরাং কেবল সাদৃশ্য বিবেচনা করা একটি ভিন্ন ফলাফল দেয়। লেখকরা তাদের অনুমান করার জন্য বিভিন্ন মডেলের পরামর্শ দেন।


ব্রোকেন লিংক, "শব্দার্থত মিলের জন্য পাঠ্য বিশ্লেষণ সরঞ্জাম"।
xian

2

ওয়ার্ড 2vec বেশিরভাগ পরিস্থিতিতে একটি ভাল সূচনা পয়েন্ট। এটা তোলে করেন CBOW পদ্ধতি ব্যবহার করে ভবিষ্যদ্বাণী প্রণালী দ্বারা ক্যাপচার শব্দার্থবিদ্যা। এটি অনুবাদগুলির অনুমতি দেয় (সবচেয়ে পুনরাবৃত্ত উদাহরণ হিসাবে আমি আবার এখানে রাখতে পারি), ভি (কিং) - ভি (রানী) ~~ ভি (পুরুষ) - ভি (মহিলা) এবং আরও অনেক কিছু।

তাহলে সমস্যাটা কি? বিষয়টি শব্দের অর্থে অস্পষ্টতার মধ্যে রয়েছে। যখনই শব্দটির নিজস্ব দুটি ভিন্ন প্রসঙ্গে দুটি ভিন্ন অর্থ হয়, ভেক্টর শব্দের সত্যই উভয় প্রসঙ্গ থেকে দূরে থাকবেন। পাইথন ~ বোয়া (উভয় সাপ) এবং পাইথন - জাভা (উভয় প্রোগ্রামিং ভাষা) ..

কোন বিকল্প?

"প্রতিশব্দ" এর খুব নির্দিষ্ট উদ্দেশ্যে আপনি যদি ওয়ার্ডনেট চান তবে আদর্শ জায়গা হবে। এটি ব্যবহার এবং ঘটনাগুলির ভিত্তিতে অন্তর্নিহিত সম্পর্কের চেয়ে দুটি শব্দের সুস্পষ্ট সম্পর্ককে ক্যাপচার করে।

ওয়ার্ডনেট প্রায়শই অভিধান হিসাবে তৈরি করা হয় - যেখানে ওয়ার্ড 2vec ব্যবহারের মাধ্যমে খনন করা হয়।


0

একটি প্রসঙ্গে মুক্ত ব্যাকরণে, আমি মনে করি এটি শব্দের ঘনিষ্ঠতা নির্ধারণ করা সত্যই অসম্ভব। আপনি যা করতে পারেন তা হ'ল লিক্সন ভেক্টর ব্যবহার করুন এবং তারপরে যদি কোনও শব্দ দুটি অভিধানের মধ্যে মানগুলির সাথে কাছাকাছি থাকে তবে মানটি কাছাকাছি হওয়া উচিত।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.