নথি অনুরূপতা পরিমাপ

দলিলগুলিকে ক্লাস্টার করতে (পাঠ্য) দস্তাবেজের জোড়ার মধ্যে মিল খুঁজে পাওয়ার জন্য আপনার একটি উপায় প্রয়োজন।

দুটি বিকল্প হ'ল:

পদার্থের ভারসাম্য হিসাবে কোসিন সাদৃশ্য - এবং টিএফ / আইডিএফ ব্যবহার করে শব্দ ভেক্টর হিসাবে নথিগুলির তুলনা করুন ।
প্রতিটি ডকুমেন্টের সম্ভাব্যতা বিতরণের সাথে এফ-ডাইভারজেন্স যেমন কুলব্যাক-লেবেলার ডাইভারজেন্স ব্যবহার করে তুলনা করুন

অন্য পদ্ধতিতে একটি পদ্ধতিকে প্রাধান্য দেওয়ার কোনও অন্তর্নিহিত কারণ রয়েছে (100 টি শর্তের গড় ডকুমেন্ট আকার)?

information-retrieval

পাঠ্য নথির জন্য, বৈশিষ্ট্যটির ভেক্টরগুলি মানক উপস্থাপনাগুলির (শব্দগুলির ব্যাগ বা টিএফ-আইডিএফ ইত্যাদি) এর অধীনে খুব উচ্চ মাত্রিক এবং স্পারস হতে পারে। এই জাতীয় প্রতিনিধির অধীনে সরাসরি দূরত্বগুলি পরিমাপ করা নির্ভরযোগ্য নয় কারণ এটি একটি সত্য সত্য যে খুব উচ্চ মাত্রায়, যে কোনও দুটি পয়েন্টের মধ্যে দূরত্ব একই দেখাতে শুরু করে। এর সাথে মোকাবিলা করার একটি উপায় হ'ল পিসিএ বা এলএসএ ( ল্যাটেন্ট সিমান্টিক বিশ্লেষণ ; ল্যাটেন্ট সিমেেন্টিক ইনডেক্সিং নামে পরিচিত ) ব্যবহার করে ডেটা মাত্রিকতা হ্রাস করা এবং তারপরে নতুন স্থানের দূরত্বগুলি পরিমাপ করা। পিসিএ-র উপরে এলএসএ-এর মতো কিছু ব্যবহার করা সুবিধাজনক কারণ এটি নিম্ন মাত্রিক স্থানে দূরত্বগুলি পরিমাপ করার পরিবর্তে "শব্দার্থিক ধারণা" এর ক্ষেত্রে অর্থবহ উপস্থাপনা দিতে পারে।

সম্ভাব্যতা বিতরণের উপর ভিত্তি করে নথিগুলির তুলনা করা প্রতিটি নথির বিষয় বিতরণকে প্রথমে গণনা করে ( ল্যাটেন্ট ডিরিচলেট বরাদ্দের মতো কিছু ব্যবহার করে ) এবং তারপরে দলিলপত্রের জোড়া বিতরণের বিষয়গুলির মধ্যে কিছু প্রকারের বিচ্যুতি (উদাহরণস্বরূপ, কেএল ডাইভারজেন) গণনা করে করা হয়। একটি উপায়ে, এটি আসলে LSA করার মতো এবং পরে ভেক্টরগুলির মধ্যে কেএল-ডাইভারজেন্স (কোসাইন মিলের পরিবর্তে) ব্যবহার করে এলএসএ স্পেসের দূরত্বগুলি পরিমাপ করার অনুরূপ।

কেএল-ডাইভারজেন্সটি ডিস্ট্রিবিউশনগুলির সাথে তুলনা করার জন্য একটি দূরত্ব পরিমাপ তাই ডকুমেন্টের উপস্থাপনা কিছু বিতরণের ক্ষেত্রে (যা প্রায়শই বাস্তবে থাকে - যেমন, এলডিএ-তে যেমন বিষয়গুলিতে বিতরণ হিসাবে উপস্থাপিত দস্তাবেজগুলি থাকে) তবে এটি ভাল। এছাড়াও মনে রাখবেন যে এই জাতীয় উপস্থাপনার অধীনে বৈশিষ্ট্য ভেক্টরের প্রবেশদ্বারগুলির সমষ্টি হবে (যেহেতু আপনি মূলত নথিকে বিষয় বা শব্দার্থক ধারণাগুলির উপর বিতরণ হিসাবে বিবেচনা করছেন )।

এখানে একটি সম্পর্কিত থ্রেড দেখুন ।

— ebony1
সূত্র

ধন্যবাদ। এলডিএর জন্য আপনার কী শীর্ষস্থানীয় বিষয়গুলি জানা দরকার? আমাদের ক্ষেত্রে আমরা জানি না যে প্রতিটি নথিটি কোন বিষয়ের সাথে সম্পর্কিত এবং আমরা ক্লাস্টারিং (EM- জি-মিনস, বা জিএএসি) সম্পাদনের জন্য সাদৃশ্য পরিমাপটি ব্যবহার করব

— জোয়েল

@ ইবনি 1 এলএসএ-এর চমৎকার রেফারেন্স, আমি কিছুক্ষণ আগে stats.stackexchange.com/questions/369/…

— chl

@ জোয়েল: না, এলডিএ ধরে নেয় না যে আপনি প্রতিটি নথির জন্য আগে থেকেই বিষয়গুলি জানেন। বিটিডাব্লু, কেবল স্পষ্ট করে বলার জন্য, এলডিএ প্রতিটি নথিকে কেবলমাত্র একটি বিষয় দ্বারা নয়, বিষয়গুলির মিশ্রণ হিসাবে উপস্থাপন করে। সুতরাং প্রতিটি বিষয় নথিতে কিছু ভগ্নাংশ অবদান রাখবে (এবং স্বতন্ত্র ভগ্নাংশগুলি 1 এর সমষ্টি হবে)। মূলত, এলডিএ অনুমান করে যে নথির প্রতিটি শব্দ কোনও না কোনও বিষয় দ্বারা উত্পন্ন হয়েছে।

— ebony1

@ ইবনি - ধন্যবাদ! প্রশ্নটি পুনর্বিবেচনার ঝুঁকিতে এবং নিজেকে পুনরাবৃত্তি করার ঝুঁকিতে, এলডিএর জন্য আপনার কি বিচক্ষণ বিষয়ের সংখ্যা জানতে হবে?

— জোয়েল

হ্যাঁ। তবে এলডিএ (এইচডিপি-এলডিএ) এর বিভিন্ন রূপ রয়েছে যেগুলির বিষয়ের সংখ্যা নির্দিষ্ট করার প্রয়োজন নেই। এই কাগজটি দেখুন: cse.buffalo.edu/factory/mbeal/papers/hdp.pdf

— ebony1

আপনি কোসাইন ডকুমেন্টের অনুরূপতার জন্য এই অনলাইন পরিষেবাটি চেষ্টা করতে চাইতে পারেন http://www.scurtu.it/docamentSiversityity.html

import urllib,urllib2
import json
API_URL="http://www.scurtu.it/apis/documentSimilarity"
inputDict={}
inputDict['doc1']='Document with some text'
inputDict['doc2']='Other document with some text'
params = urllib.urlencode(inputDict)    
f = urllib2.urlopen(API_URL, params)
response= f.read()
responseObject=json.loads(response)  
print responseObject

— Vitalie
সূত্র

আরও বিশদ সরবরাহ করুন।

— শি'আন