আমি প্রথম নাম, শেষ নাম এবং জন্ম বছর দ্বারা 2 ডেটাसेट জুড়ে রেকর্ডগুলি লিঙ্ক করতে আগ্রহী। EM অ্যালগরিদমের সাথে এটি কি করণীয় হতে পারে, এবং যদি তা হয় তবে কীভাবে?
উদাহরণ হিসাবে প্রথমটিতে রেকর্ডটি বিবেচনা করুন: কার্ল ম্যাকার্থি, 1967। আমি ২ য় ডাটা্যাসেটে সমস্ত রেকর্ড অনুসন্ধান করব এবং 1 ম নাম এবং কার্লের মধ্যে একটি জারো-উইঙ্কলারের দূরত্ব এবং শেষ নাম এবং ম্যাকার্থির মধ্যে একটি জারো-উইঙ্কলারের দূরত্ব নির্ধারণ করব। এই দূরত্বগুলি জন্ম বর্ষের মধ্যকার দূরত্বের মতোই সম্ভাব্য। আমরা এই 3 টি সম্ভাব্যতা (গুণ? গড়?) 1 টি একত্রিত করি।
এখন সিদ্ধান্তের রায় অংশ আসে। আসুন আমরা সম্ভাব্যতাগুলি সমস্ত থেকে সর্বোচ্চ থেকে নীচে নামিয়ে আনি। প্রথমত, আমরা পি (প্রথম হিট ইজ ম্যাচ)> থ্রেশহোল্ড চাই। দ্বিতীয়ত, আমরা পি (প্রথম হিট ইজ ম্যাচ) / পি (দ্বিতীয় হিট হয় ম্যাচ)> পি প্রান্তে (দ্বিতীয় হিট ম্যাচ হয়) উপস্থিত থাকলেও চাই। তৃতীয়, আমরা কার্ল ম্যাককার্তির, 1967 এর সাথে 1 ম ডাটাসেটে 1 জনের বেশি ব্যক্তির সাথে মেলানোর জন্য এই দ্বিতীয় ডেটাসেটের প্রথম হিটটি চাই।
এই থ্রেশহোল্ডগুলি কীভাবে নির্ধারণ করা যেতে পারে?
আমি স্টাটা এবং / বা পার্লের পদ্ধতির পছন্দ করি।
উদাহরণস্বরূপ দেখুন:
http://www.ncbi.nlm.nih.gov/pmc/articles/PMC1479910/pdf/amia2003_0259.pdf
(যদিও এর সাথে, আমি এখনও কেন বা কীভাবে এবং ইনপুট এবং ফলাফলগুলি কী তা সেই সাথে অনুমানগুলি এবং সেগুলি কতটা নিষিদ্ধ তা পুরোপুরি অনুসরণ করে না)।