রেকর্ড সংযোগের জন্য ইএম অ্যালগরিদম ব্যবহার করা


9

আমি প্রথম নাম, শেষ নাম এবং জন্ম বছর দ্বারা 2 ডেটাसेट জুড়ে রেকর্ডগুলি লিঙ্ক করতে আগ্রহী। EM অ্যালগরিদমের সাথে এটি কি করণীয় হতে পারে, এবং যদি তা হয় তবে কীভাবে?

উদাহরণ হিসাবে প্রথমটিতে রেকর্ডটি বিবেচনা করুন: কার্ল ম্যাকার্থি, 1967। আমি ২ য় ডাটা্যাসেটে সমস্ত রেকর্ড অনুসন্ধান করব এবং 1 ম নাম এবং কার্লের মধ্যে একটি জারো-উইঙ্কলারের দূরত্ব এবং শেষ নাম এবং ম্যাকার্থির মধ্যে একটি জারো-উইঙ্কলারের দূরত্ব নির্ধারণ করব। এই দূরত্বগুলি জন্ম বর্ষের মধ্যকার দূরত্বের মতোই সম্ভাব্য। আমরা এই 3 টি সম্ভাব্যতা (গুণ? গড়?) 1 টি একত্রিত করি।

এখন সিদ্ধান্তের রায় অংশ আসে। আসুন আমরা সম্ভাব্যতাগুলি সমস্ত থেকে সর্বোচ্চ থেকে নীচে নামিয়ে আনি। প্রথমত, আমরা পি (প্রথম হিট ইজ ম্যাচ)> থ্রেশহোল্ড চাই। দ্বিতীয়ত, আমরা পি (প্রথম হিট ইজ ম্যাচ) / পি (দ্বিতীয় হিট হয় ম্যাচ)> পি প্রান্তে (দ্বিতীয় হিট ম্যাচ হয়) উপস্থিত থাকলেও চাই। তৃতীয়, আমরা কার্ল ম্যাককার্তির, 1967 এর সাথে 1 ম ডাটাসেটে 1 জনের বেশি ব্যক্তির সাথে মেলানোর জন্য এই দ্বিতীয় ডেটাসেটের প্রথম হিটটি চাই।

এই থ্রেশহোল্ডগুলি কীভাবে নির্ধারণ করা যেতে পারে?

আমি স্টাটা এবং / বা পার্লের পদ্ধতির পছন্দ করি।

উদাহরণস্বরূপ দেখুন:

http://www.ncbi.nlm.nih.gov/pmc/articles/PMC1479910/pdf/amia2003_0259.pdf

(যদিও এর সাথে, আমি এখনও কেন বা কীভাবে এবং ইনপুট এবং ফলাফলগুলি কী তা সেই সাথে অনুমানগুলি এবং সেগুলি কতটা নিষিদ্ধ তা পুরোপুরি অনুসরণ করে না)।


আপনি কি স্টাটাতে পুনরায় লিঙ্ক ব্যবহার করার কথা ভেবেছেন?
দিমিত্রি ভি। মাস্টারভ

উত্তর:


4

অবশ্যই, EM অ্যালগরিদম সম্ভাব্য সংযোগের জন্য ব্যবহৃত হয়েছে। বিষয়টিতে প্রচুর নিবন্ধ রয়েছে, উইঙ্কলারের নিম্নলিখিতটি তাত্ত্বিক বিশদ সম্পর্কিত সহায়ক হতে পারে:

http://www.census.gov.edgekey.net/srd/papers/pdf/rr2000-05.pdf

ইতিমধ্যে এখানে উপলব্ধ কেভিন ক্যাম্পবেল দ্বারা বিকাশিত ডেটা লিঙ্কিং সফ্টওয়্যার রয়েছে:

http://the-link-king.com/

সফ্টওয়্যারটি নিখরচায় ডাউনলোড করা যায় এবং কেভিন ক্যাম্পবেল কোনও পারিশ্রমিকের জন্য সমর্থন সরবরাহ করে। কোডটি এসএএস-এ লেখা আছে, সুতরাং আপনার বেস এসএএস প্যাকেজটি দরকার।


ধন্যবাদ! আমি উইঙ্কলারের 2 টি কাগজ পড়েছি তবে সেগুলি পুরোপুরি বুঝতে পারি নি। আমি সেই কাগজ থেকে ইএম সংগ্রহ করেছি। এছাড়াও, এসএএস কীভাবে ব্যবহার করতে হয় তা আমি জানি না। আমি জানি পার্লের একটি ইএম মডিউল রয়েছে, যা আমি ব্যবহার করব, তবে কেন ইএম উপযুক্ত বা এটি কীভাবে ব্যবহার করবেন তা আমি নিশ্চিত নই। ধারণামূলকভাবে, EM কীভাবে উপরের প্রশ্নগুলির উত্তর দেয়?
ব্যবহারকারী 1690130

আমার বোধগম্যতা হল যে ইএম অ্যালগরিদম ইতিবাচক ম্যাচের সম্ভাবনার মডেলিংয়ের জন্য দরকারী কারণ এটি দুটি পৃথক রেকর্ডকে ভুলভাবে সংযুক্ত করার বা দুটি মিলের রেকর্ডকে ভুলভাবে সংযুক্ত না করার অজানা (বা "সুপ্ত") সম্ভাবনাগুলিকে বিবেচনা করে। সম্ভাবনা কার্যটি সর্বাধিকতর করার জন্য এই সম্ভাবনার অনুমানগুলি অ্যালগরিদমের প্রতিটি ধাপের সময় সংশোধন করা হয়।
রবার্টএফ

আমি কী ইনপুট সরবরাহ করব? অবিচ্ছিন্ন প্রোব এবং একটি লেবেল? এবং এটি সেরা ম্যাচ আউট spits?
ব্যবহারকারী 1690130

0

একটা সফটওয়্যার Relais যে সঙ্গে রেকর্ড দুটো ঘটনার করে:

6) সম্ভাব্য রেকর্ড সংযোগ (EM (প্রত্যাশা-সর্বাধিককরণ) এর মাধ্যমে ফেল্লেগি এবং সানটার মডেল প্যারামিটারগুলির অনুমান)।

RELAIS জাভা এবং আরে প্রয়োগ করা হয়েছে এবং এটি একটি ডাটাবেস আর্কিটেকচার (মাইএসকিউএল) রয়েছে।

ESSnet ডেটা ইন্টিগ্রেশন প্রকল্প থেকে রেকর্ড লিঙ্কেজ সম্পর্কিত আরও কিছু ডকুমেন্টেশন রয়েছে ।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.