প্রতিলিপিতে অত্যাধুনিক

রেকর্ড প্রতিলিপিতে অত্যাধুনিক কী কী পদ্ধতি রয়েছে? অনুদানকে কখনও কখনও বলা হয়: রেকর্ড লিঙ্কেজ, সত্তা রেজোলিউশন, পরিচয় রেজোলিউশন, মার্জ / শুদ্ধিকরণ। আমি সিব্লক [1] সম্পর্কে উদাহরণস্বরূপ জানি।

উত্তরগুলিতে পদ্ধতিগুলি প্রয়োগকারী বিদ্যমান সফ্টওয়্যারগুলির উল্লেখগুলি অন্তর্ভুক্ত করা হলে আমি প্রশংসা করব। আমি উদাহরণস্বরূপ জানি যে মাহাউট ক্যানোপি-ক্লাস্টারিং প্রয়োগ করে । এছাড়াও ডিউক রয়েছে যা লুসিনকে ব্যবহার করে।

হস্তক্ষেপের জন্য অনেক বাণিজ্যিক সিস্টেম রয়েছে। তারা কীভাবে কাজ করে এবং তারা কতটা দক্ষ তা জেনে রাখা মূল্যবান হবে।

আমি একক ডেটাসেটের মধ্যে নকল করতে এবং বিভিন্ন উত্স থেকে আগত একাধিক ডেটাসেটের সাথে সংযোগ স্থাপনে আগ্রহী। দক্ষতা এবং বিপুল পরিমাণে ডেটা প্রক্রিয়া করার ক্ষমতাও গুরুত্বপূর্ণ।

[1] সিব্লক্ক: বৃহত্তর স্কেল ডি-সদৃশ কার্যগুলির জন্য একটি স্বয়ংক্রিয় ব্লকিং প্রক্রিয়া

clustering data-cleaning record-linkage

— জাকুব কোটোভস্কি
সূত্র

একটি বাণিজ্যিক সমাধান যা আগ্রহী হতে পারে। একটি বিক্রয় পয়েন্ট হ'ল এটি সময় এবং সাধারণত অন্যান্য বাণিজ্যিক প্রতিযোগীদের কাছে উচ্চতর ফলাফল অর্জন করে। নভটটা

O (n)

$O(n)$

— সাইকোরাক্স মনিকাকে

তামর (পূর্বে ডেটা টেমার) স্কেল করে ডেটাবেস অনুলিপি করে। নাইভ বেয়েস এবং গ্রাফ ক্লাস্টারিং এর সাথে জড়িত।

আমি বিশ্বাস করি যে অ্যালগোরিদমগুলি এসকিউএল-তে বেশিরভাগ ক্ষেত্রে বাস্তবায়িত হয়েছে, যা কিছুটা অদ্ভুত, তবে তাদের হাইটপেপারের প্রাথমিক লেখক হলেন মাইকেল স্টোনব্রেকার, যিনি পোস্টগ্রিসকিউএল তৈরিতে নেতৃত্ব দিয়েছিলেন।

হাইটপেপার এখানে দেখুন ।

সম্পাদনা: আমি তাদের কাগজগুলির নীচে যে পদক্ষেপগুলি নিয়েছি সেগুলি আমি সংক্ষেপিত করেছি। আমার কিছু শব্দ প্রায় তাদের কাগজের মতোই।

নতুন তথ্য উত্স নিয়ে কাজ করার জন্য তামরের ডিপ্লিকেশন সিস্টেমে দুটি প্রধান পদক্ষেপ রয়েছে: (১) অ্যাট্রিবিউট আইডেন্টিফিকেশন এবং (২) সত্তা একীকরণ। এগুলি মোটামুটি কলামের অনুলিপি এবং সারি প্রতিলিপি হিসাবে সমান।

1) একটি বিদ্যমান ডেটা উত্সের সাথে তুলনা করা, প্রথম পদক্ষেপটি অ্যাট্রিবিউট আইডেন্টিফিকেশন।

নতুন উত্সের বৈশিষ্ট্য (কলাম) চারটি অ্যালগরিদম সহ বিদ্যমান উত্সের বৈশিষ্ট্যগুলিতে ম্যাপ করা হয়েছে:

অস্পষ্ট স্ট্রিং তুলনার সাথে অ্যাট্রিবিউট নামের তুলনা করুন (ট্রাইগ্রাম কোসাইন মিল)
একটি সম্পূর্ণ কলাম একটি নথি হিসাবে বিবেচনা করুন, টোকেনাইজ করুন, সম্পূর্ণ ফ্রিকোয়েন্সি / বিপরীত ডকুমেন্ট ফ্রিকোয়েন্সি (টিএফ-আইডিএফ) এবং অন্যান্য কলামগুলির মধ্যে কোসাইন মিলকে মাপুন।
সর্বনিম্ন বর্ণনামূলক দৈর্ঘ্য: সঠিক ছেলের সাথে তাদের ছেদ এবং মাপের মাপের ভিত্তিতে দুটি কলামের তুলনা করুন।
সংখ্যার কলামগুলির জন্য, নতুন কলাম এবং বিদ্যমান সংখ্যাসূচক কলামগুলির মধ্যে একই বিতরণ থেকে এসেছিল কিনা তা নির্ধারণের জন্য একটি টি-পরীক্ষা করুন।

2) সত্তা একীকরণ (সারি অনুচ্ছেদে)

একবার অ্যাট্রিবিউট সনাক্তকরণ সম্পাদন করা হয়ে গেলে, আমরা সারিগুলি (রেকর্ডগুলি) নকল করতে চাই।

ক্লাস্টারিং সহ শ্রেণীবদ্ধকরণ

রেকর্ডগুলি প্রথমে মিলের ভিত্তিতে বিভাগগুলিতে শ্রেণিবদ্ধ করা হয় এবং তারপরে বিভাগের স্তরে নকল বিধিগুলি শিখে নেওয়া হয়। তারা শ্রেণীবদ্ধকরণের উদাহরণটি স্কি রিসর্টগুলির একটি ডাটাবেসের জন্য যেখানে পশ্চিমা স্কি রিসর্টগুলি পূর্ব স্কি রিসর্টগুলির থেকে পৃথক বিভাগ হওয়া উচিত, যেহেতু বেস উচ্চতার মতো বৈশিষ্ট্যগুলি রিসর্টটি পূর্ব বা পশ্চিমে কিনা তা দ্বারা দৃ strongly়ভাবে পৃথক করা হয়। শ্রেণীবদ্ধকরণ একটি ক্লাস্টারিং অ্যালগরিদম দিয়ে করা হয়, উদাহরণস্বরূপ কে-মানে দিয়ে।

নাইভ বেয়েসের সাথে নকল করা

একবার বৈশিষ্ট্যগুলি চিহ্নিত হয়ে গেলে এবং রেকর্ডগুলি বিভাগগুলিতে ক্লাস্টার হয়ে যায়, আমরা দ্বিপ এবং নন-ডুপের প্রশিক্ষণের উপর ভিত্তি করে প্রতিটি বিভাগের জন্য নকলের নিয়ম শিখি।

দুটি ধরণের বিয়োগ বিধি রয়েছে:

একটি দূরত্বের ক্রিয়াটির সাথে বিশিষ্টতার মিলের জন্য থ্রোসোল্ডস যা গুণকে বোঝায়। (এই থ্রেশহোল্ডগুলি কীভাবে শিখেছে সে সম্পর্কে কাগজটি পরিষ্কার নয়))
প্রতিটি বৈশিষ্ট্যে ডুপ এবং নন-ডুপের জন্য সম্ভাব্য বন্টন distrib যেমন P("Title" values similar | duplicate) ~ 1এবং Pr("State" values are different | duplicate) ~ 0

প্রতিটি জোড় রেকর্ডের জন্য, আমরা তাদের প্রতিটি বৈশিষ্ট্যের যথাযথ দূরত্বের মেট্রিকের মিলের গণনা করি। কোনও বৈশিষ্ট্যের যদি তার প্রান্তিকের ওপরে একটি মিল থাকে তবে রেকর্ডের জুটি একটি নাইভ বেইস শ্রেণিবদ্ধের মাধ্যমে ডুপ বা নন-ডুপ হিসাবে শ্রেণিবদ্ধ করা হয়।

আমার ধারণা রেকর্ডের জন্য X1 = (a1,b1,c1,d1), X2 = (a2,b2,c2,d2)তারা আদল ভেক্টর গনা S = (s_a, s_b, s_c, s_d)যেখানে s_iসঠিক দূরত্ব মেট্রিক যে অ্যাট্রিবিউট wrt জন্য আদল হয়।

আমি ধরে নিলাম তাদের নাইভ বেয়েস শ্রেণিবদ্ধের এই কাঠামো আছে:

গ্রাফ ক্লাস্টারিং সহ সত্তা রেজোলিউশন

শ্রেণিবদ্ধকরণের পদক্ষেপের পরে, আমাদের প্রদত্ত বিভাগ থেকে রেকর্ডের একটি উপসেট রয়েছে যা বিশ্বাস করা হয় যে জোড়াযুক্ত নকল হবে। এগুলি এখন স্বতন্ত্র সত্তায় সমাধান করা দরকার । এটি একটি ট্রানজিটিভিটি সমস্যা সমাধান করে: রেকর্ড টি 1 টি টি 2 এর ডুপ এবং টি 2 টি 3 এর একটি ডুপ হয়, তবে t1 অবশ্যই টি 3 এর একটি ডুপ হবে। এটি বলতে গেলে টি 1, টি 2, এবং টি 3 একই সত্তাকে উপস্থাপন করে ।

এই পদক্ষেপের জন্য একটি গ্রাফ কাঠামো ব্যবহৃত হয়। বিভাগের মধ্যে, প্রতিটি রেকর্ড যা ডুপ হতে পারে একটি নোড। যে নোডগুলি একে অপরের ফোকর বলে সন্দেহ হয় তাদের মধ্যে কিনারা রয়েছে। তারপরে ক্লাস্টারগুলি গ্রাফটিতে আবিষ্কার করা হয় এবং তারপরে একটি ক্লাস্টার অন্যর সাথে কীভাবে দৃ connected়ভাবে সংযুক্ত থাকে সে সম্পর্কে প্রান্তিকের উপর ভিত্তি করে একত্রে মার্জ করা হয়। এখানে ক্লাস্টার জোড়গুলির তিনটি উদাহরণ রয়েছে যা তাদের সংযুক্তির ভিত্তিতে একত্রিত হতে পারে বা নাও হতে পারে:

  c1        c2    

x-x-x-----y-y-y
|\|/|     |\|/|
x-x-x-----y-y-y  Meets similiarity threshold
|/|\|     |/|\|
x-x-x-----y-y-y    

x-x-x     y-y-y
|\|/|     |\|/|
x-x-x-----y-y-y  Does not meet similarity threshold
|/|\|     |/|\|
x-x-x     y-y-y    

    x     y
    |     |
    x-----y      Meets similarity threshold
    |     |
    x     y

যখন অ্যালগোরিদম সমাপ্ত হয়, প্রতিটি ক্লাস্টারের বিভাগের মধ্যে একটি পৃথক সত্তার প্রতিনিধিত্ব করা উচিত । প্রক্রিয়াটি সম্পূর্ণ করতে, এই সত্তার বৈশিষ্ট্যগুলি অবশ্যই এর মধ্যে রেকর্ডের বৈশিষ্ট্যগুলি থেকে নির্ধারণ করা উচিত । নালগুলি প্রথমে বাতিল করা হয়, তারপরে ফ্রিকোয়েন্সি, গড়, মিডিয়ান এবং দীর্ঘতম সহ পদ্ধতিগুলি ব্যবহৃত হয়।

অ্যালগোরিদমগুলি যখন অনিশ্চিত থাকে এবং কীভাবে বিভিন্ন স্তরের দক্ষতার সাথে একাধিক বিশেষজ্ঞকে ব্যবহার করবেন সে ক্ষেত্রেও ডোমেন বিশেষজ্ঞদের সাহায্য করার জন্য কাগজটি কিছু পদ্ধতি বিকাশ করে।

— thomaskeefe
সূত্র

হাইটপেপারের

— fjsj