তামর (পূর্বে ডেটা টেমার) স্কেল করে ডেটাবেস অনুলিপি করে। নাইভ বেয়েস এবং গ্রাফ ক্লাস্টারিং এর সাথে জড়িত।
আমি বিশ্বাস করি যে অ্যালগোরিদমগুলি এসকিউএল-তে বেশিরভাগ ক্ষেত্রে বাস্তবায়িত হয়েছে, যা কিছুটা অদ্ভুত, তবে তাদের হাইটপেপারের প্রাথমিক লেখক হলেন মাইকেল স্টোনব্রেকার, যিনি পোস্টগ্রিসকিউএল তৈরিতে নেতৃত্ব দিয়েছিলেন।
হাইটপেপার এখানে দেখুন ।
সম্পাদনা: আমি তাদের কাগজগুলির নীচে যে পদক্ষেপগুলি নিয়েছি সেগুলি আমি সংক্ষেপিত করেছি। আমার কিছু শব্দ প্রায় তাদের কাগজের মতোই।
নতুন তথ্য উত্স নিয়ে কাজ করার জন্য তামরের ডিপ্লিকেশন সিস্টেমে দুটি প্রধান পদক্ষেপ রয়েছে: (১) অ্যাট্রিবিউট আইডেন্টিফিকেশন এবং (২) সত্তা একীকরণ। এগুলি মোটামুটি কলামের অনুলিপি এবং সারি প্রতিলিপি হিসাবে সমান।
1) একটি বিদ্যমান ডেটা উত্সের সাথে তুলনা করা, প্রথম পদক্ষেপটি অ্যাট্রিবিউট আইডেন্টিফিকেশন।
নতুন উত্সের বৈশিষ্ট্য (কলাম) চারটি অ্যালগরিদম সহ বিদ্যমান উত্সের বৈশিষ্ট্যগুলিতে ম্যাপ করা হয়েছে:
- অস্পষ্ট স্ট্রিং তুলনার সাথে অ্যাট্রিবিউট নামের তুলনা করুন (ট্রাইগ্রাম কোসাইন মিল)
- একটি সম্পূর্ণ কলাম একটি নথি হিসাবে বিবেচনা করুন, টোকেনাইজ করুন, সম্পূর্ণ ফ্রিকোয়েন্সি / বিপরীত ডকুমেন্ট ফ্রিকোয়েন্সি (টিএফ-আইডিএফ) এবং অন্যান্য কলামগুলির মধ্যে কোসাইন মিলকে মাপুন।
- সর্বনিম্ন বর্ণনামূলক দৈর্ঘ্য: সঠিক ছেলের সাথে তাদের ছেদ এবং মাপের মাপের ভিত্তিতে দুটি কলামের তুলনা করুন।
- সংখ্যার কলামগুলির জন্য, নতুন কলাম এবং বিদ্যমান সংখ্যাসূচক কলামগুলির মধ্যে একই বিতরণ থেকে এসেছিল কিনা তা নির্ধারণের জন্য একটি টি-পরীক্ষা করুন।
2) সত্তা একীকরণ (সারি অনুচ্ছেদে)
একবার অ্যাট্রিবিউট সনাক্তকরণ সম্পাদন করা হয়ে গেলে, আমরা সারিগুলি (রেকর্ডগুলি) নকল করতে চাই।
ক্লাস্টারিং সহ শ্রেণীবদ্ধকরণ
রেকর্ডগুলি প্রথমে মিলের ভিত্তিতে বিভাগগুলিতে শ্রেণিবদ্ধ করা হয় এবং তারপরে বিভাগের স্তরে নকল বিধিগুলি শিখে নেওয়া হয়। তারা শ্রেণীবদ্ধকরণের উদাহরণটি স্কি রিসর্টগুলির একটি ডাটাবেসের জন্য যেখানে পশ্চিমা স্কি রিসর্টগুলি পূর্ব স্কি রিসর্টগুলির থেকে পৃথক বিভাগ হওয়া উচিত, যেহেতু বেস উচ্চতার মতো বৈশিষ্ট্যগুলি রিসর্টটি পূর্ব বা পশ্চিমে কিনা তা দ্বারা দৃ strongly়ভাবে পৃথক করা হয়। শ্রেণীবদ্ধকরণ একটি ক্লাস্টারিং অ্যালগরিদম দিয়ে করা হয়, উদাহরণস্বরূপ কে-মানে দিয়ে।
নাইভ বেয়েসের সাথে নকল করা
একবার বৈশিষ্ট্যগুলি চিহ্নিত হয়ে গেলে এবং রেকর্ডগুলি বিভাগগুলিতে ক্লাস্টার হয়ে যায়, আমরা দ্বিপ এবং নন-ডুপের প্রশিক্ষণের উপর ভিত্তি করে প্রতিটি বিভাগের জন্য নকলের নিয়ম শিখি।
দুটি ধরণের বিয়োগ বিধি রয়েছে:
- একটি দূরত্বের ক্রিয়াটির সাথে বিশিষ্টতার মিলের জন্য থ্রোসোল্ডস যা গুণকে বোঝায়। (এই থ্রেশহোল্ডগুলি কীভাবে শিখেছে সে সম্পর্কে কাগজটি পরিষ্কার নয়))
- প্রতিটি বৈশিষ্ট্যে ডুপ এবং নন-ডুপের জন্য সম্ভাব্য বন্টন distrib যেমন
P("Title" values similar | duplicate) ~ 1
এবং
Pr("State" values are different | duplicate) ~ 0
প্রতিটি জোড় রেকর্ডের জন্য, আমরা তাদের প্রতিটি বৈশিষ্ট্যের যথাযথ দূরত্বের মেট্রিকের মিলের গণনা করি। কোনও বৈশিষ্ট্যের যদি তার প্রান্তিকের ওপরে একটি মিল থাকে তবে রেকর্ডের জুটি একটি নাইভ বেইস শ্রেণিবদ্ধের মাধ্যমে ডুপ বা নন-ডুপ হিসাবে শ্রেণিবদ্ধ করা হয়।
আমার ধারণা রেকর্ডের জন্য X1 = (a1,b1,c1,d1)
, X2 = (a2,b2,c2,d2)
তারা আদল ভেক্টর গনা S = (s_a, s_b, s_c, s_d)
যেখানে s_i
সঠিক দূরত্ব মেট্রিক যে অ্যাট্রিবিউট wrt জন্য আদল হয়।
আমি ধরে নিলাম তাদের নাইভ বেয়েস শ্রেণিবদ্ধের এই কাঠামো আছে:
P(dupe|S) = P(dupe)P(s_a|dupe)(s_b|dupe)(s_c|dupe)P(s_d|dupe) / P(S)
গ্রাফ ক্লাস্টারিং সহ সত্তা রেজোলিউশন
শ্রেণিবদ্ধকরণের পদক্ষেপের পরে, আমাদের প্রদত্ত বিভাগ থেকে রেকর্ডের একটি উপসেট রয়েছে যা বিশ্বাস করা হয় যে জোড়াযুক্ত নকল হবে। এগুলি এখন স্বতন্ত্র সত্তায় সমাধান করা দরকার । এটি একটি ট্রানজিটিভিটি সমস্যা সমাধান করে: রেকর্ড টি 1 টি টি 2 এর ডুপ এবং টি 2 টি 3 এর একটি ডুপ হয়, তবে t1 অবশ্যই টি 3 এর একটি ডুপ হবে। এটি বলতে গেলে টি 1, টি 2, এবং টি 3 একই সত্তাকে উপস্থাপন করে ।
এই পদক্ষেপের জন্য একটি গ্রাফ কাঠামো ব্যবহৃত হয়। বিভাগের মধ্যে, প্রতিটি রেকর্ড যা ডুপ হতে পারে একটি নোড। যে নোডগুলি একে অপরের ফোকর বলে সন্দেহ হয় তাদের মধ্যে কিনারা রয়েছে। তারপরে ক্লাস্টারগুলি গ্রাফটিতে আবিষ্কার করা হয় এবং তারপরে একটি ক্লাস্টার অন্যর সাথে কীভাবে দৃ connected়ভাবে সংযুক্ত থাকে সে সম্পর্কে প্রান্তিকের উপর ভিত্তি করে একত্রে মার্জ করা হয়। এখানে ক্লাস্টার জোড়গুলির তিনটি উদাহরণ রয়েছে যা তাদের সংযুক্তির ভিত্তিতে একত্রিত হতে পারে বা নাও হতে পারে:
c1 c2
x-x-x-----y-y-y
|\|/| |\|/|
x-x-x-----y-y-y Meets similiarity threshold
|/|\| |/|\|
x-x-x-----y-y-y
x-x-x y-y-y
|\|/| |\|/|
x-x-x-----y-y-y Does not meet similarity threshold
|/|\| |/|\|
x-x-x y-y-y
x y
| |
x-----y Meets similarity threshold
| |
x y
যখন অ্যালগোরিদম সমাপ্ত হয়, প্রতিটি ক্লাস্টারের বিভাগের মধ্যে একটি পৃথক সত্তার প্রতিনিধিত্ব করা উচিত । প্রক্রিয়াটি সম্পূর্ণ করতে, এই সত্তার বৈশিষ্ট্যগুলি অবশ্যই এর মধ্যে রেকর্ডের বৈশিষ্ট্যগুলি থেকে নির্ধারণ করা উচিত । নালগুলি প্রথমে বাতিল করা হয়, তারপরে ফ্রিকোয়েন্সি, গড়, মিডিয়ান এবং দীর্ঘতম সহ পদ্ধতিগুলি ব্যবহৃত হয়।
অ্যালগোরিদমগুলি যখন অনিশ্চিত থাকে এবং কীভাবে বিভিন্ন স্তরের দক্ষতার সাথে একাধিক বিশেষজ্ঞকে ব্যবহার করবেন সে ক্ষেত্রেও ডোমেন বিশেষজ্ঞদের সাহায্য করার জন্য কাগজটি কিছু পদ্ধতি বিকাশ করে।