গুচ্ছ বিশ্লেষণের প্রসঙ্গে শুদ্ধি হ'ল গুচ্ছ মানের একটি বাহ্যিক মূল্যায়ন মাপদণ্ড। এটি ইউনিটের পরিসীমা [০.১.১] তে সঠিকভাবে শ্রেণিবদ্ধ করা সামগ্রীর (ডাটা পয়েন্ট) সংখ্যার শতাংশ।
Purity=1N∑i=1kmaxj|ci∩tj|
যেখানে N = বস্তু সংখ্যা (ডাটা পয়েন্টের), k = ক্লাস্টার সংখ্যা, ci একটি ক্লাস্টার হয় C , এবং tj শ্রেণীবিন্যাস যা ক্লাস্টার, সর্বোচ্চ গণনা হয়েছে ci
যখন আমরা "সঠিকভাবে" বলি যা এর দ্বারা বোঝা যায় যে প্রতিটি ক্লাস্টার ci একরকম অবজেক্টের একটি গ্রুপকে একই বর্গ হিসাবে চিহ্নিত করেছে যা স্থল সত্য নির্দেশ করেছে। আমরা একেবারে সত্য শ্রেণীবিন্যাস ব্যবহার ti নিয়োগ শুদ্ধি পরিমাপ হিসাবে যারা বস্তুর অবশ্য করতে যাতে আমরা জানতে পারি আবশ্যক যা ক্লাস্টার ci যা স্থল সত্য শ্রেণীবিন্যাস মানচিত্র ti । যদি 100% নির্ভুল ছিল তারপর প্রতিটি ci ঠিক 1 ম্যাপ হবে ti , কিন্তু বাস্তবে আমাদের cicitici∩timax সমীকরণের থেকে আসে।
citi ।
| T1 | T2 | T3
---------------------
C1 | 0 | 53 | 10
C2 | 0 | 1 | 60
C3 | 0 | 16 | 0
তারপরে প্রতিটি ক্লাস্টারের জন্য গআমি, এর সারি থেকে সর্বাধিক মান নির্বাচন করুন, তাদের একত্রে যোগ করুন এবং শেষ পর্যন্ত ডেটা পয়েন্টের মোট সংখ্যার দ্বারা ভাগ করুন।
Purity = (53 + 60 + 16) / 140 = 0.92142