প্রযুক্তিগতভাবে নামমাত্র বৈশিষ্ট্যযুক্ত ব্যক্তিদের মধ্যে একটি ডিস (সমতা) পরিমাপের গণনা করার জন্য বেশিরভাগ প্রোগ্রাম প্রথমে প্রতিটি নামমাত্র ভেরিয়েবলটিকে ডামি বাইনারি ভেরিয়েবলগুলির একটি সেটে পুনঃনির্মাণ করে এবং তারপরে বাইনারি ভেরিয়েবলের জন্য কিছু পরিমাপ গণনা করে। এখানে কয়েকটি ঘন ঘন ব্যবহৃত বাইনারি মিল এবং ভিন্নতা ব্যবস্থার সূত্র রয়েছে ।
ডামি ভেরিয়েবলগুলি (ওয়ান-হট নামেও পরিচিত) কী? নীচে 5 জন ব্যক্তি, দুটি নামমাত্র ভেরিয়েবল (3 বিভাগ সহ এ, বি 2 বিভাগ সহ) রয়েছে। এ এর জায়গায় 3 টি ডামি তৈরি করা হয়েছে, বি এর জায়গায় 2 টি ডামি তৈরি করা হয়েছে
ID A B A1 A2 A3 B1 B2
1 2 1 0 1 0 1 0
2 1 2 1 0 0 0 1
3 3 2 0 0 1 0 1
4 1 1 1 0 0 1 0
5 2 1 0 1 0 1 0
(একটি ডামি ভেরিয়েবলকে "রিন্ডানডান্ট" হিসাবে অপসারণ করার দরকার নেই কারণ আমরা সাধারণত ডামিদের সাথে রিগ্রেশন করার জন্য এটি করতাম। এটি ক্লাস্টারিংয়ে অনুশীলন করা হয় না, তবে বিশেষ পরিস্থিতিতে আপনি সেই বিকল্পটি বিবেচনা করতে পারেন।)
একটিa + b + c
- a - উভয় ব্যক্তির জন্য ডামির সংখ্যা 1
- খ - এর জন্য ডামি সংখ্যা 1 এবং তার জন্য 0
- গ - এর জন্য 0 এবং এর জন্য 1 টি ডামি সংখ্যা
- d - উভয়ের জন্য 0 টি ডামি সংখ্যা
খগএকটিএকটি2 ক2 এ + বি + সিদূরত্ব। কতটি প্রতিশব্দ দেখুন - আপনি আপনার সফ্টওয়্যার মধ্যে যে কিছু খুঁজে পেতে নিশ্চিত!
পাশা মিলের সহগের স্বজ্ঞাত বৈধতাটি কেবলমাত্র সহ-উপস্থিতি অনুপাত (বা আপেক্ষিক চুক্তি ) থেকে আসে। উপরের ডেটা স্নিপেটের জন্য নামমাত্র কলাম নিন A
এবং উভয়কেই একই শ্রেণিতে পড়ুন ( অথবা একই শ্রেণিতে নয়) এর 5x5
সাথে গণনা স্কোয়ার প্রতিসাম্য ম্যাট্রিক্স নিন । একইভাবে ম্যাট্রিক্সের জন্য গণনা করুন ।1
0
B
A 1 2 3 4 5 B 1 2 3 4 5
_____________ _____________
1| 1 1| 1
2| 0 1 2| 0 1
3| 0 0 1 3| 0 1 1
4| 0 1 0 1 4| 1 0 0 1
5| 1 0 0 0 1 5| 1 0 0 0 1
দুটি ম্যাট্রিকের সাথে সম্পর্কিত এন্ট্রিগুলি যোগ করুন এবং 2 (নামমাত্র ভেরিয়েবলের সংখ্যা) দ্বারা ভাগ করুন - এখানে আপনি ডাইস সহগের ম্যাট্রিক্সের সাথে রয়েছেন। (সুতরাং, ডাইস গণনা করার জন্য আপনাকে আসলে ডামি তৈরি করতে হবে না, ম্যাট্রিক্স অপারেশনগুলির সাহায্যে আপনি সম্ভবত এটি বর্ণিত উপায়ে দ্রুত করতে পারেন)) নামমাত্র বৈশিষ্ট্যের সংযুক্তির জন্য ডাইসে সম্পর্কিত একটি বিষয় দেখুন ।
অ্যালবিট ডাইস হ'ল ব্যবহারের ক্ষেত্রে সর্বাধিক স্পষ্ট পরিমাপ যখন আপনি বৈশিষ্ট্যগুলি শ্রেণিবদ্ধ করার ক্ষেত্রে ক্ষেত্রে (ডিস) সমতা ফাংশন চান তখন অন্যান্য বাইনারি পদক্ষেপগুলি ব্যবহার করা যেতে পারে - যদি তাদের সূত্রটি আপনার নামমাত্র ডেটা সম্পর্কে বিবেচনাগুলি পূরণ করে।
a + da + b + c + dঘঘখ + গঘঘ2= পি ( 1 - এসএম)পি
তবে ...
ঘ
relation with Dice
Similarities
Russell and Rao (simple joint prob) RR proportional
Simple matching (or Rand) SM linear
Jaccard JACCARD monotonic
Sokal and Sneath 1 SS1 monotonic
Rogers and Tanimoto RT monotonic
Sokal and Sneath 2 SS2 monotonic
Sokal and Sneath 4 SS4 linear
Hamann HAMANN linear
Phi (or Pearson) correlation PHI linear
Dispersion similarity DISPER linear
Dissimilarities
Euclidean distance BEUCLID monotonic
Squared Euclidean distance BSEUCLID linear
Pattern difference PATTERN monotonic (linear w/o d term omitted from formula)
Variance dissimilarity VARIANCE linear
যেহেতু একটি নৈকট্য ম্যাট্রিক্সের অনেকগুলি প্রয়োগে, যেমন ক্লাস্টার বিশ্লেষণের অনেকগুলি পদ্ধতিতে, ফলাফল পরিবর্তন হবে না বা লিনিয়ার (এমনকি কখনও কখনও এমনকি একঘেয়েটির অধীনেও) নিকটবর্তী হওয়ার পরিবর্তে সহজেই পরিবর্তিত হবে, এটি প্রদর্শিত হয় একটি বিশাল সংখ্যককে ন্যায্যতাযুক্ত করা যেতে পারে একই বা অনুরূপ ফলাফল পেতে ডাইসের পাশাপাশি বাইনারি পদক্ষেপগুলি। তবে আপনাকে প্রথমে বিবেচনা / অন্বেষণ করা উচিত যে নির্দিষ্ট পদ্ধতিটি (উদাহরণস্বরূপ শ্রেণিবিন্যাসের একটি সংযোগ ) কীভাবে নৈকট্য প্রদত্ত রূপান্তরটিতে প্রতিক্রিয়া দেখায়।
যদি আপনার পরিকল্পিত ক্লাস্টারিং বা এমডিএস বিশ্লেষণ দূরত্বের একঘেয়ে রূপান্তর সম্পর্কে সংবেদনশীল হয় তবে আপনি উপরের সারণীতে "একঘেয়ে" হিসাবে চিহ্নিত পদক্ষেপগুলি ব্যবহার করা থেকে ভাল এড়াতে পারেন (এবং এইভাবে হ্যাঁ, জ্যাকার্ডের সাদৃশ্য বা ডামির সাথে ইউক্লিডিয়ান দূরত্ব ব্যবহার করা ভাল ধারণা নয়) , অর্থাত্ প্রাক্তন নামমাত্র, গুণাবলী)।