বৈশিষ্ট্য নামমাত্র হলে ব্যক্তির জন্য সর্বোত্তম দূরত্বের কাজটি কী?


12

আমি জানি না নামমাত্র (আনর্ডার্ড শ্রেণীবদ্ধ) বৈশিষ্ট্যগুলির ক্ষেত্রে ব্যক্তিদের মধ্যে কোন দূরত্বের কার্যকারিতা ব্যবহার করতে হয়। আমি কিছু পাঠ্যপুস্তকটি পড়ছিলাম এবং সেগুলি সিম্পল ম্যাচিং ফাংশনটির পরামর্শ দেয় তবে কিছু বইয়ের পরামর্শ দেয় যে আমার নামমাত্র বাইনারি বৈশিষ্ট্যগুলিতে পরিবর্তন করা উচিত এবং জ্যাকার্ড সহগ ব্যবহার করা উচিত । তবে নামমাত্র বৈশিষ্ট্যটির মান 2 না হলে কী হবে? যদি সেই গুণটিতে তিন বা চারটি মান থাকে?

নামমাত্র বৈশিষ্ট্যের জন্য আমার কোন দূরত্বের ফাংশন ব্যবহার করা উচিত?


1
ক্র্যামারের ভি এবং চি স্কোয়ারের পরিসংখ্যানগুলিতে আমি এই পোস্টটি দরকারী বলে মনে করেছি ।
কার্তিকস

উত্তর:


18

প্রযুক্তিগতভাবে নামমাত্র বৈশিষ্ট্যযুক্ত ব্যক্তিদের মধ্যে একটি ডিস (সমতা) পরিমাপের গণনা করার জন্য বেশিরভাগ প্রোগ্রাম প্রথমে প্রতিটি নামমাত্র ভেরিয়েবলটিকে ডামি বাইনারি ভেরিয়েবলগুলির একটি সেটে পুনঃনির্মাণ করে এবং তারপরে বাইনারি ভেরিয়েবলের জন্য কিছু পরিমাপ গণনা করে। এখানে কয়েকটি ঘন ঘন ব্যবহৃত বাইনারি মিল এবং ভিন্নতা ব্যবস্থার সূত্র রয়েছে

ডামি ভেরিয়েবলগুলি (ওয়ান-হট নামেও পরিচিত) কী? নীচে 5 জন ব্যক্তি, দুটি নামমাত্র ভেরিয়েবল (3 বিভাগ সহ এ, বি 2 বিভাগ সহ) রয়েছে। এ এর জায়গায় 3 টি ডামি তৈরি করা হয়েছে, বি এর জায়গায় 2 টি ডামি তৈরি করা হয়েছে

ID   A    B      A1 A2 A3      B1 B2
1    2    1       0  1  0       1  0
2    1    2       1  0  0       0  1
3    3    2       0  0  1       0  1
4    1    1       1  0  0       1  0
5    2    1       0  1  0       1  0

(একটি ডামি ভেরিয়েবলকে "রিন্ডানডান্ট" হিসাবে অপসারণ করার দরকার নেই কারণ আমরা সাধারণত ডামিদের সাথে রিগ্রেশন করার জন্য এটি করতাম। এটি ক্লাস্টারিংয়ে অনুশীলন করা হয় না, তবে বিশেষ পরিস্থিতিতে আপনি সেই বিকল্পটি বিবেচনা করতে পারেন।)

aa+b+c

  • a - উভয় ব্যক্তির জন্য ডামির সংখ্যা 1
  • খ - এর জন্য ডামি সংখ্যা 1 এবং তার জন্য 0
  • গ - এর জন্য 0 এবং এর জন্য 1 টি ডামি সংখ্যা
  • d - উভয়ের জন্য 0 টি ডামি সংখ্যা

bcaa2a2a+b+cদূরত্ব। কতটি প্রতিশব্দ দেখুন - আপনি আপনার সফ্টওয়্যার মধ্যে যে কিছু খুঁজে পেতে নিশ্চিত!

পাশা মিলের সহগের স্বজ্ঞাত বৈধতাটি কেবলমাত্র সহ-উপস্থিতি অনুপাত (বা আপেক্ষিক চুক্তি ) থেকে আসে। উপরের ডেটা স্নিপেটের জন্য নামমাত্র কলাম নিন Aএবং উভয়কেই একই শ্রেণিতে পড়ুন ( অথবা একই শ্রেণিতে নয়) এর 5x5সাথে গণনা স্কোয়ার প্রতিসাম্য ম্যাট্রিক্স নিন । একইভাবে ম্যাট্রিক্সের জন্য গণনা করুন ।10B

A    1  2  3  4  5        B    1  2  3  4  5
     _____________             _____________
  1| 1                      1| 1
  2| 0  1                   2| 0  1
  3| 0  0  1                3| 0  1  1
  4| 0  1  0  1             4| 1  0  0  1
  5| 1  0  0  0  1          5| 1  0  0  0  1

দুটি ম্যাট্রিকের সাথে সম্পর্কিত এন্ট্রিগুলি যোগ করুন এবং 2 (নামমাত্র ভেরিয়েবলের সংখ্যা) দ্বারা ভাগ করুন - এখানে আপনি ডাইস সহগের ম্যাট্রিক্সের সাথে রয়েছেন। (সুতরাং, ডাইস গণনা করার জন্য আপনাকে আসলে ডামি তৈরি করতে হবে না, ম্যাট্রিক্স অপারেশনগুলির সাহায্যে আপনি সম্ভবত এটি বর্ণিত উপায়ে দ্রুত করতে পারেন)) নামমাত্র বৈশিষ্ট্যের সংযুক্তির জন্য ডাইসে সম্পর্কিত একটি বিষয় দেখুন

অ্যালবিট ডাইস হ'ল ব্যবহারের ক্ষেত্রে সর্বাধিক স্পষ্ট পরিমাপ যখন আপনি বৈশিষ্ট্যগুলি শ্রেণিবদ্ধ করার ক্ষেত্রে ক্ষেত্রে (ডিস) সমতা ফাংশন চান তখন অন্যান্য বাইনারি পদক্ষেপগুলি ব্যবহার করা যেতে পারে - যদি তাদের সূত্রটি আপনার নামমাত্র ডেটা সম্পর্কে বিবেচনাগুলি পূরণ করে।

a+da+b+c+dddb+cdd2=p(1SM)p

তবে ...

d

                                                       relation with Dice
    Similarities
       Russell and Rao (simple joint prob)    RR          proportional
       Simple matching (or Rand)              SM          linear
       Jaccard                                JACCARD     monotonic
       Sokal and Sneath 1                     SS1         monotonic
       Rogers and Tanimoto                    RT          monotonic
       Sokal and Sneath 2                     SS2         monotonic
       Sokal and Sneath 4                     SS4         linear
       Hamann                                 HAMANN      linear
       Phi (or Pearson) correlation           PHI         linear
       Dispersion similarity                  DISPER      linear
    Dissimilarities
       Euclidean distance                     BEUCLID     monotonic
       Squared Euclidean distance             BSEUCLID    linear
       Pattern difference                     PATTERN     monotonic (linear w/o d term omitted from formula)
       Variance dissimilarity                 VARIANCE    linear

যেহেতু একটি নৈকট্য ম্যাট্রিক্সের অনেকগুলি প্রয়োগে, যেমন ক্লাস্টার বিশ্লেষণের অনেকগুলি পদ্ধতিতে, ফলাফল পরিবর্তন হবে না বা লিনিয়ার (এমনকি কখনও কখনও এমনকি একঘেয়েটির অধীনেও) নিকটবর্তী হওয়ার পরিবর্তে সহজেই পরিবর্তিত হবে, এটি প্রদর্শিত হয় একটি বিশাল সংখ্যককে ন্যায্যতাযুক্ত করা যেতে পারে একই বা অনুরূপ ফলাফল পেতে ডাইসের পাশাপাশি বাইনারি পদক্ষেপগুলি। তবে আপনাকে প্রথমে বিবেচনা / অন্বেষণ করা উচিত যে নির্দিষ্ট পদ্ধতিটি (উদাহরণস্বরূপ শ্রেণিবিন্যাসের একটি সংযোগ ) কীভাবে নৈকট্য প্রদত্ত রূপান্তরটিতে প্রতিক্রিয়া দেখায়।

যদি আপনার পরিকল্পিত ক্লাস্টারিং বা এমডিএস বিশ্লেষণ দূরত্বের একঘেয়ে রূপান্তর সম্পর্কে সংবেদনশীল হয় তবে আপনি উপরের সারণীতে "একঘেয়ে" হিসাবে চিহ্নিত পদক্ষেপগুলি ব্যবহার করা থেকে ভাল এড়াতে পারেন (এবং এইভাবে হ্যাঁ, জ্যাকার্ডের সাদৃশ্য বা ডামির সাথে ইউক্লিডিয়ান দূরত্ব ব্যবহার করা ভাল ধারণা নয়) , অর্থাত্ প্রাক্তন নামমাত্র, গুণাবলী)।


হ্যাঁ আপনি মানগুলি সঠিক বলেছেন .. সুতরাং একটি বৈশিষ্ট্যের তিনটি সম্ভাব্য মান রয়েছে
জেন দো

2
ধরুন আমার কাছে একই বৈশিষ্ট্যের দুটি মান রয়েছে, "বল", "নল", "পল" এবং আমি এটিকে 11 01 এবং 00 তে রূপান্তর করি I আমি জ্যাকার্ডের দূরত্ব 11 এবং 00 এর মধ্যে পরিমাপ করতে চাই this এই ক্ষেত্রে, তারপর দূরত্ব 1? যেহেতু a = 0 b = 2 c = 0 এবং d = 0? আমাকে বুঝতে দাও!
জেন দো

আমি আপনার শেষ মন্তব্যটির বিন্দু মিস করছি। স্পষ্টভাবে জিজ্ঞাসা করুন। অথবা আমার উপরের উদাহরণের ডেটাটি 5 জন এবং 2 নামমাত্র বৈশিষ্ট্য সহ ব্যবহার করুন এবং কোন ব্যক্তিটির সাথে আপনি আমাকে তুলনা করতে চান এবং কোন ডিস (সাম্য) দিয়ে পরিমাপ করবেন তা বলুন।
ttnphns
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.