মিশ্র প্রকারের ডেটা সহ শ্রেণিবিন্যাসের ক্লাস্টারিং - কোন দূরত্ব / মিল ব্যবহার করতে হবে?


34

আমার ডেটাসেটে আমাদের দুটি ধারাবাহিক এবং প্রাকৃতিকভাবে পৃথক পৃথক ভেরিয়েবল রয়েছে। আমি জানতে চাই যে আমরা উভয় প্রকারের ভেরিয়েবল ব্যবহার করে শ্রেণিবদ্ধ ক্লাস্টারিং করতে পারি কিনা। এবং যদি হ্যাঁ, তবে কোন দূরত্ব পরিমাপ উপযুক্ত?


আপনি কি সফ্টওয়্যার ব্যবহার করছেন?
Rolando2

@ রোল্যান্ডো 2: আমি আর (এইচসিএলএস প্যাকেজ) ব্যবহার করছি।
বিটা

1
শ্রেণিবদ্ধ ক্লাস্টারিং ব্যবহার করার কোনও কারণ আছে কি?
সানকুলসু

নার। আমি আমার জ্ঞানের খাতিরে এই প্রশ্নটি করছি asking আমরা যখন মিশ্রিত ডেটা টাইপ করি তখন আমরা কি শ্রেণিবিন্যাস করতে পারি। যদি হ্যাঁ, তবে কেন? যদি না হয় তবে কেন?
বিটা

@ ব্যবহারকারী 4278 ঠিক আছে, আপনার লক্ষ্যটি কি ঠিক আছে ? আপনি কি গোষ্ঠীগুলি সনাক্ত করতে চাইছেন (ব্যক্তিদের)?
chl

উত্তর:


45

একটি উপায় হ'ল গওয়ার সমতা সহগ ব্যবহার করা যা একটি যৌগিক পরিমাপ 1 ; এটি পরিমাণগত (যেমন রেটিং স্কেল), বাইনারি (যেমন বর্তমান / অনুপস্থিত) এবং নামমাত্র (যেমন কর্মী / শিক্ষক / কেরানি) পরিবর্তনশীল লাগে। পরবর্তীতে পোদানি 2 পাশাপাশি সাধারণ ভেরিয়েবলগুলি গ্রহণের জন্য একটি বিকল্প যুক্ত করেছে।12

সূত্র ছাড়াও সহগ সহজেই বোঝা যায়; আপনি প্রতিটি ভেরিয়েবল দ্বারা ব্যক্তির মধ্যে সাদৃশ্য মানটি গণনা করে ভেরিয়েবলের ধরণটিকে বিবেচনায় আনেন এবং তারপরে গড়গুলি সমস্ত ভেরিয়েবল জুড়ে গড়ে তুলুন। সাধারণত, গওয়ারের গণনা করা একটি প্রোগ্রাম আপনাকে যৌগিক সূত্রে ভেরিয়েবল, অর্থাৎ তাদের অবদানের ওজন দিতে দেয়। তবে বিভিন্ন ধরণের ভেরিয়েবলের যথাযথ ওজন একটি সমস্যা , কোনও পরিষ্কার-নির্দেশিকা নির্দেশ নেই, যা গাওয়ার বা অন্যান্য "সম্মিলিত" সূচকগুলির নিকটবর্তী হওয়ার সূচকগুলিকে তৈরি করে।

উত্পাদক মিল ( জিএস ) এর দিকগুলি :

  • যখন সমস্ত ভেরিয়েবলগুলি পরিমাণগত (অন্তর) হয় তখন সহগ হ'ল পরিসীমা-নরমালাইজড ম্যানহাটনের দূরত্বকে সাদৃশ্য হিসাবে রূপান্তরিত করে। সাধারণকরণের কারণে বিভিন্ন ইউনিটের ভেরিয়েবলগুলি নিরাপদে ব্যবহার করা যেতে পারে। আপনার অবশ্য বহিরাগতদের ভুলে যাওয়া উচিত নয়। (আপনি পরিসরের চেয়ে স্প্রেডের অন্য কোনও ব্যবস্থার দ্বারাও সাধারণীকরণের সিদ্ধান্ত নিতে পারেন)) কারণ কোনও পরিসংখ্যান দ্বারা পরিসর হিসাবে কথিত সাধারণীকরণের কারণে, যা কিছু দুটি ব্যক্তির মধ্যে ডেটাसेट গওয়ারের মিলের মধ্যে ব্যক্তির গঠনের সংবেদনশীল, এর মান পরিবর্তন করতে পারে আপনি যদি ডেটাতে কিছু অন্য ব্যক্তিকে সরিয়ে বা যুক্ত করেন।
  • যখন সমস্ত ভেরিয়েবলগুলি অর্ডিনাল হয়, তারপরে সেগুলি প্রথমে র‌্যাঙ্ক করা হয় এবং তারপরে ম্যানহাটানকে গুণগত ভেরিয়েবলগুলির সাথে উপরে হিসাবে গণনা করা হয় তবে বন্ধনের জন্য বিশেষ সমন্বয় করা হয়।
  • যখন সমস্ত ভেরিয়েবলগুলি বাইনারি হয় (বিভাগগুলির একটি অসামঞ্জস্যপূর্ণ তাত্পর্য সহ: "উপস্থিত" বনাম "অনুপস্থিত" গুণাবলী) তখন সহগটি হ'ল জ্যাকার্ডের মিলের সহগ (যখন উভয় ব্যক্তিরই মিল নেই বা মিল নেই বলে গুণটির অভাব হয় তখন এই সহগ হয়)।
  • সমস্ত ভেরিয়েবল যখন নামমাত্র হয় (সাথে সাথে এখানে প্রতিসম তাত্পর্যপূর্ণ দ্বিধাত্বিক বৈশিষ্ট্যও রয়েছে: "এই" বনাম "যে") তবে সহগটি হ'ল ডাইস ম্যাচিং সহগ যা আপনি আপনার নামমাত্র ভেরিয়েবলগুলি থেকে ডামি ভেরিয়েবলগুলিতে পুনঃনির্মাণ করা হলে (আরও এই উত্তর দেখুন) ।

(প্রকারের তালিকাটি প্রসারিত করা সহজ example উদাহরণস্বরূপ, সাধারণ গতিযুক্ত চি-স্কোয়ার্ড দূরত্বকে একইরূপে রূপান্তরিত করে কাউন্ট ভেরিয়েবলের যোগফল যোগ করতে পারে))

সহগ 0 এবং 1 এর মধ্যে রয়েছে।

1-জিএস1-জিএস1-জিএস1-জিএস

ইউক্লিডিয়ান দূরত্ব (ইউক্লিডিয়ান স্পেসকে সমর্থনকারী দূরত্বগুলি) সহ কার্যত কোনও ক্লাসিক ক্লাস্টারিং কৌশলটি করবে। কে- মানেগুলি সহ (যদি আপনার কে-মানে প্রোগ্রাম অবশ্যই দূরত্বের ম্যাট্রিকগুলি প্রসেস করতে পারে) এবং ওয়ার্ডস, সেন্ট্রয়েড, হায়ারারিকাল ক্লাস্টারিংয়ের মাঝারি পদ্ধতিগুলি সহ । ন-ইউক্লিডিয়ান সহ ইউক্লিডিয়ান দূরত্বের ভিত্তিতে কে-মানে বা অন্যান্য পদ্ধতিগুলি ব্যবহার করা এখনও মেট্রিক দূরত্ব হ'ল হিউরিস্টিকভাবে মান্যযোগ্য, সম্ভবত। অ-মেট্রিক দূরত্ব সহ, এই জাতীয় কোনও পদ্ধতি ব্যবহার করা যাবে না।

অথবা যদি কে-উপায় বা ওয়ার্ড এর বা এই ধরনের ক্লাস্টারিং বৈধ সম্পর্কে পূর্ববর্তী অনুচ্ছেদ আলোচনা না গাওয়ার দূরত্ব সঙ্গে গাণিতিকভাবে (জ্যামিতিক)। থেকে পরিমাপ মাপের ( "সাইকোমেট্রিক") দৃশ্য এক বিন্দু কোনো নিঃশর্ত এটা থেকে গড় বা ইউক্লিডিয় দূরবর্তী ডেভিয়েশন (নামমাত্র, বাইনারি, সেইসাথে পূরণবাচক) ডেটা গনা করা উচিত নয়; অতএব এই অবস্থান থেকে আপনি কে-ইনস, ওয়ার্ড ইত্যাদি দ্বারা উত্পাদক সহগের প্রক্রিয়াজাত করতে পারবেন না view এই দৃষ্টিভঙ্গি সতর্ক করে যে কোনও ইউক্যালিডিয়ান স্থান উপস্থিত থাকলেও এটি দানাদার হতে পারে, মসৃণ নয় ( সম্পর্কিত দেখুন )।


1

2


ধন্যবাদ ttnphns! আপনি কি দয়া করে আমাকে বলতে পারবেন যে "গওয়ারের অনুরূপ সহগ" হ'ল এইচসিএলএস প্যাকেজে সংহত হয়েছে? আর-তে এমন কোনও প্যাকেজ রয়েছে যা এর কার্যকারিতা রয়েছে।
বিটা

আমি আর ব্যবহারকারী নই তাই জানিও না, এবং ভাববেন না যে আপনি এটি hclus এ পাবেন। তবে আপনি যদি গুগল "গওয়ারের মিলের আর" করেন তবে আপনার যা প্রয়োজন তা খুঁজে পেতে নিশ্চিত হন!
ttnphns

ইউজার ৪৪78 SP, আপনি যদি এসপিএস থেকে সরে না যান তবে আমার ওয়েব পৃষ্ঠায় গওয়ারের মিলের জন্য আমার একটি ম্যাক্রো রয়েছে। এটি ওজন এবং নিখোঁজ ডেটা গ্রহণ করে।
ttnphns

@ ব্যবহারকারী 4278 বিশেষত আর সম্পর্কে আরম্ভ করুন: এখানে শুরু করুন: cran.r-project.org/web/views/En
वातावरणমেট্রিক্স

@ এনটিএনফএনস: আপনাকে ধন্যবাদ! আমি আপনাকে ওয়েবসাইট পরিদর্শন করেছি এবং এটি এসপিএসের জন্য একটি দুর্দান্ত উত্স। তবে দুর্ভাগ্যক্রমে আমি এসপিএসএস খুব বেশি ব্যবহার করি না। আর আমি আর কিছু না পেয়ে অবশ্যই অবশ্যই এটি ব্যবহার করব @ @ chl: আপনাকে ধন্যবাদ! তবে এটি একটি বিশাল তালিকা। আমি কোথাও পড়েছি যে ক্লাস্টার প্যাকেজে ডেইজি, গওয়ারের মিলের কার্যকারিতা রয়েছে।
বিটা

15

আপনি যদি এই প্রশ্নটিতে হোঁচট খেয়ে থাকেন এবং ভাবছেন যে আর-তে গওয়ার মেট্রিক ব্যবহারের জন্য কোন প্যাকেজটি ডাউনলোড করবেন , clusterপ্যাকেজে ডেইজি () নামে একটি ফাংশন রয়েছে যা মিক্সড ধরণের ভেরিয়েবল ব্যবহার করার সময় ডিফল্টরূপে গওয়ারের মেট্রিক ব্যবহার করে। অথবা আপনি এটি ম্যানুয়ালি গওয়ারের মেট্রিক ব্যবহার করতে সেট করতে পারেন।

daisy(x, metric = c("euclidean", "manhattan", "gower"),
      stand = FALSE, type = list(), weights = rep.int(1, p))

4
আরও Zhubarb এর উত্তর , যদি আপনি থেকে সব জোড়া মধ্যে গাওয়ার দূরত্বের চান দুই ডেটা সেট, তারপর আর প্যাকেজ দেখতে StatMatch
জেমস হিরসকর্ন
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.