পারস্পরিক সম্পর্ককে দূরত্বের মেট্রিক হিসাবে ব্যবহার করুন (শ্রেণিবিন্যাসের ক্লাস্টারিংয়ের জন্য)


22

আমি আমার ডেটা হায়ারার্কিকভাবে ক্লাস্টার করতে চাই, তবে ইউক্লিডিয়ান দূরত্ব ব্যবহার না করে, আমি পারস্পরিক সম্পর্ক ব্যবহার করতে চাই। এছাড়াও, যেহেতু আমার গবেষণায় -1 এবং 1 উভয় "সহ-নিয়ন্ত্রণ" নির্দেশ করে সহ-সম্পর্কিত সহগের সীমা -1 থেকে 1, সুতরাং আমি -1 এবং 1 উভয়কে ডি = 0 হিসাবে গণ্য করছি। সুতরাং আমার গণনা =1-|R|

আমি (সংক্রান্ত K-মানে ক্লাস্টারিং) একটি পৃথক প্রশ্নে পড়া, আপনি রূপান্তর করা উচিত সত্য ইউক্লিডিয় মধ্যে কোসাইন উপপাদ্য ব্যবহার করছে:=2(1-R)

শ্রেণিবিন্যাসের ক্লাস্টারিংয়ের জন্য পারস্পরিক সম্পর্ককে দূরত্বে রূপান্তর করার সবচেয়ে সঠিক উপায় কী?


3
হ্যাঁ, সম্ভাব্য একটি - এবং জ্যামিতিকভাবে সত্য উপায় - এটিই শেষ সূত্র। তবে আপনি যদি এর চিহ্নটি আপনার কাছে বিবেচনা করে তা উপেক্ষা করতে পারেন , যাতে d 2 = 2 ( 1 - | r | ) । বেশিরভাগ ক্ষেত্রে আপনি ক্লাস্টারিংয়ের ফলাফলগুলিকে প্রভাবিত না করে নিরাপদে ২ টি ড্রপ করতে পারেন । দূরত্বটিকে স্কোয়ারড ইউক্লিডিয়ান হিসাবে বিবেচনা করা যেতে পারে । ইন এই থ্রেড এটা আলোচনা করেন কিনা দূরত্ব-রূপান্তরিত পারস্পরিক সম্পর্ক পরিমাপ করে মেট্রিক দূরত্বের হয়। R2=2(1-|R|)2
ttnphns

2
এছাড়াও, আপনি না আছে সবসময় রূপান্তর করতে একটি রৈখিক অনৈক্য মধ্যে যেমন ইউক্লিডিয় দূরত্ব হিসাবে। মানুষ খুব সহজেই আর বা এর উপর ভিত্তি করে ক্লাস্টারিং করে না r | সাদৃশ্য হিসাবে; এটি কৌণিক মিলRR|R|
ttnphns

উত্তর:


21

শ্রেণিবদ্ধ ক্লাস্টারিংয়ের জন্য প্রয়োজনীয়তা

হায়ারার্কিকাল ক্লাস্টারিং স্বেচ্ছাসেবী মিল এবং ভিন্নতা ব্যবস্থার সাথে ব্যবহার করা যেতে পারে। (বেশিরভাগ সরঞ্জামগুলি ভিন্নতার প্রত্যাশা করে তবে নেতিবাচক মানগুলিকে অনুমতি দেবে - ছোট বা বড় মূল্যবানদের পছন্দ করা হবে কিনা তা নিশ্চিত করা আপনার পক্ষে you)

শুধুমাত্র সেন্ট্রয়েড বা বৈকল্পের উপর ভিত্তি করে পদ্ধতিগুলি (যেমন ওয়ার্ডের পদ্ধতি) বিশেষ এবং স্কোয়্যার ইউক্লিডিয়ান ব্যবহার করা উচিত। (কেন তা বুঝতে, দয়া করে এই লিঙ্কগুলি সাবধানে অধ্যয়ন করুন))

একক-লিঙ্কেজ, গড়-লিঙ্কেজ, সম্পূর্ণ লিঙ্কেজ খুব বেশি প্রভাবিত হয় না, এটি এখনও জোড়ায়িত ভিন্নতার ন্যূনতম / গড় / সর্বোচ্চ হবে।

দূরত্ব পরিমাপ হিসাবে সম্পর্ক

আপনি আপনার ডেটা preprocess থাকেন ( এন পর্যবেক্ষণ, পি যেমন প্রতিটি বৈশিষ্ট্য আছে যা বৈশিষ্ট্য) μ=0 এবং σ=1 (যা নামঞ্জুর করে ধ্রুবক বৈশিষ্ট্যসমূহ!), তারপর পারস্পরিক সম্পর্ক কোসাইন থেকে হ্রাস:

Corr(এক্স,ওয়াই)=Cov(এক্স,ওয়াই)σএক্সσওয়াই=[(এক্স-μএক্স)(ওয়াই-μওয়াই)]σএক্সσওয়াই=[এক্সওয়াই]=1এনএক্স,ওয়াই

একই পরিস্থিতিতে, স্কোয়ারড ইউক্লিডিয়ান দূরত্ব কোজিনেও হ্রাস করে:

ইউক্লিড্2(এক্স,ওয়াই)=Σ(এক্সআমি-ওয়াইআমি)2=Σএক্সআমি2+ +Σওয়াইআমি2-2Σএক্সআমিওয়াইআমি=2এন-2এক্স,ওয়াই=2এন[1-Corr(এক্স,ওয়াই)]

অতএব, আপনার ডেটা অবক্ষয় না হওয়া অবধি হায়ারারিকাল ক্লাস্টারিংয়ের সাথে সম্পর্কিত ব্যবহার করা ঠিক হবে okay উপরে বর্ণিত হিসাবে এটি কেবল প্রাকপ্রসেস করুন, তারপরে স্কোয়ারড ইউক্লিডিয়ান দূরত্ব ব্যবহার করুন।


1
Only ward's method is special, and should be used with squared Euclidean। শুধু ওয়ার্ডের নয়। জ্যামিতিক নির্ভুলতার জন্য যেকোন পদ্ধতির সেন্ট্রয়েডগুলি থেকে সেন্ট্রয়েডগুলি বা বিচ্যুতিগুলির জন্য ইউক্লিডিয়ান বা স্কোয়ার্ড ইউক্লিডিয়ান (প্রয়োগের উপর নির্ভর করে) দূরত্বের প্রয়োজন হবে। এ জাতীয় ক্ষতি এবং যথাযথ সতর্কতার সাথে, এগুলি অন্যান্য মেট্রিক দূরত্বের সাথে ব্যবহার করা যেতে পারে। সেই পদ্ধতিগুলি হ'ল সেন্ট্রয়েড, "মিডিয়ান", ওয়ার্ডের, ভেরিয়েন্স (ওয়ার্ডের সাথে বিভ্রান্ত হওয়ার দরকার নেই!) এবং আরও কিছু।
ttnphns

ধন্যবাদ, আমি আরও স্পষ্ট করে তুলেছি আমি এই প্রকরণগুলি সম্পর্কে অবগত ছিলাম না, আমি কেবল একক / গড় / সম্পূর্ণ / ওয়ার্ডের কথা ভাবছিলাম।
অ্যানি-মাউস

1
,আমিমি
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.