এই পারস্পরিক সম্পর্ক ভিত্তিক দূরত্বগুলির জন্য কি ত্রিভুজ বৈষম্য পূরণ হয়?


13

শ্রেণিবদ্ধ ক্লাস্টারিংয়ের জন্য আমি প্রায়শই দুটি এবং এলোমেলো ভেরিয়েবল X এবং মধ্যবর্তী দূরত্ব পরিমাপ করার জন্য নিম্নলিখিত দুটি "মেট্রিক" (তারা ঠিক বলছেন না) দেখতে পাই Y: \ {align} d_1 (X, Y) & = 1- | \ Cor (X, Y) |, \\ d_2 (X, Y) & = 1 - (\ Cor (X, Y)) ^ 2 \ end {align either হয় হয় এক ত্রিভুজ অসমতা পূরণ? যদি তাই হয় তবে আমি কীভাবে এটি কেবলমাত্র একটি ব্রুটফোর্স গণনা করা ছাড়া অন্য প্রমাণ করব? যদি তারা মেট্রিক না হয় তবে একটি সহজ পাল্টা উদাহরণ কী?

d1(X,Y)=1|Cor(X,Y)|,d2(X,Y)=1(Cor(X,Y))2

আপনি এই কাগজটি পর্যালোচনা করতে আগ্রহী হতে পারেন: arxiv.org/pdf/1208.3145.pdf
ক্রিস

উত্তর:


5

ত্রিভুজ বৈষম্য আপনার এর উপর d1 উত্পাদ হবে:

d1(X,Z)d1(X,Y)+d1(Y,Z)1|Cor(X,Z)|1|Cor(X,Y)|+1|Cor(Y,Z)||Cor(X,Y)|+|Cor(Y,Z)|1+|Cor(X,Z)|

এটি পরাজয় করা বেশ সহজ বৈষম্য বলে মনে হচ্ছে। X এবং Z স্বতন্ত্র করে আমরা ডান হাতটিকে যতটা সম্ভব ছোট (ঠিক এক) করতে পারি । তারপরে আমরা কী এমন কোনও ওয়াই খুঁজে পেতে পারি Yযার জন্য বাম-হাতটি একের বেশি?

যদি এবং এবং অভিন্ন ভ্যারিয়েন্স, তারপর আছে এবং একইভাবে জন্য , তাই বাম দিকটি একের উপরে ভাল এবং বৈষম্য লঙ্ঘিত হয়েছে। আরে এই লঙ্ঘনের উদাহরণ, যেখানে এবং একটি মাল্টিভারিয়েট সাধারণের উপাদান:X Z C o r ( X , Y ) = Y=X+ZXZসিআর(ওয়াই,জেড)এক্সজেডCor(X,Y)=220.707Cor(Y,Z)XZ

library(MASS)
set.seed(123)
d1 <- function(a,b) {1 - abs(cor(a,b))}

Sigma    <- matrix(c(1,0,0,1), nrow=2) # covariance matrix of X and Z
matrixXZ <- mvrnorm(n=1e3, mu=c(0,0), Sigma=Sigma, empirical=TRUE)
X <- matrixXZ[,1] # mean 0, variance 1
Z <- matrixXZ[,2] # mean 0, variance 1
cor(X,Z) # nearly zero
Y <- X + Z

d1(X,Y) 
# 0.2928932
d1(Y,Z)
# 0.2928932
d1(X,Z)
# 1
d1(X,Z) <= d1(X,Y) + d1(Y,Z)
# FALSE

যদিও নোট করুন যে এই আপনার সাথে কাজ করে না :d2

d2 <- function(a,b) {1 - cor(a,b)^2}
d2(X,Y) 
# 0.5
d2(Y,Z)
# 0.5
d2(X,Z)
# 1
d2(X,Z) <= d2(X,Y) + d2(Y,Z)
# TRUE

তে তাত্ত্বিক আক্রমণ চালিয়ে , এই পর্যায়ে আমি আর- এ কোভারিয়েন্স ম্যাট্রিক্সের সাথে খেলা করা খুব সহজ খুঁজে পেলাম যতক্ষণ না একটি দুর্দান্ত কাউন্টারিক্স নমুনা বের হয়ে যায়। মঞ্জুরি , এবং দেয়:V a r ( X ) = 2 V a r ( Z ) = 1 C o v ( X , Z ) = 1d2SigmaVar(X)=2Var(Z)=1Cov(X,Z)=1

Var(Y)=Var(X+Y)=Var(X)+Var(Z)+2Cov(X,Z)=2+1+2=5

আমরা সমবায়ীরা তদন্ত করতে পারি:

সি ভি ( ওয়াই , জেড) ) = সি ভি ( এক্স + জেড , জেড)

Cov(X,Y)=Cov(X,X+Z)=Cov(X,X)+Cov(X,Z)=2+1=3
Cov(Y,Z)=Cov(X+Z,Z)=Cov(X,Z)+Cov(Z,Z)=1+1=2

স্কোয়ার সম্পর্কিত সম্পর্কগুলি তখন:

Cor(X,Z)2=Cov(X,Z)2Var(X)Var(Z)=122×1=0.5
Cor(X,Y)2=Cov(X,Y)2Var(X)Var(Y)=322×5=0.9
Cor(Y,Z)2=Cov(Y,Z)2Var(Y)Var(Z)=225×1=0.8

তারপরে যখন এবং তাই ত্রিভুজ যথেষ্ট পরিমাণে লঙ্ঘিত হয়।d2(X,Z)=0.5d2(X,Y)=0.1d2(Y,Z)=0.2

Sigma    <- matrix(c(2,1,1,1), nrow=2) # covariance matrix of X and Z
matrixXZ <- mvrnorm(n=1e3, mu=c(0,0), Sigma=Sigma, empirical=TRUE)
X <- matrixXZ[,1] # mean 0, variance 2
Z <- matrixXZ[,2] # mean 0, variance 1
cor(X,Z) # 0.707
Y  <- X + Z
d2 <- function(a,b) {1 - cor(a,b)^2}
d2(X,Y) 
# 0.1
d2(Y,Z)
# 0.2
d2(X,Z)
# 0.5
d2(X,Z) <= d2(X,Y) + d2(Y,Z)
# FALSE

5

আমাদের তিনটি ভেক্টর থাকতে পারে (এটি ভেরিয়েবল বা ব্যক্তি হতে পারে) , এবং । এবং আমরা তাদের প্রত্যেককে জেড-স্কোর (মানে = 0, ভেরিয়েন্স = 1) এ মানক করে দিয়েছি।XYZ

তারপরে কোসাইন উপপাদ্য ("কোস্টিনের আইন") অনুসারে দুটি মানকৃত ভেক্টর (বলুন, এক্স এবং ওয়াই) এর মধ্যে , , যেখানে , কোসাইন আদল, হয় পিয়ারসন ভেক্টর Z-প্রমিতকরণ কারণে। আমরা আমাদের বিবেচনা থেকে ধ্রুবক গুণকটি নিরাপদে বাদ দিতে পারি ।dXY2=2(n1)(1cosXY)cosXYrXY2(n1)

সুতরাং, এটি আসে যে প্রশ্নটিতেসূত্রটি পারস্পরিক সম্পর্ক সহগের চিহ্নটিকে উপেক্ষা না করা হলে স্কোয়ারড ইউক্লিডিয়ান দূরত্ব হবে।d1(X,Y)=1|Cor(X,Y)|

ম্যাট্রিক্স হলে s গ্রামীণ (ধনাত্মক সেমিাইডাইফিনেট) হয় তবে "ডি 1" দূরত্বের বর্গমূলটি ইউক্লিডিয়ান দূরত্ব হয়, যা অবশ্যই মেট্রিক। বড় ম্যাট্রিক নেই এটি প্রায়শই একটি কেস বা কেস এর কাছাকাছি হয় যখন ইউক্যালিডিয়ান স্পেসে দূরত্বগুলি ভাল রূপান্তর থেকে খুব বেশি দূরে থাকে না। যেহেতু মেট্রিক ইউক্যালিডের চেয়ে বৃহত্তর শ্রেণি, তাই প্রদত্ত ম্যাট্রিক্সের দূরত্বের "স্কয়ার্ট (ডি 1)" বেশিরভাগ সময় মেট্রিক উপস্থিত হওয়ার প্রত্যাশা করতে পারে।|r||r|

প্রতি সেটের জন্য "ডি 1", যা স্কোয়ারড ইউক্লিডিয়ান দূরত্বের "মত" , এটি অবশ্যই মেট্রিক নয়। এমনকি সত্য স্কোয়ারড ইউক্লিডিয়ান দূরত্ব মেট্রিক নয়: এটি কখনও কখনও ত্রিভুজ অসমতার নীতি লঙ্ঘন করে। [গুচ্ছ বিশ্লেষণে, স্কোয়ারড ইউক্লিডিয়ান দূরত্বটি প্রায়শই ব্যবহৃত হয়; তবে, এরকম বেশিরভাগ ক্ষেত্রে প্রকৃতপক্ষে অংকিত দূরত্বের বিশ্লেষণকে বোঝানো হয়, বর্গক্ষেত্রগুলি গণনার জন্য কেবল একটি সুবিধাজনক ইনপুট]] এটি দেখতে (স্কোয়ারড ইউক্যালিডিয়ান সম্পর্কে ), আমাদের তিনটি ভেক্টর আঁকুন।d

এখানে চিত্র বর্ণনা লিখুন

ভেক্টরগুলি ইউনিট-দৈর্ঘ্য (কারণ মানক)। কোণগুলির কসাইনগুলি ( , , pha ) যথাক্রমে , , হয়। : এই কোণ ভেক্টর মধ্যে ইউক্লিডিয় দুরুত্ব সংশ্লিষ্ট ছড়িয়ে , , । সরলতার জন্য, তিনটি ভেক্টর সমস্ত একই প্লেনে রয়েছে (এবং তাই এবং মধ্যবর্তী কোণটি অন্য দুটি, যোগফল )। এটি এমন অবস্থান যেখানে দূরত্ব বর্গাকার দ্বারা ত্রিভুজ অসমতার লঙ্ঘন সর্বাধিক সুস্পষ্ট।αβα+βrXYrXZrYZdXYdXZdYZXZα+β

কারণ, আপনি চোখের সাথে দেখতে পাচ্ছেন, সবুজ বর্গক্ষেত্র অঞ্চলটি দুটি লাল স্কোয়ারের যোগফলকে : ।dYZ2>dXY2+dXZ2

সুতরাং সম্পর্কিত

d1(X,Y)=1|Cor(X,Y)|

দূরত্ব আমরা বলতে পারি এটি মেট্রিক নয়। কারণ এমনকি যখন সমস্ত গুলি মূলত ইতিবাচক ছিল তবে দূরত্ব হ'ল ইউক্লিডিয়ান যা নিজেই মেট্রিক নয়।rd2

দ্বিতীয় দূরত্ব সম্পর্কে কি?

d2(X,Y)=1(Cor(X,Y))2

ভেক্টরগুলির ক্ষেত্রে যেহেতু পারস্পরিক সম্পর্ক , তাই হ'ল । (বস্তুত, হয় একটি রৈখিক নির্ভরণ, একটি পরিমাণ যা কিছু নির্ভরশীল ভেরিয়েবলের স্কোয়ারড কোরিলেশন লম্ব predictor করার।) যে ক্ষেত্রে ভেক্টর Sines আঁকা এবং সেগুলি মনে ছক (কারণ আমরা দূরত্বটি যা ) সম্পর্কে কথা বলছে :rcos1r2sin21r2SSerror/SStotalsin2

এখানে চিত্র বর্ণনা লিখুন

যদিও এটি দৃশ্যত বেশ স্পষ্ট নয়, তবে সবুজ বর্গক্ষেত্র আবার লাল অঞ্চলের যোগফল ।sinYZ2sinXY2+sinXZ2

এটা প্রমাণিত হতে পারে। বিমানে, । আমরা আগ্রহী হওয়ায় উভয় পক্ষকে স্কোয়ার করুন ।sin(α+β)=sinαcosβ+cosαsinβsin2

sin2(α+β)=sin2α(1sin2β)+(1sin2α)sin2β+2sinαcosβcosαsinβ=sin2α+sin2β2[sin2αsin2β]+2[sinαcosαsinβcosβ]

শেষ অভিব্যক্তিটিতে দুটি গুরুত্বপূর্ণ পদটি বন্ধনীযুক্ত দেখানো হয়েছে। যদি দুজনের দ্বিতীয়টি প্রথমটির চেয়ে বড় হয় (বা হতে পারে) তবে এবং "ডি 2" দূরত্ব লঙ্ঘন করে ত্রিভুজাকার বৈষম্য। এবং এটি আমাদের ছবিতেও রয়েছে যেখানে প্রায় 40 ডিগ্রি এবং প্রায় 30 ডিগ্রি হয় (পদ 1 হয় এবং 2 পদ হয় )। "ডি 2" মেট্রিক নয়।α βsin2(α+β)>sin2α+sin2βαβ.1033.2132

"ডি 2" দূরত্বের বর্গমূল - সাইন ভিন্নতা পরিমাপ - যদিও মেট্রিক (আমি বিশ্বাস করি)। আপনি নিশ্চিত করতে আমার বৃত্তে বিভিন্ন এবং কোণ দিয়ে খেলতে পারেন। "ডি 2" নন-কলিনারি সেটিংয়ে (যেমন বিমানে তিনজন ভেক্টর নেই) মেট্রিক দেখানো হবে কিনা - আমি এই মুহুর্তে বলতে পারছি না, তবে আমি এটি অস্থায়ীভাবে মনে করি এটি হবে।বিটাαβ


3

এই প্রিপ্রিন্টটিও দেখুন যা আমি লিখেছি: http://arxiv.org/abs/1208.3145 । আমার এখনও সময় নিতে হবে এবং এটি সঠিকভাবে জমা দিতে হবে। বিমূর্ত:

আমরা মেট্রিক-সংরক্ষণের ফাংশনগুলির সহজ সরঞ্জামটি ব্যবহার করে কোটোজিন মিলের দুটি শ্রেণীর রূপান্তর এবং পিয়ারসন এবং স্পিয়ারম্যান পারস্পরিক সম্পর্ককে মেট্রিক দূরত্বে তদন্ত করি। প্রথম শ্রেণি বিরোধী-সম্পর্কযুক্ত বস্তুকে সর্বাধিক দূরে রাখে। পূর্বে পরিচিত রূপান্তরগুলি এই শ্রেণীর মধ্যে পড়ে। দ্বিতীয় শ্রেণীর কোলেটেটেড এবং অ্যান্টি-কোলেস্টেড অবজেক্টগুলি কোলাজ করে। কেন্দ্রিক ডেটা প্রয়োগ করার সময় একটি পরিবর্তনীয় উদাহরণ যা একটি মেট্রিক দূরত্ব দেয় তা হ'ল সাইন ফাংশন।

আপনার প্রশ্নের জন্য ফল যে D1 , D2 প্রকৃতপক্ষে মেট্রিক্স নয় এবং যে বর্গমূল D2 একটি সঠিক মেট্রিক আসলে।


2

না।

সবচেয়ে সহজ পাল্টা উদাহরণ:

জন্য দূরত্ব এ সব সংজ্ঞায়িত করা হয় না, যাই হোক না কেন আপনার হয়।YX=(0,0)Y

যে কোনও ধ্রুবক সিরিজের স্ট্যান্ডার্ড বিচ্যুতি এবং এটি সংজ্ঞায় শূন্য দ্বারা বিভাজন ঘটায় ...সি আরσ=0Cor

বেশিরভাগ ক্ষেত্রে এটি কোনও ধ্রুবক সিরিজ সহ ডেটা স্পেসের একটি উপসেটে একটি মেট্রিক।


ভাল যুক্তি! আমার অবশ্যই এটি অন্য কোথাও উল্লিখিত প্রাক-মুদ্রণে উল্লেখ করতে হবে।
mican
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.