আইএলআর (আইসোমেট্রিক লগ-অনুপাত) রূপান্তরটি কম্পোজিশনাল ডেটা বিশ্লেষণে ব্যবহৃত হয়। যে কোনও প্রদত্ত পর্যবেক্ষণ হ'ল unityক্যের সমষ্টিগত ধনাত্মক মানের একটি সেট, যেমন মিশ্রণে রাসায়নিকগুলির অনুপাত বা বিভিন্ন কার্যক্রমে ব্যয়িত মোট সময়ের অনুপাত। সম-থেকে-unityক্য আক্রমনকারী সূচিত করে যে প্রতিটি পর্যবেক্ষণে k≥2 উপাদান থাকতে পারে তবে কেবলমাত্র k−1 কার্যত স্বাধীন মান রয়েছে। (জ্যামিতিক, পর্যবেক্ষণ একটি শুয়ে k−1 -dimensional সিমপ্লেক্স মধ্যে k -dimensional ইউক্লিডিয় স্থান Rk। এই সরল প্রকৃতিটি নীচে প্রদর্শিত সিমুলেটেড ডেটার স্ক্যাটারপ্লটগুলির ত্রিভুজাকার আকারগুলিতে প্রকাশিত হয়।)
সাধারণত, লগের রূপান্তরিত হলে উপাদানগুলির বিতরণগুলি "ভাল" হয়ে যায়। এই রূপান্তরটি লগগুলি নেওয়ার আগে তাদের জ্যামিতিক গড় দ্বারা একটি পর্যবেক্ষণে সমস্ত মানকে ভাগ করে নেওয়া যায়। (সমানভাবে, যে কোনও পর্যবেক্ষণে ডেটাগুলির লগগুলি তাদের গড় বিয়োগ করে কেন্দ্রিক হয় This) এটি "কেন্দ্রের লগ-অনুপাত" রূপান্তর বা সিএলআর হিসাবে পরিচিত। ফলস্বরূপ মানগুলি Rk একটি হাইপারপ্লেনের মধ্যেই রয়েছে , কারণ স্কেলিংয়ের ফলে লগগুলির যোগফল শূন্য হয়। আইএলআর এই হাইপারপ্লেনের জন্য যে কোনও অরথনরমাল ভিত্তি বেছে নিয়ে গঠিত: প্রতিটি রূপান্তরিত পর্যবেক্ষণের k−1 স্থানাঙ্ক তার নতুন ডেটা হয়ে যায় become সমতুল্যভাবে, hyperplane অন্তর্ধান সঙ্গে সমতল সঙ্গে কাকতালীয়ভাবে আবর্তিত (বা প্রতিফলিত) kth স্থানাঙ্ক এবং এক প্রথমk−1 স্থানাঙ্কব্যবহার করে। (কারণ ঘূর্ণন এবং প্রতিচ্ছবি দূরত্ব সংরক্ষণ করে তারাআইসোমেট্রি, যেহেতু এই পদ্ধতির নাম))
তাসগ্রিস, প্রেস্টন এবং উড বলে যে " হেলমার্ট ম্যাট্রিক্স থেকে প্রথম সারিতে সরিয়ে হেলমার্ট সাব-ম্যাট্রিক্স হ'ল [ঘূর্ণন ম্যাট্রিক্স] H এর একটি মানক পছন্দ choice "
অর্ডার k এর হেলমার্ট ম্যাট্রিক্স একটি সহজ পদ্ধতিতে নির্মিত হয়েছে (উদাহরণস্বরূপ হার্ভিলির পৃষ্ঠা 86 দেখুন)। এর প্রথম সারিটি সমস্ত 1 টি। পরের সারিটি সবচেয়ে সহজ সরল যা প্রথম সারিতে অর্থোথোনাল তৈরি করা যেতে পারে, যথা (1,−1,0,…,0) । পূর্ববর্তী সমস্ত সারিগুলির মধ্যে সারি j সর্বাধিক সরলতমর মধ্যে রয়েছে: এর প্রথম j−1 এন্ট্রিগুলি 1 গুলি, যা গ্যারান্টি দেয় যে এটি 2 , 3 , … , জে - 1 সারিগুলিতে অরথগোনাল is2 , 3 , … , জে - 1 , এবং তার ঞমএন্ট্রি 1 সেট করা হয়1 - জেপ্রথম সারির অরথগোনাল করতে - জে(এটির জন্য এন্ট্রিগুলি শূন্যের সমষ্টি হতে হবে)। এরপরে সমস্ত সারি ইউনিট দৈর্ঘ্যে পুনরুদ্ধার করা হয়।
এখানে, নিদর্শনটি চিত্রিত করার জন্য, এর সারিগুলি পুনরুদ্ধার করার আগে হেলমার্ট ম্যাট্রিক্সটি 4 × 4 :
⎛⎝⎜⎜⎜11111- 11110- 21100- 3⎞⎠⎟⎟⎟.
(আগস্ট আগস্ট 2017 এডিট করুন) এই "বিপরীতে" এর একটি বিশেষ করে সুন্দর দিক (যা সারি সারি পাঠ্য হয়) তাদের ব্যাখ্যাযোগ্যতা। ডেটা উপস্থাপনের জন্য k−1 টি সারি রেখে প্রথম সারিটি ফেলে দেওয়া হয়েছে । দ্বিতীয় সারিটি দ্বিতীয় ভেরিয়েবল এবং প্রথমটির মধ্যে পার্থক্যের সমানুপাতিক। তৃতীয় সারিটি তৃতীয় ভেরিয়েবল এবং প্রথম দুটি মধ্যে পার্থক্যের সমানুপাতিক। সাধারণত, সারি j ( 2≤j≤k ) ভেরিয়েবল j এবং এর আগে যে সমস্তগুলি, ভেরিয়েবল 1 , 2 , … , জে - 1 এর মধ্যে পার্থক্য প্রতিফলিত করে1,2,…,j−1। এটি সমস্ত বৈপরীত্যের জন্য "বেস" হিসাবে প্রথম পরিবর্তনশীল j=1 ছেড়ে দেয় । প্রিন্সিপাল কম্পোনেন্ট অ্যানালাইসিস (পিসিএ) দ্বারা আইএলআর অনুসরণ করার সময় আমি এই ব্যাখ্যাগুলি সহায়ক বলে খুঁজে পেয়েছি: এটি মূল ভেরিয়েবলগুলির মধ্যে তুলনার ক্ষেত্রে লোডিংগুলিকে কমপক্ষে মোটামুটি ব্যাখ্যা করতে সক্ষম করে। আমি নীচের R
প্রয়োগের জন্য একটি লাইন প্রবেশ করিয়েছি ilr
যা এই ব্যাখ্যাটির সাথে সহায়তা করার জন্য আউটপুট ভেরিয়েবলগুলিকে উপযুক্ত নাম দেয়। (সম্পাদনার সমাপ্তি)
যেহেতু এই জাতীয় ম্যাট্রিক তৈরি করতে R
একটি ফাংশন সরবরাহ contr.helmert
করে (যদিও স্কেলিং ছাড়াই, এবং সারি এবং কলামগুলি উপেক্ষিত এবং স্থানান্তরিত করা হয়), আপনাকে এটি করার জন্য (সরল) কোডও লিখতে হবে না। এটি ব্যবহার করে, আমি আইএলআর বাস্তবায়ন করেছি (নীচে দেখুন)। এটি অনুশীলন এবং পরীক্ষা করার জন্য, আমি একটি ডিরিচলেট বিতরণ থেকে ( 1000, 1,2,3,4 পরামিতি ) স্বাধীন অঙ্কন তৈরি করেছিলাম এবং তাদের স্ক্র্যাপপ্লট ম্যাট্রিক্সের প্লট করেছি। এখানে, k=4 ।
পয়েন্টগুলি নীচের বাম কোণগুলির কাছাকাছি সমস্ত ঝাঁকুনি নির্দেশ করে এবং তাদের চক্রান্ত ক্ষেত্রগুলির ত্রিভুজাকার প্যাচগুলি পূরণ করে, যেমন রচনাগত তথ্যের বৈশিষ্ট্য।
তাদের আইএলআরটিতে মাত্র তিনটি ভেরিয়েবল রয়েছে, আবার স্ক্র্যাটারপ্লোট ম্যাট্রিক্স হিসাবে প্লট করা হয়েছে:
এটি প্রকৃতপক্ষে আরও সুন্দর দেখাচ্ছে: স্ক্র্যাটারপ্লটগুলি আরও বেশি বৈশিষ্ট্যযুক্ত "উপবৃত্তাকার মেঘ" আকারগুলি অর্জন করেছে, লিনিয়ার রিগ্রেশন এবং পিসিএ-র মতো দ্বিতীয়-ক্রমের বিশ্লেষণের পক্ষে আরও ভালভাবে উপযুক্ত।
01/2
1/2
এই জেনারালাইজেশন ilr
নীচের ফাংশনে প্রয়োগ করা হয় । এই "জেড" ভেরিয়েবলগুলি উত্পাদন করার কমান্ডটি সহজ ছিল
z <- ilr(x, 1/2)
বক্স-কক্স রূপান্তরের একটি সুবিধা হ'ল সত্য জিরোগুলি অন্তর্ভুক্ত পর্যবেক্ষণগুলিতে এটির প্রয়োগযোগ্যতা: প্যারামিটারটি ইতিবাচক হলে এটি এখনও সংজ্ঞায়িত।
তথ্যসূত্র
মিশেল টি.সাগ্রিস, সাইমন প্রেস্টন এবং অ্যান্ড্রু টিএ উড, কাঠামোগত তথ্যের জন্য ডেটা ভিত্তিক পাওয়ার ট্রান্সফর্মেশন । আরএক্সিভ: 1106.1451v2 [stat.ME] 16 জুন 2011।
ডেভিড এ। হারভিলে, স্ট্যাটাসিকের দৃষ্টিভঙ্গি থেকে ম্যাট্রিক্স বীজগণিত । স্প্রিঞ্জার সায়েন্স অ্যান্ড বিজনেস মিডিয়া, জুন 27, 2008
R
কোডটি এখানে ।
#
# ILR (Isometric log-ratio) transformation.
# `x` is an `n` by `k` matrix of positive observations with k >= 2.
#
ilr <- function(x, p=0) {
y <- log(x)
if (p != 0) y <- (exp(p * y) - 1) / p # Box-Cox transformation
y <- y - rowMeans(y, na.rm=TRUE) # Recentered values
k <- dim(y)[2]
H <- contr.helmert(k) # Dimensions k by k-1
H <- t(H) / sqrt((2:k)*(2:k-1)) # Dimensions k-1 by k
if(!is.null(colnames(x))) # (Helps with interpreting output)
colnames(z) <- paste0(colnames(x)[-1], ".ILR")
return(y %*% t(H)) # Rotated/reflected values
}
#
# Specify a Dirichlet(alpha) distribution for testing.
#
alpha <- c(1,2,3,4)
#
# Simulate and plot compositional data.
#
n <- 1000
k <- length(alpha)
x <- matrix(rgamma(n*k, alpha), nrow=n, byrow=TRUE)
x <- x / rowSums(x)
colnames(x) <- paste0("X.", 1:k)
pairs(x, pch=19, col="#00000040", cex=0.6)
#
# Obtain the ILR.
#
y <- ilr(x)
colnames(y) <- paste0("Y.", 1:(k-1))
#
# Plot the ILR.
#
pairs(y, pch=19, col="#00000040", cex=0.6)