প্রথমত, চিঠিপত্র বিশ্লেষণের ক্ষেত্রে তথাকথিত বাইপলটগুলি নির্মাণের বিভিন্ন উপায় রয়েছে । সব ক্ষেত্রে, প্রাথমিক ধারণাটি সারি ঘর এবং কলামের ঘরগুলির মধ্যে "দূরত্ব "গুলির সর্বোত্তম 2D সান্নিধ্য দেখানোর উপায় খুঁজে পাওয়া। অন্য কথায়, আমরা একটি কন্টিনজেন্সি টেবিলের সারি এবং কলামগুলির মধ্যে সম্পর্কের একটি শ্রেণিবিন্যাস (আমরা "অর্ডিনেশন" এর কথাও বলি) চাই।
খুব সংক্ষেপে, সিএ দ্বি-দ্বি টেবিলের সাথে যুক্ত চি-বর্গাকার পরিসংখ্যানগুলিকে সংশ্লেষ করে যা সারি এবং কলাম স্কোরগুলির মধ্যে বিভাজনকে সর্বাধিক করে তোলে (অর্থাত্ প্রোফাইলের সারণী থেকে গণনা করা) th এখানে, আপনি দেখতে পাচ্ছেন যে পিসিএর সাথে কিছু সংযোগ রয়েছে তবে সিএতে রক্ষা করা বৈকল্পিকতা (বা মেট্রিক) এর পরিমাপটি হ'ল , যা কেবল কলামের প্রোফাইলগুলিতে নির্ভর করে (যেহেতু এটি বৃহত আকারগুলিকে আরও বেশি গুরুত্ব দেয় s প্রান্তিক মানগুলি, আমরা প্রাথমিক ডেটাও আবার ওজন করতে পারি, তবে এটি অন্য গল্প)।χ2
corresp()
MASS
আরটিসি= এনএন
i = 1 , … , আমিj = 1 , … , জেচজ | আমি= এনআমি জে/ এনআমি ⋅চi | ঞ= এনআমি জে/ এন⋅ জেআমিচআমি ⋅জেচ⋅ জেχ2আমিআমি'
ঘ2χ2( i , i)') = ∑j = 1জেএনএন⋅ জে( এন)আমি জেএনআমি ⋅- এনআমি'ঞএনআমি'⋅)2
χ2এইচ0এনআমি ⋅। N⋅ জে/ এন( আমি , জে )
আপনি যদি সারি প্রোফাইলগুলিতে একটি পিসিএ বুঝতে পারেন (ব্যক্তি হিসাবে দেখা), ইউক্যালিডিয়ান দূরত্ব দ্বারা প্রতিস্থাপনχ2দূরত্ব, তারপরে আপনি আপনার সিএ পাবেন প্রথম প্রধান অক্ষটি হ'ল লাইন যা সমস্ত পয়েন্টের নিকটতম এবং সম্পর্কিত ইজেনভ্যালু এই মাত্রা দ্বারা ব্যাখ্যা করা জড়তা। কলামের প্রোফাইলগুলি দিয়ে আপনিও এটি করতে পারেন। এটি দেখানো যেতে পারে যে দুটি পদ্ধতির মধ্যে একটি প্রতিসাম্য রয়েছে এবং আরও সুনির্দিষ্টভাবে বলা যায় যে কলামের প্রোফাইলগুলির জন্য মূল উপাদানগুলি (পিসি) সারি প্রোফাইলগুলির জন্য পিসির চেয়ে একই ইগেনভ্যালুগুলির সাথে সম্পর্কিত। বাইপ্লট-এ যা দেখানো হয় তা হ'ল এই নতুন স্থানাঙ্ক ব্যবস্থায় ব্যক্তিদের স্থানাঙ্ক, যদিও পৃথক পৃথক কল্পিত স্থানে ব্যক্তিদের প্রতিনিধিত্ব করা হয়। প্রদত্ত প্রতিটি স্বতন্ত্র / মড্যালিটিটি তার ফ্যাক্টরিয়াল স্পেসে ভালভাবে উপস্থাপিত হয়েছে (আপনি এ দেখতে পারেন)কোসাইন্2আমিঞχ2chisq.test(tab)$expected-chisq.test(tab)$observed
χ2এনφ2
প্রকৃতপক্ষে, বেশ কয়েকটি প্যাকেজ রয়েছে যা প্যাকেজের উপলব্ধ ক্রিয়াকলাপের তুলনায় আপনাকে বর্ধিত সিএ সরবরাহ করতে পারে MASS
: এডি ৪ , ফ্যাক্টোমাইনআর , অ্যানাকর এবং সিএ ।
সর্বশেষতমটি হ'ল যা আপনার নির্দিষ্ট চিত্রের জন্য ব্যবহৃত হয়েছিল এবং একটি গবেষণাপত্র জার্নাল অফ স্ট্যাটিস্টিকাল সফ্টওয়্যারে প্রকাশিত হয়েছিল যা এর বেশিরভাগ কার্যকারিতা ব্যাখ্যা করে: আর-তে সংবাদপত্র বিশ্লেষণ, দ্বি- এবং ত্রিমাত্রিক গ্রাফিক্স সহ: সিএ প্যাকেজ ।
সুতরাং, আপনার চোখ / চুলের রঙের উপরের উদাহরণটি বিভিন্ন উপায়ে পুনরুত্পাদন করা যেতে পারে:
data(HairEyeColor)
tab <- apply(HairEyeColor, c(1, 2), sum) # aggregate on gender
tab
library(MASS)
plot(corresp(tab, nf=2))
corresp(tab, nf=2)
library(ca)
plot(ca(tab))
summary(ca(tab, nd=2))
library(FactoMineR)
CA(tab)
CA(tab, graph=FALSE)$eig # == summary(ca(tab))$scree[,"values"]
CA(tab, graph=FALSE)$row$contrib
library(ade4)
scatter(dudi.coa(tab, scannf=FALSE, nf=2))
সব ক্ষেত্রে, আমরা ফলস্বরূপ বাইপ্লটটিতে যা পড়ি তা মূলত (আমি আমার ব্যাখ্যাটি 1 ম অক্ষের মধ্যে সীমাবদ্ধ করি যা বেশিরভাগ জড়তার ব্যাখ্যা দেয়):
- প্রথম অক্ষটি হালকা এবং গা dark় চুলের বর্ণের মধ্যে এবং নীল এবং বাদামী চোখের মধ্যে স্পষ্ট বিরোধিতা তুলে ধরে;
- স্বর্ণকেশী লোমযুক্ত লোকেদের চোখও নীল থাকে এবং কালো চুলের লোকেদের চোখ বাদামি।
ফ্রান্সের লিয়ন থেকে বায়োইনফর্ম্যাটিক্স ল্যাব- এ ডেটা বিশ্লেষণে প্রচুর অতিরিক্ত সংস্থান রয়েছে । এটি বেশিরভাগ ফরাসি ভাষায়, তবে আমি মনে করি এটি আপনার পক্ষে খুব বেশি সমস্যা হবে না। নিম্নলিখিত দুটি হ্যান্ডআউটগুলি প্রথম শুরু হিসাবে আকর্ষণীয় হওয়া উচিত:
ট