2D চিঠিপত্র বিশ্লেষণ প্লট ব্যাখ্যা


19

আমি দূর থেকে ইন্টারনেট অনুসন্ধান করে চলেছি ... 2D চিঠিপত্র বিশ্লেষণের প্লটগুলি কীভাবে ব্যাখ্যা করতে হবে তার সত্যিকারের ভাল ওভারভিউ আমি এখনও পাইনি। পয়েন্টগুলির মধ্যে দূরত্ব ব্যাখ্যা করার জন্য কেউ কি কিছু পরামর্শ দিতে পারেন?

সম্ভবত একটি উদাহরণ সাহায্য করবে, এখানে এমন একটি প্লট রয়েছে যা আমি দেখেছি যে বেশিরভাগ ওয়েবসাইট আমি দেখেছি যে চিঠিপত্রের বিশ্লেষণ আলোচনা করে। লাল ত্রিভুজগুলি চোখের রঙ এবং কালো বিন্দুগুলি চুলের রঙকে উপস্থাপন করে।

বিকল্প পাঠ

উপরের গ্রাফটি দেখে আপনি এই ডেটাগুলিতে কী দেখছেন সে সম্পর্কে কয়েকটি বিবৃতি দিতে পারেন? ত্রিভুজ এবং বিন্দুর মধ্যে বিভিন্ন মাত্রা এবং সম্পর্ক সম্পর্কে আগ্রহের বিষয়গুলি?

সারি-পয়েন্টের আয়াতগুলির কলাম পয়েন্টগুলির ব্যাখ্যা এবং উদাহরণটিতে বিশেষভাবে ফোকাস সহ "প্রোফাইল" শব্দের ব্যবহার সহায়ক হবে।


1
নিচে @ chl এর চমৎকার অ্যাকাউন্ট ছাড়াও, এছাড়াও বিবেচনা এই একটি "biplot বিশ্লেষণ" শুধু ফর্ম হিসাবে সহজ সিএ এবং পিসিএ বিবেচনা।
ttnphns

উত্তর:


24

প্রথমত, চিঠিপত্র বিশ্লেষণের ক্ষেত্রে তথাকথিত বাইপলটগুলি নির্মাণের বিভিন্ন উপায় রয়েছে । সব ক্ষেত্রে, প্রাথমিক ধারণাটি সারি ঘর এবং কলামের ঘরগুলির মধ্যে "দূরত্ব "গুলির সর্বোত্তম 2D সান্নিধ্য দেখানোর উপায় খুঁজে পাওয়া। অন্য কথায়, আমরা একটি কন্টিনজেন্সি টেবিলের সারি এবং কলামগুলির মধ্যে সম্পর্কের একটি শ্রেণিবিন্যাস (আমরা "অর্ডিনেশন" এর কথাও বলি) চাই।

খুব সংক্ষেপে, সিএ দ্বি-দ্বি টেবিলের সাথে যুক্ত চি-বর্গাকার পরিসংখ্যানগুলিকে সংশ্লেষ করে যা সারি এবং কলাম স্কোরগুলির মধ্যে বিভাজনকে সর্বাধিক করে তোলে (অর্থাত্ প্রোফাইলের সারণী থেকে গণনা করা) th এখানে, আপনি দেখতে পাচ্ছেন যে পিসিএর সাথে কিছু সংযোগ রয়েছে তবে সিএতে রক্ষা করা বৈকল্পিকতা (বা মেট্রিক) এর পরিমাপটি হ'ল , যা কেবল কলামের প্রোফাইলগুলিতে নির্ভর করে (যেহেতু এটি বৃহত আকারগুলিকে আরও বেশি গুরুত্ব দেয় s প্রান্তিক মানগুলি, আমরা প্রাথমিক ডেটাও আবার ওজন করতে পারি, তবে এটি অন্য গল্প)।χ2

corresp()MASSRtC=NN

i=1,,Ij=1,,Jfj|i=nij/nifi|j=nij/njIfiJχ2আমিআমি'

χ22(আমি,আমি')=Σ=1জেএনএন(এনআমিএনআমি-এনআমি'এনআমি')2

χ2এইচ0এনআমি×এন/এন(আমি,)

আপনি যদি সারি প্রোফাইলগুলিতে একটি পিসিএ বুঝতে পারেন (ব্যক্তি হিসাবে দেখা), ইউক্যালিডিয়ান দূরত্ব দ্বারা প্রতিস্থাপনχ2দূরত্ব, তারপরে আপনি আপনার সিএ পাবেন প্রথম প্রধান অক্ষটি হ'ল লাইন যা সমস্ত পয়েন্টের নিকটতম এবং সম্পর্কিত ইজেনভ্যালু এই মাত্রা দ্বারা ব্যাখ্যা করা জড়তা। কলামের প্রোফাইলগুলি দিয়ে আপনিও এটি করতে পারেন। এটি দেখানো যেতে পারে যে দুটি পদ্ধতির মধ্যে একটি প্রতিসাম্য রয়েছে এবং আরও সুনির্দিষ্টভাবে বলা যায় যে কলামের প্রোফাইলগুলির জন্য মূল উপাদানগুলি (পিসি) সারি প্রোফাইলগুলির জন্য পিসির চেয়ে একই ইগেনভ্যালুগুলির সাথে সম্পর্কিত। বাইপ্লট-এ যা দেখানো হয় তা হ'ল এই নতুন স্থানাঙ্ক ব্যবস্থায় ব্যক্তিদের স্থানাঙ্ক, যদিও পৃথক পৃথক কল্পিত স্থানে ব্যক্তিদের প্রতিনিধিত্ব করা হয়। প্রদত্ত প্রতিটি স্বতন্ত্র / মড্যালিটিটি তার ফ্যাক্টরিয়াল স্পেসে ভালভাবে উপস্থাপিত হয়েছে (আপনি এ দেখতে পারেন)কোসাইন্2আমিχ2chisq.test(tab)$expected-chisq.test(tab)$observed

χ2এনφ2

প্রকৃতপক্ষে, বেশ কয়েকটি প্যাকেজ রয়েছে যা প্যাকেজের উপলব্ধ ক্রিয়াকলাপের তুলনায় আপনাকে বর্ধিত সিএ সরবরাহ করতে পারে MASS: এডি ৪ , ফ্যাক্টোমাইনআর , অ্যানাকর এবং সিএ

সর্বশেষতমটি হ'ল যা আপনার নির্দিষ্ট চিত্রের জন্য ব্যবহৃত হয়েছিল এবং একটি গবেষণাপত্র জার্নাল অফ স্ট্যাটিস্টিকাল সফ্টওয়্যারে প্রকাশিত হয়েছিল যা এর বেশিরভাগ কার্যকারিতা ব্যাখ্যা করে: আর-তে সংবাদপত্র বিশ্লেষণ, দ্বি- এবং ত্রিমাত্রিক গ্রাফিক্স সহ: সিএ প্যাকেজ

সুতরাং, আপনার চোখ / চুলের রঙের উপরের উদাহরণটি বিভিন্ন উপায়ে পুনরুত্পাদন করা যেতে পারে:

data(HairEyeColor)
tab <- apply(HairEyeColor, c(1, 2), sum) # aggregate on gender
tab

library(MASS)
plot(corresp(tab, nf=2))
corresp(tab, nf=2)

library(ca)
plot(ca(tab))
summary(ca(tab, nd=2))

library(FactoMineR)
CA(tab)
CA(tab, graph=FALSE)$eig  # == summary(ca(tab))$scree[,"values"]
CA(tab, graph=FALSE)$row$contrib

library(ade4)
scatter(dudi.coa(tab, scannf=FALSE, nf=2))

সব ক্ষেত্রে, আমরা ফলস্বরূপ বাইপ্লটটিতে যা পড়ি তা মূলত (আমি আমার ব্যাখ্যাটি 1 ম অক্ষের মধ্যে সীমাবদ্ধ করি যা বেশিরভাগ জড়তার ব্যাখ্যা দেয়):

  • প্রথম অক্ষটি হালকা এবং গা dark় চুলের বর্ণের মধ্যে এবং নীল এবং বাদামী চোখের মধ্যে স্পষ্ট বিরোধিতা তুলে ধরে;
  • স্বর্ণকেশী লোমযুক্ত লোকেদের চোখও নীল থাকে এবং কালো চুলের লোকেদের চোখ বাদামি।

ফ্রান্সের লিয়ন থেকে বায়োইনফর্ম্যাটিক্স ল্যাব- এ ডেটা বিশ্লেষণে প্রচুর অতিরিক্ত সংস্থান রয়েছে । এটি বেশিরভাগ ফরাসি ভাষায়, তবে আমি মনে করি এটি আপনার পক্ষে খুব বেশি সমস্যা হবে না। নিম্নলিখিত দুটি হ্যান্ডআউটগুলি প্রথম শুরু হিসাবে আকর্ষণীয় হওয়া উচিত:


1
@ ব্র্যান্ডন 1 ম অক্ষটি উভয় রূপের জন্য "আধিপত্য" (হালকা -> গা dark়) একটি অক্ষ, তবে আমরা এটিও দেখতে পারি যে 1 ম অক্ষটি নীল এবং সবুজ চোখের বাদামি এবং হ্যাজেল চোখের বিরোধিতা করে (তাদের স্থানাঙ্কগুলি বিপরীত লক্ষণগুলির হয়), এবং লাল চুল / সবুজ চোখের সংমিশ্রণ - যা বেশ অস্বাভাবিক - বেশিরভাগ ২ য় গুণকের অক্ষকে অবদান রাখে। যেহেতু এই অক্ষটি মোট জড়তার 9.5% কেবল ব্যাখ্যা করে, তাই দৃ firm় সিদ্ধান্তগুলি নির্ধারণ করা কঠিন (উদাহরণস্বরূপ আর্ট। জেনেটিক হাইপোথেসিস)।
chl

1
@ ব্র্যান্ডন আরও দুটি রেফারেন্স (এবার ইংরেজিতে): পিবিআইএল কোর্স ( j.mp/cHZT7X ) এবং মাইকেল বন্ধুর সম্পদ ( j.mp/cYHyVn + vcdএবং vcdExtraআর প্যাকেজ, পরবর্তী উইন্ডেট সহ))
chl

2
@ ব্র্যান্ডন হ্যাঁ, আপনার পরিবর্তনশীলটির জন্য একটি মড্যালিটি = একটি বিভাগ। আপনার ২ য় প্রশ্নের জন্য, corঅক্ষের সাথে স্কোয়ার পারস্পরিক সম্পর্ক এবং ctrএটি অবদান (এটি% হিসাবে পড়ার জন্য 10 দ্বারা বিভক্ত করতে হবে)। সুতরাং "লাল চুল" 2 য় অক্ষের জড়তার 55.1% অবদান রাখে। একটি নির্দিষ্ট অর্থে আমি FactoMineR আউটপুটটিকে আরও "স্বজ্ঞাত" পেয়েছি ( CA(tab, graph=FALSE)$row$contribআপনাকে সরাসরি% দেয়)।
chl

1
@ সিএইচএল: বাহ, যে কেউ সিসিএ বা "ফরাসি উপায়" সম্পর্কে কিছুই জানেন না, তাদের জন্য এটি দুর্দান্ত পড়া ছিল! অনেক ধন্যবাদ. আমি এটি এমন কিছু গুগলিংয়ের
আর্স

1
@ars (+1) লিঙ্কটির জন্য ধন্যবাদ (এই মনোগ্রাফ সম্পর্কে জানেন না, এটি আকর্ষণীয় দেখায়)। সাম্প্রতিক উন্নয়নের জন্য আমার সেরা প্রস্তাবনাগুলি হ'ল জেন ডি লিউউ এবং এই দুটি বইয়ের সমস্ত কাগজপত্র: একাধিক চিঠিপত্র বিশ্লেষণ এবং গ্রিনাক্রে সম্পর্কিত সম্পর্কিত পদ্ধতি , এবং জ্যামিতিক ডেটা বিশ্লেষণ: চিঠিপত্রের বিশ্লেষণ থেকে লে রক্স এবং রুয়ানেট ( কাঠামোগত উপায়) থেকে কাঠামোগত ডেটা বিশ্লেষণ
chl
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.