মূল উপাদান বিশ্লেষণের ফলাফল থেকে প্রাপ্ত সিদ্ধান্ত


9

আমি নিম্নলিখিত হিসাবে সম্পাদিত মূল উপাদান বিশ্লেষণের আউটপুট বুঝতে চেষ্টা করছি:

> head(iris)
  Sepal.Length Sepal.Width Petal.Length Petal.Width Species
1          5.1         3.5          1.4         0.2  setosa
2          4.9         3.0          1.4         0.2  setosa
3          4.7         3.2          1.3         0.2  setosa
4          4.6         3.1          1.5         0.2  setosa
5          5.0         3.6          1.4         0.2  setosa
6          5.4         3.9          1.7         0.4  setosa
> res = prcomp(iris[1:4], scale=T)
> res
Standard deviations:
[1] 1.7083611 0.9560494 0.3830886 0.1439265

Rotation:
                    PC1         PC2        PC3        PC4
Sepal.Length  0.5210659 -0.37741762  0.7195664  0.2612863
Sepal.Width  -0.2693474 -0.92329566 -0.2443818 -0.1235096
Petal.Length  0.5804131 -0.02449161 -0.1421264 -0.8014492
Petal.Width   0.5648565 -0.06694199 -0.6342727  0.5235971
> 
> summary(res)
Importance of components:
                          PC1    PC2     PC3     PC4
Standard deviation     1.7084 0.9560 0.38309 0.14393
Proportion of Variance 0.7296 0.2285 0.03669 0.00518
Cumulative Proportion  0.7296 0.9581 0.99482 1.00000
> 

আমি উপরের আউটপুট থেকে নিম্নলিখিত উপসংহার ঝোঁক:

  1. বৈকল্পিকের অনুপাত নির্দেশ করে যে কোনও নির্দিষ্ট মূল উপাদানটির পরিবর্তনে মোট বৈকল্পিকতা কতটা। অতএব, পিসি 1 ভেরিয়েবিলিটি ডেটার মোট বৈচিত্রের 73% ব্যাখ্যা করে।

  2. প্রদর্শিত ঘূর্ণন মানগুলি কিছু বিবরণে উল্লিখিত 'লোডিং'-এর সমান।

  3. পিসি 1 এর ঘূর্ণন বিবেচনা করে, কেউ সিদ্ধান্ত নিতে পারে যে সেপাল.লেন্থ, পেটাল। দৈর্ঘ্য এবং পেটাল। প্রস্থ সরাসরি সম্পর্কিত এবং এগুলি সমস্তই বিভক্তভাবে সেপাল.উইথথের সাথে সম্পর্কিত (যার পিসি 1 ঘোরার ক্ষেত্রে নেতিবাচক মান রয়েছে)

  4. উদ্ভিদের একটি উপাদান থাকতে পারে (কিছু রাসায়নিক / শারীরিক ক্রিয়াকলাপ ইত্যাদি) যা এই সমস্ত ভেরিয়েবলগুলিকে প্রভাবিত করতে পারে (সেপাল.লেন্থ, পেটাল। লেংথ এবং পেটাল W প্রস্থ একদিকে এবং সেপাল। বিপরীত দিকের প্রস্থ)।

  5. আমি যদি একটি গ্রাফে সমস্ত ঘূর্ণন প্রদর্শন করতে চাই, আমি সেই মূল উপাদানটির পরিবর্তনের অনুপাতে প্রতিটি ঘূর্ণনকে গুণিত করে মোট প্রকরণের ক্ষেত্রে তাদের আপেক্ষিক অবদান প্রদর্শন করতে পারি। উদাহরণস্বরূপ, পিসি 1 এর জন্য 0.52, -0.26, 0.58 এবং 0.56 এর ঘূর্ণনগুলি সবগুলি 0.73 দ্বারা গুন করা হয় (পিসি 1 এর জন্য আনুপাতিক বৈকল্পিক, সংক্ষিপ্তসার (আউট) আউটপুটতে দেখানো হয়েছে)।

আমি কি উপরোক্ত সিদ্ধান্তগুলি সম্পর্কে সঠিক?

প্রশ্ন 5 সম্পর্কিত সম্পাদনা করুন: আমি নীচের মত একটি সাধারণ বারচার্টে সমস্ত ঘূর্ণনটি প্রদর্শন করতে চাই: এখানে চিত্র বর্ণনা লিখুন

যেহেতু পিসি 2, পিসি 3 এবং পিসি 4 এর প্রকরণের ক্রমহ্রাসমান কম অবদান রয়েছে, তাই সেখানে ভেরিয়েবলের লোডিং সামঞ্জস্য (হ্রাস) করা কি বোধগম্য হবে?


পুনরায় (5): আপনি যাকে "লোডিংস" বলছেন তা আসলে লোডিং নয়, তবে কোভেরিয়েন্স ম্যাট্রিক্সের উড়োজাহাজগুলি, ওরফে প্রধান নির্দেশিকা, ওরফে প্রধান অক্ষ। "লোডিংস" হ'ল ইগেনভেেক্টর যা তাদের ইগেনভ্যালুগুলির বর্গমূল দ্বারা বোঝানো হয়, অর্থাত্ বর্ণিত পরিবর্তনের অনুপাতের বর্গমূল দ্বারা। লোডিংয়ের অনেকগুলি দুর্দান্ত বৈশিষ্ট্য রয়েছে এবং এটি ব্যাখ্যার জন্য দরকারী, উদাহরণস্বরূপ দেখুন এই থ্রেড: পিসিএতে লোডিং বনাম ইগেনভেেক্টর: কখন বা অন্যটি ব্যবহার করবেন? সুতরাং হ্যাঁ, এটি আপনার ইগেনভেেক্টরগুলিকে স্কেল করতে প্রচুর অর্থবোধ করে, কেবল বর্ণিত বৈকল্পিকের বর্গমূল ব্যবহার করে।
অ্যামিবা

@ অ্যামিবা: পিসিএ, রোটেশন বা লোডিংয়ের বিপ্লটে কী পরিকল্পনা করা হচ্ছে?
rnso

প্রায়শই লোডিংগুলি প্লট করা হয়, আমার উত্তরটি এখানে আরও আলোচনার জন্য দেখুন।
অ্যামিবা

উত্তর:


9
  1. হ্যাঁ. এটি সঠিক ব্যাখ্যা।
  2. হ্যাঁ, ঘূর্ণন মানগুলি উপাদান লোডিং মানগুলিকে নির্দেশ করে। এটি prcomp ডকুমেন্টেশন দ্বারা নিশ্চিত করা হয়েছে , যদিও তারা "ঘূর্ণন" দিকটির এই অংশটি কেন লেবেল তা আমি নিশ্চিত নই, কারণ এতে বোঝা যায় যে কিছু অर्थোগোনাল (সম্ভবত) বা তির্যক (কম সম্ভাব্য) পদ্ধতি ব্যবহার করে লোডগুলি ঘোরানো হয়েছে।
  3. যদিও এটি দেখা যাচ্ছে যে Sepal.Length, Petal.Length এবং Petal.width সবগুলিই ইতিবাচকভাবে যুক্ত, আমি পিসি 1 তে সেপাল.উইথথের ছোট নেতিবাচক লোডিংয়ে তেমন স্টক রাখব না; এটি পিসি 2 তে আরও জোরালোভাবে লোড করে (প্রায় একচেটিয়াভাবে)। স্পষ্টতই, Sepal.Width সম্ভবত অন্যান্য তিনটি ভেরিয়েবলের সাথে নেতিবাচকভাবে যুক্ত, তবে এটি কেবল প্রথম নীতি উপাদানটির সাথে দৃ strongly়ভাবে সম্পর্কিত বলে মনে হচ্ছে না।
  4. এই প্রশ্নের উপর ভিত্তি করে, আমি আশ্চর্য হয়েছি যে কোনও নীতিগত উপাদানগুলির বিশ্লেষণ (পিসিএ) না করে আপনি একটি সাধারণ ফ্যাক্টর (সিএফ) বিশ্লেষণ ব্যবহার করে আরও ভাল পরিবেশিত হবেন কিনা। সিএফ হ'ল তাত্ত্বিক তাত্ত্বিক মাত্রাগুলি উদ্ঘাটিত করার সময় উপযুক্ত ডেটা হ্রাস করার কৌশল - যেমন আপনি উদ্ভিদ-ফ্যাক্টরটি অনুমান করছেন যা সেপালকে প্রভাবিত করতে পারে en দৈর্ঘ্য, পেটাল L দৈর্ঘ্য এবং পেটাল W প্রস্থ। আমি প্রশংসা করি আপনি একরকম জৈবিক বিজ্ঞান থেকে এসেছেন - সম্ভবত উদ্ভিদ বিজ্ঞান - তবে পিসিএ বনাম সিবিএফ ফ্যাব্রিগার এট আল, 1999, উইডামান, 2007 এবং অন্যদের দ্বারা মনোবিজ্ঞানে কিছু ভাল লেখা রয়েছে। উভয়ের মধ্যে মূল পার্থক্যটি হ'ল পিসিএ অনুমান করে যে সমস্ত বৈকল্পিকগুলি সত্য-স্কোরের বৈকল্পিক - কোনও ত্রুটি অনুমান করা হয় না - যেখানে সিএফ পার্টিশনগুলি ত্রুটি বৈকল্পিকতা থেকে সত্য স্কোর ভেরিয়েন্স, কারণগুলি বের করার আগে এবং ফ্যাক্টর লোডিংগুলি অনুমান করা হয়। শেষ পর্যন্ত আপনি একটি অনুরূপ সমাধান পেতে পারেন - লোকেরা কখনও কখনও করেন - তবে তারা যখন ডাইভারেজ করেন তখন পিসিএ লোডিংয়ের মূল্যকে অত্যধিক বিবেচনা করে এবং উপাদানগুলির মধ্যে পারস্পরিক সম্পর্ককে অবমূল্যায়ন করে। সিএফ পদ্ধতির অতিরিক্ত পার্কটি হ'ল লোডিং মানগুলির তাত্পর্য পরীক্ষা করার জন্য আপনি সর্বাধিক সম্ভাবনা অনুমান ব্যবহার করতে পারেন, এবং আপনার নির্বাচিত সমাধানটি (1 ফ্যাক্টর, 2 ফ্যাক্টর, 3 ফ্যাক্টর, বা 4 ফ্যাক্টর) কতটা ভাল ব্যাখ্যা করে তার কিছু সূচক পাওয়া যায় আপনার ডেটা।
  5. আপনার মত উপাদানগুলি লোডিংয়ের মানগুলি প্লট করব, তাদের নিজ নিজ উপাদানগুলির জন্য বৈকল্পিক অনুপাতে তাদের বারগুলি ওজন না করে। এই ধরণের পদ্ধতির মাধ্যমে আপনি কী দেখানোর চেষ্টা করতে চান তা আমি বুঝতে পেরেছি, তবে আমি মনে করি এটি সম্ভবত আপনার বিশ্লেষণ থেকে উপাদান লোডিংয়ের মানগুলিকে ভুল বোঝাবুঝির কারণ হিসাবে গ্রহণ করবে। যাইহোক, যদি আপনি প্রতিটি উপাদান অনুসারে বৈকল্পিকের আপেক্ষিক তাত্পর্যটি দেখানোর জন্য একটি চাক্ষুষ উপায় চান তবে আপনি গ্রুপ বারগুলির অস্বচ্ছতা হেরফের করতে বিবেচনা করতে পারেন (যদি আপনি ব্যবহার করছেন ggplot2, আমি বিশ্বাস করি এটি দিয়ে সম্পন্ন হয়েছে)alphaনান্দনিক), প্রতিটি উপাদান দ্বারা ব্যাখ্যা করা বৈকল্পিকের অনুপাতের ভিত্তিতে (যেমন, আরও শক্ত রং = আরও বৈকল্পিক ব্যাখ্যা করা হয়েছে) তবে আমার অভিজ্ঞতায় আপনার চিত্রটি পিসিএ-এর ফলাফল উপস্থাপনের একটি সাধারণ উপায় নয় - আমি মনে করি একটি টেবিল বা দুটি (লোডিং + বৈকল্পিক একটিতে ব্যাখ্যা করা হয়েছে, অন্যটিতে উপাদান সম্পর্কিত) আরও অনেক সোজা হবে।

তথ্যসূত্র

ফ্যাব্রিগার, এলআর, ওয়েজনার, ডিটি, ম্যাককালাম, আরসি, এবং স্ট্রহান, ইজে (1999)। মনস্তাত্ত্বিক গবেষণায় অনুসন্ধানকারী ফ্যাক্টর বিশ্লেষণের ব্যবহার মূল্যায়ন। মানসিক পদ্ধতি , 4 , 272-299।

উইদামান, কেএফ (2007)। উপাদানগুলি বনাম সাধারণ কারণ: অধ্যক্ষ এবং নীতি, ত্রুটি এবং ভুল ধারণা । আর। চুদেক অ্যান্ড আরসি ম্যাককালাম (এড।)-তে ফ্যাক্টর বিশ্লেষণ 100 এ: developতিহাসিক বিকাশ এবং ভবিষ্যতের দিকনির্দেশ (পৃষ্ঠা 177-203)। মাহওয়াহ, এনজে: লরেন্স এরলবাউম।


2
+1, এখানে অনেক ভাল পয়েন্ট। পুনরায় (২): কোভরিয়েন্স ম্যাট্রিক্সের ইগেনভেেক্টরগুলিকে এখানে "আবর্তন" বলা হয়, কারণ পিসিএ মূলত স্থানাঙ্ক ব্যবস্থার একটি আবর্তন যেমন নতুন সমন্বয় ব্যবস্থা ইগেনভেেক্টরগুলির সাথে একত্রিত হয়। ফ্যাক্টর বিশ্লেষণে এটি "অर्थোগোনাল / তির্যক ঘূর্ণন "গুলির সাথে কোনও সম্পর্ক রাখে না। পুনরায় (5): আমি নিশ্চিত নই যে আপনি এখানে কী বোঝাতে চেয়েছিলেন তা আমি বুঝতে পেরেছি এবং আমি ও বুঝতে পারি না যে ওপি কীভাবে একটি গ্রাফে "আইজেনভেেক্টরগুলিকে" "প্রদর্শন করতে" চায়। সম্ভবত ওপির মনে বাইপ্লটের মতো কিছু রয়েছে। তারপরে হ্যাঁ, ইগেনভেেক্টরগুলি প্রায়শই আইগেনুয়ালুগুলি দ্বারা স্কেল করা হয় তবে তাদের বর্গমূলের দ্বারা।
অ্যামিবা

যদিও আপনার বিষয়টির জন্য সুন্দর ফুল-থিমযুক্ত প্লট, @ আরএনএসো :)
জাসাকালুক

1
  1. না, ডেটার মোট বৈকল্পিক নয়। প্রদত্ত তথ্যের মোট বৈকল্পিকতা আপনি 4 টি মূল উপাদানগুলিতে প্রকাশ করতে চান। আপনি সর্বদা আরও নীতি উপাদান যুক্ত করে আরও মোট বৈকল্পিক সন্ধান করতে পারেন। কিন্তু এই দ্রুত ক্ষয় হয়।
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.