কোন চলক কোন পিসিএ উপাদানগুলি এবং এর বিপরীতে ব্যাখ্যা করে?


15

এই ডেটা ব্যবহার করে:

head(USArrests)
nrow(USArrests)

আমি এইভাবে একটি পিসিএ করতে পারি:

plot(USArrests)
otherPCA <- princomp(USArrests)

আমি নতুন উপাদান পেতে পারেন

otherPCA$scores

এবং উপাদানগুলির সাথে ব্যাখ্যা করে বৈকল্পিকের অনুপাত

summary(otherPCA)

তবে যদি আমি জানতে চাই যে কোন ভেরিয়েবলগুলি মূলত কোন প্রধান উপাদান দ্বারা ব্যাখ্যা করা হয়? এবং তদ্বিপরীত: যেমন পিসি 1 বা পিসি 2 বেশিরভাগ দ্বারা ব্যাখ্যা করা হয় murder? কিভাবে আমি এটি করতে পারব?

আমি উদাহরণস্বরূপ বলতে পারি যে PC1 80% দ্বারা ব্যাখ্যা murderবা assault?

আমি মনে করি লোডিংগুলি এখানে আমাকে সহায়তা করে, তবে তারা দিকনির্দেশ দেখায় যে আমি যেমন বুঝতে পারি তেমনি রূপটি ব্যাখ্যা করা হয়নি eg

otherPCA$loadings

Loadings:
         Comp.1 Comp.2 Comp.3 Comp.4
Murder                         0.995
Assault  -0.995                     
UrbanPop        -0.977 -0.201       
Rape            -0.201  0.974   

2
লক্ষ করুন যে লোডিংয়ের লক্ষণগুলি নির্বিচারে are তিনটি অপরাধের ভেরিয়েবলগুলি একে অপরের সাথে ইতিবাচকভাবে সম্পর্কযুক্ত তবে উপরের লোডিংয়ের লক্ষণগুলি থেকে আপনি এটি কাজ করতে স্মার্ট হবেন।
নিক কক্স

দুর্ভাগ্যক্রমে, আমি বিশ্বাস করি যে এই প্রশ্নের গৃহীত উত্তরটি ভুল। আমি নীচে আমার নিজের উত্তর পোস্ট।
অ্যামিবা

উত্তর:


11

আপনি ঠিক বলেছেন, লোডিংগুলি আপনাকে এখানে সহায়তা করতে পারে। এগুলি ভেরিয়েবল এবং প্রধান উপাদানগুলির মধ্যে পারস্পরিক সম্পর্ক গণনা করতে ব্যবহার করা যেতে পারে। অধিকন্তু, সমস্ত মূল উপাদানগুলির উপর একটি ভেরিয়েবলের স্কোয়ার লোডিংয়ের যোগফল 1 টি সমান। সুতরাং, স্কোয়ারযুক্ত লোডগুলি আপনাকে একটি মূল উপাদান দ্বারা ব্যাখ্যা করা একটি ভেরিয়েবলের পরিবর্তনের অনুপাত বলে দেয়।

প্রিনম্পম্পের সাথে সমস্যাটি হ'ল এটি কেবল "খুব উচ্চ" লোডিংগুলি দেখায়। তবে যেহেতু লোডিংগুলি কোভেরিয়েন্স ম্যাট্রিক্সের কেবলমাত্র আইগনেক্টর, তাই eigenআর-র কমান্ডটি ব্যবহার করে সমস্ত লোডিং পাওয়া যাবে :

 loadings <- eigen(cov(USArrests))$vectors
 explvar <- loadings^2

এখন, আপনার কাছে ম্যাট্রিক্সে পছন্দসই তথ্য রয়েছে explvar


আপনাকে ধন্যবাদ এলোমেলো লোক, আপনি কি সম্ভবত আমাকে উদাহরণ হিসাবে দেখাতে পারেন assaultবা urban popআমরা এটি করতে পারি? আংশিক বিভ্রান্ত কারণ ম্যাট্রিক্সে কেবলমাত্র একটি সম্পর্ক রয়েছেassault
ব্যবহারকারী 1320502

1
দুঃখিত, আমি আমার উত্তরটির উন্নতি করেছি এবং আপনি ইতিমধ্যে আমার পোস্টে মন্তব্য করেছেন তা লক্ষ্য করি নি। পিসি 1 এ -0.995 দিয়ে হামলা লোড হয়। সুতরাং, এই মানটিকে স্কোয়ার করার পরে কেউ সিদ্ধান্তে আসতে পারে যে পিসি 1 চলক আক্রমণটির 99% প্রকরণ ব্যাখ্যা করে। শহুরে পপের মানগুলি স্কোয়ার করার পরে, আপনি শেষ করতে পারেন পিসি 3 নগর পপের বৈচিত্রের 4% এবং পিসি 95.5% ব্যাখ্যা করে।
এলোমেলো_গুই

1
পিসিএর কতটুকু একটি ভেরিয়েবলের জন্য দায়ী করা যেতে পারে সে সম্পর্কে ওপি জিজ্ঞাসা করে না? আপনার উত্তরটি কতটা ভেরিয়েবলের সিপিএ দ্বারা ব্যাখ্যা করা যায় সে সম্পর্কে
হাইজেনবার্গ

2
এই প্রশ্নে ফিরে যাওয়া, আমি মনে করি এই উত্তরটি ভুল। 10 টি ভেরিয়েবল বিবেচনা করুন যা একে অপরের মধ্যে সর্বাধিক (99%) পারস্পরিক সম্পর্কযুক্ত এবং সমস্ত ইউনিট বৈকল্পিকের জন্য পরিমাপ করা হয়। প্রথম পিসি মূলত তাদের মধ্যে গড় হবে। সুতরাং প্রথম ইগেনভেেক্টর ডাব্লু হতে চলেছে - দৈর্ঘ্য সাথে এবং প্রথম ইগন্যালুও প্রায় , বলুন । এখন, প্রতিটি ভেরিয়েবল প্রায় সম্পূর্ণরূপে প্রথম পিসি দ্বারা ব্যাখ্যা করা হয়। এবং প্রথম পিসি প্রতিটি ভেরিয়েবল দ্বারা প্রায় সম্পূর্ণ ব্যাখ্যা করা হয় is কিন্তু কিভাবে আপনি হয় এক বা অন্য স্কোয়ারড উপাদান থেকে এই উপসংহারে করতে যাচ্ছি যা সব ? w=(0.3,0.3,...0.3)1109.9w0.1
অ্যামিবা বলেছেন মনিকাকে রিইনস্টেট করুন

2
জিদ করার জন্য দুঃখিত, তবে আপনি কি আমার উপরোক্ত মন্তব্যে ভুল বলে মনে করেন? যদি তা না হয় তবে সম্ভাব্য বিভ্রান্তি দূর করতে আপনি নিজের উত্তরটি সম্পাদনা করতে পারেন, এটি ভবিষ্যতের পাঠকদের জন্য খুব সহায়ক হবে। আমি এই বিষয়গুলি আরও বিস্তারিতভাবে ব্যাখ্যা করার চেষ্টা করে নিজেই একটি উত্তর পোস্ট করেছি।
অ্যামিবা বলেছেন মনিকাকে

9

আমি মনে করি যে গৃহীত উত্তরগুলি বিপজ্জনকভাবে বিপথগামী হতে পারে (-1) 1 কমপক্ষে চারটি প্রশ্ন ওপিতে একসাথে মিশ্রিত রয়েছে। আমি তাদের একের পর এক বিবেচনা করব।


  • চতুর্থাংশ 1। প্রদত্ত মূল পর্বের দ্বারা প্রদত্ত পিসির বৈকল্পিকতা কতটি ব্যাখ্যা করা হয়? প্রদত্ত আসল ভেরিয়েবলের বৈকল্পিকতা কতটা প্রদত্ত পিসি দ্বারা ব্যাখ্যা করা হয়?

এই দুটি প্রশ্নের সমতুল্য এবং উত্তরটি ভেরিয়েবল এবং পিসির মধ্যে পারস্পরিক সম্পর্ক সহগের বর্গ দ্বারা দেওয়া হয়েছে । পিসিএ সম্পর্কযুক্তরূপে সম্পন্ন হয়, তাহলে পারস্পরিক সম্পর্কের সহগের (দেওয়া হয় এখানে দেখতে ) এর অনুরূপ উপাদান দ্বারা loadings । পিসি একটি eigenvector সঙ্গে যুক্ত করা হয় পারস্পরিক সম্পর্ক ম্যাট্রিক্স এবং সংশ্লিষ্ট eigenvalue । দ্বারা একটি লোডিং ভেক্টর দেওয়া হয় । এর উপাদানগুলি এই পিসির সাথে সম্পর্কিত মূল ভেরিয়েবলগুলির সাথে সম্পর্কিত correr2riVisiLiLi=(si)1/2Vi

লক্ষ্য করুন eigenvectors এবং loadings দুটি ভিন্ন জিনিস! আর-এ, ইগেনভেেক্টরগুলিকে বিভ্রান্তিকরভাবে "লোডিংস" বলা হয়; এক সতর্কতা অবলম্বন করা উচিত: তাদের উপাদান না আকাঙ্ক্ষিত সম্পর্কযুক্তরূপে। [এই থ্রেডে বর্তমানে গৃহীত উত্তর দুটিকে বিভ্রান্ত করে]]ViLi

তদ্ব্যতীত, যদি পিসিএ সমবায়িকাগুলিতে করা হয় (এবং পারস্পরিক সম্পর্ক নয়) তবে লোডিংগুলি আপনাকে সমবায়িকাগুলিও দেবে, পারস্পরিক সম্পর্ক নয় not পারস্পরিক সম্পর্ক অর্জনের জন্য, পিসিএ অনুসরণ করে একজনকে ম্যানুয়ালি গণনা করতে হবে। [বর্তমানে গৃহীত উত্তর সে সম্পর্কে অস্পষ্ট]]

  • Q2 এর। প্রদত্ত আসল ভেরিয়েবলের বৈকল্পিকতা কতটি পিসি প্রদত্ত উপসেট দ্বারা ব্যাখ্যা করা হয়? উদাহরণস্বরূপ, বৈকল্পিকটি ব্যাখ্যা করতে এই উপসেটটি কীভাবে নির্বাচন করবেন ?80%

যেহেতু পিসিগুলি অরথোগোনাল (অর্থাত্ নিরক্ষিত), কেউ কেবল স্বতন্ত্র মান যুক্ত করতে পারে (Q1 দেখুন) গ্লোবাল মান পেতে।r2R2

একটি উপসেটটি নির্বাচন করতে, পছন্দসই পরিমাণে বর্ণিত ভেরিয়েন্স ( ) না পৌঁছানো পর্যন্ত একটি নির্দিষ্ট মূল পরিবর্তনশীল সহ সর্বোচ্চ সংযোগ ( ) পিসি যুক্ত করতে পারে ।r2R2

  • চতুর্থাংশ 3। মূল পর্বের প্রদত্ত উপসেট দ্বারা প্রদত্ত পিসির বৈকল্পিকতা কতটি ব্যাখ্যা করা হয়? উদাহরণস্বরূপ, বৈকল্পিকটি ব্যাখ্যা করতে এই উপসেটটি কীভাবে নির্বাচন করবেন ?80%

এই প্রশ্নের উত্তর পিসিএ দ্বারা স্বয়ংক্রিয়ভাবে দেওয়া হয় না! উদাহরণস্বরূপ, যদি সমস্ত আসল ভেরিয়েবলগুলি জোড় জোড় সাথে খুব দৃ strongly়ভাবে আন্তঃসম্পর্কিত হয় , তবে প্রথম পিসি এবং সমস্ত ভেরিয়েবলের মধ্যে পারস্পরিক সম্পর্ক কাছাকাছি হবে । এই পিসির পরিবর্তনের অনুপাতের গণনা করতে কেউ এই নম্বর যুক্ত করতে পারে না , বলুন, পাঁচটি মূল ভেরিয়েবল (এর ফলে একটি অযৌক্তিক ফলাফল হবে )। পরিবর্তে, এই ভেরিয়েবলগুলির জন্য এই পিসিকে পুনরায় চাপিয়ে নেওয়া এবং একাধিক মান অর্জন করতে হবে ।r = 0.9 r 2 R 2 = 0.9 0.9 5 > 1 আর 2r=0.9r=0.9r2R2=0.90.95>1R2

প্রদত্ত পরিমাণের বৈচিত্র্য বোঝাতে একটি উপসেট কীভাবে নির্বাচন করবেন, তা @ ফ্র্যাঙ্কহারেল (+1) দ্বারা প্রস্তাবিত হয়েছিল।


+1, এটি গ্রহণযোগ্য উত্তর হওয়া উচিত।
জেনেটে


6

আর এর সাথে বান্ডিলযুক্ত মার্কিন গ্রেপ্তার তথ্যগুলি এখানে একটি উদাহরণ, তবে আমি নোট করব যে প্রশ্নে লোডিংয়ের গণনা কোভেরিয়েন্স ম্যাট্রিক্সের একটি পিসিএ থেকে এসেছে । ভেরিয়েবলগুলি বিভিন্ন স্কেলের উপর পরিমাপ করা হয় বলে এটি নির্বিচারে এবং অযৌক্তিকর মধ্যে কোথাও।

নগর জনসংখ্যা এক শতাংশের মতো দেখায়। ক্যালিফোর্নিয়া 91% এবং সর্বোচ্চ।

তিনটি অপরাধের ভেরিয়েবলগুলি জনসংখ্যার আকারের তুলনায় প্রকাশিত অপরাধের জন্য গ্রেফতারের সংখ্যা বলে মনে হয় (সম্ভবত কিছু সময়ের জন্য)। সম্ভবত এটি কোথাও নথিভুক্ত হয়েছে এটি প্রতি 1000 বা 10000 বা যাই হোক না কেন গ্রেপ্তার হোক।

প্রদত্ত ইউনিটগুলিতে অ্যাসল্ট ভেরিয়েবলের গড় প্রায় 171 এবং গড় হত্যার পরিমাণ 8 So

সুতরাং, তথ্যে বোধগম্যতা রয়েছে যে খুন ইত্যাদি ছাড়াও হামলার জন্য আরও অনেক গ্রেপ্তার রয়েছে, যা জানা (বা অবাক করা) সত্য বিশ্লেষণকে প্রাধান্য দেয়।

এটি দেখায় যে, পরিসংখ্যানের অন্য যে কোনও জায়গায়, আপনি একটি পিসিএতে কী করছেন সে সম্পর্কে আপনাকে ভাবতে হবে।

আপনি যদি এটি আরও গ্রহণ করেন:

  1. আমি যুক্তি দিয়েছি যে বিশ্লেষণের বাইরে শতকরা শহুরে ভাল। শহুরে হওয়া কোনও অপরাধ নয়; এটি অবশ্যই অপরাধকে প্রভাবিতকারী ভেরিয়েবলগুলির জন্য প্রক্সি পরিবেশন করতে পারে।

  2. একটি পারস্পরিক সম্পর্ক মেট্রিক্সের উপর ভিত্তি করে একটি পিসিএ আমার দৃষ্টিতে আরও অর্থবোধ করতে পারে। আর একটি সম্ভাবনা হ'ল গ্রেপ্তারের হারের লগারিদম নিয়ে কাজ করা, গ্রেপ্তারের হার নয় (সমস্ত মান ইতিবাচক; নীচে দেখুন)।

দ্রষ্টব্য: @ এলোমেলো_গুইয়ের উত্তর ইচ্ছাকৃতভাবে কোভারিয়েন্স ম্যাট্রিক্স ব্যবহার করে।

এখানে কিছু সংক্ষিপ্ত পরিসংখ্যান রয়েছে। আমি স্টাটা ব্যাবহার করেছি, তবে এটি বেশ নিরবচ্ছিন্ন।

    Variable |       Obs        Mean    Std. Dev.       Min        Max
-------------+--------------------------------------------------------
   urban_pop |        50       65.54    14.47476         32         91
      murder |        50       7.788     4.35551         .8       17.4
        rape |        50      21.232    9.366384        7.3         46
     assault |        50      170.76    83.33766         45        337
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.