পিসিএ আরও ভালভাবে ব্যাখ্যা করা ভেরিয়েন্স অনুপাত দেওয়ার আগে ডেটাকে সাধারণকরণ না করা


19

আমি আমার ডেটাসেটটিকে সাধারণকরণ করেছিলাম তখন ছোট বর্ণিত ভেরিয়েন্স অনুপাত ([0.50, 0.1, 0.05]) পেতে 3 টি উপাদান পিসিএ চালিয়েছি।

আমি যখন স্বাভাবিক না হয়ে আমার ডেটাসেটটি সাদা করে তুলি তখন 3 টি উপাদান পিসিএ চলে আসে, আমি উচ্চতর ব্যাখ্যা পেয়েছি ভেরিয়েন্স অনুপাত ([0.86, 0.06,0.01]) পেয়েছি।

যেহেতু আমি 3 টি উপাদানগুলিতে যতটা ডেটা ধরে রাখতে চাই, তাই আমার কি ডেটাটি স্বাভাবিক করা উচিত নয়? আমার বোঝাপড়া থেকে আমাদের সর্বদা পিসিএর আগে স্বাভাবিক করা উচিত।

সাধারণকরণের মাধ্যমে: 0 থেকে গড় নির্ধারণ এবং ইউনিটের বৈকল্পিকতা থাকা।

pca 

3
যদিও স্পষ্ট নয় কি আপনি "স্বাভাবিক" তথ্য (আমি অন্তত চার মান উপায়ে পিসিএ মধ্যে এই কাজ করতে জানি এবং সম্ভবত আরো আছে) দ্বারা বলতে চাচ্ছি, এটা উপাদান মত শোনাচ্ছে stats.stackexchange.com/questions/53 শক্তি আলোকিত করা।
শুকনো

হাই হুবহু: আমি প্রতিটি পর্যবেক্ষণকে ইউনিট রীতিতে

1
ধন্যবাদ। এর জন্য সাধারণ শব্দটি হ'ল "মানককরণ"। যখন আপনি এটি করেন যে আপনি পারস্পরিক সম্পর্কের ভিত্তিতে পিসিএ করছেন: তাই আমি মনে করি যে আমার দেওয়া লিঙ্কটি ইতিমধ্যে আপনার প্রশ্নের উত্তর দিতে পারে। যাইহোক, আমি সেখানে উত্তরগুলির কোনও কিছুই দেখতে পাচ্ছি না কারণ আপনি কীভাবে বা কীভাবে আলাদা ফলাফল পাবেন (সম্ভবত এটি জটিল এবং মানকতার প্রভাব সম্পর্কে ভবিষ্যদ্বাণী করা কঠিন হতে পারে) explain
whuber

1
পিসিএর আগে সাদা করা কি সাধারণ? এটা করার লক্ষ্য কী?
শ্যাডটলকার

2
আপনি যদি চিত্রগুলির সাথে কাজ করে থাকেন তবে উদাহরণস্বরূপ, চিত্রগুলির আদর্শটি উজ্জ্বলতার সাথে মিলে যায়। অ-নরমালাইজড ডেটাগুলির উচ্চতর বর্ণিত বৈচিত্রটির অর্থ হ'ল উজ্জ্বলতার পরিবর্তনের মাধ্যমে প্রচুর ডেটা ব্যাখ্যা করা যায়। যদি উজ্জ্বলতা আপনার কাছে গুরুত্বপূর্ণ না হয়, কারণ এটি প্রায়শই চিত্র প্রক্রিয়াকরণে না থাকে তবে আপনি সমস্ত চিত্রগুলির ইউনিটকে প্রথমে আদর্শ করতে চান। এমনকি চিন্তা আপনার PCA উপাদান ভ্যারিয়েন্স ব্যাখ্যা কম হবে, এটা ভাল কি তুমি আগ্রহী মধ্যে প্রতিফলিত করে।
হারুন

উত্তর:


37

আপনার বিশ্লেষণের লক্ষ্য উপর নির্ভর করে। কিছু সাধারণ অভ্যাস, যার কয়েকটি হ'ল লিঙ্কে উল্লেখ করা হয়েছে:

  1. স্ট্যান্ডার্ডাইজিং সাধারণত করা হয় যখন পিসিএ সঞ্চালিত হয় সেই চলকগুলি একই স্কেলে মাপা হয় না। নোট করুন যে মানককরণ বলতে সমস্ত ভেরিয়েবলের জন্য সমান গুরুত্ব দেওয়া বোঝায়।
  2. যদি সেগুলি একই স্কেলে পরিমাপ করা হয় না এবং আপনি অ-মানক ভেরিয়েবলগুলি নিয়ে কাজ করতে পছন্দ করেন, তবে প্রায়শই এমন ঘটনা ঘটে যে প্রতিটি পিসি একক ভেরিয়েবল দ্বারা প্রভাবিত হয় এবং আপনি কেবল তাদের বৈকল্পিকের মাধ্যমে ভেরিয়েবলের ক্রম ক্রম অর্ডার করতে পারেন। (প্রতিটি (শুরুর) উপাদানটির লোডগুলির মধ্যে একটি +1 বা -1 এর কাছাকাছি থাকবে))
  3. দুটি অভিজ্ঞতা প্রায়শই বিভিন্ন ফলাফলের দিকে নিয়ে যায়, যেমনটি আপনি অনুভব করেছেন।

স্বজ্ঞাত উদাহরণ:

ধরুন আপনার দুটি পরিবর্তনশীল রয়েছে: একটি গাছের উচ্চতা এবং একই গাছের ঘের। আমরা ভলিউমটিকে একটি ফ্যাক্টারে রূপান্তর করব: একটি গাছের আয়তন 20 কিউবিক ফুটের চেয়ে বড় হলে এবং ভলিউমে কম থাকলে ভলিউমের পরিমাণ বেশি হবে। আমরা আর গাছগুলিতে ডেটাসেট ব্যবহার করব যা প্রি লোড হয় আর।

>data(trees)
>tree.girth<-trees[,1]
>tree.height<-trees[,2]
>tree.vol<-as.factor(ifelse(trees[,3]>20,"high","low"))

এখন ধরুন যে উচ্চতা আসলে পায়ের পরিবর্তে মাইল মাপানো হয়েছিল।

>tree.height<-tree.height/5280
>tree<-cbind(tree.height,tree.girth)
>
>#do the PCA
>tree.pca<-princomp(tree)
>summary(tree.pca)
Importance of components:
                      Comp.1       Comp.2
Standard deviation     3.0871086 1.014551e-03
Proportion of Variance 0.9999999 1.080050e-07
Cumulative Proportion  0.9999999 1.000000e+00

প্রথম উপাদানটি ডেটাতে প্রায় 100% পরিবর্তনশীলতা ব্যাখ্যা করে। লোডিং:

> loadings(tree.pca)

Loadings:
            Comp.1 Comp.2
tree.height        -1    
tree.girth   1           

গ্রাফিকাল মূল্যায়ন:

>biplot(tree.pca,xlabs=tree.vol,col=c("grey","red"))

প্রথম পদ্ধতির বিপ্লট

আমরা দেখতে পেলাম যে পরিমাণে উচ্চতর গাছগুলি একটি উচ্চ গাছের ঘের থাকে, তবে তিনটি উচ্চতা গাছের পরিমাণ সম্পর্কে কোনও তথ্য দেয় না। এটি সম্ভবত ভুল এবং দুটি পৃথক ইউনিটের ব্যবস্থা গ্রহণের ফলাফল।

আমরা একই ইউনিট ব্যবহার করতে পারি, বা আমরা ভেরিয়েবলগুলি মানক করতে পারি। আমি আশা করি যে উভয়ই পরিবর্তনশীলতার আরও সুষম চিত্রের দিকে নিয়ে যাবে। অবশ্যই এই ক্ষেত্রে কেউ তর্ক করতে পারে যে ভেরিয়েবলগুলির একই ইউনিট থাকা উচিত তবে মানক করা উচিত নয়, যা একটি বৈধ যুক্তি হতে পারে, এটি যদি না হয় যে আমরা দুটি ভিন্ন জিনিস পরিমাপ করছি। (যখন আমরা গাছের ওজন এবং গাছের ঘের পরিমাপ করব, তখন যে স্কেল উভয়কেই পরিমাপ করা উচিত তা খুব বেশি পরিষ্কার নয় this এক্ষেত্রে আমাদের মানক ভেরিয়েবলগুলি নিয়ে কাজ করার জন্য একটি স্পষ্ট যুক্তি রয়েছে))

>tree.height<-tree.height*5280
>tree<-cbind(tree.height,tree.girth)
>
>#do the PCA
>tree.pca<-princomp(tree)
> summary(tree.pca)
Importance of components:
                          Comp.1    Comp.2
Standard deviation     6.5088696 2.5407042
Proportion of Variance 0.8677775 0.1322225
Cumulative Proportion  0.8677775 1.0000000
> loadings(tree.pca)

Loadings:
            Comp.1 Comp.2
tree.height -0.956  0.293
tree.girth  -0.293 -0.956

>biplot(tree.pca,xlabs=tree.vol,col=c("grey","red"))

দ্বিতীয় পদ্ধতিতে বিপ্লট

আমরা এখন দেখতে পাচ্ছি যে গাছগুলি লম্বা এবং একটি বড় ঘের রয়েছে, সেগুলি কম পরিমাণে এবং কম আয়তনের গাছের (উপরের ডান কোণে) কম উচ্চতার তুলনায়, আয়তনের (নীচে বাম কোণে) বেশি। এটি স্বজ্ঞাতভাবে বোঝা যায়।

যদি কেউ ঘনিষ্ঠভাবে পর্যবেক্ষণ করে তবে আমরা দেখতে পাই যে উচ্চ / নিম্ন ভলিউমের মধ্যে বিপরীতটি ঘেরের দিকের দিক থেকে সবচেয়ে শক্তিশালী এবং উচ্চতার দিকে নয়। আসুন আমরা যখন মানক করি তখন কী ঘটে তা দেখুন:

>tree<-scale(tree,center=F,scale=T)
>tree.pca<-princomp(tree)
> summary(tree.pca)
Importance of components:
                          Comp.1     Comp.2
Standard deviation     0.2275561 0.06779544
Proportion of Variance 0.9184749 0.08152510
Cumulative Proportion  0.9184749 1.00000000
> loadings(tree.pca)

Loadings:
            Comp.1 Comp.2
tree.height  0.203 -0.979
tree.girth   0.979  0.203
>biplot(tree.pca,xlabs=tree.vol,col=c("grey","red"))

তৃতীয় পদ্ধতির বিপ্লট

প্রকৃতপক্ষে, ঘেরটি এখন উচ্চ এবং নিম্ন পরিমাণের গাছের পার্থক্যের সর্বাধিক ব্যাখ্যা করে! (বাইপল্টে তীরের দৈর্ঘ্যটি মূল পরিবর্তনশীলের পরিবর্তনের সূচক)) সুতরাং জিনিসগুলি একই স্কেলে মাপা গেলেও মানক কার্যকর হতে পারে। আমরা উদাহরণস্বরূপ যখন বিভিন্ন প্রজাতির গাছের দৈর্ঘ্যের তুলনা করি তখন মানককরণের প্রস্তাব দেওয়া যায় না কারণ এটি ঠিক একই পরিমাপ।


2
(+1) খুব সুন্দর উত্তর, প্রকৃতপক্ষে কোভারিয়েন্স বনাম পারস্পরিক সম্পর্কের উপর পিসিএ সম্পর্কিত লিঙ্কযুক্ত জনপ্রিয় থ্রেডে দেওয়া সমস্তকে ছাড়িয়ে।
অ্যামিবা বলছেন মনিকাকে
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.