আপনার বিশ্লেষণের লক্ষ্য উপর নির্ভর করে। কিছু সাধারণ অভ্যাস, যার কয়েকটি হ'ল লিঙ্কে উল্লেখ করা হয়েছে:
- স্ট্যান্ডার্ডাইজিং সাধারণত করা হয় যখন পিসিএ সঞ্চালিত হয় সেই চলকগুলি একই স্কেলে মাপা হয় না। নোট করুন যে মানককরণ বলতে সমস্ত ভেরিয়েবলের জন্য সমান গুরুত্ব দেওয়া বোঝায়।
- যদি সেগুলি একই স্কেলে পরিমাপ করা হয় না এবং আপনি অ-মানক ভেরিয়েবলগুলি নিয়ে কাজ করতে পছন্দ করেন, তবে প্রায়শই এমন ঘটনা ঘটে যে প্রতিটি পিসি একক ভেরিয়েবল দ্বারা প্রভাবিত হয় এবং আপনি কেবল তাদের বৈকল্পিকের মাধ্যমে ভেরিয়েবলের ক্রম ক্রম অর্ডার করতে পারেন। (প্রতিটি (শুরুর) উপাদানটির লোডগুলির মধ্যে একটি +1 বা -1 এর কাছাকাছি থাকবে))
- দুটি অভিজ্ঞতা প্রায়শই বিভিন্ন ফলাফলের দিকে নিয়ে যায়, যেমনটি আপনি অনুভব করেছেন।
স্বজ্ঞাত উদাহরণ:
ধরুন আপনার দুটি পরিবর্তনশীল রয়েছে: একটি গাছের উচ্চতা এবং একই গাছের ঘের। আমরা ভলিউমটিকে একটি ফ্যাক্টারে রূপান্তর করব: একটি গাছের আয়তন 20 কিউবিক ফুটের চেয়ে বড় হলে এবং ভলিউমে কম থাকলে ভলিউমের পরিমাণ বেশি হবে। আমরা আর গাছগুলিতে ডেটাসেট ব্যবহার করব যা প্রি লোড হয় আর।
>data(trees)
>tree.girth<-trees[,1]
>tree.height<-trees[,2]
>tree.vol<-as.factor(ifelse(trees[,3]>20,"high","low"))
এখন ধরুন যে উচ্চতা আসলে পায়ের পরিবর্তে মাইল মাপানো হয়েছিল।
>tree.height<-tree.height/5280
>tree<-cbind(tree.height,tree.girth)
>
>#do the PCA
>tree.pca<-princomp(tree)
>summary(tree.pca)
Importance of components:
Comp.1 Comp.2
Standard deviation 3.0871086 1.014551e-03
Proportion of Variance 0.9999999 1.080050e-07
Cumulative Proportion 0.9999999 1.000000e+00
প্রথম উপাদানটি ডেটাতে প্রায় 100% পরিবর্তনশীলতা ব্যাখ্যা করে। লোডিং:
> loadings(tree.pca)
Loadings:
Comp.1 Comp.2
tree.height -1
tree.girth 1
গ্রাফিকাল মূল্যায়ন:
>biplot(tree.pca,xlabs=tree.vol,col=c("grey","red"))

আমরা দেখতে পেলাম যে পরিমাণে উচ্চতর গাছগুলি একটি উচ্চ গাছের ঘের থাকে, তবে তিনটি উচ্চতা গাছের পরিমাণ সম্পর্কে কোনও তথ্য দেয় না। এটি সম্ভবত ভুল এবং দুটি পৃথক ইউনিটের ব্যবস্থা গ্রহণের ফলাফল।
আমরা একই ইউনিট ব্যবহার করতে পারি, বা আমরা ভেরিয়েবলগুলি মানক করতে পারি। আমি আশা করি যে উভয়ই পরিবর্তনশীলতার আরও সুষম চিত্রের দিকে নিয়ে যাবে। অবশ্যই এই ক্ষেত্রে কেউ তর্ক করতে পারে যে ভেরিয়েবলগুলির একই ইউনিট থাকা উচিত তবে মানক করা উচিত নয়, যা একটি বৈধ যুক্তি হতে পারে, এটি যদি না হয় যে আমরা দুটি ভিন্ন জিনিস পরিমাপ করছি। (যখন আমরা গাছের ওজন এবং গাছের ঘের পরিমাপ করব, তখন যে স্কেল উভয়কেই পরিমাপ করা উচিত তা খুব বেশি পরিষ্কার নয় this এক্ষেত্রে আমাদের মানক ভেরিয়েবলগুলি নিয়ে কাজ করার জন্য একটি স্পষ্ট যুক্তি রয়েছে))
>tree.height<-tree.height*5280
>tree<-cbind(tree.height,tree.girth)
>
>#do the PCA
>tree.pca<-princomp(tree)
> summary(tree.pca)
Importance of components:
Comp.1 Comp.2
Standard deviation 6.5088696 2.5407042
Proportion of Variance 0.8677775 0.1322225
Cumulative Proportion 0.8677775 1.0000000
> loadings(tree.pca)
Loadings:
Comp.1 Comp.2
tree.height -0.956 0.293
tree.girth -0.293 -0.956
>biplot(tree.pca,xlabs=tree.vol,col=c("grey","red"))

আমরা এখন দেখতে পাচ্ছি যে গাছগুলি লম্বা এবং একটি বড় ঘের রয়েছে, সেগুলি কম পরিমাণে এবং কম আয়তনের গাছের (উপরের ডান কোণে) কম উচ্চতার তুলনায়, আয়তনের (নীচে বাম কোণে) বেশি। এটি স্বজ্ঞাতভাবে বোঝা যায়।
যদি কেউ ঘনিষ্ঠভাবে পর্যবেক্ষণ করে তবে আমরা দেখতে পাই যে উচ্চ / নিম্ন ভলিউমের মধ্যে বিপরীতটি ঘেরের দিকের দিক থেকে সবচেয়ে শক্তিশালী এবং উচ্চতার দিকে নয়। আসুন আমরা যখন মানক করি তখন কী ঘটে তা দেখুন:
>tree<-scale(tree,center=F,scale=T)
>tree.pca<-princomp(tree)
> summary(tree.pca)
Importance of components:
Comp.1 Comp.2
Standard deviation 0.2275561 0.06779544
Proportion of Variance 0.9184749 0.08152510
Cumulative Proportion 0.9184749 1.00000000
> loadings(tree.pca)
Loadings:
Comp.1 Comp.2
tree.height 0.203 -0.979
tree.girth 0.979 0.203
>biplot(tree.pca,xlabs=tree.vol,col=c("grey","red"))

প্রকৃতপক্ষে, ঘেরটি এখন উচ্চ এবং নিম্ন পরিমাণের গাছের পার্থক্যের সর্বাধিক ব্যাখ্যা করে! (বাইপল্টে তীরের দৈর্ঘ্যটি মূল পরিবর্তনশীলের পরিবর্তনের সূচক)) সুতরাং জিনিসগুলি একই স্কেলে মাপা গেলেও মানক কার্যকর হতে পারে। আমরা উদাহরণস্বরূপ যখন বিভিন্ন প্রজাতির গাছের দৈর্ঘ্যের তুলনা করি তখন মানককরণের প্রস্তাব দেওয়া যায় না কারণ এটি ঠিক একই পরিমাপ।