আইরিস ডেটা সেট পিসিএ শেখার জন্য একটি দুর্দান্ত উদাহরণ। এটি বলেছিল, সেপাল এবং পাপড়িগুলির দৈর্ঘ্য এবং প্রস্থ বর্ণনা করে প্রথম চারটি কলাম দৃ strongly়ভাবে স্কিউড ডেটার উদাহরণ নয়। সুতরাং লগ-রূপান্তর তথ্য উপাত্তগুলিতে খুব বেশি পরিবর্তন হয় না, যেহেতু মূল উপাদানগুলির ফলে ঘূর্ণনটি লগ-ট্রান্সফর্মেশন দ্বারা যথেষ্ট অপরিবর্তিত থাকে।
অন্যান্য পরিস্থিতিতে লগ-রূপান্তর একটি ভাল পছন্দ।
আমরা একটি ডেটা সেটের সাধারণ কাঠামোর অন্তর্দৃষ্টি পেতে পিসিএ সঞ্চালন করি। আমরা কিছু তুচ্ছ প্রভাবগুলি ফিল্টার করতে কেন্দ্র, স্কেল এবং কখনও কখনও লগ-ট্রান্সফর্ম করি যা আমাদের পিসিএতে প্রভাব ফেলতে পারে। একটি পিসিএর অ্যালগরিদম পরিবর্তিত স্কয়ারযুক্ত অবশিষ্টাংশগুলিকে হ্রাস করতে প্রতিটি পিসির ঘূর্ণন আবিষ্কার করবে, যাহা পিসিগুলিতে কোনও নমুনা থেকে স্কোয়ারের লম্ব লম্বা দূরত্বের যোগফল। বড় মানগুলির উচ্চতর উত্সাহ রয়েছে।
আইরিস ডেটাতে দুটি নতুন নমুনা ইনজেক্ট করার কল্পনা করুন। 430 সেন্টিমিটার পাপড়ি দৈর্ঘ্য এবং 0.0043 সেমি দৈর্ঘ্যের পাপড়ি দৈর্ঘ্য সহ একটি ফুল। উভয় ফুলের গড় উদাহরণগুলির তুলনায় যথাক্রমে 100 গুণ বড় এবং 1000 গুণ ছোট হওয়া খুব অস্বাভাবিক। প্রথম ফুলের লিভারেজ বিশাল, যেমন প্রথম পিসি বেশিরভাগ ক্ষেত্রেই বড় ফুল এবং অন্য কোনও ফুলের মধ্যে পার্থক্য বর্ণনা করে। প্রজাতির ক্লাস্টারিং এক প্রকারের কারণে সম্ভব নয়। যদি ডেটা লগ-ট্রান্সফর্ম হয় তবে পরম মান এখন আপেক্ষিক প্রকরণটি বর্ণনা করে। এখন ছোট ফুলটি সবচেয়ে অস্বাভাবিক এক। তবুও উভয়ই একটি চিত্রের সমস্ত নমুনা ধারণ করা এবং প্রজাতির একটি ন্যায্য ক্লাস্টারিং সরবরাহ করা সম্ভব। এই উদাহরণটি দেখুন:
data(iris) #get data
#add two new observations from two new species to iris data
levels(iris[,5]) = c(levels(iris[,5]),"setosa_gigantica","virginica_brevis")
iris[151,] = list(6,3, 430 ,1.5,"setosa_gigantica") # a big flower
iris[152,] = list(6,3,.0043,1.5 ,"virginica_brevis") # a small flower
#Plotting scores of PC1 and PC" without log transformation
plot(prcomp(iris[,-5],cen=T,sca=T)$x[,1:2],col=iris$Spec)
#Plotting scores of PC1 and PC2 with log transformation
plot(prcomp(log(iris[,-5]),cen=T,sca=T)$x[,1:2],col=iris$Spec)