মূল উপাদান বিশ্লেষণ করার আগে ডেটা লগ-ট্রান্সফর্মিং কেন?


16

আমি এখানে একটি টিউটোরিয়াল অনুসরণ করছি: পিসিএ সম্পর্কে আরও ভাল ধারণা অর্জনের জন্য http://www.r-bloggers.com/computing-and-visualizing-pca-in-r/

টিউটোরিয়ালটি আইরিস ডেটাसेट ব্যবহার করে এবং পিসিএর পূর্বে লগ রূপান্তর প্রয়োগ করে:

লক্ষ্য করুন যে নিম্নলিখিত কোডটিতে আমরা [1] এর পরামর্শ অনুসারে অবিচ্ছিন্ন ভেরিয়েবলগুলিতে একটি লগ রূপান্তরকরণ প্রয়োগ করি এবং পিসিএ প্রয়োগের পূর্বে ভেরিয়েবলগুলি মানীকরণের জন্য কল এ সেট centerএবং scaleসমান ।TRUEprcomp

কেউ আইরিস ডেটাসেটের প্রথম চারটি কলামে লগ ফাংশনটি কেন ব্যবহার করছেন তা সরল ইংরেজিতে আমাকে ব্যাখ্যা করতে পারে। আমি বুঝতে পারি যে এটি ডেটা আপেক্ষিক তৈরির সাথে কিছু করার আছে তবে লগ, কেন্দ্র এবং স্কেলের ঠিক কী কাজটি তা নিয়ে আমি বিভ্রান্ত।

উপরোক্ত রেফারেন্স [1] ভেনিয়েবল এবং রিপলির জন্য, এস-প্লাসের সাথে আধুনিক প্রয়োগ পরিসংখ্যান , ধারা ১১.১ যা সংক্ষেপে বলেছে:

ডেটা শারীরিক পরিমাপ, সুতরাং লগ স্কেলে কাজ করার জন্য একটি প্রাথমিক প্রাথমিক কৌশল। এটি জুড়ে করা হয়েছে।


উত্তর:


19

আইরিস ডেটা সেট পিসিএ শেখার জন্য একটি দুর্দান্ত উদাহরণ। এটি বলেছিল, সেপাল এবং পাপড়িগুলির দৈর্ঘ্য এবং প্রস্থ বর্ণনা করে প্রথম চারটি কলাম দৃ strongly়ভাবে স্কিউড ডেটার উদাহরণ নয়। সুতরাং লগ-রূপান্তর তথ্য উপাত্তগুলিতে খুব বেশি পরিবর্তন হয় না, যেহেতু মূল উপাদানগুলির ফলে ঘূর্ণনটি লগ-ট্রান্সফর্মেশন দ্বারা যথেষ্ট অপরিবর্তিত থাকে।

অন্যান্য পরিস্থিতিতে লগ-রূপান্তর একটি ভাল পছন্দ।

আমরা একটি ডেটা সেটের সাধারণ কাঠামোর অন্তর্দৃষ্টি পেতে পিসিএ সঞ্চালন করি। আমরা কিছু তুচ্ছ প্রভাবগুলি ফিল্টার করতে কেন্দ্র, স্কেল এবং কখনও কখনও লগ-ট্রান্সফর্ম করি যা আমাদের পিসিএতে প্রভাব ফেলতে পারে। একটি পিসিএর অ্যালগরিদম পরিবর্তিত স্কয়ারযুক্ত অবশিষ্টাংশগুলিকে হ্রাস করতে প্রতিটি পিসির ঘূর্ণন আবিষ্কার করবে, যাহা পিসিগুলিতে কোনও নমুনা থেকে স্কোয়ারের লম্ব লম্বা দূরত্বের যোগফল। বড় মানগুলির উচ্চতর উত্সাহ রয়েছে।

আইরিস ডেটাতে দুটি নতুন নমুনা ইনজেক্ট করার কল্পনা করুন। 430 সেন্টিমিটার পাপড়ি দৈর্ঘ্য এবং 0.0043 সেমি দৈর্ঘ্যের পাপড়ি দৈর্ঘ্য সহ একটি ফুল। উভয় ফুলের গড় উদাহরণগুলির তুলনায় যথাক্রমে 100 গুণ বড় এবং 1000 গুণ ছোট হওয়া খুব অস্বাভাবিক। প্রথম ফুলের লিভারেজ বিশাল, যেমন প্রথম পিসি বেশিরভাগ ক্ষেত্রেই বড় ফুল এবং অন্য কোনও ফুলের মধ্যে পার্থক্য বর্ণনা করে। প্রজাতির ক্লাস্টারিং এক প্রকারের কারণে সম্ভব নয়। যদি ডেটা লগ-ট্রান্সফর্ম হয় তবে পরম মান এখন আপেক্ষিক প্রকরণটি বর্ণনা করে। এখন ছোট ফুলটি সবচেয়ে অস্বাভাবিক এক। তবুও উভয়ই একটি চিত্রের সমস্ত নমুনা ধারণ করা এবং প্রজাতির একটি ন্যায্য ক্লাস্টারিং সরবরাহ করা সম্ভব। এই উদাহরণটি দেখুন:

data(iris) #get data
#add two new observations from two new species to iris data
levels(iris[,5]) = c(levels(iris[,5]),"setosa_gigantica","virginica_brevis")
iris[151,] = list(6,3,  430  ,1.5,"setosa_gigantica") # a big flower
iris[152,] = list(6,3,.0043,1.5  ,"virginica_brevis") # a small flower

#Plotting scores of PC1 and PC" without log transformation
plot(prcomp(iris[,-5],cen=T,sca=T)$x[,1:2],col=iris$Spec)

এখানে চিত্র বর্ণনা লিখুন

#Plotting scores of PC1 and PC2 with log transformation
plot(prcomp(log(iris[,-5]),cen=T,sca=T)$x[,1:2],col=iris$Spec)

এখানে চিত্র বর্ণনা লিখুন


2
ভাল ডেমো এবং প্লট।
শ্যাডএলকার

3

ঠিক আছে, অন্য উত্তরটি একটি উদাহরণ দেয়, যখন লগ-ট্রান্সফর্মটি চরম মান বা বহিরাগতদের প্রভাব হ্রাস করতে ব্যবহৃত হয়।
আর একটি সাধারণ যুক্তি দেখা দেয়, যখন আপনি ডেটা বিশ্লেষণ করার চেষ্টা করেন যা সংযোজনীয় পরিবর্তে বহুগুণে রচিত হয় - পিসিএ এবং এফএ মডেলগুলি তাদের গণিতের মতো রচনাগুলি দ্বারা।বর্ধকপৃষ্ঠগুলি এবং দেহের পরিমাণগুলি (কার্যকরীভাবে) তিনটি পরামিতি দৈর্ঘ্য, প্রস্থ, গভীরতার উপর নির্ভরশীল যেমন শারীরিক ডেটাতে রচনাগুলি সবচেয়ে সাধারণ ক্ষেত্রে ঘটে। প্রারম্ভিক পিসিএর historicতিহাসিক উদাহরণের রচনাগুলি কেউ পুনরুত্পাদন করতে পারে, আমি মনে করি এটি "থারস্টনের বল- (বা 'কিউবস') সমস্যা" বা এর মতো বলে called একবার আমি সেই উদাহরণটির ডেটা নিয়ে খেললাম এবং খুঁজে পেয়েছি যে লগ-ট্রান্সফর্মড ডেটা তিনটি মাত্রিক ব্যবস্থাসমূহের সাহায্যে পরিমাপক ভলিউম এবং পৃষ্ঠের ডেটা গঠনের জন্য অনেক সুন্দর এবং পরিষ্কার মডেল দিয়েছে।

এ জাতীয় সাধারণ উদাহরণ ছাড়াও, যদি আমরা সামাজিক গবেষণা ডেটা ইন্টারঅ্যাকশন বিবেচনা করি, তবে আমরা তাদেরকে আরও প্রাথমিক উপাদানগুলির গুণগতভাবে রচনা পরিমাপ হিসাবে বিবেচনা করি। সুতরাং আমরা যদি বিশেষভাবে ইন্টারঅ্যাকশনগুলিতে লক্ষ্য করি তবে ল-ট্রান্সফর্মটি ডি-কমপোজিশনের জন্য একটি গাণিতিক মডেল পেতে একটি বিশেষ সহায়ক সরঞ্জাম হতে পারে।


আপনি কি দয়া করে এমন কিছু রেফারেন্স তালিকাবদ্ধ করতে পারেন যা "গুণবান" রচনাগুলি আরও ভালভাবে ব্যাখ্যা করতে পারে? অনেক ধন্যবাদ!
অমাত্য

1
@ আমতিয়া - আমি "থারস্টোন-বাক্স-সমস্যা" খুঁজে পাইনি, তবে একটি (জার্মান) সাইট কিউবগুলিতে আলোচনার পিসিএ, প্রস্থ, দৈর্ঘ্য, উচ্চতা এবং উচ্চতর স্তর এবং ভলিউম বহু গুণযুক্ত সংযুক্ত অতিরিক্ত আইটেম হিসাবে রয়েছে containing সংজ্ঞাগুলির জন্য অন্তর্ভুক্ত সূত্রগুলি যথেষ্ট। Sgipt.org/wines/fa/Quader/q00.htm
গটফ্রিড

1
আহ, এবং আমি ভুলে গেছি - এই go.helms-net.de/stat/fa/SGIPT_Quader.htm
গটফ্রিড হেলমেস

@ গটফ্রিডহেলমস আমি এখনও বুঝতে পারছি না কেন আমরা যদি ভেরিয়েবলকে মানক করে তুলছি তবে সেগুলিও লগ-ট্রান্সফর্ম করা দরকার। আমি চরম বহিরাগতদের অবাঞ্ছিত প্রভাব হ্রাস করার সাধারণ নীতিটি বুঝতে পারি, তবে আমরা যদি ইতিমধ্যে তাদের মানককরণ (কেন্দ্রীকরণ, স্কেলিং) করে থাকি তবে মনে হয় লগ এটির পরিবর্তে রূপান্তরিত করা তথ্যটিকে বিকৃত করা is
ইউ চেন

@ ইউচেন - যে কোনও লগ-রূপান্তরটি বহুগুণিত সংমিশ্রণকে সংযোজনীয় রচনায় রূপান্তরিত করে এবং সংযোজিত সংমিশ্রণ হ'ল সমস্ত ধরণের উপাদান এবং গুণক বিশ্লেষণের মৌলিক অনুমান (রৈখিকতা ইত্যাদি) um সুতরাং যদি আপনার ডেটাতে এটিতে গুণক রচনা থাকে তবে লগ-ট্রান্সফর্মটি বিবেচনার জন্য একটি বিকল্প হওয়া উচিত।
গটফ্রিড হেলস
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.