আমি প্রায়শই পিসিএ (কয়েক হাজার ভেরিয়েবল এবং কয়েক ডজন বা শত শত নমুনা সহ অলমিক্স ডেটা) ব্যবহার করে আমার মাল্টিভিয়ারেট ডেটা নির্ণয় করতাম। ডেটা প্রায়শই কয়েকটি গোষ্ঠী সংজ্ঞায়িত বিভিন্ন শ্রেণিবদ্ধ স্বতন্ত্র ভেরিয়েবলগুলির সাথে পরীক্ষাগুলি থেকে আসে এবং আগ্রহী গোষ্ঠীর মধ্যে একটি বিভাজন দেখায় এমনগুলি খুঁজে পাওয়ার আগে আমাকে প্রায়শই কয়েকটি উপাদান দিয়ে যেতে হয়। আমি এ জাতীয় বৈষম্যমূলক উপাদানগুলি আবিষ্কারের পরিবর্তে আদিম উপায় নিয়ে এসেছি এবং অবাক হয়েছি
- এটি কতটা যুক্তিসঙ্গত / ন্যায়সঙ্গত, এবং
- একই অর্জনের আরও ভাল উপায় আছে কিনা।
মনে রাখবেন এটি অনুসন্ধানী। অন্য কাউকে বোঝানোর আগে আমি নিজেকে বোঝাতে চাই। যদি আমি দেখতে পাই যে এমন কিছু উপাদান রয়েছে যা স্বার্থের গোষ্ঠীগুলিকে স্পষ্টভাবে আলাদা করে (যেমন নিয়ন্ত্রণ বনাম চিকিত্সা), এমনকি তারা প্রতিক্রিয়াগুলির প্রকরণের ক্ষুদ্র অংশের জন্যও দায়ী, আমি তত্ত্বাবধায়ক মেশিনের ফলাফলের চেয়ে বেশি বিশ্বাস করি শেখার।
এই আমার পদ্ধতির। আমি আরটি-তে pca3d থেকে সেট করা "মেটাবো" উদাহরণ ডেটা ব্যবহার করব।
ধারণাটি নির্ধারণ করা হয় যে প্রতিটি উপাদানটির কতগুলি বৈকল্পিক স্বাধীন ভেরিয়েবল দ্বারা ব্যাখ্যা করা যায়। এর জন্য, আমি প্রতিটি উপাদানগুলির জন্য একটি সাধারণ মডেল গণনা করি এবং উপাদানগুলিকে "সবচেয়ে আকর্ষণীয়" থেকে "কমপক্ষে আকর্ষণীয়" করার জন্য মেট্রিক হিসাবে ব্যবহার করি ।
require( pca3d )
# data on metabolic profiles of TB patients and controls
data( metabo )
# first column is the independent variable
pca <- prcomp( metabo[,-1], scale.= T )
# create a model for each component
lm.m <- lm( pca$x ~ metabo[,1] )
lm.s <- summary( lm.m )
lm.r2 <- sapply( lm.s, function( x ) x$r.squared )
plot( lm.r2, type= "l" )
text( 1:length( lm.r2 ), lm.r2, 1:length( lm.r2 ), pos= 3 )
ফলাফল এখানে। প্লটটি ইন ইন্ডিপেন্ডেন্ট ভেরিয়েবল দ্বারা ব্যাখ্যা করা প্রতিটি উপাদানগুলির বৈকল্পিকতার শতাংশ দেখায় metabo[,1]
।
কোনটি দিয়ে প্রদর্শিত হবে তা নির্ধারণের জন্য আমরা উপাদানগুলিকে দিয়ে বাছাই করতে পারি ; প্রথম তিনটি উপাদান হ'ল 2, 1 এবং 7।order( lm.r2, decreasing= TRUE )
pca3d( pca, components= c( 1, 2, 7 ), group= metabo[,1] )
প্লটটি এখানে:
(লাল এবং সবুজ বিভাগগুলি এমন দুটি গ্রুপের বিষয় যারা রোগী নন এবং এটি আশা করা যায় যে এগুলি আলাদা করা যায় না))
আমার প্রশ্নগুলির সংস্কার করতে,
- এই পদ্ধতির আপনার অর্থ কি? আমার সমস্যাটি এটি ডেটার ড্রেজিংয়ের মতো দেখতে অনেক বেশি লাগে। এছাড়াও, স্বজ্ঞাতভাবে আমি মনে করি সম্ভবত আমার টেবিলটি ঘুরিয়ে দেওয়া উচিত এবং জিজ্ঞাসা করতে হবে যে প্রতিটি ভেরিয়েবল দ্বারা স্বতন্ত্র ভেরিয়েবলের প্রকরণটির ব্যাখ্যা করা হয়? অবশেষে, আমি (প্রায়) নিশ্চিত যে আমি চাকাটি পুনরায় উদ্ভাবন করছি, দুর্বল, সুতরাং আমার দ্বিতীয় প্রশ্নটি
- এর চেয়ে ভাল কিছু আছে কি?
নোট করুন যে আমি এই পর্যায়ে আংশিক ন্যূনতম স্কোয়ার বা অনুরূপ কিছুতে যেতে চাই না; আমি কেবল আমার শ্রেণিবিন্যাসের প্রসঙ্গে পিসিএ নির্ণয় করতে চাই।
to find out what share of the overall variance in the data matrix is explained by a given classification
এটি জানতে চাইলে আপনার কোনও পিসিএ দরকার নেই। বর্গের সমষ্টি-সমষ্টিগুলির অনুপাতের সমষ্টিটিকে মোট বর্গের সমষ্টি হিসাবে গণনা করুন: (SStotal-SSwithin)/SStotal
যেখানে এসএসউইথিন-সমষ্টি-সমষ্টি-সমষ্টিগুলির মধ্যে পোলড।
Is there anything better?
।