পারস্পরিক সম্পর্ক মেট্রিক্স এবং কোভেরিয়েন্স ম্যাট্রিক্সের প্রধান উপাদান বিশ্লেষণ (পিসিএ) সম্পাদনের মধ্যে প্রধান পার্থক্যগুলি কী কী? তারা কি একই ফলাফল দেয়?
পারস্পরিক সম্পর্ক মেট্রিক্স এবং কোভেরিয়েন্স ম্যাট্রিক্সের প্রধান উপাদান বিশ্লেষণ (পিসিএ) সম্পাদনের মধ্যে প্রধান পার্থক্যগুলি কী কী? তারা কি একই ফলাফল দেয়?
উত্তর:
চলক স্কেলগুলি একইরকম হয় এবং আপনি যখন ভেরিয়েবলগুলি বিভিন্ন স্কেলের হয় তখন পারস্পরিক সম্পর্ক ম্যাট্রিক্স ব্যবহার করার ঝোঁক।
পারস্পরিক সম্পর্ক ম্যাট্রিক্স ব্যবহার করা প্রতিটি ভেরিয়েবলের মানক করার সমতুল্য (যার অর্থ 0 এবং স্ট্যান্ডার্ড বিচ্যুতি 1)। সাধারণভাবে, মানহীন ও ছাড়াই পিসিএ বিভিন্ন ফলাফল দেয়। বিশেষত যখন আঁশগুলি আলাদা হয়।
উদাহরণ হিসাবে, এই আর heptathlon
ডেটা সেটটি একবার দেখুন। কিছু ভেরিয়েবলের গড় মূল্য প্রায় 1.8 (উচ্চ লাফ) থাকে, অন্য ভেরিয়েবলগুলি (রান 800 মিটার) প্রায় 120 হয়।
library(HSAUR)
heptathlon[,-8] # look at heptathlon data (excluding 'score' variable)
এই ফলাফলগুলি:
hurdles highjump shot run200m longjump javelin run800m
Joyner-Kersee (USA) 12.69 1.86 15.80 22.56 7.27 45.66 128.51
John (GDR) 12.85 1.80 16.23 23.65 6.71 42.56 126.12
Behmer (GDR) 13.20 1.83 14.20 23.10 6.68 44.54 124.20
Sablovskaite (URS) 13.61 1.80 15.23 23.92 6.25 42.78 132.24
Choubenkova (URS) 13.51 1.74 14.76 23.93 6.32 47.46 127.90
...
এখন covariance এবং পারস্পরিক সম্পর্ক উপর পিসিএ করা যাক:
# scale=T bases the PCA on the correlation matrix
hep.PC.cor = prcomp(heptathlon[,-8], scale=TRUE)
hep.PC.cov = prcomp(heptathlon[,-8], scale=FALSE)
biplot(hep.PC.cov)
biplot(hep.PC.cor)
run800m
javelin
run800m
javelin
আরও লক্ষ করুন যে বহিরাগত ব্যক্তিরা ( এই ডেটা সেটে) আউটলিয়ার হন না কেন সমাহার বা পারস্পরিক সম্পর্ক মেট্রিক্স ব্যবহৃত হয়।
বার্নার্ড ফ্ল্যারি, তাঁর বহুবিধ বিশ্লেষণ প্রবর্তনকারী বইতে এটিকে মূল উপাদানগুলির একটি বিরোধী সম্পত্তি হিসাবে বর্ণনা করেছেন। এটি পারস্পরিক সম্পর্ক বা covariance মধ্যে নির্বাচন করার চেয়ে খারাপ। আপনি যদি ইউনিটগুলি পরিবর্তন করেন (যেমন মার্কিন স্টাইলের গ্যালন, ইঞ্চি ইত্যাদি এবং ইইউ স্টাইল লিটার, সেন্টিমিটার) আপনি উপাত্তের উল্লেখযোগ্যভাবে পৃথক অনুমান পাবেন।
স্বয়ংক্রিয়ভাবে সম্পর্কিত ম্যাট্রিক্স ব্যবহার করার বিরুদ্ধে যুক্তিটি হ'ল এটি আপনার ডেটা মানক করার বেশ নৃশংস উপায়। কোভারিয়েন্স ম্যাট্রিক্স স্বয়ংক্রিয়ভাবে ব্যবহার করার সমস্যা, যা সেই হেপাটাথলন ডেটার সাথে খুব স্পষ্ট, উচ্চতম বৈকল্পিকের সাথে ভেরিয়েবলগুলি প্রথম মূল উপাদানকে (ভেরিয়েশন সর্বাধিকীকরণকারী সম্পত্তি) উপর প্রভাব ফেলবে।
সুতরাং ব্যবহারের জন্য "সেরা" পদ্ধতিটি বিষয়গত পছন্দ, সাবধানী চিন্তাভাবনা এবং কিছু অভিজ্ঞতার উপর ভিত্তি করে।
UNTRANSFORMED (RAW) ডেটা: আপনার যদি কাঁচা, অপ্রত্যাশিত তথ্য, অর্থাৎ প্রতিদিন ক্যালোরি খাওয়ার, জিন এক্সপ্রেশন, এলজি / লুমিনেক্সের ইউনিটগুলিতে ইউজি / ডিএল, এনজি / ডিএল এর বিভিন্ন আদেশের ভিত্তিতে বিস্তৃত আকারের স্কেলগুলির সাথে ভেরিয়েবলগুলি রাখেন If প্রোটিনের এক্সপ্রেশনটির মাত্রা, তারপরে পিসিএতে একটি ইনপুট হিসাবে পারস্পরিক সম্পর্ক ব্যবহার করুন। তবে, যদি আপনার সমস্ত ডেটা একই প্ল্যাটফর্ম থেকে একই রকম পরিসীমা এবং স্কেল সহ জিনের প্রকাশের উপর ভিত্তি করে থাকে বা আপনি লগ ইক্যুইটি সম্পত্তির রিটার্ন নিয়ে কাজ করছেন, তবে পারস্পরিক সম্পর্ক ব্যবহার করে তথ্য প্রচুর পরিমাণে ছড়িয়ে দেবে।
জেনেটিক্সে ভিডিডাব্লু স্কোরের ব্যবহার খুব জনপ্রিয়, যেখানে অনেকগুলি ভেরিয়েবলগুলি ভিডিডাব্লু স্কোরগুলিতে রূপান্তরিত হয় এবং তারপরে বিশ্লেষণে ইনপুট হয়। ভিডিডাব্লু স্কোরগুলি ব্যবহার করার সুবিধাটি হ'ল স্কিউনেস এবং আউটিলার এফেক্টগুলি ডেটা থেকে সরিয়ে দেওয়া হয় এবং যদি ব্যবহার করা যায় লক্ষ্যটি স্বাভাবিকতার প্রতিবন্ধকতাগুলির অধীনে কোনও বিশ্লেষণ করা হয় - এবং প্রতিটি পরিবর্তনশীল নির্ভুলভাবে স্ট্যান্ডার্ড নরমাল বিতরণ করা উচিত যা কোনও ঝুঁকির সাথে নয় distributed বা outliers।
একটি সাধারণ উত্তরটি হ'ল প্রস্তাব করা হয় যে যখন ভেরিয়েবলগুলি একই স্কেলে থাকে এবং যখন তাদের স্কেলগুলি পৃথক হয় তখন পারস্পরিক সম্পর্ক ব্যবহৃত হয়। যাইহোক, এটি তখনই সত্য যখন ভেরিয়েবলগুলির স্কেল কোনও উপাদান নয় isn't অন্যথায়, কেউ কেন সর্বদা পিসিএ করবে? সর্বদা পারস্পরিক সম্পর্ক পিসিএ করা নিরাপদ হবে।
কল্পনা করুন যে আপনার ভেরিয়েবলের বিভিন্ন ইউনিট পরিমাপ রয়েছে, যেমন মিটার এবং কিলোগ্রাম। আপনি এক্ষেত্রে মিটার বা সেন্টিমিটার ব্যবহার করছেন কিনা তা বিবেচ্য নয়, সুতরাং আপনি যুক্তি দিতে পারেন যে পারস্পরিক সম্পর্ক ম্যাট্রিক্স ব্যবহার করা উচিত।
বিভিন্ন রাজ্যের লোকদের এখন বিবেচনা করুন। পরিমাপের এককগুলি একই - গণনা (সংখ্যা)। এখন, স্কেলগুলি পৃথক হতে পারে: ডিসিতে 600 কে এবং সিএ - 38 এম লোক রয়েছে। আমাদের এখানে কি সম্পর্কযুক্ত ম্যাট্রিক্স ব্যবহার করা উচিত? এটা নির্ভর করে. কিছু অ্যাপ্লিকেশনগুলিতে আমরা রাজ্যের আকারের জন্য সামঞ্জস্য করতে চাই না। রাজ্যের আকার হিসাবে বিবেচিত কারখানাগুলি তৈরির জন্য কোভেরিয়েন্স ম্যাট্রিক্স ব্যবহার করা একটি উপায়।
অতএব, আমার উত্তরটি হ'ল মূল চলকের বৈকল্পিক গুরুত্বপূর্ণ হলে কোভারিয়েন্স ম্যাট্রিক্স ব্যবহার করা এবং যখন তা না হয় তখন পারস্পরিক সম্পর্ক ব্যবহার করুন।
সর্বাধিক সম্ভাবনার মূল উপাদানগুলির বিশ্লেষণ মডেল (এমএলপিসিএ) [1,2] এর আলোকে এই বিকল্পগুলি নিয়ে আলোচনা করা আমি ব্যক্তিগতভাবে এটি অত্যন্ত মূল্যবান বলে মনে করি। এমএলপিসিএতে একটি স্কেলিং (বা এমনকি একটি ঘূর্ণন) প্রয়োগ করে যেমন পরিমাপ করা ভেরিয়েবলের পরিমাপের ত্রুটিগুলি স্বতন্ত্র এবং মানক সাধারণ বিতরণ অনুযায়ী বিতরণ করা হয়। এই স্কেলিং সর্বাধিক সম্ভাবনা স্কেলিং (ম্যালস) [3] হিসাবেও পরিচিত। কিছু ক্ষেত্রে, পিসিএ মডেল এবং ম্যালস স্কেলিং / রোটেশন সংজ্ঞায়িত পরামিতি একসাথে অনুমান করা যায় [4]।
পারস্পরিক সম্পর্ক ভিত্তিক এবং কোভেরিয়েন্স-ভিত্তিক পিসিএ ব্যাখ্যা করার জন্য, কেউ তখন যুক্তি দিতে পারে যে:
ইতিমধ্যে উপরে জোর দেওয়া হিসাবে, চূড়ান্ত পছন্দটি আপনি যে অনুমানগুলি করছেন তার উপর নির্ভর করে। এছাড়াও, কোনও নির্দিষ্ট মডেলের ইউটিলিটি আপনার বিশ্লেষণের প্রসঙ্গ এবং উদ্দেশ্যগুলির উপরও নির্ভর করে। জর্জ ইপি বক্সের উদ্ধৃতি দিতে: "সমস্ত মডেল ভুল, তবে কিছু কার্যকর"।
[1] ওয়ান্টজেল, পিডি, অ্যান্ড্রুজ, ডিটি, হ্যামিল্টন, ডিসি, ফ্যাবার, কে।, ও কোওলস্কি, বিআর (1997)। সর্বাধিক সম্ভাবনার মূল উপাদান বিশ্লেষণ। কেমোমেট্রিক্স জার্নাল, 11 (4), 339-366।
[2] ওয়ান্টজেল, পিডি, এবং লোহনেস, এমটি (1999)। সম্পর্কযুক্ত পরিমাপ ত্রুটি সহ সর্বাধিক সম্ভাবনার মূল উপাদান বিশ্লেষণ: তাত্ত্বিক এবং ব্যবহারিক বিবেচনা। কেমোমেট্রিক্স এবং ইন্টেলিজেন্ট ল্যাবরেটরি সিস্টেম, 45 (1-2), 65-85।
[3] হয়েফস্লুট, এইচসি, ভেরুডেন, এমপি, ওয়েস্টারহুইস, জেএ, এবং স্মিলডে, একে (2006)। সর্বাধিক সম্ভাবনার স্কেলিং (এমএলএস)। কেমোমেট্রিক্স জার্নাল, 20 (3‐4), 120-127।
[৪] নরসিমহান, এস।, এবং শাহ, এসএল (২০০৮)। মডেল সনাক্তকরণ এবং ত্রুটি কোভারিয়েন্স ম্যাট্রিক্স অনুমান পিসিএ ব্যবহার করে গোলমাল তথ্য থেকে। কন্ট্রোল ইঞ্জিনিয়ারিং অনুশীলন, 16 (1), 146-155।
[5] টিপিং, এমই, এবং বিশপ, সিএম (1999)। সম্ভাব্য মূল উপাদান বিশ্লেষণ। রয়্যাল স্ট্যাটিস্টিকাল সোসাইটির জার্নাল: সিরিজ বি (পরিসংখ্যান পদ্ধতি), 61 (3), 611-622।
সোজা এবং সহজ: যদি স্কেলগুলি একই রকম ব্যবহার হয় cov-PCA, যদি না হয় তবে Cor-PCA ব্যবহার করুন; অন্যথায়, আপনি না প্রতিরক্ষা ভাল। সন্দেহ হলে, রূপগুলির সমতা (আনোভা) এর জন্য একটি এফ-পরীক্ষা ব্যবহার করুন। যদি এটি এফ-পরীক্ষায় ব্যর্থ হয় তবে কর ব্যবহার করুন; অন্যথায়, cov ব্যবহার করুন।
স্কেলের উপর ভিত্তি করে যুক্তিগুলি (একই শারীরিক ইউনিটগুলিতে প্রকাশিত ভেরিয়েবলগুলির জন্য) বরং দুর্বল বলে মনে হয়। (মাত্রাবিহীন) ভেরিয়েবলগুলির একটি সেট কল্পনা করুন যার মানক বিচ্যুতি 0.001 এবং 0.1 এর মধ্যে পরিবর্তিত হয়। 1 এর মানক মানের তুলনায়, এই দুটিই 'ছোট' এবং ওঠানামায়ের তুলনামূলক স্তর বলে মনে হয়। তবে, আপনি যখন এগুলি ডেসিবেলে প্রকাশ করেন, এটি যথাক্রমে -10 এবং 0 ডিবি-এর বিপরীতে -60 ডিবি দেয়। তারপরে এটি সম্ভবত 'বৃহত পরিসীমা' হিসাবে শ্রেণীবদ্ধ করা হবে - বিশেষত যদি আপনি 0 এর কাছাকাছি একটি মান বিচ্যুতি অন্তর্ভুক্ত করেন, অর্থাত, বিয়োগ অনন্ত ডিবি।
আমার পরামর্শটি হ'ল উভয়ের পারস্পরিক সম্পর্ক- এবং কোভারিয়েন্স ভিত্তিক পিসিএ করা। দু'জন যদি পিসি একই (বা একেবারে অনুরূপ, এর অর্থ যাই হোক না কেন) দেয়, তবে আপনাকে আশ্বস্ত করা যায় আপনি একটি উত্তর পেয়ে গেছেন যা অর্থপূর্ণ is যদি তারা বিভিন্নভাবে বিভিন্ন পিসি দেয় তবে পিসিএ ব্যবহার করবেন না, কারণ একটি সমস্যার দুটি পৃথক উত্তর প্রশ্নগুলির সমাধান করার বুদ্ধিমান উপায় নয়।