প্রধান উপাদান স্কোর (পিসি স্কোর, পিসিএ স্কোর) কি কি?
প্রধান উপাদান স্কোর (পিসি স্কোর, পিসিএ স্কোর) কি কি?
উত্তর:
প্রথমে একটি স্কোর সংজ্ঞায়িত করা যাক।
জন, মাইক এবং কেট গণিত, বিজ্ঞান, ইংরাজী এবং সংগীতের পরীক্ষার জন্য নিম্নলিখিত শতাংশ পান:
Maths Science English Music
John 80 85 60 55
Mike 90 85 70 45
Kate 95 80 40 50
এই ক্ষেত্রে মোট 12 স্কোর আছে। প্রতিটি স্কোর একটি নির্দিষ্ট বিষয়ে প্রতিটি ব্যক্তির জন্য পরীক্ষার ফলাফল উপস্থাপন করে। সুতরাং এক্ষেত্রে স্কোর হ'ল একটি সারি এবং কলামটি ছেদ করে সেখানে কেবল একটি প্রতিনিধিত্ব।
এখন আসুন অনানুষ্ঠানিকভাবে একটি অধ্যক্ষ উপাদান সংজ্ঞায়িত করা যাক।
উপরের সারণীতে আপনি কি 2D গ্রাফে সহজেই ডেটা প্লট করতে পারবেন? না, কারণ এখানে চারটি বিষয় রয়েছে (যার অর্থ চারটি ভেরিয়েবল: গণিত, বিজ্ঞান, ইংরেজি এবং সঙ্গীত), অর্থাত:
কিন্তু আপনি 4 টি বিষয় কীভাবে প্লট করবেন?
এই মুহূর্তে আমাদের চারটি ভেরিয়েবল রয়েছে যা প্রত্যেকে কেবল একটি বিষয়কে উপস্থাপন করে। সুতরাং এর চারপাশের একটি পদ্ধতি হতে পারে কোনওভাবে বিষয়গুলিকে কেবল দুটি নতুন ভেরিয়েবলের সাথে একত্রিত করা যা আমরা তখন প্লট করতে পারি। এটি বহুমাত্রিক স্কেলিং হিসাবে পরিচিত ।
প্রধান উপাদান বিশ্লেষণ বহুমাত্রিক স্কেলিংয়ের একটি ফর্ম। এটি ভেরিয়েবলগুলির একটি নিম্ন মাত্রিক স্থানে রৈখিক রূপান্তর যা ভেরিয়েবলগুলি সম্পর্কে সর্বাধিক পরিমাণে তথ্য ধরে রাখে। উদাহরণস্বরূপ, এর অর্থ হ'ল আমরা প্রতিটি শিক্ষার্থীর পক্ষে আরও উপযুক্ত বিষয়গুলির দিকে নজর দিতে পারি look
একটি মূল উপাদান তাই লিনিয়ার রূপান্তরের পরে মূল ভেরিয়েবলের সংমিশ্রণ। আর তে, এটি হ'ল:
DF<-data.frame(Maths=c(80, 90, 95), Science=c(85, 85, 80), English=c(60, 70, 40), Music=c(55, 45, 50))
prcomp(DF, scale = FALSE)
যা আপনাকে এরকম কিছু দেবে (প্রথম দুটি প্রধান উপাদান কেবল সরলতার জন্য):
PC1 PC2
Maths 0.27795606 0.76772853
Science -0.17428077 -0.08162874
English -0.94200929 0.19632732
Music 0.07060547 -0.60447104
এখানে প্রথম কলামটি লিনিয়ার সংমিশ্রণের সহগগুলি দেখায় যা মূল উপাদান # 1 সংজ্ঞায়িত করে, এবং দ্বিতীয় কলামটি মূল উপাদান # 2 এর সহগগুলি দেখায়।
সুতরাং একটি প্রধান উপাদান স্কোর কি?
এই পোস্টের শেষে টেবিল থেকে এটি একটি স্কোর (নীচে দেখুন)।
আর থেকে উপরের আউটপুটটির অর্থ আমরা এখন 2D গ্রাফে নিম্নলিখিত বিষয় অনুসারে প্রতিটি ব্যক্তির স্কোর প্লট করতে পারি। প্রথমত, আমাদের মূল পরিবর্তনশীলগুলি আমার বিয়োগের কলামটির অর্থ হ'ল:
Maths Science English Music
John -8.33 1.66 3.33 5
Mike 1.66 1.66 13.33 -5
Kate 6.66 -3.33 -16.66 0
এবং তারপরে PC1 এবং PC2 স্কোর পেতে লিনিয়ার সংমিশ্রণগুলি গঠন করতে :
x y
John -0.28*8.33 + -0.17*1.66 + -0.94*3.33 + 0.07*5 -0.77*8.33 + -0.08*1.66 + 0.19*3.33 + -0.60*5
Mike 0.28*1.66 + -0.17*1.66 + -0.94*13.33 + -0.07*5 0.77*1.66 + -0.08*1.66 + 0.19*13.33 + -0.60*5
Kate 0.28*6.66 + 0.17*3.33 + 0.94*16.66 + 0.07*0 0.77*6.66 + 0.08*3.33 + -0.19*16.66 + -0.60*0
যা এটিকে সরল করে:
x y
John -5.39 -8.90
Mike -12.74 6.78
Kate 18.13 2.12
আছে ছয় প্রধান উপাদান স্কোর উপরে টেবিলে। প্রতিটি শিক্ষার্থী সম্ভবত আরও বেশি উপযুক্ত যে বিষয়গুলির বিষয়ে ধারণা পেতে আপনি এখন 2D গ্রাফের স্কোরগুলি প্লট করতে পারেন।
টাইপ করে আর এ একই আউটপুট পাওয়া যাবে prcomp(DF, scale = FALSE)$x
।
সম্পাদনা 1: হুম, আমি সম্ভবত এটির চেয়ে ভাল উদাহরণটি চিন্তা করতে পারতাম এবং আমি এখানে যা রেখেছি তার চেয়ে আরও অনেক কিছুই আছে তবে আমি আশা করি আপনি ধারণাটি পেয়ে গেছেন।
সম্পাদনা 2: এই উত্তরটির উন্নতি করার জন্য তার মন্তব্যের জন্য @ ক্রেডিটকে সম্পূর্ণ ক্রেডিট
apply(dtf, 1, function(x) sum(scale(x)))
prcomp
। আগে তা হয়নি।
আপনি যখন মাল্টিভারিয়েট ডেটা নিয়ে কাজ করছেন তখন প্রিন্সিপাল উপাদান বিশ্লেষণ (পিসিএ) একটি জনপ্রিয় পন্থা var আপনার কাছে র্যান্ডম ভেরিয়েবলগুলি এক্স 1, এক্স 2, ... এক্সএন যা সবগুলি বিভিন্ন (ডিগ্রিভিত্তিক বা নেতিবাচক) বিভিন্ন ডিগ্রির সাথে সম্পর্কিত এবং আপনি কী চলছে সে সম্পর্কে আরও ভাল ধারণা পেতে চান। পিসিএ সাহায্য করতে পারে।
পিসিএ আপনাকে যা দেয় তা হ'ল ওয়াই 1, ওয়াই 2, ..., ইয়েন (অর্থাত্ একই সংখ্যার ভেরিয়েবল) যা এক্স এর লিনিয়ার সংমিশ্রণ। উদাহরণস্বরূপ, আপনার ওয়াই 1 = 2.1 এক্স 1 - 1.76 এক্স 2 + 0.2 এক্স 3 থাকতে পারে ...
Ys এর দুর্দান্ত সম্পত্তি যে এর প্রত্যেকটির একে অপরের সাথে শূন্য সম্পর্ক রয়েছে। আরও ভাল, আপনি তাদের ক্রমবর্ধমান ক্রম হিসাবে পাবেন। সুতরাং, ওয়াই 1 "ব্যাখ্যা করে" মূল ভেরিয়েবলের পরিবর্তনের একটি বড় অংশ, ওয়াই 2 কিছুটা কম এবং আরও অনেক কিছু। সাধারণত প্রথম কয়েক ওয়াইয়ের পরে ভেরিয়েবলগুলি কিছুটা অর্থহীন হয়ে যায়। যে কোনও একাদশের পিসিএর স্কোর হ'ল এটি প্রতিটি ওয়াইসের মধ্যে সহগ। আমার আগের উদাহরণে, প্রথম প্রধান উপাদান (ওয়াই 1) এর এক্স 2 এর জন্য স্কোর 1.76 is
পিসিএ যেভাবে এই যাদুটি করে তা হ'ল কোভারিয়েন্স ম্যাট্রিক্সের ইগেনভেেক্টর গণনা করা।
একটি দৃ concrete় উদাহরণ দেওয়ার জন্য, এক্স 1, ... এক্স 10 হ'ল 1 বছর, 2 বছর, ..., 10 বছরের ট্রেজারি বন্ডে কিছু সময়ের জন্য ফলন হয়। আপনি যখন পিসিএ গণনা করেন আপনি সাধারণত দেখতে পাবেন যে প্রথম উপাদানটিতে একই চিহ্নের প্রতিটি বন্ড এবং একই চিহ্নের জন্য স্কোর রয়েছে। এটি আপনাকে বলে যে বন্ড ফলনের বেশিরভাগ বৈকল্পিকতা একইভাবে চলমান সমস্ত কিছু থেকে আসে: "সমান্তরাল শিফট" উপরে বা নীচে। দ্বিতীয় উপাদানটি সাধারণত "স্টাইপেনিং" এবং কার্ভের "সমতলকরণ" দেখায় এবং এক্স 1 এবং এক্স 10 এর বিপরীত চিহ্ন রয়েছে।
PC1 > PC2 > ... > PCn
, এবং তাদের বৈকল্পিকগুলির যোগফল প্রাথমিক পরিবর্তনশীল সেটের বৈকল্পিক সংখ্যার সমান হয়, যেহেতু পিসিএ কোভারিয়েন্স ম্যাট্রিক্সের উপর ভিত্তি করে গণিত হয়, অর্থাৎ ভেরিয়েবলগুলি মানকযুক্ত হয় (এসডি = 1, ভিএআর = 1)।
বলুন আপনার কাছে N পয়েন্টের মেঘ রয়েছে, বলুন, 3D (যা 100x3 অ্যারেতে তালিকাভুক্ত করা যেতে পারে)। তারপরে, মূল উপাদানগুলির বিশ্লেষণ (পিসিএ) একটি স্বেচ্ছামুখী ওয়ালেন্টড উপবৃত্তাকার তথ্যগুলিতে ফিট করে। মূল উপাদান স্কোর হ'ল উপবৃত্তাকার ব্যাসার দৈর্ঘ্য।
ব্যাস যেদিকে বড় সেদিকে, ডেটা অনেকগুলি পরিবর্তিত হয়, যখন ব্যাসটি ছোট সেদিকেই ডেটা লিটের পরিবর্তিত হয়। যদি আপনি এনডি ডেটাটিকে 2-ডি স্ক্যাটার প্লটে প্রজেক্ট করতে চান তবে আপনি এগুলি দুটি বৃহত্তম মূল উপাদান বরাবর প্লট করেছেন, কারণ সেই পদ্ধতির সাহায্যে আপনি ডেটাতে বেশিরভাগ বৈকল্পিকতা প্রদর্শন করেন।
আমি মূল উপাদানগুলির স্কোরগুলিকে "মূলত অর্থহীন" হিসাবে ভাবতে চাই যতক্ষণ না আপনি আসলে তাদের কিছু অর্থ না দিয়ে থাকেন। "বাস্তবতা" এর নিরিখে পিসি স্কোরকে ব্যাখ্যা করা একটি কৌতুকপূর্ণ ব্যবসা - এবং এটি করার কোনও অনন্য উপায় থাকতে পারে না। এটি নির্ভর করে যে আপনি পিসিএতে যাচ্ছেন সেই নির্দিষ্ট ভেরিয়েবলগুলি সম্পর্কে এবং কীভাবে তারা ব্যাখ্যাগুলির ক্ষেত্রে একে অপরের সাথে সম্পর্কিত।
গণিত যতদূর যায়, আমি পিসি স্কোরগুলিকে মূল পয়েন্টের অক্ষরের সাথে প্রতিটি পয়েন্টের সমন্বয় হিসাবে ব্যাখ্যা করতে চাই। সুতরাং কাঁচা ভেরিয়েবলগুলিতে আপনার কাছে যা পি-মাত্রিক স্থানের একটি "পয়েন্ট"। এই , এর অর্থ অক্ষ বরাবর বিন্দুটি উত্স থেকে দূরেমূলত "কাঁচা ভেরিয়েবল" অক্ষের চেয়ে মূল উপাদানটির অক্ষের সাথে সম্মতি রেখে এই পয়েন্টটি বর্ণনা করার জন্য এখন পিসিএর মূলত একটি ভিন্ন উপায়। সুতরাং আমাদের কাছে , যেখানে হয় মূল উপাদান ওজনের ম্যাট্রিক্স (অর্থাত্ প্রতিটি সারিতে ইগেনভেেক্টর), এবং the হ'ল ডেটার "সেন্ট্রয়েড" (বা ডেটা পয়েন্টগুলির ভেক্টর বোঝায়)।
সুতরাং আপনি পিসিগুলিকে বর্ণনা করে এমন "সরল রেখা" কোথায় রয়েছে তা বর্ণনা করার জন্য আপনি আইজেনভেেক্টরগুলিকে ভাবতে পারেন। তারপরে মূল উপাদান স্কোরগুলি বর্ণনা করে যেখানে প্রতিটি তথ্য বিন্দু প্রতিটি সরলরেখায় থাকে যা তথ্যের "সেন্ট্রিওড" এর সাথে সম্পর্কিত। আপনি ওজন / ইগেনভেেক্টরগুলির সাথে মিলিয়ে পিসি স্কোরগুলি ভাবতে পারেন যে মূল তথ্য পয়েন্টগুলির জন্য প্রতিটি র্যাঙ্ক 1 অনুমানের সিরিজ হিসাবে রয়েছে:
যেখানে হ'ল তম পিসি ব্যবহার করে ম ভেরিয়েবলের জন্য তম পর্যবেক্ষণের পূর্বাভাস ।
ডেটা ম্যাট্রিক্সের প্রধান উপাদানগুলি হ'ল এর ভেরিয়েন্স-কোভারিয়েন্স ম্যাট্রিক্সের ইগেনভেেক্টর-ইগেনভ্যালু জোড়া। সংক্ষেপে, তারা হ'ল বৈকল্পিকের সজ্জিত টুকরা। প্রত্যেকে পর্যবেক্ষণের জন্য ভেরিয়েবলের একরৈখিক সংমিশ্রণ - ধরুন আপনি প্রতিটি গুচ্ছ বিষয়ের উপর w, x, y, z পরিমাপ করেন measure আপনার প্রথম পিসি কিছু হতে পারে
0.5w + 4x + 5y - 1.5z
এখানে লোডিং (ইগেনভেেক্টর) হ'ল (0.5, 4, 5, -1.5)। প্রতিটি পর্যবেক্ষণের জন্য স্কোর (ইজেনভ্যালু) ফলাফল পর্যালোচনা হয় যখন আপনি পর্যবেক্ষণের (ডাব্লু, এক্স, ওয়াই, জেড) প্রতিস্থাপন করেন এবং মোট অঙ্কটি গণনা করেন।
আপনি যখন তাদের প্রধান উপাদানগুলিতে জিনিসগুলি প্রজেক্ট করেন তখন এটি কার্যকর হয় (যেমন, বলুন, আউটিলার সনাক্তকরণ) কারণ আপনি কেবলমাত্র অন্য কোনও ডেটা যেমন চান তার জন্য প্রতিটি স্কোরগুলি প্লট করে। যদি আপনার ভেরিয়েন্সের অনেকগুলি পারস্পরিক সম্পর্কযুক্ত হয় তবে এটি আপনার ডেটা সম্পর্কে অনেক কিছুই প্রকাশ করতে পারে (== প্রথম কয়েকটি পিসিতে)।
যাক সূচক সারি এবং সূচক কলাম। ধরুন আপনি ভেরিয়েবল (কলাম) এর সংমিশ্রণকে লিনিয়ারাইজ করেছেন:
উপরের সূত্রটি মূলত একটি নির্দিষ্ট মান (লোডিং) দিয়ে সারি উপাদানগুলিকে গুণিত করে কলামগুলি দিয়ে যোগ করতে বলে। ফলাফলের মানগুলি ( লোডিংয়ের বারের মানগুলি) স্কোর।ওয়াই
প্রধান উপাদান (পিসি) হ'ল একটি লিনিয়ার সংমিশ্রণ ) (কলাম অনুসারে মান যাকে স্কোর বলা হয়)। সংক্ষেপে, পিসি ভেরিয়েবলের সবচেয়ে গুরুত্বপূর্ণ বৈশিষ্ট্য (কলাম) উপস্থাপন করা উচিত। তবে, ভেরিয়েবলগুলি (বা তার চেয়ে কম) যতগুলি পিসি আপনি বের করতে পারবেন।
আর পিসিএর একটি আউটপুট (একটি জাল উদাহরণ) এর মতো দেখতে। পিসি 1, পিসি 2 ... মূল উপাদান 1, 2 ... নীচের উদাহরণটিতে প্রথম 8 টি মূল উপাদান দেখানো হচ্ছে (17 এর মধ্যে)) আপনি পিসিএ থেকে লোডিং এবং স্কোরের মতো অন্যান্য উপাদানও বের করতে পারেন।
Importance of components:
PC1 PC2 PC3 PC4 PC5 PC6 PC7 PC8
Standard deviation 1.0889 1.0642 1.0550 1.0475 1.0387 1.0277 1.0169 1.0105
Proportion of Variance 0.0697 0.0666 0.0655 0.0645 0.0635 0.0621 0.0608 0.0601
Cumulative Proportion 0.0697 0.1364 0.2018 0.2664 0.3298 0.3920 0.4528 0.5129
প্রধান উপাদান স্কোরগুলি এমন একটি স্কোরগুলির একটি গোষ্ঠী যা একটি মূল উপাদান উপাদান বিশ্লেষণ (পিসিএ) এর পরে প্রাপ্ত হয়। পিসিএতে একদল স্কোরের মধ্যে সম্পর্কগুলি বিশ্লেষণ করা হয় যে সমান সংখ্যক নতুন "কল্পিত" ভেরিয়েবল (ওরফে নীতি উপাদান) তৈরি হয়। এই নতুন কাল্পনিক ভেরিয়েবলগুলির মধ্যে প্রথমটি ভেরিয়েবলের সমস্ত মূল গ্রুপের সাথে সর্বাধিকভাবে সম্পর্কিত lated এর পরেরটি কিছুটা কম সম্পর্কিত, এবং এ পর্যন্ত অবধি আপনি প্রাথমিক গ্রুপ থেকে প্রদত্ত কোনও ভেরিয়েবলের পূর্বাভাস দেওয়ার জন্য যদি সমস্ত মূল উপাদান স্কোর ব্যবহার করেন তবে আপনি তার সমস্ত বৈকল্পিকতা ব্যাখ্যা করতে সক্ষম হবেন। যেভাবে পিসিএ এগিয়ে যায় তা জটিল এবং নির্দিষ্ট বিধিনিষেধ রয়েছে। এর মধ্যে যে কোনও বিধিনিষেধ যে কোনও দুটি মূল উপাদান (যেমন কল্পিত পরিবর্তনশীল) এর মধ্যে পারস্পরিক সম্পর্ক শূন্য; এইভাবে এটা না