সমস্যা বিবৃতি
পিসিএ যে জ্যামিতিক সমস্যাটি অপ্টিমাইজ করার চেষ্টা করছে তা আমার কাছে স্পষ্ট: পিসিএ পুনর্নির্মাণের (প্রক্ষেপণ) ত্রুটিটি হ্রাস করে প্রথম প্রধান উপাদানটি অনুসন্ধান করার চেষ্টা করে, যা একই সাথে অভিক্ষিপ্ত তথ্যের বৈচিত্রকে সর্বাধিক করে তোলে।
সেটা ঠিক. আমি এই দুই গঠন মধ্যে আমার উত্তর সংযোগ ব্যাখ্যা এখানে (Math ছাড়া) অথবা এখানে (Math সহ)।
Cw∥w∥=1w⊤Cw
(কেবলমাত্র যদি এটি পরিষ্কার হয় না: যদি কেন্দ্রের ডেটা ম্যাট্রিক্স হয় তবে প্রজেকশনটি by দ্বারা দেওয়া হয় এবং এর ।)XXw1n−1(Xw)⊤⋅Xw=w⊤⋅(1n−1X⊤X)⋅w=w⊤Cw
অন্যদিকে , সংজ্ঞা অনুসারে এর একটি আইজেনভেেক্টর হ'ল যে কোনও ভেক্টর যেমন ।CvCv=λv
দেখা যাচ্ছে যে প্রথম মূল দিকনির্দেশটি ইগেনভেક્ટર দ্বারা বৃহত্তম ইগেনভ্যালু দিয়ে দেওয়া হয়েছে। এটি একটি অনানুষ্ঠানিক এবং অবাক করা বিবৃতি।
proofs
পিসিএ-তে যদি কোনও বই বা টিউটোরিয়াল খোলে, সেখানে উপরের বিবৃতিটির নীচের প্রায় এক-লাইনের প্রমাণ খুঁজে পেতে পারেন। আমরা ; সীমাবদ্ধতার অধীনে সর্বোচ্চ করতে চাইএটি একটি ল্যাঞ্জরেঞ্জ গুণক প্রবর্তন এবং সর্বোচ্চ ; পার্থক্যগতভাবে আমরা পাই যা ইগেনভেেক্টর সমীকরণ। আমরা দেখি যে আসলে হয়েছে উদ্দেশ্য ফাংশন, যা দেয় মধ্যে এই সমাধান দ্বারা substituting বৃহত্তম eigenvalue হতেw⊤Cw∥w∥=w⊤w=1w⊤Cw−λ(w⊤w−1)Cw−λw=0λw⊤Cw−λ(w⊤w−1)=w⊤Cw=λw⊤w=λ । এই উদ্দেশ্যমূলক ফাংশনটি সর্বাধিক করা উচিত এই কারণে , mb অবশ্যই বৃহত্তম ইগন্যাল্যু, কিউইডি হতে হবে।λ
এটি বেশিরভাগ মানুষের পক্ষে খুব স্বজ্ঞাত নয়।
আরও ভাল প্রমাণ (উদাহরণস্বরূপ @ কার্ডিনাল দ্বারা এই পরিষ্কার উত্তর দেখুন ) বলে যে ম্যাথবিএফ সমমিত ম্যাট্রিক্স তাই এটি এর ইগেনভেક્ટર ভিত্তিতে তির্যক। (এই আসলে বলা হয় ভুতুড়ে উপপাদ্য ।) সুতরাং আমরা একটি লম্ব ভিত্তিতে, যথা eigenvectors কর্তৃক প্রদত্ত এক, যেখানে নির্বাচন করতে পারবেন তির্যক এবং eigenvalues হয়েছে তির্যক উপর। সেই ভিত্তিতে, সরল করে , বা অন্য কথায় ওজনযুক্ত যোগফল দ্বারা দেওয়া হয়। এটি প্রায় তাত্ক্ষণিক যে এই অভিব্যক্তিটি সর্বাধিকতর করা উচিত one নেওয়া উচিতCCλiw⊤Cw∑λiw2iw=(1,0,0,…,0), অর্থাত্ প্রথম , (প্রকৃতপক্ষে, এই সমাধান থেকে বিচ্যুত হওয়া এবং ছোট ব্যবসায়ের অংশগুলির জন্য বৃহত্তম "ট্রেডিং" অংশগুলি কেবলমাত্র সামগ্রিক ভিন্নতার দিকে পরিচালিত করবে)। মনে রাখবেন যে of এর মান ভিত্তির উপর নির্ভর করে না! ইগেনভেেক্টর ভিত্তিতে পরিবর্তন করা একটি ঘূর্ণনের সমান, তাই 2 ডি-তে কোনও ব্যক্তি কেবল স্ক্রেটারপ্লট দিয়ে কাগজের টুকরো ঘোরানোর কল্পনা করতে পারেন; স্পষ্টতই এটি কোনও রূপ পরিবর্তন করতে পারে না।λ1w⊤Cw
আমি মনে করি এটি একটি খুব স্বজ্ঞাত এবং খুব দরকারী যুক্তি, তবে এটি বর্ণালী উপপাদ্যের উপর নির্ভর করে। সুতরাং এখানে আসল বিষয়টি আমার মনে হয়: বর্ণালী উপপাদ্যের পিছনে অন্তর্নিহিততা কী?
বর্ণালী উপপাদ্য
একটি প্রতিসম ম্যাট্রিক্স । তার eigenvector নিন বৃহত্তম eigenvalue সঙ্গে । এই ইগেনভেেক্টরটিকে প্রথম ভিত্তিতে ভেক্টর করুন এবং এলোমেলোভাবে অন্যান্য ভিত্তি ভেক্টরগুলি চয়ন করুন (যেমন এটি সমস্তই অর্থনরমাল)। এই ভিত্তিতে কীভাবে দেখবে ?Cw1λ1C
উপরের-বাম কোণে থাকবে , কারণ এই ভিত্তিতে এবং এর সাথে সমান হতে হবে ।λ1w1=(1,0,0…0)Cw1=(C11,C21,…Cp1)λ1w1=(λ1,0,0…0)
একই যুক্তি অনুসারে এটিতে column অধীনে প্রথম কলামে শূন্য ।λ1
তবে এটি প্রতিসাম্যযুক্ত হওয়ায় এটিতে row পরে প্রথম সারিতে জিরো থাকবে । সুতরাং এটি দেখতে হবে:λ1
C=⎛⎝⎜⎜⎜⎜λ10⋮00…0⎞⎠⎟⎟⎟⎟,
যেখানে খালি জায়গার অর্থ সেখানে কিছু উপাদান রয়েছে block কারণ ম্যাট্রিক্স প্রতিসম হয়, এই ব্লকটিও প্রতিসাম্যপূর্ণ হবে। সুতরাং আমরা ঠিক একই যুক্তি প্রয়োগ করতে পারেন, কার্যকরীভাবে দ্বিতীয় ভিত্তি বাহক হিসেবে দ্বিতীয় eigenvector ব্যবহার করে, এবং পেয়ে এবং তির্যক উপর। তির্যক না হওয়া অবধি এটি অবিরত থাকতে পারে । এটি মূলত বর্ণালী উপপাদ্য। (এটি কীভাবে কেবল কাজ করে তা লক্ষ্য করুন কারণ প্রতিসম হয় is)λ1λ2CC
ঠিক একই যুক্তির আরও বিমূর্ত সংস্কার এখানে reform
আমরা জানি যে , তাই প্রথম একটি 1-মাত্রিক সংজ্ঞায়িত করে যেখানে একটি স্কেলার গুণক হিসাবে কাজ করে। আসুন এখন যেকোন ভেক্টর orthogonal নেওয়া যাক । তারপরে এটি প্রায় অবিলম্বে যে এছাড়াও কাছে অরথোগোনাল । প্রকৃতপক্ষে:Cw1=λ1w1Cvw1Cvw1
w⊤1Cv=(w⊤1Cv)⊤=v⊤C⊤w1=v⊤Cw1=λ1v⊤w1=λ1⋅0=0.
এর অর্থ হ'ল পুরো অবশিষ্ট উপর যে এটি থেকে পৃথক থাকে । এটি প্রতিসম ম্যাট্রিকগুলির গুরুত্বপূর্ণ সম্পত্তি। সুতরাং আমরা সেখানে বৃহত্তম খুঁজে পেতে পারি, , এবং একই পদ্ধতিতে এগিয়ে চলতে পারি, অবশেষে eigenvectors এর একটি orthonormal ভিত্তি নির্মাণ করে।Cw1w1w2