আমি আপনাকে পিসিএর নিজস্ব ব্যাখ্যা / প্রমাণ দিতে পারি, যা আমি মনে করি সত্যই সহজ এবং মার্জিত, এবং লিনিয়ার বীজগণিতের প্রাথমিক জ্ঞান ব্যতীত অন্য কোনও কিছুর প্রয়োজন হয় না। এটি বেশ দীর্ঘায়িত হয়েছে, কারণ আমি সহজ অ্যাক্সেসযোগ্য ভাষায় লিখতে চেয়েছিলাম।
Mnn
βββ∑Mi=1∥xi−μ∥2−μ0x′i=xi−μ∑Mi=1∥x′i∥2
এখন লাইনের পছন্দ। আমরা কোনও রেখাকে পয়েন্টের সেট হিসাবে বর্ণনা করতে পারি যা কিছু ভেক্টর জন্য সমীকরণটি পূরণ করে । মনে রাখবেন যদি আমরা কিছু ভেক্টর দ্বারা রেখা সরাতে লম্ব করার , তারপর লাইনে সব অনুমান এছাড়াও দ্বারা সরানো হবে , অত অনুমান গড় দ্বারা সরানো হবে , অত অনুমান ভ্যারিয়েন্স অপরিবর্তিত থাকবে। তার মানে আমরা লাইনটি নিজের সাথে সমান্তরাল সরাতে পারি এবং এই লাইনে অনুমানের বৈচিত্রটি পরিবর্তন করতে পারি না। আবার সুবিধার্থে আসুন আমরা কেবল শূন্য পয়েন্টের মধ্য দিয়ে যাওয়া লাইনগুলিতে সীমাবদ্ধ করি (এর অর্থ দ্বারা বর্ণিত লাইন )।x=αv+wv,wγvγγx=αv
ঠিক আছে, এখন ধরা যাক আমাদের কাছে একটি ভেক্টর যা এমন একটি লাইনের দিকের বর্ণনা দেয় যা আমরা অনুসন্ধান করা লাইনের সম্ভাব্য প্রার্থী। লাইনে আমাদের অনুমানগুলির বৈকল্পিক গণনা করতে হবে । আমাদের যা প্রয়োজন হবে তা হ'ল প্রোজেকশন পয়েন্ট এবং তার গড়। রৈখিক বীজগণিত থেকে আমরা জানি যে এই সহজ ক্ষেত্রে প্রজেকশন উপর হয় । আসুন এখন থেকে কেবলমাত্র কেবল ইউনিট ভেক্টরগুলিতে সীমাবদ্ধ করা যাক । তার মানে আমরা বিন্দু প্রজেকশন দৈর্ঘ্য লিখতে পারেন উপর কেবল যেমন ।vαvx′iαv⟨xi,v⟩/∥v∥2vx′iv⟨x′i,v⟩
পূর্ববর্তী কয়েকটি উত্তরে কেউ বলেছিলেন যে পিসিএ নির্বাচিত লাইন থেকে দূরত্বের বর্গাকার যোগফলকে হ্রাস করে। আমরা এখন এটি সত্য দেখতে পাচ্ছি, কারণ নির্বাচিত লাইন থেকে অনুমানের স্কোয়ারের সমষ্টি এবং দূরত্বের বর্গাকার যোগফল পয়েন্ট থেকে দূরত্বের স্কোয়ারের সমান । অনুমানের স্কোয়ারের সমষ্টিকে সর্বাধিক করে আমরা দূরত্ব এবং তদ্বিপরীত বর্গের যোগফলকে হ্রাস করি, তবে এটি এখন একটি প্রমাণিত বিবেচনার দিক থেকে ফিরে এসেছিল proof0
অনুমানগুলির গড় হিসাবে, আসুন লক্ষ্য করুন যে আমাদের জায়গার কয়েকটি অরথোগোনাল ভিত্তির অংশ, এবং আমরা যদি সেই ভিত্তির প্রতিটি ভেক্টরের উপর আমাদের ডেটা পয়েন্টগুলি প্রজেক্ট করি তবে তাদের যোগফল বাতিল হয়ে যাবে (এটি এরকম কারণ কারণ ভিত্তি থেকে ভেক্টরগুলি নতুন অर्थোগোনাল ভিত্তিতে ডেটা পয়েন্ট লেখার মতো)। সুতরাং ভেক্টর সমস্ত অনুমান এর সমষ্টি (এর সমষ্টি কল দিন এবং ভিত্তি থেকে অন্য ভেক্টর উপর অনুমান এর সমষ্টি) (এটা কল দিন ,) 0, কারণ এটা উপর ভিত্তি করে বিন্দুর অর্থ। তবে কাছে ! এর অর্থ ।vvSvSoSvSoSo=Sv=0
সুতরাং আমাদের অনুমানের গড় । 0ঠিক আছে, এটি সুবিধাজনক, কারণ এর অর্থ হ'ল বৈকল্পিকতা কেবলমাত্র দৈর্ঘ্যের অনুমানের স্কোয়ারের যোগফল বা চিহ্নগুলির মধ্যে
∑i=1M(x′i⋅v)2=∑i=1MvT⋅x′Ti⋅x′i⋅v=vT⋅(∑i=1Mx′Ti⋅xi)⋅v.
ভাল ভাল, হঠাৎ covariance ম্যাট্রিক্স পপ আউট। এর দ্বারা সহজভাবে বোঝান । এর অর্থ আমরা এখন একটি ইউনিট ভেক্টর যা কিছু আধা-পজিটিভ নির্দিষ্ট ম্যাট্রিক্স জন্য সর্বাধিক করে ।XvvT⋅X⋅vX
এখন, ম্যাট্রিক্স এবং ইগেনভ্যালু নেওয়া যাক এবং এবং দ্বারা চিহ্নিত করুন , যেমন । মান যদি সদৃশ না করে তবে ইগেনভেেক্টরগুলি একটি অর্থোনের ভিত্তি তৈরি করে। যদি তারা তা করে, তবে আমরা ইগেনভেেক্টরগুলিকে এমনভাবে চয়ন করি যাতে তারা একটি অর্থকেন্দ্রিক ভিত্তি তৈরি করে।Xe1,e2,…,enλ1,…,λnλ1≥λ2,≥λ3…λ
এখন একটি আইজেনভে জন্য গণনা করা । আমাদের কাছেvT⋅X⋅vei
eTi⋅X⋅ei=eTi⋅(λiei)=λi(∥ei∥2)2=λi.
খুব ভাল, এটি আমাদেরকে জন্য দেয় । এখন আসুন একটি নির্বিচারে ভেক্টর । যেহেতু ইগেনভেেক্টরগুলি একটি অর্থনোমর্মাল ভিত্তি গঠন করে, আমরা লিখতে পারি এবং আমাদের । আসুন বোঝান ।λ1e1vv=∑ni=1ei⟨v,ei⟩∑ni=1⟨v,ei⟩2=1βi=⟨v,ei⟩
এখন গণনা করা যাক । আমরা কে রৈখিক সংমিশ্রণ হিসাবে আবার , এবং পাই:vT⋅X⋅vvei
(∑i=1nβiei)T⋅X⋅(∑i=1nβiei)=(∑i=1nβiei)⋅(∑i=1nλiβiei)=∑i=1nλi(βi)2(∥ei∥2)2.
শেষ সমীকরণটি আইজেনভেেক্টরগুলি থেকে আসে যেখানে জোড়াযুক্ত অর্থোগোনাল হতে বেছে নেওয়া হয়েছিল, সুতরাং তাদের বিন্দুর পণ্যগুলি শূন্য। এখন, যেহেতু সমস্ত ইগেনভেেক্টরগুলিও ইউনিট দৈর্ঘ্যের, তাই আমরা , যেখানে সমস্ত ধনাত্মক, এবং সমষ্টি ।vT⋅X⋅v=∑ni=1λiβ2iβ2i1
এর মানে হল যে প্রক্ষেপণের বৈচিত্রটি ইগেনালুগুলির একটি ভারিত গড়। অবশ্যই, এটি সর্বদা বৃহত্তম ইগেনুয়ালুও কম হয়, এজন্য এটি প্রথম পিসিএ ভেক্টরের আমাদের পছন্দ হওয়া উচিত।
এখন ধরা যাক আমরা অন্য ভেক্টর চাই আমাদের এটিকে স্থান থেকে ইতিমধ্যে বেছে নেওয়া একটিতে বেছে নেওয়া উচিত, এর অর্থ । আমরা এই সিদ্ধান্তে পৌঁছে যাই যে, প্রকল্পের জন্য সেরা ভেক্টর হ'ল । এবং তাই, এবং আরও ...lin(e2,e3,…,en)e2
যাইহোক, এটি এখন পরিষ্কার হওয়া উচিত, কেন বৈকল্পিকতা ধরে রাখা দ্বারা প্রকাশ করা যেতে পারে ।∑ki=1λi/∑ni=1λi
আমাদের ভেক্টরগুলির লোভী পছন্দকেও ন্যায়সঙ্গত করা উচিত। যখন আমরা প্রজেক্টের জন্য ভেক্টরগুলি বেছে নিতে চাই , প্রথমে সেরা ভেক্টরটি বেছে নেওয়া ভাল ধারণা নাও হতে পারে, তারপরে যা রয়েছে তার থেকে সেরা। আমি যুক্তি দিতে চাই যে এই ক্ষেত্রে এটি ন্যায়সঙ্গত এবং কোনও পার্থক্য রাখে না। বোঝাতে দেয় ভেক্টর আমরা দ্বারা সম্মুখের প্রকল্প করতে ইচ্ছুক । এছাড়াও, ধরে নেওয়া যাক ভেক্টরগুলি জোড়মুখী অরথোগোনাল। যেমনটি আমরা ইতিমধ্যে জানি, ve সংখ্যক ভেক্টরগুলির উপর অনুমানের মোট বৈকল্পিকতা যেখানেkkv1,…,vk
∑j=1k∑i=1nλiβ2ij=∑i=1nλiγi
γi=∑kj=1β2ij.
এখন, লিখুন কিছু orthonormal ভিত্তিতে যে অন্তর্ভুক্ত । এর মত ভিত্তিতে বাকি বোঝাতে যাক । আমরা দেখতে পাচ্ছি যে । কারণ , আমাদের এবং তাই সকলের জন্য ।eiv1,…,vku1,…,un−kei=∑kj=1βijvj+∑n−kj=1θj⟨ei,uj⟩∥ei∥2=1∑kj=1β2ij+∑n−kj=1θ2j=1γi≤1i
এখন কেবলমাত্র একটি ভেক্টরের সাথে আমাদের একইরকম কেস রয়েছে, আমরা এখন জানি যে অনুমানের মোট এবং সহ । এটি আর একটি ওজনযুক্ত গড় এবং এটি অবশ্যই চেয়ে বেশি নয় যা বৃহত্তম ইগেনুভ্যালুগুলির সাথে সম্পর্কিত ইগেনভেেক্টরগুলিতে প্রজেক্ট করার সাথে সম্পর্কিত।∑ni=1λiγiγi≤1∑ni=1γi=k∑ki=1λik