সাধারণ সর্বনিম্ন স্কোয়ার বনাম মোট সর্বনিম্ন স্কোয়ার
আসুন প্রথমে কেবলমাত্র একজন ভবিষ্যদ্বাণীকারী (স্বতন্ত্র) ভেরিয়েবল এর সহজতম ক্ষেত্রে বিবেচনা করি । সরলতার জন্য, এবং উভয়ই কেন্দ্রীভূত হওয়া উচিত, অর্থাৎ বিরতি সর্বদা শূন্য। স্ট্যান্ডার্ড ওএলএস রিগ্রেশন এবং "অরথোগোনাল" টিএলএস রিগ্রেশন এর মধ্যে পার্থক্যটি পিসিএ-এর সর্বাধিক জনপ্রিয় থ্রেডের সবচেয়ে জনপ্রিয় উত্তর থেকে এই (আমার দ্বারা অভিযোজিত) চিত্রটিতে স্পষ্টভাবে দেখানো হয়েছে :x yxxy
OLS ঔজ্জ্বল্যের প্রেক্ষাপটে সমীকরণ ফিট পর্যবেক্ষিত মানের মধ্যে স্কোয়ারড দূরত্বের কমানোর দ্বারা এবং পূর্বাভাস মান । টিএলএস পয়েন্ট এবং লাইনে তাদের প্রক্ষেপণের মধ্যবর্তী স্কোয়ার দূরত্বগুলি হ্রাস করে একই সমীকরণটি ফিট করে । এই সাধারণ ক্ষেত্রে টিএলএস লাইনটি 2D তথ্যের প্রথম প্রধান উপাদান। A খুঁজে পেতে , পয়েন্টগুলিতে পিসিএ করুন , অর্থাত্ কোভারিয়েন্স ম্যাট্রিক্স এবং এর প্রথম ; তারপরে ।Y Y ( এক্স , Y ) β ( এক্স , Y ) 2 × 2 Σ বনাম = ( V এক্স , বনাম Y ) β = V Y / V এক্সy=βxyy^(x,y)β(x,y)2×2Σv=(vx,vy)β= ভিY/ ভিএক্স
মতলব-তে:
v = pca([x y]); //# x and y are centered column vectors
beta = v(2,1)/v(1,1);
আর তে:
v <- prcomp(cbind(x,y))$rotation
beta <- v[2,1]/v[1,1]
যাইহোক, এবং কেন্দ্রিক না থাকলেও এটি সঠিক opeালু উত্পাদন করবে (কারণ বিল্ট-ইন PCA ফাংশনগুলি স্বয়ংক্রিয়ভাবে কেন্দ্রীকরণ সম্পাদন করে)। বিরতি পুনরুদ্ধার করতে, গণনা করুন ।y β 0 = ˉ y - β ˉ xএক্সYβ0= y¯- βএক্স¯
ওএলএস বনাম টিএলএস, একাধিক রিগ্রেশন
একটি নির্ভরশীল পরিবর্তনশীল দেওয়া এবং অনেক স্বাধীন ভেরিয়েবল (আবার, সব সরলীকরণের জন্য কেন্দ্রিক), রিগ্রেশন একটি সমীকরণ ফিটOLS ঔজ্জ্বল্যের প্রেক্ষাপটে পর্যবেক্ষিত মানের মধ্যে স্কোয়ারড ত্রুটি কমানোর দ্বারা মাপসই করা হবে না এবং পূর্বাভাস মান । টিএলএস পর্যবেক্ষণ পয়েন্ট এবং রিগ্রেশন প্লেন / হাইপারপ্লেনের নিকটতম পয়েন্টগুলির মধ্যে বর্গক্ষেত্রের দূরত্বগুলি হ্রাস করে ফিট করে ।x i y = β 1 x 1 + … + β পি x পি । Y Y ( এক্স , Y ) ∈ আর পি + + 1Yএক্সআমি
Y= β1এক্স1+ … + Βপিএক্সপি।
YY^( x , y)) ∈ আরপি + 1
নোট করুন যে "আরগ্রেশন রেখা" আর নেই! উপরের সমীকরণটি একটি হাইপারপ্লেনকে নির্দিষ্ট করে : এটি যদি একটি 2 ডি প্লেন থাকে যেখানে দুটি ভবিষ্যদ্বাণী থাকে, 3 ডি হাইপারপ্লেন যদি তিনটি ভবিষ্যদ্বাণী থাকে ইত্যাদি ইত্যাদি। সুতরাং উপরের সমাধানটি কার্যকর হয় না: আমরা কেবল প্রথম পিসি নিয়ে টিএলএস সমাধান পেতে পারি না (যা হ'ল একটি লাইন)। তবুও সমাধানটি পিসিএর মাধ্যমে সহজেই পাওয়া যায়।
আগের মতো, পিসিএ পয়েন্টে সঞ্চালিত হয় । এটি কলামগুলিতে ইগেনভেেক্টর লাভ করে । প্রথম আইজেনভেেক্টরগুলি একটি ডাইমেনশনাল হাইপারপ্লেন- যা আমাদের প্রয়োজন; শেষ (সংখ্যা ) ইগেনভেেক্টর it এটির অর্থেগোনাল। প্রশ্ন হল কিভাবে ভিত্তিতে রূপান্তরিত হয় প্রথম কর্তৃক প্রদত্ত মধ্যে eigenvectors কোফিসিয়েন্টস।পি + 1 ভি পি পি এইচ পি + 1 ভি পি + 1 এইচ পি β( x , y))পি + 1ভীপিপিএইচপি + 1বনামপি + 1এইচপিβ
লক্ষ্য করুন যে আমরা যদি সমস্ত এবং কেবল জন্য নির্ধারণ তবে তারপরে , অর্থাৎ ভেক্টর হাইপারপ্লেন । অন্যদিকে, আমরা জানি যে । অর্থাৎ তাদের ডট পণ্য অবশ্যই শূন্য হতে হবে:আমি ≠ ট এক্স ট = 1 Y = β ট ( 0 , ... , 1 , ... , β ট ) ∈ এইচ এইচ ভি পি + + 1 = ( V 1 , ... , বনাম পি + + 1 )xi=0i≠kxk=1y^=βk
(0,…,1,…,βk)∈H
Hভি কে + β কে ভি পি + 1 = 0 ⇒ β কে = - ভি কে / ভি পি + 1 ।vp+1=(v1,…,vp+1)⊥H
vk+βkvp+1=0⇒βk=−vk/vp+1.
মতলব-তে:
v = pca([X y]); //# X is a centered n-times-p matrix, y is n-times-1 column vector
beta = -v(1:end-1,end)/v(end,end);
আর তে:
v <- prcomp(cbind(X,y))$rotation
beta <- -v[-ncol(v),ncol(v)] / v[ncol(v),ncol(v)]
আবার, এবং কেন্দ্রিক না থাকলেও এটি সঠিক opালু উত্পাদন করবে (কারণ বিল্ট-ইন পিসিএ ফাংশনগুলি স্বয়ংক্রিয়ভাবে কেন্দ্রীকরণ সম্পাদন করে)। ইন্টারসেপ্টটি পুনরুদ্ধার করতে, গণনা করুন ।y β 0 = ˉ y - ˉ x βxyβ0=y¯−x¯β
স্যানিটি পরীক্ষা হিসাবে, লক্ষ্য করুন যে এই সমাধানটি কেবলমাত্র একক একা ভবিষ্যদ্বাণী ক্ষেত্রে আগেরটির সাথে মিলে যায় । প্রকৃতপক্ষে, তবে স্থানটি 2 ডি, এবং তাই, প্রথম পিসিএ ইগেনভেেক্টরটি দ্বিতীয় (শেষ) একের কাছে অরথোগোনাল, ।( x , y ) v ( 1 ) y / v ( 1 ) x = - v ( 2 ) x / v ( 2 ) yx(x,y)v(1)y/v(1)x=−v(2)x/v(2)y
টিএলএসের জন্য বন্ধ ফর্ম সমাধান
আশ্চর্যজনকভাবে, এটি দেখা যাচ্ছে যে জন্য বন্ধ ফর্ম সমীকরণ রয়েছে । নীচের যুক্তিটি সাবিন ভ্যান হাফলের "মোট সর্বনিম্ন স্কোয়ারস" (বিভাগ ২.৩.২) থেকে নেওয়া হয়েছে।β
আসুন এবং কেন্দ্রিক ডেটা ম্যাট্রিক হয়। গত পিসিএ eigenvector কোভ্যারিয়েন্স ম্যাট্রিক্স একজন eigenvector হয় একটি eigenvalue সঙ্গে । যদি এটি একটি আইজেনভেেক্টর হয়, তবে তা হ'ল । । ইগেনভেেক্টর সমীকরণটি লিখেছেন:
Xyvp+1[Xy]σ2p+1−vp+1/vp+1=(β−1)⊤
(X⊤Xy⊤XX⊤yy⊤y)(β−1)=σ2p+1(β−1),
এবং বামদিকে পণ্যটি গণনা করা, আমরা তত্ক্ষণাত্ সেই যা পরিচিত ওএলএস এক্সপ্রেশন
βTLS=(X⊤X−σ2p+1I)−1X⊤y,
βOLS=(X⊤X)−1X⊤y.
একাধিক রিগ্রেশন মাল্টিভারিয়েট করুন
একই সূত্রটি মাল্টিভাইয়ারেট ক্ষেত্রে সাধারণীকরণ করা যেতে পারে তবে মাল্টিভারিয়েট টিএলএস কী করে তা নির্ধারণ করতে কিছু বীজগণিতের প্রয়োজন হয়। টিএলএস-তে উইকিপিডিয়া দেখুন । বহু নির্ভরযোগ্য ওএলএস রিগ্রেশন প্রতিটি নির্ভরশীল ভেরিয়েবলের জন্য একগুচ্ছ অবিবাহিত ওএলএস রিগ্রেশনগুলির সমতুল্য, তবে টিএলএস ক্ষেত্রে এটি তেমন হয় না।