পিসিএ এবং বৈকল্পিক অনুপাত ব্যাখ্যা করা হয়েছে


90

সাধারণভাবে, পিসিএর মতো বিশ্লেষণে ভিন্নতার ভগ্নাংশ প্রথম প্রধান উপাদান দ্বারা ব্যাখ্যা করা বলতে কী বোঝায় ? কেউ কি স্বজ্ঞাতভাবে এটি ব্যাখ্যা করতে পারেন তবে মূল উপাদান বিশ্লেষণের (পিসিএ) ক্ষেত্রে "বৈকল্পিক ব্যাখ্যা" কী বোঝায় তার একটি সঠিক গাণিতিক সংজ্ঞা দিতে পারেন?x

সাধারণ লিনিয়ার রিগ্রেশন জন্য, সেরা ফিট রেখার আর-স্কোয়ারটি সর্বদা বর্ণিত বৈকল্পিকের অনুপাত হিসাবে বর্ণনা করা হয়, তবে এটির কি হবে তা আমি নিশ্চিত নই। এখানে বৈকল্পিকের অনুপাতটি কি সেরা ফিট লাইন থেকে পয়েন্টের বিচ্যুতি কেবল বাড়িয়ে তোলে?


উত্তর:


103

পিসিএর ক্ষেত্রে, "বৈকল্পিক" অর্থ সমষ্টিগত ভেরিয়েন্স বা মাল্টিভারিয়েট ভেরিয়েবিলিটি বা সামগ্রিক পরিবর্তনশীলতা বা মোট চলকতা । নীচে প্রায় 3 টি ভেরিয়েবলের কোভারিয়েন্স ম্যাট্রিক্স রয়েছে। তাদের রূপগুলি তির্যকে রয়েছে এবং 3 টি মানের (3.448) এর যোগফল সামগ্রিক পরিবর্তনশীল।

   1.343730519   -.160152268    .186470243 
   -.160152268    .619205620   -.126684273 
    .186470243   -.126684273   1.485549631

এখন, পিসিএ মূল ভেরিয়েবলগুলি নতুন ভেরিয়েবলের সাথে প্রতিস্থাপিত করে, মূল উপাদানগুলি বলা হয়, যা অরথোগোনাল (অর্থাত্ তাদের শূন্য সমবায় রয়েছে) এবং ক্রমহ্রাসমান ক্রমে ভেরিয়েন্সগুলি (ইগেনভ্যালু নামে পরিচিত) রয়েছে। সুতরাং, উপরোক্ত তথ্য থেকে প্রাপ্ত মূল উপাদানগুলির মধ্যে কোভেরিয়েন্স ম্যাট্রিক্সটি হ'ল:

   1.651354285    .000000000    .000000000 
    .000000000   1.220288343    .000000000 
    .000000000    .000000000    .576843142

নোট করুন যে তির্যক সমষ্টিটি এখনও 3.448, যা বলে যে সমস্ত 3 উপাদান সমস্ত মাল্টিভারিয়েট পরিবর্তনশীলতার জন্য অ্যাকাউন্ট করে। 1 ম প্রধান উপাদান সামগ্রিক পরিবর্তনশীলতার 1.651 / 3.448 = 47.9% এর জন্য বা "ব্যাখ্যা" দেয়; দ্বিতীয়টি এর 1.220 / 3.448 = 35.4% ব্যাখ্যা করে; তৃতীয়টি এটির .577 / 3.448 = 16.7% ব্যাখ্যা করে।

সুতরাং, যখন তারা বলে যে " পিসিএ সর্বাধিক বৈকল্পিক ব্যাখ্যা করে " বা " পিসিএ সর্বাধিক বৈকল্পিক ব্যাখ্যা করে " তখন তাদের অর্থ কী ? এটি অবশ্যই নয় যে এটি তিনটি মানের মধ্যে সবচেয়ে বড় বৈচিত্রটি খুঁজে পায় 1.343730519 .619205620 1.485549631, না। পিসিএ ডেটা স্থান, মধ্যে খুঁজে বের করে মাত্রা বৃহত্তম ভ্যারিয়েন্স সঙ্গে (দিক) সামগ্রিক বাইরে ভ্যারিয়েন্স 1.343730519+.619205620+1.485549631 = 3.448। সবচেয়ে বড় বৈকল্পিকতা হবে 1.651354285। তারপরে এটি দ্বিতীয় বৃহত্তম বৈকল্পিকের মাত্রা খুঁজে পায়, প্রথমটির সাথে অর্থোগোনাল, বাকি 3.448-1.651354285সামগ্রিক বৈকল্পিকতার মধ্যে। যে 2 য় মাত্রা 1.220288343বৈকল্পিক হবে। ইত্যাদি। শেষ বাকি মাত্রা .576843142বৈকল্পিক। এখানে "পিটি 3" এবং দুর্দান্ত উত্তরটি দেখুন এটি আরও বিশদে কীভাবে করা হচ্ছে তা ব্যাখ্যা করে।

গাণিতিকভাবে, পিসিএ লিজার বীজগণিত ফাংশনগুলির মাধ্যমে সঞ্চালিত হয় যাকে ইগেন-পচন বা এসভিডি-পচন বলা হয়। এই ক্রিয়াকলাপগুলি আপনাকে সমস্ত ইগেনুয়ালুগুলি 1.651354285 1.220288343 .576843142(এবং সংশ্লিষ্ট আইজেনভেেক্টর) একবারে ফেরত দেবে ( দেখুন , দেখুন )।


1
এর সাথে আপনি কী বোঝাতে চেয়েছেন: "দ্রষ্টব্য যে তির্যক সমষ্টিটি এখনও 3.448, যা বলে যে সমস্ত 3 উপাদানগুলি সমস্ত মাল্টিভারিয়েট পরিবর্তনশীলতার জন্য দায়বদ্ধ" এবং আপনার পদ্ধতি এবং পিওভি (পার্থক্যের অনুপাত) এর মধ্যে পার্থক্য কী?
কামাচি

2
আমি কোনও "পদ্ধতি" প্রস্তাব করি না। আমি কেবল ব্যাখ্যা করেছি যে সমস্ত পিসি মূল ভেরিয়েবলগুলির মতো একই মোট পরিমাণের পরিবর্তনশীলতার জন্য অ্যাকাউন্ট করে।
ttnphns

আপনি কি আমার প্রশ্নটি যাচাই করতে পারেন: stats.stackexchange.com/questions/44464/…
kamaci

। আমি দুঃখিত :-( আমি বর্তমানে করতে পারবেন আছে এতে টিউন ইন করানোর অনেকগুলি মন্তব্য নেই আছি।
ttnphns

1
আপনি যদি কেবল প্রশ্নটি পড়ে থাকেন তবে এটি যথেষ্ট। মন্তব্যে কিছুই নেই।
কামাচি

11

@ttnphns একটি ভাল উত্তর সরবরাহ করেছে, সম্ভবত আমি কয়েকটি পয়েন্ট যুক্ত করতে পারি। প্রথমত, আমি এটি উল্লেখ করতে চাই যে সিভিতে একটি প্রাসঙ্গিক প্রশ্ন ছিল , সত্যিই একটি শক্ত উত্তর - আপনি অবশ্যই এটি পরীক্ষা করে দেখতে চান। এরপরে কীভাবে আমি সেই উত্তরে প্রদর্শিত প্লটগুলি উল্লেখ করব?

তিনটি প্লট একই ডেটা প্রদর্শন করে। লক্ষ্য করুন যে উভয় উলম্বভাবে এবং অনুভূমিকভাবে ডেটাতে পরিবর্তনশীলতা রয়েছে তবে আমরা বেশিরভাগ পরিবর্তনশীলটিকে আসলে তির্যক হিসাবে ভাবতে পারি । তৃতীয় চক্রান্তে, সেই দীর্ঘ কালো তির্যক রেখাটি হ'ল প্রথম ইগেনভেક્ટર (বা প্রথম নীতি উপাদান), এবং সেই নীতি উপাদানটির দৈর্ঘ্য (সেই লাইন বরাবর ডেটা প্রসারণ - আসলে লাইনটির দৈর্ঘ্য নয়, যা সবেমাত্র প্লটের উপর অঙ্কিত) হ'ল প্রথম ইগেনভ্যালু- এটিই প্রথম নীতি উপাদানটির দ্বারা পরিবর্তিত পরিমাণের পরিমাণ। আপনি দ্বিতীয় নীতি উপাদান দৈর্ঘ্য (যা orthogonally যে তির্যক রেখা থেকে ডেটার বিস্তার প্রস্থ হয়) সঙ্গে যে দৈর্ঘ্য যোগফল করতে ছিল, এবং তারপর যে মোট দ্বারা eigenvalues উভয় বিভক্ত থাকে, তাহলে আপনি পেতে হবে শতাংশ বৈকল্পিকটি সংশ্লিষ্ট নীতি উপাদান দ্বারা দায়ী।

অন্যদিকে, রিগ্রেশনে যে পরিমাণ বৈকল্পিকতা রয়েছে তার শতাংশটি বুঝতে, আপনি শীর্ষের প্লটটি দেখতে পারেন। সেক্ষেত্রে লাল রেখাটি হল রিগ্রেশন লাইন, বা মডেল থেকে পূর্বাভাসিত মানগুলির সেট। বর্ণিত ভিন্নতাটি রিগ্রেশন লাইনের উল্লম্ব স্প্রেডের অনুপাত হিসাবে বোঝা যায় (অর্থাত্, রেখার সর্বনিম্ন বিন্দু থেকে রেখার সর্বোচ্চ বিন্দুতে) ডেটাটির উল্লম্ব স্প্রেডে (অর্থাৎ, সর্বনিম্ন তথ্য বিন্দু থেকে সর্বোচ্চ তথ্য বিন্দুতে)। অবশ্যই, এটি কেবল একটি আলগা ধারণা, কারণ আক্ষরিকভাবে সেগুলি ব্যাপ্তি নয়, তবে এটি আপনাকে পয়েন্টটি পেতে সহায়তা করবে।

প্রশ্নটি পড়তে ভুলবেন না। এবং, যদিও আমি শীর্ষের উত্তরটি উল্লেখ করেছি, প্রদত্ত বেশ কয়েকটি উত্তর চমৎকার। এগুলি পড়ার জন্য আপনার সময়টি মূল্যবান।


3

মূল প্রশ্নের একটি খুব সাধারণ, প্রত্যক্ষ এবং নির্ভুল গাণিতিক উত্তর আছে।

Y1Y2YpRi2

a1a2apPC1=a1Y1+a2Y2++apYpi=1pRi2(Yi|PC1)

এই অর্থে, আপনি প্রথম পিসিকে "বৈকল্পিক ব্যাখ্যা করেছেন" বা আরও স্পষ্টভাবে "মোট বৈকল্পিক ব্যাখ্যা করেছেন" এর একটি ম্যাক্সিমাইজার হিসাবে ব্যাখ্যা করতে পারেন।

bi=c×aic0

মূল সাহিত্য এবং এক্সটেনশনের রেফারেন্সের জন্য দেখুন

ওয়েস্টফল, পিএইচ, আরিয়াস, এএল, এবং ফুলটন, এলভি (2017)। সংশোধন ব্যবহার করে মূল উপাদানগুলি শেখানো, মাল্টিভারিয়েট আচরণমূলক গবেষণা, 52, 648-660।


0

Y=A+BYABYABYABvar(Y)=var(A)+var(B)+2cov(A,B)Ab0+b1XBeY=b0+b1X+eYb0+b1X

Y


Y এর প্রকরণের জন্য আপনার সূত্রটি পরীক্ষা করা উচিত: এটি সঠিক নয়। আরও গুরুত্বপূর্ণ বিষয়, যদিও, একটি রিগ্রেশন ব্যাখ্যার প্রয়াস পিসিএকে সঠিকভাবে চিহ্নিত করে না বা লোকেরা কীভাবে এটি সম্পর্কে চিন্তা করে এবং এটি ব্যবহার করে।
whuber

1
সূত্রে টাই, স্থির ত্রুটি। আমার উত্তরটি রিগ্রেশন লাইনের দ্বারা ব্যাখ্যা করা বৈকল্পিকের অনুপাত সম্পর্কিত প্রশ্নের দ্বিতীয় অংশের জন্য।
ইয়াং
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.