পিসিএ কেন প্রক্ষেপণের মোট বৈকল্পিকতা সর্বাধিক করে?


11

ক্রিস্টোফার বিশপ তার প্রমাণ প্যাটার্ন রিকগনিশন অ্যান্ড মেশিন লার্নিং প্রুফ গ্রন্থে লিখেছেন যে পূর্ববর্তী নির্বাচিত উপাদানগুলিতে ডেটা অরথোগোনাল স্পেসে প্রত্যাশিত হওয়ার পরে প্রতিটি পর পরের মূল উপাদানটি একটি মাত্রার প্রক্ষেপণের বৈচিত্রকে সর্বাধিক করে তোলে। অন্যরা অনুরূপ প্রমাণ দেখায়।

যাইহোক, এটি কেবল প্রমাণ করে যে প্রতিটি ক্রমাগত উপাদানই একটি মাত্রার সর্বাধিক প্রক্ষেপণ হয় বৈকল্পিকতা সর্বাধিক করার ক্ষেত্রে of এটি কেন বোঝায় যে 5 টি মাত্রা বলতে প্রক্ষেপণের যে বৈকল্পিকতা এই জাতীয় উপাদানগুলি বেছে নিয়ে সর্বাধিক করা হয়?


আপনি কি দয়া করে আমাদের বলতে পারবেন যে পঞ্চম মাত্রিক ডেটাসেটের "বৈকল্পিকতা" দ্বারা বোঝানো হবে যা কোনও ডেটাসেটের প্রক্ষেপণ থেকে পাঁচ মাত্রায় পরিণত হয়? (যেমন একটি পরিমাণ বৃদ্ধি সাপেক্ষে হতে করার জন্য যাতে এটি একটি হতে হবে একক সংখ্যা।)
whuber

3
খুব ভাল পয়েন্ট। ক্রিস বিশপ তাঁর বইতে কোনও প্রক্ষেপণের বৈচিত্রকে হ্রাস করার বিষয়ে উল্লেখ করেছেন এবং এটি আরও 1 টি মাত্রার চেয়ে বেশি বোঝাতে পারে তা খুব পরিষ্কার নয়। আমি শিখতে চাই কোন প্রকারে বৈকল্পিকতা হ্রাস করা হয় এবং কেন এই জাতীয় পদ্ধতি এটি যৌথভাবে ন্যূনতম করে।
মিশাল

1
@ ব্যবহারকারী 123675: আপনার শেষ মন্তব্যে আপনি সম্ভবত "সর্বাধিকীকরণ" অর্থ, "হ্রাস" নয়।
অ্যামিবা

হ্যাঁ তুমিই ঠিক. দুঃখিত!
মিশাল

উত্তর:


11

বিভিন্ন মাত্রায় ("সম্পূর্ণ বৈকল্পিক") দ্বারা বৈকল্পিক দ্বারা যা বোঝা যায় তা হ'ল প্রতিটি মাত্রার পরিবর্তনের যোগফল। গাণিতিকভাবে, এটি কোভারিয়েন্স ম্যাট্রিক্সের সন্ধান: ট্রেস হ'ল সমস্ত তির্যক উপাদানগুলির যোগফল। এই সংজ্ঞাটিতে বিভিন্ন দুর্দান্ত বৈশিষ্ট্য রয়েছে, উদাহরণস্বরূপ ট্রেসটি অরথোগোনাল লিনিয়ার ট্রান্সফর্মেশনগুলির অধীনে অদলবদল, যার অর্থ আপনি যদি আপনার স্থানাঙ্ক অক্ষগুলি ঘোরান তবে মোট বৈকল্পিক একই থাকে।

বিশপের বইতে (বিভাগ 12.1.1) প্রমাণিত হয়েছে যে, কোভারিয়েন্স ম্যাট্রিক্সের শীর্ষস্থানীয় ইগেনভেেক্টর সর্বাধিক বৈকল্পিকতার দিকনির্দেশনা দেয়। দ্বিতীয় ইগেনভেেক্টর একটি অতিরিক্ত বাধার অধীনে সর্বাধিক প্রকরণের দিকনির্দেশ দেয় যে এটি প্রথম ইগেনভেেক্টর ইত্যাদির ক্ষেত্রে অর্থকোন হওয়া উচিত I যদি লক্ষ্যটি 2 ডি উপস্থানে মোট বৈকল্পিকতা সর্বাধিক করে তোলা হয়, তবে এই পদ্ধতিটি একটি লোভী সর্বাধিকীকরণ: প্রথমে এমন অক্ষটি বেছে নিন যা বৈকল্পিকতা সর্বাধিক করে তোলে, তারপরে অন্যটি।

আপনার প্রশ্ন: এই লোভী পদ্ধতিটি কেন বিশ্বব্যাপী সর্বাধিক প্রাপ্ত?

@ শুভ মন্তব্যগুলিতে পরামর্শ দিয়েছেন এমন একটি দুর্দান্ত যুক্তি এখানে দেওয়া হল। আসুন প্রথমে পিসিএ অক্ষের সাথে সমন্বিত সিস্টেমটি প্রান্তিককরণ করি। কোভেরিয়েন্স ম্যাট্রিক্সটি তির্যক হয়ে যায়: । সরলতার জন্য আমরা একই 2 ডি কেসটি বিবেচনা করব, অর্থাৎ সর্বোচ্চ মোট বৈকল্পিক সমেত বিমানটি কী? আমরা প্রমাণ করতে চাই যে এটি প্রথম দুটি ভিত্তিক ভেক্টরগুলির দ্বারা প্রদত্ত বিমান (মোট বৈকল্পিক )।Σ=diag(λi)λ1+λ2

একটি প্লেনে দুই লম্ব ভেক্টর দ্বারা দৃশ্যও বিবেচনা করুন এবং । এই বিমানে মোট বৈকল্পিকতা হ'লসুতরাং এটি ইগেনভ্যালুগুলির একটি লিনিয়ার সংমিশ্রণ সহগ সহ সমস্ত ধনাত্মক, বেশি হবে না (নীচে দেখুন), এবং যোগফল । যদি তা হয় তবে এটি প্রায় স্পষ্ট যে সর্বাধিক এ পৌঁছেছে ।uv

uΣu+vΣv=λiui2+λivi2=λi(ui2+vi2).
λi12λ1+λ2

এটি কেবল দেখানোর বাকি আছে যে সহগগুলি বেশি হতে পারে না । লক্ষ্য করুন যে , যেখানে হয় -th ভিত্তিতে ভেক্টর। এই পরিমাণটি এবং দ্বারা বিস্তৃত সমতলে প্রক্ষেপণের একটি বর্গ দৈর্ঘ্য । সুতরাং এটি এর স্কোয়ার দৈর্ঘ্যের চেয়ে ছোট হতে হবে যা , QED সমান ।1uk2+vk2=(uk)2+(vk)2kkkuvk|k|2=1

পিসিএর উদ্দেশ্যমূলক কাজটি কী সম্পর্কিত @ কার্ডিনালের উত্তরটি দেখুন ? (এটি একই যুক্তি অনুসরণ করে)।


1
(+1) তবে এটি কি স্বজ্ঞাতভাবে স্পষ্ট নয় যে বিভিন্ন ধরণের নগদ অর্থের মানচিত্র (অ-নেতিবাচক ইগ্যালভ্যালুগুলির মডেলিং) দেওয়া হয়েছে, এবং আপনি বেছে নিতে পারেন এমন একটি নির্দিষ্ট নম্বর , যে সবচেয়ে ধনী মানিব্যাগ নির্বাচন করা আপনার সর্বাধিক করে তুলবে নগদ? এই স্বজ্ঞাততাটি সঠিক বলে প্রমাণটি প্রায় তুচ্ছ: আপনি যদি সবচেয়ে বড় গ্রহণ না করেন , তবে আপনি নিজের চেয়ে বড় পরিমাণের জন্য যে ক্ষুদ্রতমটি নিয়েছিলেন তা বিনিময় করে আপনার যোগফলকে উন্নত করতে পারে। kkk
হোবার

@ অ্যামিবা: লক্ষ্যটি যদি তারতম্যের যোগফলকে সর্বাধিক করে তোলা এবং যোগফলের বৈকল্পিকতা না করে, তবে দ্বিতীয় প্রক্ষেপণের প্রথমটির দিকে অर्थোগোনাল হওয়ার কোনও কারণ নেই।
ইন্নু

1
আমি ক্ষমাপ্রার্থী - আমি ভেবেছিলাম আপনি ইতিমধ্যে বিশ্লেষণটি বুঝতে পেরেছিলেন যে ডাইমেনশনাল উপ-স্পেসের মোট বৈচিত্রটি ইগেনভ্যালুগুলির একটি অ-নেতিবাচক রৈখিক সংমিশ্রণ, যার সহগের কোনওটিই ছাড়িয়ে যাবে না এবং সহগের মোট সংখ্যা । (এটি একটি সাধারণ ম্যাট্রিক্স গুণনের বিষয় - ল্যাঞ্জরেঞ্জ গুণকগুলির প্রয়োজন হয় না)) তারপরে আমাদের ওয়ালেট রূপকের কাছে নিয়ে আসে। আমি সম্মত হই যে এরকম কিছু বিশ্লেষণ করতে হবে। k1k
whuber

1
@ অ্যামিবা: আমি বোঝাতে চাইছি আমরা ইগেনভেেক্টর সমন্বিত বেসে সমস্যাটি বিবেচনা করছি (যদি আমরা তির্যক কোভরিয়েন্স ম্যাট্রিক্স দ্বারা গুণিত করে তাদের বৈচিত্রগুলি গণনা করি তবে এটি ইউ এবং ভি এর ভিত্তি)। u এবং v শেষ পর্যন্ত তাদের হয়ে উঠবে, তবে এই প্রমাণের পর্যায়ে আমাদের ধরে নেওয়া উচিত নয় বলে আমি মনে করি। যুক্তিটি বরং হওয়া উচিত নয়, যদি কোনও বিন্দুতে যোগফল 1 এর চেয়ে বড় হয়, তবে 2 ভেক্টর আর অর্থেগোনাল হবে না, যেহেতু বেসটি অর্থোগোনাল এবং প্রতিটি ভেক্টর সর্বাধিক 1 এনেছে? তবে আবার, কেন আমরা নিজেকে orthogonal ভেক্টর ইউ এবং ভি মধ্যে সীমাবদ্ধ করব?
মিশাল

1
@ হাইজেনবার্গ: আহ, আমি দেখছি! না, অবশ্যই আমি তা বোঝাতে চাইনি! তবে আমি এখন দেখছি কেন এটি বিভ্রান্তিকর ছিল। এই "ভিত্তি চয়ন করা" পদক্ষেপ থেকে মুক্তি পাওয়ার জন্য আমি প্রমাণের এই শেষ বিটটি আবার লিখেছি। আমার সম্পাদনা দেখুন। ধন্যবাদ.
অ্যামিবা

2

যদি আপনার অবান্তর সম্পর্কযুক্ত এলোমেলো ভেরিয়েবলগুলি তার বৈকল্পিকের উত্থানের ক্রম অনুসারে বাছাই করে থাকে এবং তাদের মধ্যে বেছে নেওয়ার জন্য বলা হয় যে তাদের যোগফলের পরিমাণটি সর্বাধিক হয়, আপনি কি সম্মত হবেন যে প্রথম বাছাইয়ের লোভী দৃষ্টিভঙ্গিটি সম্পাদন করবে?Nkk

এর কোভেরিয়েন্স ম্যাট্রিক্সের ইগেনভেেক্টরগুলিতে প্রজেক্ট করা ডেটা মূলত এরস্রেলেটেড কলামের ডেটা এবং যার বৈচিত্রটি সম্পর্কিত ইগেনভ্যালুগুলির সমান।N

অন্তর্দৃষ্টিটি আরও সুস্পষ্ট হওয়ার জন্য আমাদের কোভরিয়েন্স ম্যাট্রিক্সের ইগেনভেেক্টরকে বৃহত্তম ইগেনুয়ালুয়ের সাথে গণনা করার সাথে বৈচিত্র্য সর্বাধিককরণের সাথে সম্পর্কিত করতে হবে এবং পারস্পরিক সম্পর্কগুলি অপসারণের জন্য অर्थোগোনাল প্রজেকশন সম্পর্কিত।

দ্বিতীয় সম্পর্কটি আমার কাছে স্পষ্ট কারণ দুটি (শূন্য গড়) ভেক্টরগুলির মধ্যে পারস্পরিক সম্পর্ক সহগগুলি তাদের অভ্যন্তরীণ পণ্যের সাথে সমানুপাতিক।

নিম্নবর্ণিত ম্যাট্রিক্সের সর্বাধিক বৈকল্পিক এবং ইগেন-পচনের মধ্যে সম্পর্ক নীচে রয়েছে।

ধরে নিন যে কলামগুলি কেন্দ্র করে কেন্দ্র করার পরে হ'ল ডেটা ম্যাট্রিক্স। আমাদের সর্বাধিক বৈকল্পিকের দিক খুঁজে পাওয়া দরকার। কোনো একক ভেক্টর জন্য , জরিপ বরাবর পর ভ্যারিয়েন্স হয়Dvv

E[(Dv)tDv]=vtE[DtD]v=vtCov(D)v

যা সর্বাধিক হয় যদি বৃহত্তম এর হয় বৃহত্তম ইগেনালু সম্পর্কিত।vCov(D)


মূল প্রশ্ন বরং হয়: চয়ন (যেমন বিরোধিতা লম্ব রৈখিক তাদের সমন্বয় যেমন যে তাদের ভেরিয়ানস এর সমষ্টি বড় করা হয় তাদের মধ্যে)। এটি এখনও স্পষ্ট যে প্রথম বাছাই করার লোভী দৃষ্টিভঙ্গি এটি সম্পাদন করে? kkk
অ্যামিবা

ফাইন্ডিং লম্ব রৈখিক সমন্বয় এবং তারপর প্রথম সবচেয়ে বৈকল্পিক নির্বাচন তাদের কি পদ্ধতি সম্পর্কে আলোচনা করা (ঢিলেঢালাভাবে) হয়। আমার উত্তরটি কেবল দাবি করেছে যে লোভনীয় প্রক্রিয়াটির জন্য সম্পূর্ণ বৈকল্পিকতা সর্বাধিকীকরণের লক্ষ্য অর্জনের জন্য অর্থোগোনালিটিই যথেষ্ট। Nk
ইন্নুও

আমি নিশ্চিত নই যে আমি যুক্তিটি অনুসরণ করি। অরথোগোনালিটি কীভাবে গুরুত্বপূর্ণ? আপনার যদি ভেরিয়েবল থাকে এবং সর্বাধিক মোট বৈকল্পিক সহ নির্বাচন করতে হয়, আপনার সর্বোচ্চ বৈকল্পিক সহ বেছে নেওয়া উচিত (সেগুলি সম্পর্কযুক্ত কিনা তা নির্বিশেষে)। Nkk
অ্যামিবা

আহ, আমি বিভ্রান্তি বুঝতে পারি। আমার উত্তরে একটি টাইপো ছিল। এখনই স্থির।
ইন্নু

আমি মনে করি আপনি এখানে কিছু করতে পারেন, তবে যোগফলের icalন্দ্রজালিক উপস্থিতিটি ব্যাখ্যা করা দরকার। পিসিএ বা বর্ণালী পচনের সাথে এর কী প্রাসঙ্গিকতা রয়েছে?
হোবার
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.