পিসিএর উদ্দেশ্যমূলক কাজ কী?


42

প্রধান উপাদান বিশ্লেষণ ম্যাট্রিক্স পচন ব্যবহার করতে পারে তবে এটি সেখানে পৌঁছানোর কেবল একটি সরঞ্জাম।

ম্যাট্রিক্স বীজগণিত ব্যবহার না করে আপনি কীভাবে মূল উপাদানগুলি আবিষ্কার করবেন?

উদ্দেশ্যমূলক কাজ (লক্ষ্য) কী এবং বাধাগুলি কী কী?


1
হতে পারে আমি কিছু মিস করছি তাই দয়া করে আমি ভুল হলে আমাকে সংশোধন করুন, তবে পিসিএতে (জটিল) রৈখিক প্রোগ্রামিংয়ের সমস্যা হিসাবে ম্যাট্রিকগুলি ব্যবহার করে যা করা হচ্ছে (কমপক্ষে নীতিগতভাবে) এটি সম্ভব হওয়া উচিত, তবে আমি তা করি না আপনি কীভাবে প্রয়োজনীয় সমস্ত প্রতিবন্ধকতাগুলি বর্ণনা করবেন তা জানুন। এছাড়াও আমি নিশ্চিত না যে কেবল পিসিএ ব্যবহারের তুলনায় খুব সহজ কাজ করতে চাই। আপনি কেন ম্যাট্রিক্স এড়াতে চেষ্টা করছেন?
ক্রিস সিমোক্যাট

@ ক্রিস আমি দেখতে পাচ্ছি না যে কেউ কীভাবে একটি রৈখিক প্রোগ্রামিংয়ের সমস্যা পেতে পারে। গণনাতে ম্যাট্রিক্স এড়ানো উচিত এটি আমার বোঝার মতো ছিল না । প্রশ্নটি ছিল যে কোন ধরণের সমস্যাটি পিসিএ দ্বারা সমাধান করা হয়, এবং এটি কীভাবে হয় না (উদাহরণস্বরূপ এসভিডি গণনা করে)। কার্ডিনাল দ্বারা সমাধানটি বলে যে আপনি সর্বাধিক বৈকল্পিকের ক্রমাগত অ र्थ োগোনাল দিক খুঁজে পান । আমি যে সমাধানটি উপস্থাপন করেছি তাতে বলা হয়েছে যে আপনি ন্যূনতম পুনর্গঠনের ত্রুটিযুক্ত হাইপারপ্লেনগুলি পেয়েছেন।
এনআরএইচ

@ ক্রিস আমি ম্যাট্রিক্স বীজগণিত ছাড়াই পিসিএ দেখার আরও একটি উপায় খুঁজে পাওয়ার আশা করছি যাতে এটি সম্পর্কে আমার বোধগম্যতা বাড়ানো যায়।
নিল ম্যাকগুইগান

1
@ ক্রিস, আপনার একটি চতুর্ভুজ উদ্দেশ্যমূলক ফাংশন এবং একটি 2 আদর্শ সাম্যের সীমাবদ্ধতা রয়েছে। বিকল্পভাবে, @ এনআরএইচের উত্তরে সূত্রের আওতায় আপনার কাছে ম্যাট্রিক্স র‌্যাঙ্কের সীমাবদ্ধতা রয়েছে। এটি একটি রৈখিক-প্রোগ্রামিং সমস্যায় নিজেকে পরাজিত করবে না। @ এনআরএইচ কিছুটা ভাল অন্তর্দৃষ্টি দেয় এবং প্রকৃতপক্ষে, পিসিএতে দুটি দৃষ্টিভঙ্গির মধ্যে খুব ঘনিষ্ঠ যোগাযোগ রয়েছে যা দেওয়া হয়েছে। @NRH- এর সহযোগিতায় সম্ভবত উত্তরগুলির সম্পূর্ণ সেটটিকে আরও সম্পূর্ণ করতে আমরা তার পোস্টটিতে এটি যুক্ত করতে পারি।
কার্ডিনাল

1
@NRH, আসলে, আমি মত ইএসএল অনেক, কিন্তু আমি মনে করি এটা বিষয়ের সেখানে চিকিত্সা, চমত্কার পৃষ্ঠস্থ হিসাবে এটি বইয়ের বিষয় অনেক জন্য। বিশেষত, তারা যে অপটিমাইজেশন সমস্যাটি দেয় তার সমাধানের গুরুত্বপূর্ণ অংশটি তারা প্রমাণ করে না (বা অনুশীলন হিসাবেও নির্ধারণ করে) don't
কার্ডিনাল

উত্তর:


41

অপ্টিমাইজেশন দৃষ্টিকোণ থেকে, পিসিএ-তে সম্পূর্ণ প্রাইমার দেওয়ার চেষ্টা না করে, প্রাথমিক উদ্দেশ্য ফাংশন হ'ল রায়লেগ ভাগফল । ম্যাট্রিক্স যেটি তা হ'ল (কিছু একাধিক) নমুনা কোভেরিয়েন্স ম্যাট্রিক্স যেখানে প্রতিটি হল বৈশিষ্ট্যগুলির একটি ভেক্টর এবং the এমন ম্যাট্রিক্স যা ম সারিতে । ।

S=1ni=1nxixiT=XTX/n
xipXixiT

পিসিএ অপ্টিমাইজেশন সমস্যার ক্রম সমাধান করার চেষ্টা করছে । ক্রমের প্রথমটি হ'ল বেআইনী সমস্যা

maximizeuTSuuTu,uRp.

যেহেতু, উপরের অসংযত সমস্যাটি সীমাবদ্ধ সমস্যার সমতুল্য uTu=u22=uu

maximizeuTSusubject touTu=1.

এখানে ম্যাট্রিক্স বীজগণিত আসে Since যেহেতু একটি প্রতিসম ধনাত্মক অর্ধবৃত্তিমূলক ম্যাট্রিক্স (নির্মাণ দ্বারা!) এটির ফর্মটির একটি eigenvalue পচন রয়েছে যেখানে একটি লম্ব ম্যাট্রিক্স (তাই ) এবং একটি তির্যক ম্যাট্রিক্স সঙ্গে নন-নেগেটিভ এন্ট্রি হয় যেমন যে ।S

S=QΛQT,
QQQT=IΛλiλ1λ2λp0

সুতরাং, । যেহেতু এক আদর্শ আছে সমস্যা সীমাবদ্ধ করা হয়, তাহলে তাই হয় যেহেতু , অরথোগোনাল হওয়ার কারণে ।uTSu=uTQΛQTu=wTΛw=i=1pλiwi2uww2=QTu2=u2=1Q

তবে, আমরা যদি the এর সীমাবদ্ধতার অধীনে পরিমাণটি সর্বাধিক করে তুলতে চাই, তবে আমরা সবচেয়ে ভাল করতে পারি সেট , যে এবং জন্য ।i=1pλiwi2i=1pwi2=1w=e1w1=1wi=0i>1

এখন, সংশ্লিষ্ট ব্যাক আপ করছি , যা আমরা প্রথম স্থানে চেয়েছিলাম, আমরা তা পেয়েছি যেখানে এর প্রথম কলামটি বোঝায় , এর বৃহত্তম ইগন্যালুয়ের সাথে সম্পর্কিত ইগেনভেেক্টর । এরপরে অবজেক্টিভ ফাংশনের মানটি সহজেই হতে দেখা যায় ।u

u=Qe1=q1
q1QSλ1

তারপরে অবশিষ্ট মূল উপাদানগুলির ভেক্টরগুলি অপ্টিমাইজেশান সমস্যার ক্রম ( দ্বারা সূচিত ) সমাধান করে খুঁজে পাওয়া যায় সুতরাং, সমস্যাটি একই, আমরা অতিরিক্ত বাধা যুক্ত করি যে সমাধানটি ক্রমের পূর্ববর্তী সমস্ত সমাধানগুলির সাথে orthogonal হওয়া উচিত । উপরোক্ত যুক্তিটি প্ররোচিতভাবে প্রসারিত করে দেখানো কঠিন নয় যে তম সমস্যার সমাধানটি সত্যই, , th এর ম আইগ্রেভেক্টর ।i

maximizeuiTSuisubject touiTui=1uiTuj=01j<i.
iqiiS

পিসিএ সমাধান প্রায়ই পরিপ্রেক্ষিতে প্রকাশ করা হয় একবচন মান পচানি এর । কেন তা দেখতে, । তারপরে এবং তাই (কঠোরভাবে বলতে গেলে, ফ্লিপগুলিতে সাইন আপ করতে) এবং ।XX=UDVTnS=XTX=VD2VTV=QΛ=D2/n

মূল উপাদানগুলি ভেক্টরগুলিতে প্রজেক্ট করার মাধ্যমে মূল উপাদানগুলি পাওয়া যায় । সদ্য দেওয়া এসভিডি সূত্র থেকে, এটি সহজেই দেখতে পাওয়া যায় যে X

XQ=XV=UDVTV=UD.

বৈশিষ্ট্যগুলির ম্যাট্রিক্সের এসভিডির ক্ষেত্রে মূল উপাদান ভেক্টর এবং মূল উপাদানগুলি উভয়ের প্রতিনিধিত্বের সরলতা হ'ল পিসিএর কিছু চিকিত্সায় এসভিডি বৈশিষ্ট্যগুলি এত স্পষ্টভাবে প্রমাণিত হয়।


যদি কেবলমাত্র প্রথম কয়েকটি একক মান / ভেক্টরগুলির প্রয়োজন হয়, তবে ন্যাশ এবং শ্লিয়েন প্রভাবশালী ইগেনালুগুলি গণনার জন্য সাধারণ শক্তি পদ্ধতির স্মরণ করিয়ে দেওয়ার একটি অ্যালগোরিদম দেয়। এটি ওপিতে আগ্রহী হতে পারে।
জেএম

@ এনআরএইচ, আমার টাইপগুলি দেখার জন্য পরিচালনা করার আগে (এবং সংশোধন করার জন্য) ধন্যবাদ!
কার্ডিনাল

1
হাই @ কার্ডিনাল, আপনার উত্তরের জন্য আপনাকে ধন্যবাদ তবে মনে হচ্ছে যে ক্রমানুসারে অপ্টিমাইজেশন কেন বিশ্বব্যাপী সর্বোত্তম হওয়ার দিকে পরিচালিত করে তা প্রমাণ করার পদক্ষেপ আপনি দেননি। আপনি কি দয়া করে বিস্তারিত বলতে পারেন? ধন্যবাদ!
লিফু হুয়াং

21

কার্ডিনাল দ্বারা উপস্থাপিত সমাধানটি নমুনা কোভারিয়েন্স ম্যাট্রিক্সকে কেন্দ্র করে। আর একটি সূচনা পয়েন্ট হ'ল একটি Q- মাত্রিক হাইপারপ্লেন দ্বারা ডেটা পুনর্গঠন ত্রুটি । যদি পি- ডাইমেনশনাল ডেটা পয়েন্টগুলি উদ্দেশ্য সমাধান করাx1,,xn

minμ,λ1,,λn,Vqi=1n||xiμVqλi||2

অর্থ জন্য ম্যাট্রিক্স ম্যাট্রিক্স সাথে কলাম এবং । এটি ইউক্লিডিয়ান আদর্শ অনুসারে পরিমাপকৃত সেরা র‌্যাঙ্কের Q- পুনর্গঠন দেয় এবং সমাধানের কলামগুলি প্রথম q মূল উপাদান ভেক্টর।p×qVqλiRqVq

স্থির সমাধানের জন্য এবং (এটি প্রতিরোধ) হ'ল Vqμλi

μ=x¯=1ni=1nxiλi=VqT(xix¯)

স্বরলিপি স্বাচ্ছন্দ্যের জন্য ধরে নেওয়া যাক যে নিম্নলিখিত গণনাগুলিতে কেন্দ্রিক হয়েছে। আমাদের তখন কমাতে হবে xi

i=1n||xiVqVqTxi||2

কলাম সহ উপরে । লক্ষ্য করুন হল অভিক্ষেপ সম্মুখের কুই -dimensional কলাম স্থান। সুতরাং সমস্যাটি হ্রাস করার সমান ওভার র‌্যাঙ্ক Q অনুমানগুলি । তা হল, আমাদের সর্বোচ্চ র‌্যাঙ্ক Q অনুমান , যেখানে the নমুনা কোভারিয়েন্স ম্যাট্রিক্স। এখনVqP=VqVqT

i=1n||xiPxi||2=i=1n||xi||2i=1n||Pxi||2
P
i=1n||Pxi||2=i=1nxiTPxi=tr(Pi=1nxixiT)=ntr(PS)
PS
tr(PS)=tr(VqTSVq)=i=1quiTSui
যেখানে হয় মধ্যে (orthonormal) কলাম , এবং আর্গুমেন্ট @ অঙ্কবাচক এর উত্তর শো সর্বাধিক গ্রহণ করে প্রাপ্ত হয় উপস্থাপন ' গুলি হতে জন্য eigenvectors সঙ্গে বৃহত্তম eigenvalues।u1,,uqqVquiqSq

পুনর্গঠন ত্রুটিটি বেশ কয়েকটি দরকারী সাধারণীকরণের পরামর্শ দেয়, উদাহরণস্বরূপ হাইপারপ্লেনের পরিবর্তে মূল উপাদানগুলিকে বিচ্ছিন্ন করে বা নিম্ন-মাত্রিক ম্যানিফোল্ডগুলি দ্বারা পুনর্গঠন। বিশদের জন্য পরিসংখ্যানগত শিক্ষার উপাদানসমূহের 14.5 ধারা দেখুন ।


(+1) ভাল পয়েন্ট। কিছু পরামর্শ: সংজ্ঞায়িত করা ভাল এবং একটি সংক্ষিপ্ত প্রমাণ দেওয়া সত্যিই চমৎকার হবে would অথবা, বিকল্পভাবে, এটি রায়েলাইট ভাগফলগুলি জড়িত অপ্টিমাইজেশান সমস্যার সাথে সংযুক্ত হতে পারে। আমি মনে করি যে এই প্রশ্নের উত্তর খুব সম্পূর্ণ করতে হবে! λi
কার্ডিনাল

@ কার্ডিনাল, আমি বিশ্বাস করি যে পুনর্নির্মাণের সূচনা থেকে আপনি যে সমস্যার সমাধান করেছেন তাতে আমি হারিয়ে যাওয়া পদক্ষেপগুলি সম্পূর্ণ করেছি completed
এনআরএইচ

চমৎকার কাজ. আমি বিশ্বাস করি যে কেবলমাত্র ফাঁকটিই আপনার শেষ বিবৃতিতে রয়েছে। অবিলম্বে এটি স্পষ্ট নয় যে সমষ্টিটি অনুকূল করা আমার উত্তরটিতে অপ্টিমাইজেশনের ক্রম সম্পাদনের সমান। আসলে, আমি সাধারণত এটি সাধারণত অনুসরণ করে বলে মনে করি না। তবে, এটি এখানেও সম্বোধন করার দরকার নেই।
কার্ডিনাল

@ কার্ডিনাল, এটি অনুসরণ দ্বারা অনুসরণ করা হয়। আপনি আনয়ন শুরু প্রদান এবং আনয়ন ধাপে চয়ন orthonormal ভেক্টর যে সমষ্টি পূর্ণবিস্তার এবং যাতে এটি ব্যবস্থা একটি একক ভেক্টর লম্ব করার । তারপরে আপনার ফলাফল দ্বারা এবং অনুমিতি অনুমান দ্বারা । অবশ্যই, ভিত্তিটি মাত্রিক স্থানের জন্য কোনও অনন্য ভিত্তি নয় । আপনি প্রত্যক্ষ প্রমাণ দেওয়ার জন্য ব্যবহার করেন এমন "উত্তল সংমিশ্রণ যুক্তি "ও সাধারণ করতে পারেন। w1,,wqwqu1,,uq1wqTSwquqTSuqi=1q1wiTSwii=1q1uiTSuiq
এনআরএইচ

1
@ কার্ডিনাল, আমি কেবল মাত্র একটি মাত্রার বিবেচনা ব্যবহার করে বাসা বাঁধতে বাধ্য করছি না। আমাদের যদি একটি মাত্রিক -স্পেস থাকে তবে আপনি সর্বদা সেই বেছে পারেন এটি একটি -স্পেসের অর্থেগোনাল । তারপর আপনি ভরাট তোমার মত অন্য কোন উপায়ে -basis। qwq(q1)w
এনআরএইচ

4

একটি অ্যালগোরিদমের জন্য নিপালস ( উইকি ) দেখুন যা স্পষ্টভাবে ম্যাট্রিক্সের পচন ব্যবহার করে না। আমি মনে করি আপনি যখন ম্যাট্রিক্স বীজগণিত এড়াতে চান তখন আপনি যেহেতু ম্যাট্রিক্স বীজগণিতকে এড়াতে পারবেন না বলে আপনি বলতে চাইছেন সেটাই বোঝা যাচ্ছে :)

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.