এই প্রশ্নটি মূলত পিসিএ / এফএ এর সংজ্ঞা সম্পর্কে, সুতরাং মতামত পৃথক হতে পারে। আমার অভিমত, পিসিএ + ভেরিম্যাক্সকে পিসিএ বা এফএ বলা উচিত নয়, বারকে বরং স্পষ্টভাবে "ভেরিম্যাক্স-ঘোরানো পিসিএ" হিসাবে উল্লেখ করা হয়।
আমার যুক্ত করা উচিত এটি বেশ বিভ্রান্তিকর বিষয়। এই উত্তরটি আমি ব্যাখ্যা করতে কি একটি ঘূর্ণন আসলে চান হয় ; এর জন্য কিছু গণিতের প্রয়োজন হবে। একটি নৈমিত্তিক পাঠক চিত্রণ সরাসরি যেতে পারেন। তবেই আমরা পিসিএ + রোটেশন "পিসিএ" বলা উচিত এবং উচিত নয় তা নিয়ে আলোচনা করতে পারি।
একটি রেফারেন্স হ'ল জলিফের বই "প্রিন্সিপাল কম্পোনেন্ট অ্যানালাইসিস", বিভাগ 11.1 "" প্রধান উপাদানগুলির আবর্তন ", তবে আমি দেখতে পাচ্ছি এটি আরও পরিষ্কার হতে পারে।
আসুন আমরা একটি ডেটা ম্যাট্রিক্স হতে পারি যা আমরা ধরে নিই যে এটি কেন্দ্রিক। পিসিএ পরিমাণ (এক্ষেত্রে আমার উত্তর দেখুন ) একক মান-পচন: । এই পচন সম্পর্কে দুটি সমতুল্য কিন্তু প্রশংসামূলক দৃষ্টিভঙ্গি রয়েছে: আরও একটি পিসিএ-স্টাইল "প্রক্ষেপণ" দৃষ্টিভঙ্গি এবং আরও এফএ-স্টাইলের "সুপ্ত পরিবর্তনশীল" ভিউ। এন × পি এক্স = ইউ এস ভি ⊤Xn×pX=USV⊤
পিসিএ-স্টাইলের মতামত অনুসারে, আমরা একগুচ্ছ অরথোগোনাল দিকগুলি পেয়েছি (এগুলি কোভরিয়েন্স ম্যাট্রিক্সের ইগেনভেেক্টর, যাকে "প্রধান নির্দেশাবলী" বা "অক্ষ" বলা হয়) এবং "মূল উপাদানগুলি" ( প্রিন্সিপাল উপাদানটিকে "স্কোর" নামেও ডাকা হয়) এই নির্দেশিকাগুলির উপর ডেটাগুলির অনুমান। প্রধান উপাদানগুলি অসংলগ্ন, প্রথমটির সর্বাধিক সম্ভাব্য বৈকল্পিক ইত্যাদি রয়েছে We আমরা লিখতে পারি:ইউ এস এক্স = ইউ এস ⋅ ভি ⊤ = স্কোরস ⋅ প্রধান দিকনির্দেশ ।VUS
X=US⋅V⊤=Scores⋅Principal directions.
এফএ-স্টাইলের মতামত অনুসারে, আমরা কিছু অসামঞ্জস্যিত ইউনিট-ভেরিয়েন্স "সুপ্ত কারণ" পেয়েছি যা "লোডিং" এর মাধ্যমে পর্যবেক্ষণের ভেরিয়েবলগুলিকে জন্ম দেয়। প্রকৃতপক্ষে, standard মানকৃত মূল উপাদান (নিরবিচ্ছিন্ন এবং ইউনিট বৈকল্পিক সহ), এবং যদি আমরা লোডিংগুলি হিসাবে সংজ্ঞায়িত করি , তারপরে (দ্রষ্টব্য যে ।) উভয় মতামত সমান। নোট করুন যে লোডিংগুলি সম্পর্কিত ইগেনভ্যালুগুলি দ্বারা আকারযুক্ত ইগেনভেেক্টর ( the কোভেরিয়েন্স ম্যাট্রিক্সের ইগেনভ্যালু)এল=ভিএস/ √U˜=n−1−−−−−√U এক্স= √L=VS/n−1−−−−−√এস ⊤=এসএস/ √
X=n−1−−−−−√U⋅(VS/n−1−−−−−√)⊤=U˜⋅L⊤=Standardized scores⋅Loadings.
S⊤=SS/n−1−−−−−√
(আমার ব্র্যাককেটে≠ যুক্ত করা উচিত যে পিসিএ FA এফএ ; এফএ স্পষ্টভাবে লক্ষ্য করে যে লোডিংয়ের মাধ্যমে পর্যবেক্ষিত ভেরিয়েবলগুলিতে রৈখিকভাবে ম্যাপ করা সুপ্ত কারণগুলি সন্ধান করা; এটি পিসিএর চেয়ে আরও নমনীয় এবং বিভিন্ন লোডিং দেয়। এজন্য আমি উপরের দিকে কল করতে পছন্দ করি "পিসিএতে এফএ-স্টাইলের ভিউ" এবং এফএ নয়, যদিও কিছু লোক এফএ পদ্ধতির একটি হিসাবে গ্রহণ করে))
এখন, একটি আবর্তন কি করে? যেমন একটি অরথোগোনাল ঘূর্ণন, যেমন ভেরিম্যাক্স। প্রথমত, এটি কেবল উপাদানগুলি বিবেচনা করে, যেমন:তারপরে এটি একটি বর্গাকার অরথোগোনাল ম্যাট্রিক্স লাগবে , এবং কে এই পচে যায়: যেখানে ঘোরানো লোডিংগুলিk<p
X≈UkSkV⊤k=U˜kL⊤k.
k×kTTT⊤=IX≈UkSkV⊤k=UkTT⊤SkV⊤k=U˜rotL⊤rot,
˜ ইউ আর ও টি = ˜ ইউ কে টি টি এল আর ও টিLrot=LkT, এবং ঘোরানো স্কোরগুলি । (এর উদ্দেশ্য হ'ল যেমন such possible এর ব্যাখ্যা সহজ করার জন্য স্পার্স হওয়ার কাছাকাছি হয়ে গিয়েছিল )
U˜rot=U˜kTTLrot
নোট করুন যেটি ঘোরানো হয় তা হ'ল: (1) মানকৃত স্কোর, (2) লোডিং। তবে কাঁচা স্কোর নয় এবং প্রধান দিকনির্দেশনাও নয়! সুতরাং ঘূর্ণনটি মূল জায়গাতে নয়, সুপ্ত স্থানে ঘটে । এটি একেবারে গুরুত্বপূর্ণ।
এফএ-স্টাইল দৃষ্টিকোণ থেকে, খুব বেশি কিছুই ঘটেনি। (ক) সুপ্ত কারণগুলি এখনও নিরবিচ্ছিন্ন এবং মানসম্মত। (খ) তারা এখনও (ঘোরানো) লোডিংয়ের মাধ্যমে পর্যবেক্ষণযোগ্য ভেরিয়েবলগুলিতে ম্যাপ করা হয়। (গ) ভ্যারিয়েন্স পরিমাণ প্রতিটি উপাদানের / গুণক দ্বারা বন্দী সংশ্লিষ্ট loadings কলামের ছক মানের সমষ্টি দেওয়া হয় । ()) জ্যামিতিকভাবে, লোডিংগুলি এখনও (প্রথম পিসিএ ইগেনভেেক্টর দ্বারা বিভক্ত উপগ্রহ) একই মাত্রিক উপ-স্পেস স্প্যান করে । (ঙ) এর পুনর্নির্মাণ এবং পুনর্গঠনের ত্রুটি একেবারেই পরিবর্তন হয়নি। (চ) সমবায় ম্যাট্রিক্স এখনও সমানভাবে ভাল অনুমান করা হয়: কে আর পি কে এক্সLrotkRpkX
Σ≈LkL⊤k=LrotL⊤rot.
তবে পিসিএ-স্টাইলের দৃষ্টিকোণটি কার্যত ভেঙে পড়েছে। ঘোরানো লোডিংগুলি আর og ম্যাথবিবি তে orthogonal দিকনির্দেশ / অক্ষের সাথে মিলে না, অর্থাত এর কলামগুলি orthogonal নয়! সবচেয়ে খারাপ বিষয়, আপনি যদি ঘোরানো লোডিংয়ের দ্বারা প্রদত্ত দিকনির্দেশগুলিতে ডেটা প্রজেক্ট করেন তবে আপনি পারস্পরিক সম্পর্কযুক্ত (!) অনুমানগুলি পাবেন এবং স্কোরগুলি পুনরুদ্ধার করতে সক্ষম হবেন না। [পরিবর্তে, ঘোরার পরে মানযুক্ত স্কোরগুলি গণনা করার জন্য, লোডিংয়ের সিউডো-ইনভার্সের সাথে ডেটা ম্যাট্রিক্সকে গুণিত করতে হবে e । । বিকল্পভাবে, একটি সহজেই আবর্তিত ম্যাট্রিক্সের সাহায্যে মূল মানক স্কোরগুলি ঘোরানো যায়:এল আর ও টি ˜ ইউ আর ও টি = এক্স ( এল + আর ও টি ) ⊤ ˜ ইউ আর ও টি = ˜ ইউ টি কেকেRpLrotU˜rot=X(L+rot)⊤U˜rot=U˜T ] এছাড়াও, ঘোরানো উপাদানগুলি ধারাবাহিকভাবে সর্বাধিক পরিমাণে ভেরিয়েন্স ক্যাপচার করে না : বৈকল্পিক উপাদানগুলির মধ্যে পুনরায় বিতরণ হয় (এমনকি যদিও সমস্ত ঘুরানো উপাদানগুলি সমস্ত মূল মূল উপাদানগুলির সাথে ঠিক ততটা ভিন্নতা ক্যাপচার করে )।kk
এখানে একটি উদাহরণ। ডেটাটি মূল ত্রিভুজ সহ প্রসারিত 2D উপবৃত্ত। প্রথম প্রধান দিকটি প্রধান তির্যক, দ্বিতীয়টি এটির অর্থোগোনাল। পিসিএ লোডিং ভেক্টরগুলি (আইগেনভ্যালুগুলি দ্বারা পরিমাপকৃত আইজেনভেেক্টরগুলি) লাল রঙে দেখানো হয় - উভয় দিক নির্দেশ করে এবং দৃশ্যমানতার জন্য ধ্রুবক উপাদান দ্বারা প্রসারিত। তারপরে আমি লোডিংগুলিতে দিয়ে একটি অর্থোগোনাল ঘূর্ণন প্রয়োগ করেছি । ফলাফল লোডিং ভেক্টরগুলি ম্যাজেন্টায় দেখানো হয়। তারা কীভাবে অরথোগোনাল (!) নয় তা লক্ষ্য করুন।30∘
নীচে এফএ-স্টাইলের অন্তর্নিহিততাটি নিম্নরূপ: একটি "সুপ্ত স্পেস" কল্পনা করুন যেখানে পয়েন্টগুলি একটি ছোট বৃত্ত পূরণ করে (ইউনিট বৈকল্পের সাথে 2 ডি গাউসিয়ান থেকে আসে)। এই পয়েন্টগুলির বিতরণটি পিসিএ লোডিংগুলি (লাল) বরাবর প্রসারিত হয় যাতে আমরা এই চিত্রটিতে দেখি এমন উপাত্তবৃত্ত হয়ে যায়। তবে একই পয়েন্টের একই বিতরণটি ঘোরানো যেতে পারে এবং তারপরে ঘোরানো পিসিএ লোডিংগুলি (ম্যাজেন্টা) বরাবর প্রসারিত করে একই ডেটা উপবৃত্ত হতে পারে ।
[আসলে করার দেখতে যে loadings একজন লম্ব ঘূর্ণন হয় একটি ঘূর্ণন , এক পিসিএ biplot তাকান প্রয়োজন; সেখানে মূল ভেরিয়েবল কেবল ঘুরবে সংশ্লিষ্ট ভেক্টর / রে।]
আসুন সংক্ষেপে বলি। অরথোগোনাল ঘোরার পরে (যেমন ভেরিম্যাক্স), "ঘোরানো-অধ্যক্ষ" অক্ষগুলি অর্থগোনাল নয়, এবং তাদের উপর অर्थোগোনাল অনুমানগুলি কোনও অর্থবোধ করে না। সুতরাং এটির পরিবর্তে এই পুরো অক্ষ / প্রজেকশন পয়েন্টটি বাদ দেওয়া উচিত। এটি এখনও পিসিএ (যা সর্বাধিক বৈকল্পিক ইত্যাদির সাথে অনুমানগুলি সম্পর্কে বলা হয়) বলা অদ্ভুত হবে।
এফএ-স্টাইলের দৃষ্টিকোণ থেকে, আমরা কেবল আমাদের (মানকৃত এবং অসংলগ্ন) সুপ্ত কারণগুলি ঘোরালাম, যা একটি বৈধ অপারেশন। এফএতে কোনও "অনুমান" নেই; পরিবর্তে, সুপ্ত ফ্যাক্টরগুলি লোডিংয়ের মাধ্যমে পর্যবেক্ষণযোগ্য ভেরিয়েবলগুলি তৈরি করে। এই যুক্তিটি এখনও সংরক্ষিত আছে। তবে, আমরা মূল উপাদানগুলি দিয়ে শুরু করেছি, যা আসলে কারণ নয় (পিসিএ এফএর মতো নয়)। সুতরাং এটি এফএ পাশাপাশি কল করা অদ্ভুত হবে।
একজনকে "পিসিএ বা এফএ" বলা উচিত কিনা তা বিতর্ক করার পরিবর্তে, সঠিক ব্যবহৃত পদ্ধতিটি নির্দিষ্ট করে দেওয়ার ক্ষেত্রে আমি সূক্ষ্ম বলে পরামর্শ দেব: "পিসিএ এর পরে একটি ভেরিম্যাক্স রোটেশন"।
Postscriptum। এটা তোলে হয় একটি বিকল্প ঘূর্ণন পদ্ধতি, যেখানে বিবেচনা করা সম্ভব মধ্যে ঢোকানো হয় এবং । এটি কাঁচা স্কোর এবং ইগেনভেেক্টরগুলি ঘুরবে (মানকৃত স্কোর এবং লোডিংয়ের পরিবর্তে)। এই পদ্ধতির সাথে সবচেয়ে বড় সমস্যাটি হ'ল এই ধরণের "আবর্তন" পরে, স্কোরগুলি আর সংযুক্ত করা হবে না, এটি পিসিএর জন্য বেশ মারাত্মক। এটি একটি করতে পারেন, তবে ঘূর্ণনগুলি সাধারণত বোঝা ও প্রয়োগ করা হয় তা নয়।ইউ এস ভি ⊤TT⊤USV⊤