একই ডেটাসেটের পিসিএ এবং অনুসন্ধানকারী ফ্যাক্টর বিশ্লেষণ: পার্থক্য এবং মিল; ফ্যাক্টর মডেল বনাম পিসিএ


19

আমি জানতে চাই যে একই ডেটা সেটটিতে মূল উপাদান বিশ্লেষণ (পিসিএ) এবং অনুসন্ধানী ফ্যাক্টর বিশ্লেষণ (ইএফএ) সঞ্চালনের জন্য কোনও যৌক্তিক ধারণা তৈরি করে কিনা। আমি পেশাদারদের স্পষ্টভাবে সুপারিশ করতে শুনেছি:

  1. বিশ্লেষণের লক্ষ্য কী তা বুঝুন এবং ডেটা বিশ্লেষণের জন্য পিসিএ বা ইএফএ চয়ন করুন;
  2. একটি বিশ্লেষণ করার পরে অন্য বিশ্লেষণ করার দরকার নেই।

আমি দুজনের মধ্যে অনুপ্রেরণামূলক পার্থক্য বুঝতে পারি, তবে আমি কেবল ভাবছিলাম যে একই সাথে পিসিএ এবং ইএফএ দ্বারা প্রদত্ত ফলাফলগুলি ব্যাখ্যা করতে কোনও ভুল আছে কিনা?


8
নিরাপত্তাহীনতা কেন? আপনি যদি উভয়ের মধ্যে প্রেরণাদায়ক পার্থক্য বুঝতে পারেন তবে আপনার দুটি অবস্থার মধ্যে একটি হওয়া উচিত: এগুলিকে পরিপূরক হিসাবে বিবেচনা করুন এবং উভয়টি অন্বেষণ করতে ইচ্ছুক হন। আপনি যা করতে চান তার জন্য আরও অনেকের কাছে দৃ .় বিশ্বাসযোগ্য। দেখে মনে হয় যে আপনাকে বলা উচিত যে সঠিক কাজ করার আছে, তবে পিসিএর সাথে বা বনাম এফএ এমন দীর্ঘস্থায়ী বিতর্কিত ক্ষেত্র যা দুই বিশেষজ্ঞ একমত হন তবে সাধারণত তারা উভয়ই তৃতীয় বিশেষজ্ঞের সাথে একমত নন, তবে আলাদা কারণ।
নিক কক্স

তুমি কি অনুশীলন করছ? কিছু সামাজিক বিজ্ঞানের জিনিস সুখ বা উদ্দেশ্যমূলক ডেটা সুদের হারের মতো জিনিস ?
আকসকল

উত্তর:


20

উভয় মডেল - অধ্যক্ষ-উপাদান এবং সাধারণ-ফ্যাক্টর - একই রকম সোজাসুজি লিনিয়ার রিগ্রেশনাল মডেলগুলি সুপ্ত ভেরিয়েবল দ্বারা পর্যবেক্ষিত ভেরিয়েবলের পূর্বাভাস দেয়। আসুন আমাদের ভেরিয়েবল ভি 1 ভি 2 ... ভিপি কেন্দ্রিক থাকতে হবে এবং আমরা 2 উপাদান / উপাদানগুলি এফআই এবং এফআইআই বের করতে বেছে নিয়েছি । তারপরে মডেল হ'ল সমীকরণের ব্যবস্থা:

V1=a1IFI+a1IIFII+E1

V2=a2IFI+a2IIFII+E2

...

Vp=

যেখানে গুণাগুণটি একটি লোডিং, এফ একটি উপাদান বা উপাদান এবং পরিবর্তনশীল হ'ল রিগ্রেশন অবশিষ্টাংশ। এখানে, এফএ মডেলটি পিসিএ মডেলের থেকে একেবারে পৃথক হয়ে যায় যে এফএ প্রয়োজনীয়তা চাপিয়ে দেয়: ভেরিয়েবল E1 E2 ... এপি ( এফ এর সাথে সম্পর্কিত নয় এমন ত্রুটি শর্তাবলী ) অবশ্যই একে অপরের সাথে সম্পর্কিত হতে হবে না ( ছবি দেখুন )। এই ত্রুটি ভেরিয়েবল এফএ "অনন্য কারণ" কল করে; তাদের রূপগুলি জানা যায় ("স্বতন্ত্রতা") তবে তাদের কেসওয়াইজ মানগুলি হয় না। অতএব, ফ্যাক্টর স্কোর এফ শুধুমাত্র তারা সঠিক নয় ভাল অনুমান হিসেবে নির্ণিত হয়।

(একটি এই সাধারণ ফ্যাক্টর বিশ্লেষণ মডেল পাদটীকা বিষয় সম্পর্কেও বীজগণিত উপস্থাপনা ম্যাট্রিক্স 1 ।)1

যেখানে পিসিএ-তে বিভিন্ন ভেরিয়েবলের পূর্বাভাস দেওয়া ত্রুটি ভেরিয়েবলগুলি অবাধে সম্পর্কিত হতে পারে: তাদের উপর কিছুই চাপানো হয়নি। তারা সেই "ড্রস" উপস্থাপন করে যা আমরা বাম-আউট পি -2 মাত্রা নিয়েছি । আমরা E এর মান জানি এবং তাই আমরা উপাদানগুলির স্কোর F এর সঠিক মান হিসাবে গণনা করতে পারি ।

এটি ছিল পিসিএ মডেল এবং এফএ মডেলের মধ্যে পার্থক্য।

এটি উপরের বাহ্যরেখানো পার্থক্যের কারণে, এফএ জোড়াজোড়া সম্পর্কের (সমবায়) ব্যাখ্যা করতে সক্ষম। পিসিএ সাধারণত এটি করতে পারে না (যতক্ষণ না উত্তোলিত উপাদানগুলির সংখ্যা = পি ); এটি কেবল বহুভেদী বৈকল্পিক 2 ব্যাখ্যা করতে পারে । তাই, যতদিন "ফ্যাক্টর বিশ্লেষণ" শব্দটি লক্ষ্য মাধ্যমে সংজ্ঞায়িত করা হয় সম্পর্কযুক্তরূপে ব্যাখ্যা করতে পিসিএ নয় ফ্যাক্টর বিশ্লেষণ। যদি "ফ্যাক্টর বিশ্লেষণ" ব্যাখ্যা করা যায় এমন সুপ্ত "বৈশিষ্ট্যগুলি" সরবরাহ বা প্রস্তাব করার পদ্ধতি হিসাবে আরও বিস্তৃতভাবে সংজ্ঞায়িত করা হয়, তবে পিসিএ দেখা যেতে পারে ফ্যাক্টর বিশ্লেষণের একটি বিশেষ এবং সহজতম রূপ2

কখনও কখনও - কিছু শর্তাবলীতে কিছু ডেটাসেটে - পিসিএ E পদগুলি ছেড়ে দেয় যা প্রায় আন্তঃসংশ্লিষ্ট হয় না। তারপরে পিসিএ পারস্পরিক সম্পর্ককে ব্যাখ্যা করতে এবং এফএর মতো হয়ে উঠতে পারে। অনেক ভেরিয়েবল সহ ডেটাসেটগুলি এটি খুব সাধারণ বিষয় নয়। এটি কিছু পর্যবেক্ষককে দাবি করার জন্য তৈরি করেছিল যে ডেটা বাড়ার সাথে সাথে পিসিএ ফলাফল এফএ ফলাফলের নিকটে পরিণত হয়। আমি মনে করি না এটি একটি নিয়ম, তবে প্রবণতা প্রকৃতপক্ষে হতে পারে। যাইহোক, তাদের তাত্ত্বিক পার্থক্য দেওয়া, সচেতনভাবে পদ্ধতি নির্বাচন করা সর্বদা ভাল। আপনি যদি ভেরিয়েবলগুলি ভেরিয়েবলের পিছনে দাঁড়িয়ে প্রকৃত সুপ্ত বৈশিষ্ট্য হিসাবে বিবেচনা করতে এবং সেগুলি সম্পর্কযুক্ত করে তুলতে চান তবে এফএ একটি আরও বাস্তবসম্মত মডেল।

তবে আপনার যদি অন্য লক্ষ্য থাকে - ডেটা মেঘের পয়েন্টগুলির মধ্যে দূরত্ব যতটা সম্ভব রাখা যায় তত মাত্রা হ্রাস করুন - এফএর চেয়ে পিসিএ ভাল। (তবে পুনরাবৃত্ত বহুমাত্রিক স্কেলিং (MDS) পদ্ধতি আরও ভাল তারপর। পিসিএ হতে হবে পরিমাণ noniterative মেট্রিক MDS।) আপনি আরও অনেক দূরত্বের সঙ্গে বিরক্ত না করেন এবং শুধুমাত্র তথ্য সামগ্রিক ভ্যারিয়েন্সের যতটা সংরক্ষণের আগ্রহী যতটা সম্ভব, কয়েকটি মাত্রা অনুসারে - পিসিএ একটি অনুকূল পছন্দ।


ফ্যাক্টর বিশ্লেষণ ডেটা মডেল: ভী = এফ একজন ' + + আমি একটি গ্রাম ( U ) , যেখানে ভী হয়বিশ্লেষণ তথ্য (কলাম কেন্দ্রিক বা মান), এফ হয়সাধারণ ফ্যাক্টর মান (অজানা সত্য বেশী, না ফ্যাক্টর স্কোর) ইউনিট সঙ্গে ভ্যারিয়েন্স, একটি হলসাধারণ ফ্যাক্টর loadings (প্যাটার্ন ম্যাট্রিক্স), ম্যাট্রিক্স হয়অনন্য ফ্যাক্টর মান (অজানা), U হয়অনন্য ফ্যাক্টর loadings uniquenesses (এর বর্গ। রুট সমান ভেক্টর তোমার দর্শন লগ করা 2 )। অংশ1V=FA+Ediag(u)Vn cases x p variablesFn x mAp x mEn x pupu2 সরলতার জন্যকেবল "E"হিসাবে লেবেল করা যেতে পারে, কারণ এটি উত্তরটি খোলার সূত্রে রয়েছে।Ediag(u)

মডেলের মূল অনুমান:

  • এবং ভেরিয়েবলগুলি (যথাক্রমে সাধারণ এবং অনন্য উপাদান) শূন্যের মাধ্যম এবং ইউনিটের ভেরিয়েন্সগুলি রয়েছে; সাধারণত বহুচলকীয় স্বাভাবিক কিন্তু অধিকৃত হয় এফ সাধারণ ক্ষেত্রে না প্রয়োজন বহুচলকীয় স্বাভাবিক হতে (উভয় বহুচলকীয় স্বাভাবিক তারপর অধিকৃত হয় যদি ভী তাই হয়, খুব);FEEFV
  • ভেরিয়েবলগুলি একে অপরের সাথে সম্পর্কযুক্ত নয় এবং এফ ভেরিয়েবলগুলির সাথে সংযুক্ত নয়।EF

2 AA(m)Σ

Σ^=AAΣΣ^+diag(u2)

Σ^u2p(p-1)/2সাধারণ কারণগুলির সাথে সম্পর্কিত নয় এমন উপাদানগুলি) উচ্চারণ করা হয়; (৩) সাম্প্রদায়িকতা ভালভাবে একত্রিত হয়নি, তাদের প্রাথমিক মূল্যবোধগুলি ছিল দুর্বল; (4) সম্পর্ক লিনিয়ার নয়, লিনিয়ার মডেল ব্যবহার করা প্রশ্নবিদ্ধ; (5) নিষ্কাশন পদ্ধতি দ্বারা উত্পাদিত মডেল "সাব টাইপ" ডেটার জন্য অনুকূল নয় (বিভিন্ন নিষ্কাশন পদ্ধতি সম্পর্কে দেখুন )। অন্য কথায়, কিছু এফএ ডেটা অনুমান সম্পূর্ণরূপে পূরণ হয় না।

সাধারণ পিসিএ হিসাবে , এটি লোডিংয়ের মাধ্যমে সমবায়িকাগুলি পুনরুত্পাদন করে ঠিক যখন এম = পি (সমস্ত উপাদান ব্যবহৃত হয়) এবং এটি সাধারণত এম ব্যর্থ হয় যদি এম < পি (কেবলমাত্র প্রথম কয়েকটি উপাদান ধরে রাখা হয়)। পিসিএর জন্য ফ্যাক্টর উপপাদ্যটি হ'ল:

Σ=AA(p)=AA(m)+AA(pm)

A(m)A(pm)AA(pm)A(m)

A(m)

trace(AA(m))

ΣAAtrace(AA)trace(AA)AA

ট্রেস সর্বাধিকীকরণের জন্য ধন্যবাদ - মি উপাদানগুলির দ্বারা ব্যাখ্যা করা বৈকল্পিক - পিসিএ সমবায়িকদের জন্য অ্যাকাউন্টিং করছে, যেহেতু কোভারিয়েন্স ভাগ করে নেওয়া বৈকল্পিক। এই অর্থে পিসিএ হ'ল ভেরিয়েবলের পুরো কোভারিয়েন্স ম্যাট্রিক্সের "নিম্ন-স্তরের আনুমানিকতা" । এবং পর্যবেক্ষণের দৃষ্টিকোণ থেকে যখন দেখা যায় এই সমাপ্তি হ'ল পর্যবেক্ষণগুলির ইউক্লিডিয়ান-দূরত্বের ম্যাট্রিক্সের সমীকরণ (যার কারণেই পিসিএকে "অধ্যক্ষ সমন্বয় বিশ্লেষণ" বলে মেট্রিক এমডিএস বলা হয় This এই সত্যটি আমাদের সেই বাস্তবতা থেকে পর্দা করা উচিত নয় যে পিসিএ মডেল নয় does কোভরিয়েন্স ম্যাট্রিক্স (প্রতিটি সমবায়) আমাদের কিছু পরিবর্তনশীল সুপ্ত বৈশিষ্ট্য দ্বারা উত্পাদিত যা আমাদের ভেরিয়েবলগুলির প্রতি অবিস্মরণীয় হিসাবে কল্পনাযোগ্য; পিসিএ সান্নিধ্য অদৃশ্য থাকে, যদিও এটি ভাল হয়: এটি ডেটা সরলকরণ।


আপনি যদি পিসিএ এবং এফএ-তে ধাপে ধাপে গণনা দেখতে চান, মন্তব্য করেছেন এবং তুলনা করেছেন, দয়া করে এখানে দেখুন


এটি একটি দুর্দান্ত উত্তর।
সুভাষ সি। দাবার

2
আমাকে পিসিএ দেখার একটি নতুন দৃষ্টিভঙ্গি আনার জন্য +1 এখন আমি যেমন এটি বুঝতে পেরেছি, পিসিএ এবং এফএ উভয়ই পর্যবেক্ষণকৃত ভেরিয়েবলগুলির বৈকল্পিকতা ব্যাখ্যা করতে পারে এবং যেহেতু এফএ নির্দেশ দেয় যে প্রতিটি ভেরিয়েবলের জন্য ত্রুটি শর্তগুলি সম্পর্কযুক্ত করা উচিত নয়, যেখানে পিসিএ এইরকম নির্দেশনা তৈরি করে না, তাই এফএ সমস্ত প্রবক্তাকে ক্যাপচার করতে পারে পর্যবেক্ষিত ভেরিয়েবলগুলি, কিন্তু পিসিএ তা করতে ব্যর্থ হয়, কারণ পিসিএতে ত্রুটি শর্তাবলীতে পর্যবেক্ষণযোগ্য ভেরিয়েবলগুলির কিছু কিছু স্বতন্ত্রতা থাকতে পারে, যদি না আমরা পর্যবেক্ষিত ভেরিয়েবলগুলি উপস্থাপন করতে সমস্ত পিসি ব্যবহার করি, তাই না?
অ্যাভোকাডো

1
যথাযথভাবে। পিসিএ কেবল একটি covariance মানকেই কম মূল্যায়ন করতে পারে না (যেমন আপনি সম্ভবত ভাবতে পারেন), এটি এটিকেও কম মূল্যায়ন করতে পারে। সংক্ষেপে, a1 * a2 <> কোভ 12, এটি পিসিএর জন্য স্বাভাবিক আচরণ। এফএর ক্ষেত্রে এটি সাবপটিমাল সলিউশনের লক্ষণ (উদাহরণস্বরূপ, বের হওয়া কারণগুলির ভুল সংখ্যা)।
ttnphns

Σ=WW+σ2IΣ=WW+ΨΨ
অ্যামিবা

ΣWWWΨσ2

6

আমি নীচের থ্রেডে পিসিএ এবং এফএর মধ্যে সাদৃশ্য এবং পার্থক্যের নিজস্ব অ্যাকাউন্ট সরবরাহ করেছি: EFA এর পরিবর্তে পিসিএ ব্যবহার করার কোনও ভাল কারণ আছে কি? এছাড়াও, পিসিএ কি ফ্যাক্টর বিশ্লেষণের বিকল্প হতে পারে?

নোট করুন যে আমার অ্যাকাউন্টটি @ttnphns এর থেকে কিছুটা আলাদা (উপরের তার উত্তরে উপস্থাপিত)। আমার মূল দাবিটি হ'ল পিসিএ এবং এফএ প্রায়শই ভাবা হয় না। ভেরিয়েবলের সংখ্যা খুব কম হলে তারা প্রকৃতপক্ষে দৃ strongly়ভাবে পৃথক হতে পারে, তবে একবার ভেরিয়েবলের সংখ্যা এক ডজনের বেশি হয়ে গেলে বেশ কার্যকর ফলাফল পাওয়া যায়। গাণিতিক বিবরণ এবং মন্টে কার্লো সিমুলেশনগুলির জন্য লিঙ্কযুক্ত থ্রেডে আমার [দীর্ঘ!] উত্তরটি দেখুন। আমার যুক্তির আরও সংক্ষিপ্ত সংস্করণের জন্য এখানে দেখুন: কোন অবস্থার অধীনে পিসিএ এবং এফএ একই ফলাফল দেয়?

এখানে আমি আপনার মূল প্রশ্নের স্পষ্টভাবে উত্তর দিতে চাই: একই ডেটা সেটটিতে পিসিএ এবং এফএ করার ক্ষেত্রে কোনও ভুল আছে কি? আমার এই উত্তর: না।

পিসিএ বা এফএ চালানোর সময় আপনি কোনও হাইপোথিসিস পরীক্ষা করছেন না। উভয়ই অনুসন্ধানের কৌশল যা ডেটার আরও ভাল বোঝার জন্য ব্যবহৃত হয়। তাহলে কেন দুটি ভিন্ন সরঞ্জাম দিয়ে ডেটা অন্বেষণ করবেন না? আসলে, এটি করা যাক!

উদাহরণ: ওয়াইন ডেটা সেট

n=178p=13

ওয়াইন ডেটাসেটের পিসিএ এবং এফএ বিশ্লেষণ


If the results turn out to be very similar, then you can decide to stick with only one approach। অবশ্যই। তাহলে আর কত মিল? If the results turn out to be very different, then maybe it tells you something about your dataএটি পুরোপুরি মরমী এবং রহস্যজনক।
ttnphns

হুম, দুঃখিত যদি এটি অস্পষ্ট ছিল। আমার অভিপ্রায়টি হ'ল যদি এখানে প্রচুর ভেরিয়েবল থাকে এবং পিসিএ এফএ থেকে খুব আলাদা লোডিং দেয় তবে এটি আমাদের কিছু বলে। সম্ভবত, সাম্প্রদায়িকতা খুব কম (অর্থাত্ সংযুক্তি ম্যাট্রিক্সটি তির্যক দ্বারা প্রভাবিত, এবং অফ-তির্যক উপাদানগুলি ছোট)। এটি একটি আকর্ষণীয় পর্যবেক্ষণ হতে পারে। আমি যদি কোনও কারণে একই উপায়ে পিসিএ এবং এফএ-এর সাথে বিশ্লেষণ করেছি এবং খুব আলাদা ফলাফল পেয়েছি তবে আমি এটি আরও তদন্ত করব। এটা কি কোন মানে আছে?
অ্যামিবা

@ttnphns: আমি একটি নির্দিষ্ট ডেটাসেটের জন্য ওয়ার্ক-আউট উদাহরণ দিয়ে একটি আপডেট করেছি। আমি আশা করি, তুমি এটা উপভোগ করবে! আমার লিঙ্কযুক্ত (নতুন) উত্তরও দেখুন। আমি প্রথমবারের মতো এফএর বাইপ্লট তৈরি করেছি এবং আমাদের পূর্বের কথোপকথনগুলি এর জন্য আমাকে অনেক সহায়তা করেছিল।
অ্যামিবা বলছেন যে পুনরায় ইনস্টল করুন মনিকা
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.