ফ্যাক্টর বিশ্লেষণ এবং প্রধান উপাদান বিশ্লেষণের মধ্যে পার্থক্য কী?


214

দেখে মনে হচ্ছে যে আমি প্রচুর পরিসংখ্যান প্যাকেজগুলি এই দুটি ধারণাকে একসাথে আবদ্ধ করি। তবে আমি ভাবছি যে আলাদা ধারণা বা ডেটা 'আনুষ্ঠানিকতা' রয়েছে যা একে অপরের উপর ব্যবহার করতে অবশ্যই সত্য হতে পারে। একটি বাস্তব উদাহরণ অবিশ্বাস্যভাবে দরকারী হবে।


2
নীচের বইয়ের মূল উপাদানগুলির বিশ্লেষণ এবং ফ্যাক্টর বিশ্লেষণ অধ্যায়গুলি, যা বেশিরভাগ কলেজ লাইব্রেরিতে পাওয়া যায়, আপনার প্রশ্নটিকে ঠিক ঠিক সম্বোধন করে
user31256

3
আপনি নীচের উত্তর ছাড়াও পারে এছাড়াও পড়া এই এবং এই খনি।
ttnphns

2
এবং "আমি পিসিএ বা এফএ ব্যবহার করা উচিত" এর মতো আরও একটি ভাল প্রশ্ন: stats.stackexchange.com/q/123063/3277
ttnphns

3
@ এনটিএনএফএনএস: আমি আপনাকে এই থ্রেডে উত্তর জোগাতে উত্সাহিত করব, সম্ভবত অন্যান্য সম্পর্কিত থ্রেডে আপনার উত্তরগুলির একটি টীকাযুক্ত তালিকা রয়েছে। এটি উপরে আপনার মন্তব্যগুলিকে প্রতিস্থাপন করতে পারে (লিঙ্কগুলির সাথে বর্তমানে চারটি মন্তব্য), এবং আরও ব্যবহারিক হবে, বিশেষত যদি আপনি প্রতিটি লিঙ্ক সংক্ষিপ্তভাবে টিকিয়ে রাখেন। যেমন এই সমস্যাটির ব্যাখ্যার জন্য এখানে দেখুন, issue ইস্যুটির ব্যাখ্যা এখানে দেখুন It এটি কেবল একটি পরামর্শ মাত্র, তবে আমি বিশ্বাস করি যে এই থ্রেডটি এতে প্রচুর উপকার করবে! একটি বিশেষ সুবিধা হ'ল আপনি সর্বদা সেই উত্তরে আরও লিঙ্ক যুক্ত করতে পারেন।
অ্যামিবা

2
ম্যাথওভারফ্লোতেও অনুরূপ প্রশ্ন জিজ্ঞাসা করা হয়েছিল এবং আমি কী উত্তর পেয়েছি তা উত্তমরূপে পেয়েছি: mathoverflow.net/questions/40191/…
ড্যানিয়েল মোসকোভিচ

উত্তর:


156

প্রধান উপাদান বিশ্লেষণে পর্যবেক্ষিত ভেরিয়েবলগুলির রৈখিক সংমিশ্রণ আহরণ জড়িত।

ফ্যাক্টর বিশ্লেষণ তাত্ত্বিক সুপ্ত কারণগুলি থেকে পর্যবেক্ষণের পরিবর্তনগুলি পূর্বাভাস দেওয়ার একটি আনুষ্ঠানিক মডেলের ভিত্তিতে তৈরি।

কোন আইটেম কোন স্কেলের উপর লোড হয় তা নির্ধারণ করতে মনোবিজ্ঞানে এই দুটি কৌশল প্রায়শই মাল্টি-স্কেল টেস্টগুলি নির্মাণে প্রয়োগ করা হয়। এগুলি সাধারণত অনুরূপ গুরুত্বপূর্ণ সিদ্ধান্ত নিয়ে আসে (আলোচনার জন্য কমরে (1988 দেখুন ব্যক্তিত্ব এবং ক্লিনিকাল সাইকোলজির স্কেল বিকাশের ফ্যাক্টর-অ্যানালিটিক পদ্ধতি)। এটি কিছু পরিসংখ্যান প্যাকেজগুলি কেন তাদের একসাথে বান্ডেল বলে মনে হচ্ছে তা ব্যাখ্যা করতে সহায়তা করে। আমি এমন পরিস্থিতিও দেখেছি যেখানে "প্রধান উপাদান বিশ্লেষণ" ভুলভাবে "ফ্যাক্টর বিশ্লেষণ" লেবেলযুক্ত।

একটি সহজ সরল নিয়মের শর্তে , আমি আপনাকে পরামর্শ দিই:

  1. ফ্যাক্টর বিশ্লেষণ চালনা করুন যদি আপনি পর্যবেক্ষণযোগ্য ভেরিয়েবলগুলির জন্য সুপ্ত কারণগুলির একটি তাত্ত্বিক মডেল ধরে নেন বা পরীক্ষা করতে চান।

  2. অধ্যক্ষ উপাদান বিশ্লেষণ চালান যদি আপনি কেবল আপনার স্বতঃসম্পর্কিত পর্যবেক্ষিত ভেরিয়েবলগুলি গুরুত্বপূর্ণ স্বতন্ত্র যৌগিক ভেরিয়েবলগুলির একটি ছোট সেটটিতে কমাতে চান।


5
সেখানে থাম্বের নিয়ম অত্যন্ত কার্যকর। তার জন্য ধন্যবাদ.
ব্র্যান্ডন বার্টেলসেন

1
থাম্বের নিয়ম সম্পর্কে (1): আমি কি অনুসন্ধানী এফএর পরিবর্তে নিশ্চিতকরণের গুণক বিশ্লেষণের সাথে সুপ্ত কারণগুলির একটি তাত্ত্বিক মডেলটি পরীক্ষা করব না?
রোমান

1
@ রোমান হ্যাঁ একটি সিএফএ আপনাকে ইএফএর চেয়ে মডেলের উপর অনেক বেশি নিয়ন্ত্রণ দেয়। উদাহরণস্বরূপ, আপনি শূন্যের লোডিংগুলিকে সীমাবদ্ধ করতে পারেন; সমান লোডিং; সম্পর্কযুক্ত অবশিষ্টাংশ আছে; উচ্চতর অর্ডার কারণ যুক্ত করুন; ইত্যাদি
জেরোমি অ্যাংলিম

3
@ জারোমি অ্যাংলিম কি পিসিএ "গুরুত্বপূর্ণ স্বতন্ত্র সংমিশ্রিত ভেরিয়েবলগুলির একটি ছোট সেট" তৈরি করে বলা সত্যিই সঠিক? বা আপনার কি সত্যিই "গুরুত্বপূর্ণ অবাস্তবিক সংমিশ্রিত ভেরিয়েবলগুলির ছোট সেট" বলা উচিত? যদি পিসিএতে অন্তর্নিহিত ডেটা ব্যবহার করা হয় তবে (মাল্টিভারিয়েট) সাধারণত বিতরণ না করা হয়, হ্রাস মাত্রিক ডেটা কেবলই সম্পর্কহীন হবে?
এফএক্সকুয়্যান্ট ট্রেডার

1
নিয়মের ২ য় থাম্ব পাওয়া সহজ তবে আমি প্রথমটি কীভাবে প্রয়োগ করব? অদ্ভুত লাগছে তবে কখন জানি আমি পর্যবেক্ষিত ভেরিয়েবলের বিরুদ্ধে ফ্যাক্টর মডেল চালাতে চাই?
বেন

48

আমার প্রতিক্রিয়া থেকে এখানে:

পিসিএ কি একটি ঘূর্ণন অনুসরণ করে (যেমন ভেরিম্যাক্স) এখনও পিসিএ হয়?

অধ্যক্ষ উপাদান উপাদান বিশ্লেষণ (পিসিএ) এবং সাধারণ ফ্যাক্টর বিশ্লেষণ (সিএফএ) স্বতন্ত্র পদ্ধতি। প্রায়শই, তারা অনুরূপ ফলাফল তৈরি করে এবং এসপিএসএস ফ্যাক্টর বিশ্লেষণ রুটিনগুলিতে পিসিএ ডিফল্ট নিষ্কাশন পদ্ধতি হিসাবে ব্যবহৃত হয়। এটি নিঃসন্দেহে উভয়ের মধ্যে পার্থক্য সম্পর্কে প্রচুর বিভ্রান্তির সৃষ্টি করে।

মূল কথাটি হ'ল এগুলি দুটি ভিন্ন মডেল, ধারণাগতভাবে। পিসিএতে উপাদানগুলি হ'ল বাস্তব অরথোগোনাল লিনিয়ার সংমিশ্রণ যা মোট বৈকল্পিকতা সর্বাধিক করে তোলে। এফএ-তে, উপাদানগুলি লিনিয়ার সংমিশ্রণ যা বৈকল্পিকের ভাগ করা অংশকে সর্বাধিক করে তোলে - অন্তর্নিহিত "সুপ্ত গঠনগুলি" ucts এজন্য এফএকে প্রায়শই "কমন ফ্যাক্টর অ্যানালাইসিস" বলা হয়। এফএ বিভিন্ন অপ্টিমাইজেশন রুটিন ব্যবহার করে এবং ফলাফল, পিসিএ থেকে ভিন্ন, সেই রুটিনগুলির জন্য ব্যবহৃত অপটিমাইজেশন রুটিন এবং প্রারম্ভিক পয়েন্টগুলির উপর নির্ভর করে। কেবল একক অনন্য সমাধান নেই is

আর-তে, ফ্যাশনাল () ফাংশনটি সিএফএকে সর্বাধিক সম্ভাবনার নিষ্কাশন সরবরাহ করে। সুতরাং, আপনি এটি এসপিএসএস ফলাফল পুনরুত্পাদন করার আশা করবেন না যা একটি পিসিএ নিষ্কাশন উপর ভিত্তি করে। এটি কেবল একই মডেল বা যুক্তি নয়। আমি নিশ্চিত না যে আপনি এসপিএসএস-এর সর্বাধিক সম্ভাবনা নিষ্কাশন যদি তারা একই অ্যালগরিদম না ব্যবহার করেন তবে আপনি একই ফলাফলটি পান কিনা।

আর এর চেয়ে ভাল বা খারাপের জন্য, আপনি এসপিএসএস এর ডিফল্ট হিসাবে সরবরাহ করে এমন মিশ্র "ফ্যাক্টর বিশ্লেষণ" পুনরুত্পাদন করতে পারেন। আরে প্রক্রিয়াটি এখানে রয়েছে এই কোডের সাহায্যে, আমি এসপিএসএসের অধ্যক্ষ উপাদান "ফ্যাক্টর বিশ্লেষণ" ফলাফলটি এই ডেটাসেটটি ব্যবহার করে পুনরুত্পাদন করতে সক্ষম। (স্বাক্ষর ব্যতীত, যা অনির্দিষ্ট)। এর পরে আর এর যে কোনও উপলব্ধ রোটেশন পদ্ধতি ব্যবহার করে ঘোরানো যেতে পারে।

data(attitude)
# Compute eigenvalues and eigenvectors of the correlation matrix.
pfa.eigen <- eigen(cor(attitude))
# Print and note that eigenvalues are those produced by SPSS.
# Also note that SPSS will extract 2 components as eigenvalues > 1 = 2.
pfa.eigen$values
# Set a value for the number of factors (for clarity)
kFactors <- 2
# Extract and transform two components.
pfa.eigen$vectors[, seq_len(kFactors)]  %*% 
  diag(sqrt(pfa.eigen$values[seq_len(kFactors)]), kFactors, kFactors)

5
নোট করুন যে আপনি প্যাকেজ principal(attitude, 2, rotate="none")থেকে একই ফলাফল পাবেন psychএবং কায়সারের নিয়ম (উদাহরণস্বরূপ 1) মাত্রিকতার জন্য এটি পরীক্ষা করার সবচেয়ে প্রস্তাবিত উপায় নয় (এটি কারণগুলির সংখ্যাকে ছাড়িয়ে যায়)।
chl

5
হ্যাঁ, আমি জানি মানসিক অধ্যক্ষটি এটিকে জড়িয়ে রাখে। আমার উদ্দেশ্যটি ছিল মূল উপাদানগুলির নিষ্কাশন পদ্ধতিটি ব্যবহার করার সময় এসপিএসএস "ফ্যাক্টর বিশ্লেষণ" কী করছে show আমি সম্মত হই যে ইগেনভ্যালু নিয়মটি কারণগুলির সংখ্যা নির্বাচন করার একটি দুর্বল উপায়। তবে, এসপিএসএস হ'ল ডিফল্টরূপে এটি করে এবং আমি এটি প্রদর্শন করছিলাম।
ব্রেট 14

1
factanal()সিএফএ নয় ইএফএ সরবরাহ করে। এছাড়াও, আমার অভিজ্ঞতা থেকে, এসপিএসএসের সর্বাধিক সম্ভাবনা নিষ্কাশনকে একই ফলাফল factanal()দেওয়া উচিত যে কোনও তির্যক ঘূর্ণন নেই given
পে-পি-আরি

2
নিম্নলিখিতটির অর্থ কী: 'এফএ-তে, উপাদানগুলি লিনিয়ার সংমিশ্রণ যা বৈকল্পিকের ভাগ করা অংশকে সর্বাধিক করে তোলে - অন্তর্নিহিত "সুপ্ত গঠন"। '?
অনুমানগুলি

এও লক্ষ্য করুন যে সিএফএ সাধারণ এফএর পরিবর্তে নিশ্চিতকরণকারী এফএ ( ব্যাখ্যামূলক এফএর বিপরীতে ) হতে পারে ।
রিচার্ড হার্ডি

33

আপনার প্রথম বক্তব্য সম্পর্কে আপনি সঠিক, যদিও এফএতে আপনি সাধারণত উভয় (স্বতন্ত্রতা এবং সাম্প্রদায়িকতা) নিয়ে কাজ করেন। পিসিএ এবং এফএর মধ্যে পছন্দটি মনোবিজ্ঞানীদের মধ্যে একটি দীর্ঘকালীন বিতর্ক। যদিও আমি আপনার পয়েন্টগুলি পুরোপুরি অনুসরণ করি না। সুপ্ত উপাদানগুলি তৈরি করতে যে পদ্ধতিটি ব্যবহৃত হয় তা মূল অক্ষগুলির আবর্তন প্রয়োগ করা যেতে পারে। প্রকৃতপক্ষে, বেশিরভাগ সময় ভারিম্যাক্স রোটেশন (অরথোগোনাল রোটেশন, অসংলগ্ন বিষয় বিবেচনা করে) ব্যবহার করা হয় যা ব্যবহারিক কারণে (সবচেয়ে সহজ ব্যাখ্যা, সহজতম স্কোরিংয়ের নিয়ম বা ফ্যাক্টর স্কোরগুলির ব্যাখ্যা ইত্যাদি), যদিও তির্যিক ঘূর্ণন (যেমন প্রোম্যাক্স) ) সম্ভবত বাস্তবতার আরও ভাল প্রতিফলিত হতে পারে (সুপ্ত নির্মাণগুলি প্রায়শই একে অপরের সাথে সম্পর্কিত হয়), কমপক্ষে এফএ-র traditionতিহ্য যেখানে আপনি ধরে নিয়েছেন যে একটি সুপ্ত নির্মাণ আপনার ভেরিয়েবলের মধ্যে পরিলক্ষিত আন্তঃসংযোগের কেন্দ্রস্থলে রয়েছে। মুল বক্তব্যটি হ'ল পিসিএ ভারম্যাক্স ঘোরার পরে কিছুটা "ডেটা বিশ্লেষণ" traditionতিহ্যে মূল পরিবর্তনশীল রৈখিক সংমিশ্রণের ব্যাখ্যাকে বিকৃত করে (মিশেল টেনেনহাউসের কাজ দেখুন)। একটি সাইকোমেট্রিকাল পার্সপেক্টেস থেকে, এফএ মডেলগুলি অগ্রাধিকার দেওয়া উচিত যেহেতু তারা পরিমাপের ত্রুটিগুলিতে স্পষ্টভাবে অ্যাকাউন্ট করে, যদিও পিসিএ সে বিষয়ে যত্ন করে না। সংক্ষেপে বলা হয়েছে, পিসিএ ব্যবহার করে আপনি প্রতিটি উপাদানকে (ফ্যাক্টর) ভেরিয়েবলের রৈখিক সংমিশ্রণ হিসাবে প্রকাশ করছেন, অন্যদিকে এফএতে এগুলি হল ভেরিয়েবল যা কারণগুলির লিনিয়ার সংমিশ্রণ হিসাবে প্রকাশ করা হয়েছে (সাম্প্রদায়িকতা এবং স্বতন্ত্রতা উপাদানগুলি সহ, যেমনটি আপনি বলেছেন)। মুল বক্তব্যটি হ'ল পিসিএ ভারম্যাক্স ঘোরার পরে কিছুটা "ডেটা বিশ্লেষণ" traditionতিহ্যে মূল পরিবর্তনশীল রৈখিক সংমিশ্রণের ব্যাখ্যাকে বিকৃত করে (মিশেল টেনেনহাউসের কাজ দেখুন)। একটি সাইকোমেট্রিকাল পার্সপেক্টেস থেকে, এফএ মডেলগুলি অগ্রাধিকার দেওয়া উচিত যেহেতু তারা পরিমাপের ত্রুটিগুলিতে স্পষ্টভাবে অ্যাকাউন্ট করে, যদিও পিসিএ সে বিষয়ে যত্ন করে না। সংক্ষেপে বলা হয়েছে, পিসিএ ব্যবহার করে আপনি প্রতিটি উপাদানকে (ফ্যাক্টর) ভেরিয়েবলের রৈখিক সংমিশ্রণ হিসাবে প্রকাশ করছেন, অন্যদিকে এফএতে এগুলি হল ভেরিয়েবল যা কারণগুলির লিনিয়ার সংমিশ্রণ হিসাবে প্রকাশ করা হয়েছে (সাম্প্রদায়িকতা এবং স্বতন্ত্রতা উপাদানগুলি সহ, যেমনটি আপনি বলেছেন)। মুল বক্তব্যটি হ'ল পিসিএ ভারম্যাক্স ঘোরার পরে কিছুটা "ডেটা বিশ্লেষণ" traditionতিহ্যে মূল পরিবর্তনশীল রৈখিক সংমিশ্রণের ব্যাখ্যাকে বিকৃত করে (মিশেল টেনেনহাউসের কাজ দেখুন)। একটি সাইকোমেট্রিকাল পার্সপেক্টেস থেকে, এফএ মডেলগুলি অগ্রাধিকার দেওয়া উচিত যেহেতু তারা পরিমাপের ত্রুটিগুলিতে স্পষ্টভাবে অ্যাকাউন্ট করে, যদিও পিসিএ সে বিষয়ে যত্ন করে না। সংক্ষেপে বলা হয়েছে, পিসিএ ব্যবহার করে আপনি প্রতিটি উপাদানকে (ফ্যাক্টর) ভেরিয়েবলের রৈখিক সংমিশ্রণ হিসাবে প্রকাশ করছেন, অন্যদিকে এফএতে এগুলি হল ভেরিয়েবল যা কারণগুলির লিনিয়ার সংমিশ্রণ হিসাবে প্রকাশ করা হয়েছে (সাম্প্রদায়িকতা এবং স্বতন্ত্রতা উপাদানগুলি সহ, যেমনটি আপনি বলেছেন)। এফএ মডেলগুলি পছন্দ করা উচিত যেহেতু তারা পরিমাপের ত্রুটিগুলি স্পষ্টভাবে অ্যাকাউন্ট করে, যদিও পিসিএ এ সম্পর্কে কোনও চিন্তা করে না। সংক্ষেপে বলা হয়েছে, পিসিএ ব্যবহার করে আপনি প্রতিটি উপাদানকে (ফ্যাক্টর) ভেরিয়েবলের রৈখিক সংমিশ্রণ হিসাবে প্রকাশ করছেন, অন্যদিকে এফএতে এগুলি হল ভেরিয়েবল যা কারণগুলির লিনিয়ার সংমিশ্রণ হিসাবে প্রকাশ করা হয়েছে (সাম্প্রদায়িকতা এবং স্বতন্ত্রতা উপাদানগুলি সহ, যেমনটি আপনি বলেছেন)। এফএ মডেলগুলি পছন্দ করা উচিত যেহেতু তারা পরিমাপের ত্রুটিগুলি স্পষ্টভাবে অ্যাকাউন্ট করে, যদিও পিসিএ এ সম্পর্কে কোনও চিন্তা করে না। সংক্ষেপে বলা হয়েছে, পিসিএ ব্যবহার করে আপনি প্রতিটি উপাদানকে (ফ্যাক্টর) ভেরিয়েবলের রৈখিক সংমিশ্রণ হিসাবে প্রকাশ করছেন, অন্যদিকে এফএতে এগুলি হল ভেরিয়েবল যা কারণগুলির লিনিয়ার সংমিশ্রণ হিসাবে প্রকাশ করা হয়েছে (সাম্প্রদায়িকতা এবং স্বতন্ত্রতা উপাদানগুলি সহ, যেমনটি আপনি বলেছেন)।

আমি আপনাকে এই বিষয়ে প্রথমে নিম্নলিখিত আলোচনাগুলি পড়ার পরামর্শ দিচ্ছি:


7
কেবল এটুকু বলতে পারি যে আমার উত্তরটি আসলে কিছুটা অফ-টপিক দেখায় যেহেতু এই প্রশ্নটি অন্য একটিতে একীভূত করা হয়েছে, stats.stackexchange.com/questions/3369/… (প্রথমদিকে আমি উত্তরটির উত্তর দিয়েছি)।
chl

6
আহ, আমি ভাবছিলাম যে আপনি কেন এই কোয়েস্টনের সাথে যুক্ত হয়েছেন, এই প্রশ্নে ... :)
ব্র্যান্ডন বার্টেলসেন

1
PCA followed by VARIMAX rotation somewhat distorts the interpretation of the linear combinations of the original variables in the "data analysis" tradition। Chl, আপনি এটি ব্যাখ্যা করতে পারেন? ইহা আকর্ষণীয়.
ttnphns

32

ওয়েবে প্রচুর প্রস্তাবিত সংজ্ঞা রয়েছে। এখানে পরিসংখ্যান শেখার উপর অন-লাইন গ্লোসারি থেকে একটি :

প্রধান উপাদান বিশ্লেষণ

নতুন বৈশিষ্ট্যগুলি তৈরি করা যা কোনও ডেটা সেটের মূল উপাদান। প্রধান উপাদানগুলি হ'ল ইনপুট বৈশিষ্ট্যের লিনিয়ার সংমিশ্রণ থেকে নির্মিত সর্বোচ্চ বৈকল্পের এলোমেলো পরিবর্তনশীল। সমানভাবে, এগুলি হ'ল মূল উপাদানগুলির অক্ষগুলির উপর অনুমান, যা লাইন যা ডেটা সেটের প্রতিটি বিন্দুতে গড় স্কোয়ার দূরত্বকে হ্রাস করে। স্বতন্ত্রতা নিশ্চিত করতে, মূল উপাদানগুলির সমস্ত অক্ষই অরথোগোনাল হতে হবে। পিসিএ হ'ল ইনপুট এবং আউটপুট উভয় গায়েসীয় শব্দগুলির উপস্থিতিতে রৈখিক প্রতিরোধের সর্বাধিক সম্ভাবনার কৌশল। কিছু ক্ষেত্রে, পিসিএ ফুরিয়ার ট্রান্সফর্মের সাথে সম্পর্কিত, যেমন জেপিইজি চিত্র সংকোচনে ব্যবহৃত ডিসিটি। "স্বীকৃতির জন্য ইগেনফেসগুলি" (তুর্ক ও পেন্টল্যান্ড, জে কগনিটিভ নিউরোসায়েন্স 3 (1), 1991), বিশপ, "দেখুন

ফ্যাক্টর বিশ্লেষণ

পিসিএর একটি সাধারণীকরণ যা সর্বাধিক সম্ভাবনার উপর ভিত্তি করে তৈরি। পিসিএর মতো প্রতিটি উপাত্ত পয়েন্ট উপসর্গের মধ্যে একটি বিন্দুর নমুনা তৈরি করে এবং তারপরে পূর্ণ মাত্রিক গাউসিয়ান শব্দের সাথে ব্যথিত থেকে উদ্ভূত হয়। পার্থক্যটি হ'ল ফ্যাক্টর বিশ্লেষণ শোরগোলকে একটি নির্বিচারে তির্যক কোভেরিয়েন্স ম্যাট্রিক্সের অনুমতি দেয়, যখন পিসিএ ধরে নেয় গোলমালটি গোলাকৃতির is সাবস্পেসটি অনুমান করার পাশাপাশি ফ্যাক্টর বিশ্লেষণ শব্দের কোভারিয়েন্স ম্যাট্রিক্সের অনুমান করে। "ফ্যাক্টর অ্যানালাইজারদের মিশ্রণগুলির জন্য ইএম অ্যালগরিদম" দেখুন। পিসিএর জন্য মাত্রিকতার পছন্দ "।


2
ফ্যাক্টর বিশ্লেষণের বিবরণটি মূল পয়েন্টটি (তির্যক কোভেরিয়েন্স) পায় তবে historতিহাসিকভাবে পিসিএর সাধারণীকরণ হিসাবে বিকশিত হয়নি।
অনুমান

1
সুতরাং মূলত, পিসিএতে একটি এসভিডি এর কোভেরিয়েন্স ম্যাট্রিক্স এবং এফএতে পারস্পরিক সম্পর্ক ম্যাট্রিক্স? পদ্ধতিগুলি প্রয়োগ করার ক্ষেত্রে ক্ষেত্রটি থেকে প্রচুর পরিভাষা তৈরি করার পরে প্রকৃত গণিতটি খুঁজে পাওয়া আমার পক্ষে সবসময় কঠিন। (অফ-টপিক: এটি আমার পুরো বিকেলে বুঝতে পেরেছিল যে পথের মডেলিং কী তা হওয়া পর্যন্ত আমি 70 এর দশকের একটি (1) পেপার খুঁজে না পেয়েছি যার পিছনে ম্যাট্রিক্স সমীকরণটি বর্ণনা করা হয়েছে।)
মার্ক ভ্যান ডার লু

28

এই থ্রেডের শীর্ষ উত্তরটি জানিয়েছে যে পিসিএ একটি মাত্রিক হ্রাস কৌশল বেশি, অন্যদিকে এফএ একটি সুপ্ত পরিবর্তনশীল কৌশল বেশি। এটি সেন্সু স্ট্রাইকটো সঠিক। তবে এখানে অনেক উত্তর এবং অন্য কোথাও অনেকগুলি চিকিত্সা পিসিএ এবং এফএকে দুটি সম্পূর্ণ ভিন্ন পদ্ধতি হিসাবে উপস্থাপন করে, বিপরীত লক্ষ্য, পদ্ধতি এবং ফলাফলগুলি নয় তবে ভিন্ন with আমি দ্বিমত পোষণ করি; আমি বিশ্বাস করি যে পিসিএ যখন একটি সুপ্ত পরিবর্তনশীল প্রযুক্তি হিসাবে নেওয়া হয়, তখন এটি এফএর বেশ কাছাকাছি থাকে এবং তাদেরকে আরও অনুরূপ পদ্ধতি হিসাবে আরও ভালভাবে দেখা উচিত।

আমি নীচের থ্রেডে পিসিএ এবং এফএর মধ্যে সাদৃশ্য এবং পার্থক্যের নিজস্ব অ্যাকাউন্ট সরবরাহ করেছি: EFA এর পরিবর্তে পিসিএ ব্যবহার করার কোনও ভাল কারণ আছে কি? এছাড়াও, পিসিএ কি ফ্যাক্টর বিশ্লেষণের বিকল্প হতে পারে? সেখানে আমি যুক্তি দিচ্ছি যে সাধারণ গাণিতিক কারণে পিসিএ এবং এফএর ফলাফলগুলি বেশ সমান হবে বলে আশা করা যায়, কেবলমাত্র ভেরিয়েবলের সংখ্যা খুব কম নয় (সম্ভবত এক ডজনেরও বেশি)। গাণিতিক বিবরণ এবং মন্টে কার্লো সিমুলেশনগুলির জন্য লিঙ্কযুক্ত থ্রেডে আমার [দীর্ঘ!] উত্তরটি দেখুন। আমার যুক্তির আরও সংক্ষিপ্ত সংস্করণের জন্য এখানে দেখুন: কোন অবস্থার অধীনে পিসিএ এবং এফএ একই ফলাফল দেয়?

এখানে আমি এটি একটি উদাহরণে দেখাতে চাই। আমি ইউসিআই মেশিন লার্নিং রিপোজিটরি থেকে ওয়াইন ডেটাসেট বিশ্লেষণ করব । এটি পি = 13 ভেরিয়েবল দ্বারা বর্ণিত তিনটি ভিন্ন আঙ্গুরের ওয়াইন সহ একটি মোটামুটি সুপরিচিত ডেটাসেট । এখানে পারস্পরিক সম্পর্ক ম্যাট্রিক্স কেমন দেখাচ্ছে: এন=178পি=13

ওয়াইন ডেটাসেটের সম্পর্ক মেট্রিক্স

আমি পিসিএ এবং এফএ উভয় বিশ্লেষণ চালিয়েছি এবং নীচের চিত্রটিতে তাদের উভয়ের জন্য বাইপ্লট হিসাবে ডেটার 2 ডি অনুমান দেখিয়েছি (বামদিকে পিসিএ, ডানদিকে এফএ)। অনুভূমিক এবং উল্লম্ব অক্ষগুলি 1 ম এবং 2 য় উপাদান / গুণক স্কোর দেখায়। প্রতিটি বিন্দু একটি ওয়ানের সাথে মিলে যায় এবং দলগুলি অনুযায়ী বর্ণগুলি বর্ণিত হয় (কিংবদন্তি দেখুন):n=178

ওয়াইন ডেটাসেটের পিসিএ এবং এফএ বিশ্লেষণ

p=131331

নোট করুন যে পিসিএ এবং এফএ মধ্যে খুব কমই পার্থক্য আছে! এখানে এবং সেখানে ছোট ছোট বিচ্যুতি রয়েছে, তবে সাধারণ চিত্রটি প্রায় অভিন্ন এবং সমস্ত লোডগুলি একই দিক এবং একই দিক নির্দেশ করে। তত্ত্বের কাছ থেকে এটাই প্রত্যাশা ছিল এবং অবাক হওয়ার কিছু নেই; তবুও, এটি পালন করা শিক্ষণীয়।

গীত। একই ডেটাসেটের অনেক সুন্দর পিসিএ বাইপ্লটের জন্য, @vqv দ্বারা এই উত্তরটি দেখুন ।

PPS। যদিও পিসিএ গণনাগুলি স্ট্যান্ডার্ড, এফএ গণনাতে একটি মন্তব্য প্রয়োজন হতে পারে। আংশিক পারস্পরিক সম্পর্কের সাথে সাম্প্রদায়িকতার সূচনা করে ফ্যাক্টর লোডিংগুলি একটি "পুনরাবৃত্ত মূল উপাদান" এলগরিদম দ্বারা কনভার্জেন্স (9 পুনরাবৃত্তি) অবধি গণনা করা হয়েছিল। লোডগুলি রূপান্তরিত হয়ে গেলে বার্টলেট পদ্ধতি ব্যবহার করে স্কোরগুলি গণনা করা হত। এটি মানসম্পন্ন স্কোর অর্জন করে; আমি তাদের সংশ্লিষ্ট ফ্যাক্টর বৈকল্পিক (লোডিংয়ের দৈর্ঘ্যের দ্বারা দেওয়া) দ্বারা মাপিয়েছি।


1
আপনি পিসিএ এবং ফ্যাক্টর বিশ্লেষণ প্লট তৈরি করতে কোন সফটওয়্যার ব্যবহার করেছেন?
rnso

1
আমি মতলব ব্যবহার করেছি। আমি আমার উত্তরে কোডটি আটকানোর কথা ভাবছিলাম (সাধারণত আমার অভ্যাসটিও) তবে এই ব্যস্ত থ্রেডটি আরও বেশি বিশৃঙ্খলা করতে চাইনি। তবে এটি ভাবতে আসুন, আমার এটি কোনও বাহ্যিক ওয়েবসাইটে পোস্ট করা উচিত এবং এখানে একটি লিঙ্ক রেখে দেওয়া উচিত। আমি এটা করবো.
অ্যামিবা

2
এটি সত্য যে পিসিএ এবং এফএ কখনও কখনও এবং খুব কমই একই ফলাফল দেয় (লোডিং), এবং তাই পিসিএ এফএর একটি নির্দিষ্ট কেস হিসাবে দেখা যেতে পারে , যখন ফ্যাক্টর বিশ্লেষণকে বিস্তৃতভাবে সংজ্ঞায়িত করা হয়। তবুও এফএ (সেন্সু স্ট্রিক্টো) এবং পিসিএ তাত্ত্বিকভাবে বেশ আলাদা।
ttnphns

2
(অবিরত) উপাদানগুলি সুপ্ত সুপ্ত বৈশিষ্ট্য; PR। উপাদানগুলি আসন্ন ডেরাইভেশন। আপনার দুটি লোডিং প্লট ব্যবহারিকভাবে অনুরূপ দেখা দিলেও তাত্ত্বিকভাবে তারা মূলত পৃথক। বাম দিকের উপাদানগুলি সমতলটি ভেরিয়েবলের উপ-স্থান হিসাবে উত্পাদিত হয়েছিল যা এটি নিজের উপর প্রজেক্ট করে। ফ্যাক্টর প্লেনটি ভেরিয়েবলের স্পেস থেকে আলাদা একটি স্থান হিসাবে উত্পাদিত হয়েছিল এবং তাই তারা ডান চক্রান্তের একটি "এলিয়েন" স্পেসে নিজেকে প্রজেক্ট করে।
ttnphns

3
(অবিরত) তবে ডান ছবি (এফএ) আসলে সত্য বাইপলট নয় , এটি বরং দুটি স্বতন্ত্র স্ক্রেটারপ্লট, বিভিন্ন স্পেসের একটি ওভারলে: লোডিং প্লট (যেখানে অক্ষগুলি সত্যিকারের উপাদান) এবং অবজেক্ট স্কোর প্লট (যেখানে অক্ষ রয়েছে স্কোর হিসাবে আনুমানিক কারণগুলি)। সত্যিকারের ফ্যাক্টর স্পেসটি "প্যারেন্টাল" ভেরিয়েবল স্পেসকে ছাড়িয়ে যায় তবে ফ্যাক্টর স্কোর স্পেসটি তার সাবস্পেস হয়। আপনি দুটি বিজাতীয় জোড় অক্ষকে সুপারমোস করেছেন, তবে তারা একই লেবেল বহন করে ("ফ্যাক্টর 1" এবং "উভয় জোড়ায়" ফ্যাক্টর 2 ") যা পরিস্থিতি দৃ strongly়ভাবে বিভ্রান্তিকর এবং আমাদের বোধহয় বামের মতো একটি বিস্ময়কর বাইপ্লট বলে মনে করায়
ttnphns

25

যৌক্তিক পদক্ষেপে স্ক্যাটারপ্লটসের সাহায্যে পিসিএ বনাম ফ্যাক্টর বিশ্লেষণের একটি মৌলিক, তবুও একধরনের শ্রমসাধ্য বিষয় । (আমি @ অ্যামিবা কে ধন্যবাদ জানাই যিনি এই প্রশ্নের মন্তব্যে আমাকে অন্য কোথাও লিঙ্ক তৈরি করার জায়গায় উত্তর পোস্ট করতে উত্সাহিত করেছেন। সুতরাং এখানে অবসর, দেরিতে সাড়া দেওয়া হয়েছে।)

পরিবর্তনশীল সংক্ষিপ্তকরণ হিসাবে পিসিএ (বৈশিষ্ট্য নিষ্কাশন)

আশা করি আপনারা ইতিমধ্যে পিসিএ সম্পর্কে বুঝতে পেরেছেন। এখনই পুনরুদ্ধার করতে।

এখানে চিত্র বর্ণনা লিখুন

ভী1ভী2একটি

পি1=একটি11ভী1+ +একটি12ভী2

পি2=একটি21ভী1+ +একটি22ভী2

এই সহগগুলি হ'ল ঘূর্ণনের কোসাইন (= দিকের কোসিন, মূল দিকনির্দেশ) এবং যাকে ইগেনভেেক্টর বলা হয় তা অন্তর্ভুক্ত হয়, যখন কোভরিয়েন্স ম্যাট্রিক্সের ইগেনভ্যালুগুলি মূল উপাদানগুলির বৈকল্পিক। পিসিএ-তে আমরা সাধারণত দুর্বল শেষ উপাদানগুলি ফেলে রাখি: আমরা অল্প তথ্য হ্রাসের সাথে কয়েকটি প্রথম উত্তোলিত উপাদান দ্বারা ডেটা সংক্ষিপ্ত করি।

Covariances
        V1       V2 
V1  1.07652   .73915 
V2   .73915   .95534 

----PCA---- 
Eigenvalues      % 
P1  1.75756   86.500 
P2   .27430   13.500 

Eigenvectors
        P1       P2
V1   .73543  -.67761 
V2   .67761   .73543

আমাদের প্লট করা ডেটা, পি 1 উপাদান মান (স্কোর) P1 = .73543*V1 + .67761*V2এবং উপাদান পি 2 সহ আমরা বাতিল করি। পি 1 এর বৈকল্পিকতা হল 1.75756, কোভারিয়েন্স ম্যাট্রিক্সের 1 ম ইগেনাল্যু, এবং তাই পি 86.5%1 সমান সমান মোট প্রকরণের ব্যাখ্যা করে (1.07652+.95534) = (1.75756+.27430)

পরিবর্তনীয় পূর্বাভাস হিসাবে পিসিএ ("সুপ্ত" বৈশিষ্ট্য)

পি1 ভী1ভী2

ভী1=একটি11পি1+ +1

ভী2=একটি12পি1+ +2

একটি

এখানে চিত্র বর্ণনা লিখুন

ভী1^=একটি11পি1ভী2^=একটি12পি11=ভী1-ভী1^2=ভী2-ভী2^

এখন, পিসিএর বৈশিষ্ট্যটি হ'ল আমরা যদি ডেটার প্রতিটি পয়েন্টের জন্য E1 এবং E2 গণনা করি এবং এই স্থানাঙ্কগুলি প্লট করি - তবে ত্রুটিগুলিকে একাই স্ক্রটারপ্লট বানিয়ে ফেলি তবে ক্লাউড "ত্রুটি ডেটা" বাতিল করা উপাদান পি 2 এর সাথে মিলে যাবে। এবং এটি করে: মেঘটি বেইজ মেঘের মতো একই ছবিতে প্লট করা হয়েছিল - এবং আপনি দেখতে পাচ্ছেন যে এটি পি 2 উপাদান স্কোরের সাথে টাইল্ড হিসাবে অক্ষ P2 ( চিত্র 1 এর ) গঠন করে।

অবাক হওয়ার কিছু নেই, আপনি বলতে পারেন। এটি এতটাই সুস্পষ্ট: পিসিএ-তে , ফেলে দেওয়া জুনিয়র উপাদান (গুলি) হ'ল প্রক্ষেপণ ত্রুটিগুলিতে ই স্পষ্টভাবে পচে যাওয়া (গুলি), যে মডেলটিতে সুপ্ত বৈশিষ্ট্য (গুলি) পি 1 দ্বারা মূল ভেরিয়েবল ভি ব্যাখ্যা করে (পুনরুদ্ধার করে)। ত্রুটিগুলি E একসাথে বাম আউট উপাদান (গুলি) গঠন করে। এখানেই ফ্যাক্টর বিশ্লেষণ পিসিএ থেকে পৃথক হতে শুরু করে।

সাধারণ এফএ এর ধারণা (সুপ্ত বৈশিষ্ট্য)

সাধারণত, নিষ্কাশিত সুপ্ত বৈশিষ্ট্য (গুলি) দ্বারা ম্যানিফেস্ট ভেরিয়েবলের পূর্বাভাসকারী মডেলটি পিসিএর মতোই এফএতে একই; [ EQ.3 ]:

ভী1=একটি1এফ+ +1

ভী2=একটি2এফ+ +2

যেখানে এফ হ'ল সুপ্ত সাধারণ উপাদান যা ডেটা থেকে বের করা হয় এবং E1.2 তে P1 কী ছিল তা প্রতিস্থাপন করে । মডেলের পার্থক্যটি হ'ল এফএ-তে, পিসিএর বিপরীতে, ত্রুটি ভেরিয়েবলগুলি (E1 এবং E2) একে অপরের সাথে সম্পর্কযুক্ত হওয়া প্রয়োজন

একটিএকটিএকটিএকটিএকটিএকটিএকটি

ঠিক আছে, থ্রেড ফিরে। E1 এবং E2 ফ্যাক্টর বিশ্লেষণে অসামঞ্জস্যিত; সুতরাং, তাদের গোলাকার বা উপবৃত্তাকার ত্রুটিগুলির মেঘ গঠন করা উচিত তবে ত্রিভুজ ভিত্তিক নয়। পিসিএ থাকাকালীন তাদের মেঘটি সরু রেখার তির্যকভাবে পি 2 এর সাথে মিলে যায়। উভয় ধারণা ছবিতে প্রদর্শিত হয়:

এখানে চিত্র বর্ণনা লিখুন

নোট করুন যে ত্রুটিগুলি এফএ-তে বৃত্তাকার (তির্যকভাবে দীর্ঘায়িত নয়) মেঘ। এফএ-তে ফ্যাক্টর (সুপ্ত) কিছুটা আলাদা ভিত্তিক, যেমন এটি পিসিএতে "সুপ্ত" হ'ল প্রথম প্রধান উপাদানটি ঠিক নয়। ছবিটিতে, ফ্যাক্টর লাইনটি অদ্ভুতভাবে কিছুটা শঙ্কুযুক্ত - শেষ পর্যন্ত কেন এটি স্পষ্ট হবে।

পিসিএ এবং এফএ মধ্যে এই পার্থক্যটির অর্থ কী? ভেরিয়েবলগুলি সম্পর্কযুক্ত, যা ডেটা মেঘের তির্যক উপবৃত্তাকার আকারে দেখা যায়। পি 1 সর্বাধিক বৈকল্পিকতা স্কিম করেছে, সুতরাং উপবৃত্তটি P1 তে সহ-নির্দেশিত। ফলস্বরূপ পি 1 নিজে থেকেই পারস্পরিক সম্পর্ক ব্যাখ্যা করেছেন; তবে এটি বিদ্যমান সম্পর্কের পরিমাণ পর্যাপ্তভাবে ব্যাখ্যা করতে পারেনি ; এটি ডেটা পয়েন্টের পার্থক্য ব্যাখ্যা করতে চেয়েছিল , পারস্পরিক সম্পর্ক নয়। প্রকৃতপক্ষে, এটি পারস্পরিক সম্পর্ককে বেশি পরিমাণে জড়িত করে, যার ফলস্বরূপ ত্রুটিগুলির ত্রিভুজযুক্ত মেঘের উপস্থিতি ছিল যা ওভার অ্যাকাউন্টের জন্য ক্ষতিপূরণ দেয়। একা P1 সম্পূর্ণরূপে / covariation শক্তি ব্যাখ্যা করতে পারবেন না। ফ্যাক্টর এফ পারেনএকা কর; এবং যখন এটি করতে সক্ষম হয় তখন শর্তটি ঠিক যেখানে ত্রুটিগুলি সম্পর্কযুক্ত হতে বাধ্য করা যেতে পারে। যেহেতু ত্রুটির মেঘটি কোনও সম্পর্কযুক্ত নয় - ইতিবাচক বা নেতিবাচক - ফ্যাক্টরটি বের করার পরে থেকে যায়, তাই এটিই ফ্যাক্টর যা এটি সমস্ত স্কিম করে।

একটি মাত্রিকতা হ্রাস হিসাবে, পিসিএ বৈকল্পিক ব্যাখ্যা করে কিন্তু সংশোধনকে সঠিকভাবে ব্যাখ্যা করে। এফএ সংযোগগুলি ব্যাখ্যা করে তবে পিসিএ যতটা ডেটা প্রকরণের হিসাব করতে পারে না (সাধারণ কারণগুলির দ্বারা)। এফএতে ফ্যাক্টর (গুলি) পরিবর্তনশীলতার সেই অংশের জন্য অ্যাকাউন্ট যা নেট পারস্পরিক সম্পর্কযুক্ত অংশ, যাকে সাম্প্রদায়িকতা বলা হয় ; এবং তাই কারণগুলিকে প্রকৃত এখনও অবলম্বনযোগ্য শক্তি / বৈশিষ্ট্য / বৈশিষ্ট্য হিসাবে ব্যাখ্যা করা যেতে পারে যা ইনপুট ভেরিয়েবলগুলি "সম্পর্কিত" বা "পিছনে" লুকিয়ে রাখে যাতে তারা সম্পর্কিত হতে পারে। কারণ তারা গাণিতিকভাবে পারস্পরিক সম্পর্ককে ব্যাখ্যা করে। প্রধান উপাদান (প্রথম কয়েকটি) এটি গাণিতিকভাবে ব্যাখ্যা করে না পাশাপাশি এবং তাই কেবল কিছু প্রসারিত এবং স্থায়ীভাবে "সুপ্ত বৈশিষ্ট্য" (বা এ জাতীয়) বলা যেতে পারে

গুণ loadings যদি বিশ্লেষণ সহভেদাংক ম্যাট্রিক্স ওপর ভিত্তি করে (আউট উদাহরণ হিসাবে) বরং পারস্পরিক সম্পর্ক ম্যাট্রিক্স চেয়ে - কি (পুনরুদ্ধার) পারস্পরিক সম্পর্ক, অথবা সহভেদাংক আকারে correlatedness ব্যাখ্যা করে। আমি প্রাপ্ত তথ্য দিয়ে ফ্যাক্টর বিশ্লেষণ করেছি a_1=.87352, a_2=.84528, তাই পণ্য a_1*a_2 = .73837প্রায় সমবায় সমান .73915। অন্যদিকে, পিসিএ loadings ছিল a1_1=.97497, a1_2=.89832, তাই a1_1*a1_2 = .87584overestimates .73915যথেষ্ট।

পিসিএ এবং এফএ-এর মধ্যে মূল তাত্ত্বিক পার্থক্য ব্যাখ্যা করে, আসুন ধারণাটির উদাহরণ দেওয়ার জন্য আমাদের ডেটাতে ফিরে আসি।

এফএ: আনুমানিক সমাধান (ফ্যাক্টর স্কোর)

নীচে স্ক্র্যাপপ্লট বিশ্লেষণের ফলাফলগুলি দেখায় যা আমরা অস্থায়ীভাবে "উপ-অনুকূল ফ্যাক্টর বিশ্লেষণ", চিত্র 3 বলব

A technical detail (you may skip): PAF method used for factor extraction.
Factor scores computed by Regression method.
Variance of the factor scores on the plot was scaled to the true
factor variance (sum of squared loadings).

এখানে চিত্র বর্ণনা লিখুন

থেকে প্রস্থান দেখুন Fig.2 পিসিএ করুন। ত্রুটিগুলির বেইজ মেঘটি গোলাকার নয়, এটি ত্রিভুজাকারে উপবৃত্তাকার - তবু এটি পিসিএতে পাতলা তির্যক রেখার চেয়ে স্পষ্টতই আরও মোটা। এও লক্ষ্য করুন যে ত্রুটি সংযোগকারীগুলি (কিছু পয়েন্টের জন্য দেখানো হয়েছে) আর সমান্তরাল নয় (পিসিএতে, তারা পি 2 এর সমান্তরাল সংজ্ঞা অনুসারে ছিল)। তদতিরিক্ত, যদি আপনি উদাহরণস্বরূপ, ফ্যাক্টরের এফ অক্ষের উপর প্রতিসাম্যিকভাবে আয়না পড়ে থাকা "F" এবং "E" পয়েন্টগুলিতে দেখেন, অপ্রত্যাশিতভাবে, তাদের সম্পর্কিত ফ্যাক্টর স্কোরগুলি বেশ আলাদা মান হতে পারে। অন্য কথায়, ফ্যাক্টর স্কোরগুলি কেবল রৈখিকভাবে রূপান্তরিত মূল উপাদান স্কোর নয়: ফ্যাক্টর এফ তার নিজস্ব উপায়ে পি 1 উপায় থেকে পৃথকভাবে পাওয়া যায়। তাদের অক্ষ সম্পূর্ণরূপে যদি একই চক্রান্ত একসাথে দেখানো কাকতালীয়ভাবে না Fig.4 :

এখানে চিত্র বর্ণনা লিখুন

এগুলি ছাড়াও তারা কিছুটা ভিন্ন প্রাচ্যযুক্ত, এফ (স্কোর সহ টাইলস) খাটো, অর্থাত্ এটি পি 1 অ্যাকাউন্টগুলির চেয়ে ছোট ভেরিয়েন্স হিসাবে বিবেচিত। আগে যেমন উল্লেখ করা, শুধুমাত্র পরিবর্তনশীলতা জন্য ফ্যাক্টর অ্যাকাউন্টগুলির V1 থেকে V2 এর correlatedness জন্য দায়ী, মোট ভ্যারিয়েন্সের অংশ যে আদিম সহভেদাংক থেকে ভেরিয়েবল আনতে যথেষ্ট অর্থাৎ 0তথ্যসংক্রান্ত সহভেদাংক করতে .73915

এফএ: অনুকূল সমাধান (সত্য ফ্যাক্টর)

একটি অনুকূল ফ্যাক্টর সমাধান হ'ল ত্রুটিগুলি বৃত্তাকার বা অ-তির্যক উপবৃত্তাকার মেঘ: E1 এবং E2 সম্পূর্ণরূপে অসম্পৃক্ত থাকে । ফ্যাক্টর বিশ্লেষণ আসলে ফেরৎ যেমন একটি সন্তোষজনক সমাধান। আমি উপরেরগুলির মতো সাধারণ স্ক্রেটারপ্লোটে এটি দেখাইনি। কেন করলাম? - কারণ এটি সর্বোপরি সবচেয়ে আকর্ষণীয় জিনিস হত।

কারণটি হ'ল স্ক্রেটারপ্লোটে পর্যাপ্ত পরিমাণে প্রদর্শন করা অসম্ভব, এমনকি একটি 3D প্লটও গ্রহণ করা। এটি তাত্ত্বিকভাবে বেশ আকর্ষণীয় বিষয়। E1 এবং E2 সম্পূর্ণরূপে অসম্পর্কিত করার জন্য এটি প্রদর্শিত হয় যে এফ, ই 1, ই 2 এই তিনটি ভেরিয়েবল V1, V2 দ্বারা সংজ্ঞায়িত স্থান (প্লেন) এ থাকা উচিত নয় ; এবং তিনটি একে অপরের সাথে সম্পর্কযুক্ত হতে হবে । আমি বিশ্বাস করি যে 5D তে এই জাতীয় একটি স্ক্র্যাটারপ্লট আঁকানো সম্ভব (এবং সম্ভবত কিছু কল্পনা দিয়ে - 4 ডি তে) তবে আমরা 3 ডি বিশ্বে বাস করি, হায়! ফ্যাক্টর এফ অবশ্যই E1 এবং E2 উভয়ের সাথেই সম্পর্কহীন থাকতে হবে (যখন তারা দু'জনও খুব বেশি সম্পর্কযুক্ত নয়) কারণ পর্যবেক্ষণ করা তথ্যের মধ্যে F একমাত্র (পরিষ্কার) এবং পারস্পরিক সম্পর্কের সম্পূর্ণ উত্স বলে মনে করা হচ্ছে। ফ্যাক্টর বিশ্লেষণ মোট ভ্যারিয়েন্স splits এরpইনপুট ভেরিয়েবলগুলি দুটি অযৌক্তিক (ননওভারল্যাপিং) অংশগুলিতে রূপান্তরিত করে: সাম্প্রদায়িকতা অংশ ( m-মাত্রিক, যেখানে mসাধারণ উপাদানগুলি নিয়ম করে) এবং স্বতন্ত্রতা অংশ ( p-ত্রৈমাসিক, যেখানে ত্রুটিগুলি হয়, একে একে অনন্য উপাদানও বলা হয়, পারস্পরিকভাবে অসংবিযুক্ত)।

সুতরাং এখানে একটি স্ক্যাটারপ্লোটে আমাদের ডেটার সত্যিকারের গুণকটি প্রদর্শন না করার জন্য ক্ষমা করুন। এটি "সাবজেক্ট স্পেস" তে ভেক্টরদের মাধ্যমে ডেটা পয়েন্ট প্রদর্শন না করে এখানে যথেষ্ট পরিমাণে ভিজ্যুয়ালাইজ করা যেতে পারে ।

উপরে, "সাধারণ এফএ (সুপ্ত বৈশিষ্ট্য) ধারণা" বিভাগে, আমি সত্যিকারের ফ্যাক্টর অক্ষটি প্লেন ভি 1 ভি 2-তে পড়ে না বলে সতর্ক করার জন্য আমি ফেজার (অক্ষ এফ) প্রদর্শন করলাম । এর অর্থ এই যে - প্রধান উপাদান পি 1 এর বিপরীতে - অক্ষর হিসাবে ফ্যাক্টর এফ তাদের স্থানের অক্ষ V1 বা V2 এর ঘূর্ণন নয় এবং ভেরিয়েবল হিসাবে ভেরিয়েবল ভি 1 এবং ভি 2 এর রৈখিক সংমিশ্রণ নয় । সুতরাং এফটি মডেল করা হয়েছে (ভেরিয়েবল ভি 1 ভি 2 থেকে প্রাপ্ত) যেন কোনও বাহ্যিক, স্বতন্ত্র ভেরিয়েবল, সেগুলির উত্স নয়। EQ.1 এর মতো সমীকরণগুলি যেখানে পিসিএ শুরু হয়, ফ্যাক্টর বিশ্লেষণের ক্ষেত্রে সত্য (অনুকূল) গুণক গণনা করতে অনুপযুক্ত , অন্যদিকে আনুষ্ঠানিকভাবে আইসোমরফিক সমীকরণ Eq.2 এবং Eq.3।উভয় বিশ্লেষণের জন্য বৈধ। এটি হ'ল, পিসিএ ভেরিয়েবলগুলিতে উপাদান এবং উপাদানগুলির ব্যাকটি ভেরিয়েবল উত্পন্ন করে; এফএ মধ্যে ফ্যাক্টর (গুলি) জেনারেট / ভেরিয়েবল ভবিষ্যদ্বাণী করা, এবং ফিরে না সাধারণ ফ্যাক্টর মডেল ধারণার দিক থেকে অনুমান - তাই , যদিও টেকনিক্যালি কারণের পরিলক্ষিত ভেরিয়েবল থেকে নিষ্কাশিত হয়।

কেবল সত্য ফ্যাক্টরই মেনিফেস্ট ভেরিয়েবলের কাজ নয়, সত্য ফ্যাক্টরের মানগুলি স্বতন্ত্রভাবে সংজ্ঞায়িত হয় না । অন্য কথায়, এগুলি কেবল অজানা। এই সমস্ত কারণে আমরা অতিরিক্ত 5D বিশ্লেষণকারী স্পেসে থাকি এবং আমাদের বাড়ির 2D স্পেসে নেই। ফ্যাক্টর স্কোর বলা প্রকৃত গুণকের মানগুলির জন্য কেবলমাত্র ভাল অনুমান (বেশ কয়েকটি পদ্ধতি বিদ্যমান ) আমাদের জন্য রয়েছে। ফ্যাক্টর স্কোরগুলি প্লেন ভি 1 ভি 2-তে থাকে, যেমন মূল উপাদানগুলির স্কোর, সেগুলিও ভি 1, ভি 2 এর লিনিয়ার ফাংশন হিসাবে গণনা করা হয় এবং এটি ছিলযা আমি "এফএ: আনুমানিক সমাধান (ফ্যাক্টর স্কোর)" বিভাগে প্লট করেছি। প্রধান উপাদান স্কোরগুলি সত্য উপাদান উপাদান; ফ্যাক্টর স্কোরগুলি নিরবচ্ছিন্ন প্রকৃত গুণকের মানগুলির জন্য কেবলমাত্র যুক্তিসঙ্গত।

এফএ: পদ্ধতির রাউন্ডআপ

একটি

সুতরাং, "এফএ: আনুমানিক সমাধান (ফ্যাক্টর স্কোর)" বিভাগে আমার দ্বারা প্রদর্শিত "ফ্যাক্টর সলিউশন "টি আসলে সর্বোত্তম লোডিংয়ের উপর নির্ভর করে, যেমন সত্য কারণগুলির উপর। তবে স্কোরগুলি ভাগ্যের দ্বারা অনুকূল ছিল না। স্কোরগুলি পর্যবেক্ষিত ভেরিয়েবলগুলির একটি লিনিয়ার ফাংশন হিসাবে গণনা করা হয়, যেমন উপাদান স্কোরগুলি হয়, তাই তাদের উভয়কে একটি স্ক্র্যাটারপ্লোটের সাথে তুলনা করা যেতে পারে এবং আমি এফএ ধারণা সম্পর্কে পিসিএ ধারণা থেকে ধীরে ধীরে পাসের মতো প্রদর্শন করার জন্য ডায়টিক অনুসরণে এটি করেছি।

যখন একই ষড়যন্ত্র এক সতর্ক হতে হবে biplot "কারণের স্থান" ফ্যাক্টর স্কোর সঙ্গে ফ্যাক্টর loadings, সচেতন যে loadings সত্য কারণের অধিকারে থাকা যখন স্কোর কারণের ভাড়াটে করার জন্য (আমার মন্তব্য দেখতে অধিকারে থাকা হতে এই উত্তরটি এই থ্রেড)।

কারণগুলির ঘূর্ণন (লোডিং) সুপ্ত বৈশিষ্ট্যগুলি ব্যাখ্যা করতে সহায়তা করে। লোডিংয়ের আবর্তন পিসিএতেও করা যেতে পারে আপনি যদি পিসিএ ব্যবহার করেন যেন ফ্যাক্টাল এনালাইসিস (অর্থাৎ পিসিএকে ভেরিয়েবল প্রেডিকশন হিসাবে দেখুন)। ভেরিয়েবলের সংখ্যা বাড়ার সাথে সাথে পিসিএ এফএর সাথে ফলাফলগুলিতে রূপান্তরিত হয় ( ব্যবহারিক এবং ধারণাগত মিল এবং দুটি পদ্ধতির মধ্যে পার্থক্য সম্পর্কে অত্যন্ত সমৃদ্ধ সুতো দেখুন )। এই উত্তরটির শেষে আমার পিসিএ এবং এফএর মধ্যে পার্থক্যগুলির তালিকাটি দেখুন । আইরিস ডেটাसेट ে পিসিএ বনাম এফএ এর ধাপে ধাপে গণনা এখানে পাওয়া যায় । এই থ্রেডের বাইরের বিষয়ে অন্যান্য অংশগ্রহণকারীদের উত্তরের জন্য যথেষ্ট সংখ্যক ভাল লিঙ্ক রয়েছে; আমি দুঃখিত আমি বর্তমান উত্তরটিতে তাদের মধ্যে কয়েকটি ব্যবহার করেছি।

এখানে পিসিএ এবং এফএর মধ্যে পার্থক্যগুলির একটি বুলেট তালিকাও দেখুন ।


1
+1 টি। এটি দুর্দান্ত যে আপনি এটি লিখেছিলেন, এই থ্রেডটিতে অবশ্যই আপনার কাছ থেকে কোনও উত্তর নেই। আমি পড়ার আগে উত্সাহিত করেছি (যা আমি খুব কমই করি), এবং অবশ্যই পরবর্তী পড়াটি উপভোগ করেছি। আমি পরে আরও মন্তব্য করতে পারি, তবে আপাতত একটি ছোট্ট নিটপিক: আপনি বেশ কয়েকবার লিখেছিলেন যে এফএতে ত্রুটির মেঘটি "বৃত্তাকার" হওয়া উচিত। তবে প্রকৃতপক্ষে, এটি উপবৃত্তাকার হতে পারে (কারণ ভি 1 এবং ভি 2 এর স্বতন্ত্র বৈশিষ্ট্যের বিভিন্ন রূপ থাকতে পারে), এটির কেবল শূন্য সম্পর্ক থাকতে পারে। আমার ধারণা আপনি এই বিশদটি দিয়ে পাঠকদের বিভ্রান্ত করতে চাননি।
অ্যামিবা

1
ভী1=একটি1এফ+ +1ভী2=একটি2এফ+ +2(1,2)=এন(0,আমি)- এখন ভি 1 এবং ভি 2 এর নমুনা তৈরি করতে এই সম্পর্কগুলি ব্যবহার করুন। একবার ভি 1 এবং ভি 2 উত্পন্ন হওয়ার পরে, যদি আমরা সর্বোত্তম এফএ করতে পারি, আমাদের উচিত (E1, E2) এর নিকট-নির্ভুল অনুমান করা এবং এটি একটি উপবৃত্তাকার মেঘ তৈরি করবে form তদুপরি, এখন F, E1, E2 ভি ভি 1 এবং ভি 2 এর সমতলে প্রতিনিধিত্ব করা যেতে পারে।
কাসা

@ কাসা, আপনার মন্তব্যটি কি আমার উত্তর বা অমিবার মন্তব্যটির বিষয়ে মন্তব্য করছিল? যদি আপনার মন্তব্যটি আমার মূল দাবির বিপরীতে থাকে যে এফএ-তে তিনটি সুপ্ত ভেরিয়েবলগুলি আসল জায়গায় থাকে না এবং আপনি এটি প্রদর্শন করতে পারেন তবে কেন এটি উত্তর দেখাচ্ছে না? কিন্তু দয়া করে নোট করুন অনুকূল এফএ এ, ত্রুটি আছে ঠিক , সম্পর্কহীন যে, তারা যেমন কাল্পনিক যেতে পারে না থেকে আসছে স্বাভাবিক সম্পর্কহীন জনসংখ্যা।
ttnphns

@ এনটিএনফএনস: বিভ্রান্তির জন্য দুঃখিত, আমি আপনার মূল দাবীতে সন্দেহ করছিলাম। আমি কয়েকদিনের মধ্যে উত্তর হিসাবে এটি দেখানোর চেষ্টা করব। ধন্যবাদ!
কাসা

21

ফ্যাক্টর বিশ্লেষণ এবং প্রধান উপাদান বিশ্লেষণের মধ্যে পার্থক্যগুলি হ'ল:

Factor ফ্যাক্টর বিশ্লেষণে একটি কাঠামোগত মডেল এবং কিছু অনুমান রয়েছে। এই ক্ষেত্রে এটি একটি পরিসংখ্যান কৌশল যা মূল উপাদান বিশ্লেষণের ক্ষেত্রে প্রযোজ্য না যা খাঁটি গণিতের রূপান্তর।

Component মূল উপাদান বিশ্লেষণের লক্ষ্যটি হ'ল বৈচিত্রটি ব্যাখ্যা করা হয় যখন ফ্যাক্টর বিশ্লেষণের সাথে ভেরিয়েবলগুলির মধ্যে সমবায় ব্যাখ্যা হয়।

দুজনের মধ্যে বিভ্রান্তির সবচেয়ে বড় কারণটির সাথে ফ্যাক্টর বিশ্লেষণে ফ্যাক্টর এক্সট্রাকশন পদ্ধতির একটিকে "প্রধান উপাদানগুলির পদ্ধতি" বলা হয় with তবে, পিসিএ ব্যবহার করা একটি জিনিস এবং এফএতে প্রধান উপাদানগুলির পদ্ধতিটি ব্যবহার করার জন্য অন্য জিনিস । নামগুলি একই হতে পারে, তবে উল্লেখযোগ্য পার্থক্য রয়েছে। পূর্ববর্তীটি একটি স্বতন্ত্র বিশ্লেষণ পদ্ধতি যেখানে দ্বিতীয়টি কেবল ফ্যাক্টর নিষ্কাশনের একটি সরঞ্জাম।


13

আমার জন্য (এবং আমি আশা করি এটি দরকারী) ফ্যাক্টর বিশ্লেষণ পিসিএর চেয়ে অনেক বেশি কার্যকর।

সম্প্রতি, আমি ফ্যাক্টর বিশ্লেষণের মাধ্যমে স্কেল বিশ্লেষণের আনন্দ পেয়েছি। এই স্কেলটি (যদিও এটি ব্যাপকভাবে শিল্পে ব্যবহৃত হয়) পিসিএ ব্যবহার করে তৈরি করা হয়েছিল এবং আমার জ্ঞানের সাথে ফ্যাক্টর বিশ্লেষণ করা হয়নি।

যখন আমি ফ্যাক্টর বিশ্লেষণ (প্রধান অক্ষ) সম্পাদন করি তখন আমি আবিষ্কার করেছি যে তিনটি আইটেমের জন্য সাম্প্রদায়িকতা 30% এরও কম ছিল, যার অর্থ আইটেমগুলির বৈকল্পিকতার 70% এর বেশি বিশ্লেষণ করা হচ্ছে না। পিসিএ কেবলমাত্র ডেটাটিকে একটি নতুন সংমিশ্রণে রূপান্তরিত করে এবং সাম্প্রদায়িকতার বিষয়ে চিন্তা করে না। আমার উপসংহারটি ছিল যে স্কেলটি মনোবিজ্ঞানের দিক থেকে খুব ভাল ছিল না এবং আমি এটি একটি ভিন্ন নমুনা দিয়ে নিশ্চিত করেছি।

মূলত, আপনি যদি উপাদানগুলি ব্যবহার করে ভবিষ্যদ্বাণী করতে চান, পিসিএ ব্যবহার করুন, আপনি যদি সুপ্ত কারণগুলি বুঝতে চান তবে ফ্যাক্টর বিশ্লেষণ ব্যবহার করুন।


11

@ স্ট্যাটিস্টিকস ডক কনসাল্টিংয়ের উত্তরে প্রসারিত: ইএফএ এবং পিসিএর মধ্যে লোডিংয়ের পার্থক্য অল্প সংখ্যক ভেরিয়েবলের সাথে অ-তুচ্ছ। আর-তে এটি প্রদর্শনের জন্য এখানে একটি সিমুলেশন ফাংশন রয়েছে:

simtestit=function(Sample.Size=1000,n.Variables=3,n.Factors=1,Iterations=100)
{require(psych);X=list();x=matrix(NA,nrow=Sample.Size,ncol=n.Variables)
for(i in 1:Iterations){for(i in 1:n.Variables){x[,i]=rnorm(Sample.Size)}
X$PCA=append(X$PCA,mean(abs(principal(x,n.Factors)$loadings[,1])))
X$EFA=append(X$EFA,mean(abs(factanal(x,n.Factors)$loadings[,1])))};X}

IterationsSample.Size=1000Iterationsprincipal()factanal()

এই কোডটি ব্যবহার করে, আমি ডেটা তৈরির জন্য প্রতিটি 500 টি পুনরাবৃত্তির সাথে 3 data100 ভেরিয়েবলের নমুনাগুলি সিমুলেটেড করেছি:

Y=data.frame(n.Variables=3:100,Mean.PCA.Loading=rep(NA,98),Mean.EFA.Loading=rep(NA,98))
for(i in 3:100)
{X=simtestit(n.Variables=i,Iterations=500);Y[i-2,2]=mean(X$PCA);Y[i-2,3]=mean(X$EFA)}

... গড় লোডিংয়ের সংবেদনশীলতার প্লটের জন্য (ভেরিয়েবল এবং পুনরাবৃত্তির জুড়ে) ভ্যারিয়েবলের সংখ্যায়:

.067


10

একজন পিসিএকে এফএর মতো হিসাবে ভাবতে পারে যেখানে সাম্প্রদায়িকতাগুলি সমস্ত ভেরিয়েবলের জন্য 1 সমান বলে ধরে নেওয়া হয়। অনুশীলনে, এর অর্থ এই যে আইটেমগুলিতে কম সাম্প্রদায়িকতার কারণে এফএতে তুলনামূলকভাবে কম ফ্যাক্টর লোডিং থাকবে তাদের পিসিএতে বেশি লোডিং থাকবে। বিশ্লেষণের প্রাথমিক উদ্দেশ্যটি হ'ল আইটেমের দৈর্ঘ্য কাটা এবং স্বল্প বা স্বতঃস্ফূর্ত লোডযুক্ত ব্যক্তিদের আইটেমগুলির একটি ব্যাটারি পরিষ্কার করা বা আইটেম পুলটিতে ভালভাবে প্রতিনিধিত্ব করা না এমন ধারণাগুলি সনাক্ত করা যদি এটি বিশিষ্ট বৈশিষ্ট্য নয়।


10

সত্যিই দুর্দান্ত পাঠ্যপুস্তকের একটি উদ্ধৃতি (ব্রাউন, 2006, পৃষ্ঠা 22, জোর দেওয়া হয়েছে)।
পিসিএ = প্রধান উপাদান বিশ্লেষণ
ইএফএ = অনুসন্ধানমূলক উপাদান বিশ্লেষণ
সিএফএ = নিশ্চিতকরণমূলক ফ্যাক্টর বিশ্লেষণ

যদিও এএফএ সম্পর্কিত, মূল উপাদান বিশ্লেষণ (পিসিএ) প্রায়শই সাধারণ ফ্যাক্টর বিশ্লেষণের অনুমান পদ্ধতি হিসাবে ভুলভ্রষ্ট হয়। পূর্ববর্তী অনুচ্ছেদে (এমএল, পিএফ) আলোচিত অনুমানের বিপরীতে, পিসিএ বিভিন্ন পরিমাণগত পদ্ধতিতে নির্ভর করে যা সাধারণ ফ্যাক্টর মডেলের ভিত্তিতে নয়। পিসিএ সাধারণ এবং অনন্য বৈচিত্রকে আলাদা করে না। বরং, পিসিএ লক্ষ্য করেছে যে তাদের মধ্যে পারস্পরিক সম্পর্কের ব্যাখ্যা দেওয়ার পরিবর্তে পর্যবেক্ষণ করা ব্যবস্থাগুলির পার্থক্যের জন্য অ্যাকাউন্ট করা। সুতরাং, পরবর্তী বিশ্লেষণগুলিতে ব্যবহারের জন্য কম, সামঞ্জস্যযোগ্য ভেরিয়েবলের বৃহত্তর ব্যবস্থাগুলির একটি বৃহত সেটকে হ্রাস করতে পিসিএ আরও সঠিকভাবে ডেটা হ্রাস কৌশল হিসাবে ব্যবহৃত হয়। তবে কিছু পদ্ধতিবিজ্ঞানী যুক্তি দেখিয়েছেন যে পিসিএ হ'ল ইএফএর একটি যুক্তিসঙ্গত বা সম্ভবত উচ্চতর বিকল্প, পিসিএর বেশ কয়েকটি কাঙ্ক্ষিত পরিসংখ্যানগত বৈশিষ্ট্য রয়েছে (যেমন, গণ্যকরূপে সহজ, অনুপযুক্ত সমাধানের জন্য সংবেদনশীল নয়) এর প্রেক্ষিতে, প্রায়শই ইএফএর মতো ফলাফল তৈরি করে, পিসিএর ক্ষমতা একটি মূল উপাদানটিতে অংশগ্রহীতার স্কোর গণনা করার ক্ষমতা যেখানে অনির্দিষ্ট প্রকৃতির ইএফএ এই জাতীয় গণনা জটিল করে)। যদিও এই বিষয়ে বিতর্ক অব্যাহত রয়েছে, ফ্যাব্রিগার এট আল। (1999) ফ্যাক্টর বিশ্লেষণে পিসিএর স্থানের পক্ষে যুক্তির বিরোধিতা করার কয়েকটি কারণ প্রদান করে। এই লেখকরা পরিস্থিতিগুলিকে আন্ডাররেড করে যেখানে ইফা এবং পিসিএ ভিন্ন ভিন্ন ফলাফল দেয়; উদাহরণস্বরূপ, যখন সাম্প্রদায়িকতা কম থাকে বা যখন কোনও প্রদত্ত ফ্যাক্টরের কয়েকটি সূচক থাকে (সিএফ। উইদামান, 1993)। প্রায়শই ইএফএর মতো ফলাফল তৈরি করে, মূল উপাদানটিতে অংশগ্রহণকারীদের স্কোর গণনা করার ক্ষমতা পিসিএর ক্ষমতা যেখানে ইএফএর অনির্দিষ্ট প্রকৃতি যেমন গণনা জটিল করে তোলে)। যদিও এই বিষয়ে বিতর্ক অব্যাহত রয়েছে, ফ্যাব্রিগার এট আল। (1999) ফ্যাক্টর বিশ্লেষণে পিসিএর স্থানের পক্ষে যুক্তির বিরোধিতা করার কয়েকটি কারণ প্রদান করে। এই লেখকরা পরিস্থিতিগুলিকে আন্ডাররেড করে যেখানে ইফা এবং পিসিএ ভিন্ন ভিন্ন ফলাফল দেয়; উদাহরণস্বরূপ, যখন সাম্প্রদায়িকতা কম থাকে বা যখন কোনও প্রদত্ত ফ্যাক্টরের কয়েকটি সূচক থাকে (সিএফ। উইদামান, 1993)। প্রায়শই ইএফএর মতো ফলাফল তৈরি করে, মূল উপাদানটিতে অংশগ্রহণকারীদের স্কোর গণনা করার ক্ষমতা পিসিএর ক্ষমতা যেখানে ইএফএর অনির্দিষ্ট প্রকৃতি যেমন গণনা জটিল করে তোলে)। যদিও এই বিষয়ে বিতর্ক অব্যাহত রয়েছে, ফ্যাব্রিগার এট আল। (1999) ফ্যাক্টর বিশ্লেষণে পিসিএর স্থানের পক্ষে যুক্তির বিরোধিতা করার কয়েকটি কারণ প্রদান করে। এই লেখকরা পরিস্থিতিগুলিকে আন্ডাররেড করে যেখানে ইফা এবং পিসিএ ভিন্ন ভিন্ন ফলাফল দেয়; উদাহরণস্বরূপ, যখন সাম্প্রদায়িকতা কম থাকে বা যখন কোনও প্রদত্ত ফ্যাক্টরের কয়েকটি সূচক থাকে (সিএফ। উইদামান, 1993)। (1999) ফ্যাক্টর বিশ্লেষণে পিসিএর স্থানের পক্ষে যুক্তির বিরোধিতা করার কয়েকটি কারণ প্রদান করে। এই লেখকরা পরিস্থিতিগুলিকে আন্ডাররেড করে যেখানে ইফা এবং পিসিএ ভিন্ন ভিন্ন ফলাফল দেয়; উদাহরণস্বরূপ, যখন সাম্প্রদায়িকতা কম থাকে বা যখন কোনও প্রদত্ত ফ্যাক্টরের কয়েকটি সূচক থাকে (সিএফ। উইদামান, 1993)। (1999) ফ্যাক্টর বিশ্লেষণে পিসিএর স্থানের পক্ষে যুক্তির বিরোধিতা করার কয়েকটি কারণ প্রদান করে। এই লেখকরা পরিস্থিতিগুলিকে আন্ডাররেড করে যেখানে ইফা এবং পিসিএ ভিন্ন ভিন্ন ফলাফল দেয়; উদাহরণস্বরূপ, যখন সাম্প্রদায়িকতা কম থাকে বা যখন কোনও প্রদত্ত ফ্যাক্টরের কয়েকটি সূচক থাকে (সিএফ। উইদামান, 1993)।নির্বিশেষে, যদি কোনও বিশ্লেষণের ওভাররাইডিং যুক্তি এবং অভিজ্ঞতাগত উদ্দেশ্যগুলি সাধারণ ফ্যাক্টর মডেলের সাথে মিলিত হয়, তবে এটি পিসিএ পরিচালনার জন্য ধারণাগত এবং গাণিতিকভাবে বেমানান; এটি হ'ল, উল্লিখিত উদ্দেশ্যটি পর্যবেক্ষণকৃত ব্যবস্থায় পরিমাপের ত্রুটির অস্তিত্বকে স্বীকৃতি দিয়ে স্বল্প মাত্রার সংখ্যার সাথে সূচকগুলির একটি সেটের আন্তঃসংযোগগুলি পুনরুত্পাদন করা যদি ইএফএ আরও উপযুক্ত।ফ্লয়েড এবং উইদামান (১৯৯৫) সম্পর্কিত পয়েন্টটি তৈরি করেছেন যে পিএফএর তুলনায় ইএফএ ভিত্তিক অনুমানগুলি সিএফএ-তে সাধারণীকরণের সম্ভাবনা বেশি, পিসিএ, ইএফএ এবং সিএফএ সাধারণ ফ্যাক্টর মডেলের উপর ভিত্তি করে। এটি এএফএ প্রায়শই স্কেল ডেভলপমেন্ট এবং বৈধতা তৈরিতে সিএফএর পূর্বসূর হিসাবে ব্যবহৃত হয় এই আলোকে এটি একটি উল্লেখযোগ্য বিবেচ্য বিষয়। পিসিএ এবং ইএফএর মধ্যে কম্পিউটেশনাল পার্থক্যের একটি বিশদ বিক্ষোভ মাল্টিভারিয়েট এবং ফ্যাক্টর অ্যানালিটিক পাঠ্যপুস্তকগুলিতে পাওয়া যায় (যেমন, ট্যাবনিক এবং ফিডেল, 2001)।

ব্রাউন, টিএ (2006) প্রয়োগিত গবেষণার জন্য কনফার্মেটরি ফ্যাক্টর বিশ্লেষণ। নিউ ইয়র্ক: গিলফোর্ড প্রেস।


6

টিপিং এবং বিশপের একটি গবেষণাপত্রে প্রোবাবলিস্টিক পিসিএ (পিপিসিএ) এবং ফ্যাক্টর বিশ্লেষণের মধ্যে ঘনিষ্ঠ সম্পর্ক নিয়ে আলোচনা করা হয়েছে। ক্লাসিক পিসিএর তুলনায় পিপিসিএ এফএর আরও কাছাকাছি। সাধারণ মডেলটি হ'ল

Y=μ+ +ওয়াটএক্স+ +ε

ওয়াটআরপি,এক্স~এন(0,আমি)ε~এন(0,Ψ)

  • Ψ
  • Ψ=σ2আমি

মাইকেল ই টিপিং, ক্রিস্টোফার এম বিশপ (1999)। সম্ভাব্য প্রিন্সিপাল কম্পোনেন্ট বিশ্লেষণ , রয়্যাল স্ট্যাটিস্টিকাল সোসাইটির জার্নাল, খণ্ড 61, সংখ্যা 3, পৃষ্ঠা 611–622


2
+1 টি। হ্যাঁ. আমি বিশ্বাস করি যে পিসিএ এবং এফএর মধ্যে সম্পর্ক বোঝার জন্য পিপিসিএ বোঝা জরুরি। তবে আপনি পিসিএ / পিপিসিএ সম্পর্ক নিয়ে আলোচনা করে আপনার উত্তরটি উন্নত করতে পারেন।
অ্যামিবা

3

এই প্রতিক্রিয়াগুলির কোনওটিই নিখুঁত নয়। হয় এফএ বা পিসিএর কিছু বৈকল্পিক রয়েছে। কোন রূপের তুলনা করা হচ্ছে তা আমাদের পরিষ্কারভাবে উল্লেখ করতে হবে। আমি সর্বাধিক সম্ভাবনা ফ্যাক্টর বিশ্লেষণ এবং হোটেলিংয়ের পিসিএ তুলনা করব। প্রাক্তন ধরে নিন যে সুপ্ত পরিবর্তনশীল একটি সাধারণ বিতরণ অনুসরণ করে তবে পিসিএর তেমন কোনও অনুমান নেই। এর ফলে সমাধান, উপাদানগুলির বাসা বাঁধার সমাধানের অনন্যতা, অপ্টিমাইজেশন অ্যালগরিদমের মত পার্থক্য দেখা দিয়েছে।


1
আমি আশ্চর্য হই যে আপনি যদি এই বিষয়ে কিছুটা প্রসারিত করতে পারেন - আপনি বলেছিলেন যে শেষ বাক্যটির মধ্যে পার্থক্য রয়েছে, তবে এই পার্থক্যগুলি কী হতে পারে বা এই পার্থক্যগুলি কীভাবে গুরুত্বপূর্ণ হতে পারে সে সম্পর্কে খুব বেশি তথ্য দেওয়া হয়নি?
সিলভারফিশ

1
দুটি অত্যন্ত দূরত্বের পদ্ধতি বাছাই করা এবং দাবি করা যে সেগুলি সত্যই আলাদা - আপনার মতো - এটিও কোনও সঠিক যুক্তি নয়। এই দুজন কীভাবে মিল রয়েছে তা সম্ভবত একজনের সন্ধান করা উচিত এবং রিপোর্ট করা উচিত। বিকল্পভাবে, কেউ সর্বাধিক অনুরূপ পদ্ধতি বাছাই করতে পারে (যেমন প্লেইন পিসিএ বনাম পিএএফ ) এবং কীভাবে সেগুলি আলাদা তা জানাতে পারে।
ttnphns

1
হোটলিংয়ের পিসিএ সুপ্ত গাউসিয়ানদের ধরে নিয়েছে।
অনুমান

1

এই পোস্টের জন্য অনেক দুর্দান্ত উত্তর রয়েছে তবে সম্প্রতি, আমি আরও একটি পার্থক্য পেয়েছি।

ক্লাস্টারিং হ'ল একটি অ্যাপ্লিকেশন যেখানে পিসিএ এবং এফএ বিভিন্ন ফলাফল দেয়। যখন ডেটাতে অনেকগুলি বৈশিষ্ট্য উপস্থিত থাকে, তখন একজনকে শীর্ষ পিসির দিকনির্দেশগুলি অনুসন্ধান করার চেষ্টা করা যেতে পারে এবং এই পিসিতে ডেটা প্রজেক্ট করার চেষ্টা করা যেতে পারে, তারপরে ক্লাস্টারিংয়ের সাথে এগিয়ে যান। প্রায়শই এটি ডেটা সহজাত ক্লাস্টারগুলিকে বিরক্ত করে - এটি একটি ভাল প্রমাণিত ফলাফল। গবেষকরা সাব-স্পেস ক্লাস্টারিং পদ্ধতিগুলি নিয়ে এগিয়ে যাওয়ার পরামর্শ দেন, যা মডেলটিতে নিম্ন-মাত্রিক সুপ্ত কারণগুলির সন্ধান করে।

এই পার্থক্যের চিত্রটি বিবেচনা করার Crabsজন্য আর। ক্র্যাবসে ডেটাসেটের 200 টি সারি এবং 8 টি কলাম রয়েছে, যেখানে 50 টি কাঁকড়ার উপর দুটি বর্ণের আকার এবং উভয় লিঙ্গের, 5 প্রজাতির মরফোলজিকাল পরিমাপ বর্ণিত রয়েছে - মূলত বিভিন্ন শ্রেণীর 4 টি (2x2) রয়েছে কাঁকড়া।

library(MASS)
data(crabs)
lbl <- rep(1:4,each=50)
pc <- princomp(crabs[,4:8])
plot(pc) # produce the scree plot
X <- as.matrix(crabs[,4:8]) %*% pc$loadings
library(mclust)
res_12 <- Mclust(X[,1:2],G=4)
plot(res_12)


res_23 <- Mclust(X[,2:3],G=4)
plot(res_23)

পিসি 1 এবং পিসি 2 ব্যবহার করে ক্লাস্টারিং: এখানে চিত্র বর্ণনা লিখুন

পিসি 2 এবং পিসি 3 ব্যবহার করে ক্লাস্টারিং: এখানে চিত্র বর্ণনা লিখুন

#using PC1 and PC2:
     1  2  3  4
  1 12 46 24  5
  2 36  0  2  0
  3  2  1 24  0
  4  0  3  0 45

#using PC2 and PC3:
    1  2  3  4
  1 36  0  0  0
  2 13 48  0  0
  3  0  1  0 48
  4  1  1 50  2

আমরা উপরের প্লটগুলি থেকে দেখতে পাচ্ছি, পিসি 2 এবং পিসি 3 পিসি 1 এর চেয়ে বেশি বৈষম্যমূলক তথ্য বহন করে।

যদি কেউ মিশ্রণটির ফ্যাক্টর বিশ্লেষক ব্যবহার করে সুপ্ত উপাদানগুলি ব্যবহার করে গুচ্ছামুক্ত হওয়ার চেষ্টা করে, তবে আমরা প্রথম দুটি পিসি ব্যবহারের তুলনায় অনেক ভাল ফলাফল দেখতে পাচ্ছি।

mfa_model <- mfa(y, g = 4, q = 2)
  |............................................................| 100%
table(mfa_model$clust,c(rep(1,50),rep(2,50),rep(3,50),rep(4,50)))

     1  2  3  4
  1  0  0  0 45
  2 16 50  0  0
  3 34  0  0  0
  4  0  0 50  5

আমি অবশ্যই বলব যে আমি সন্দেহ এই উত্তর সত্যই প্রশ্নের উত্তর। উত্তরটি পিসিএ বা এফএর পরে ক্লাস্টার বিশ্লেষণ সম্পর্কে, পিসিএ এবং এফএর নিজেরাই নয়। তবে সে ক্ষেত্রেও উত্তরটি ম্লান বা অসম্পূর্ণ। আপনার প্রদর্শিত পার্থক্যটি কীভাবে ব্যাখ্যা করা যায়?
ttnphns

@ttnphns আমি ক্লাস্টার বিশ্লেষণ সম্পর্কে উত্তরটির সাথে একমত নই। তবে ওপি পিসিএ / এফএর সাথে একটি বাস্তব জীবনের দৃশ্যের জন্যও বলেছিল যেখানে একটির অপরটিকে ব্যবহার করা দরকার। সাধারণত পিসিএ বা এফএ কখনই শেষ লক্ষ্য নয় - উদাহরণস্বরূপ সামাজিক বিজ্ঞানের ক্ষেত্রে শেষ উদ্দেশ্যটি বিষয়গুলিকে বিভিন্ন ক্লাস্টার / গ্রুপে বিভক্ত করা হবে। আমার উত্তর এই জাতীয় পরিস্থিতিতে সম্বোধন করে। যদি আপনি মনে করেন আমার উত্তরটি উন্নত হতে পারে তবে নির্দ্বিধায় বিন্দু নির্ধারণ করুন।
কাসা

আমি মনে করি আপনি যদি নিজের অনুসন্ধানের ব্যাখ্যা দেন তবে আপনার উত্তরটি সত্যই প্রাসঙ্গিক হয়ে উঠতে পারে। আপনি দাবী করেন যে পিসিএ এবং এফএর মধ্যে পার্থক্য দুটি পদ্ধতির জন্য অন্তর্নিহিত (কেবলমাত্র তারা ক্লাস্টারিংয়ের অধীনে স্পষ্ট হয়ে ওঠে)। আমি মনে করি আপনার পদ্ধতির মডেলগুলির পার্থক্য থেকে তাত্ত্বিকভাবে কীভাবে বা কেন পার্থক্য দেখা যায় বা কমপক্ষে অনুমান করা উচিত।
ttnphns
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.