দেখে মনে হচ্ছে যে আমি প্রচুর পরিসংখ্যান প্যাকেজগুলি এই দুটি ধারণাকে একসাথে আবদ্ধ করি। তবে আমি ভাবছি যে আলাদা ধারণা বা ডেটা 'আনুষ্ঠানিকতা' রয়েছে যা একে অপরের উপর ব্যবহার করতে অবশ্যই সত্য হতে পারে। একটি বাস্তব উদাহরণ অবিশ্বাস্যভাবে দরকারী হবে।
দেখে মনে হচ্ছে যে আমি প্রচুর পরিসংখ্যান প্যাকেজগুলি এই দুটি ধারণাকে একসাথে আবদ্ধ করি। তবে আমি ভাবছি যে আলাদা ধারণা বা ডেটা 'আনুষ্ঠানিকতা' রয়েছে যা একে অপরের উপর ব্যবহার করতে অবশ্যই সত্য হতে পারে। একটি বাস্তব উদাহরণ অবিশ্বাস্যভাবে দরকারী হবে।
উত্তর:
প্রধান উপাদান বিশ্লেষণে পর্যবেক্ষিত ভেরিয়েবলগুলির রৈখিক সংমিশ্রণ আহরণ জড়িত।
ফ্যাক্টর বিশ্লেষণ তাত্ত্বিক সুপ্ত কারণগুলি থেকে পর্যবেক্ষণের পরিবর্তনগুলি পূর্বাভাস দেওয়ার একটি আনুষ্ঠানিক মডেলের ভিত্তিতে তৈরি।
কোন আইটেম কোন স্কেলের উপর লোড হয় তা নির্ধারণ করতে মনোবিজ্ঞানে এই দুটি কৌশল প্রায়শই মাল্টি-স্কেল টেস্টগুলি নির্মাণে প্রয়োগ করা হয়। এগুলি সাধারণত অনুরূপ গুরুত্বপূর্ণ সিদ্ধান্ত নিয়ে আসে (আলোচনার জন্য কমরে (1988 দেখুন ব্যক্তিত্ব এবং ক্লিনিকাল সাইকোলজির স্কেল বিকাশের ফ্যাক্টর-অ্যানালিটিক পদ্ধতি)। এটি কিছু পরিসংখ্যান প্যাকেজগুলি কেন তাদের একসাথে বান্ডেল বলে মনে হচ্ছে তা ব্যাখ্যা করতে সহায়তা করে। আমি এমন পরিস্থিতিও দেখেছি যেখানে "প্রধান উপাদান বিশ্লেষণ" ভুলভাবে "ফ্যাক্টর বিশ্লেষণ" লেবেলযুক্ত।
একটি সহজ সরল নিয়মের শর্তে , আমি আপনাকে পরামর্শ দিই:
ফ্যাক্টর বিশ্লেষণ চালনা করুন যদি আপনি পর্যবেক্ষণযোগ্য ভেরিয়েবলগুলির জন্য সুপ্ত কারণগুলির একটি তাত্ত্বিক মডেল ধরে নেন বা পরীক্ষা করতে চান।
অধ্যক্ষ উপাদান বিশ্লেষণ চালান যদি আপনি কেবল আপনার স্বতঃসম্পর্কিত পর্যবেক্ষিত ভেরিয়েবলগুলি গুরুত্বপূর্ণ স্বতন্ত্র যৌগিক ভেরিয়েবলগুলির একটি ছোট সেটটিতে কমাতে চান।
আমার প্রতিক্রিয়া থেকে এখানে:
পিসিএ কি একটি ঘূর্ণন অনুসরণ করে (যেমন ভেরিম্যাক্স) এখনও পিসিএ হয়?
অধ্যক্ষ উপাদান উপাদান বিশ্লেষণ (পিসিএ) এবং সাধারণ ফ্যাক্টর বিশ্লেষণ (সিএফএ) স্বতন্ত্র পদ্ধতি। প্রায়শই, তারা অনুরূপ ফলাফল তৈরি করে এবং এসপিএসএস ফ্যাক্টর বিশ্লেষণ রুটিনগুলিতে পিসিএ ডিফল্ট নিষ্কাশন পদ্ধতি হিসাবে ব্যবহৃত হয়। এটি নিঃসন্দেহে উভয়ের মধ্যে পার্থক্য সম্পর্কে প্রচুর বিভ্রান্তির সৃষ্টি করে।
মূল কথাটি হ'ল এগুলি দুটি ভিন্ন মডেল, ধারণাগতভাবে। পিসিএতে উপাদানগুলি হ'ল বাস্তব অরথোগোনাল লিনিয়ার সংমিশ্রণ যা মোট বৈকল্পিকতা সর্বাধিক করে তোলে। এফএ-তে, উপাদানগুলি লিনিয়ার সংমিশ্রণ যা বৈকল্পিকের ভাগ করা অংশকে সর্বাধিক করে তোলে - অন্তর্নিহিত "সুপ্ত গঠনগুলি" ucts এজন্য এফএকে প্রায়শই "কমন ফ্যাক্টর অ্যানালাইসিস" বলা হয়। এফএ বিভিন্ন অপ্টিমাইজেশন রুটিন ব্যবহার করে এবং ফলাফল, পিসিএ থেকে ভিন্ন, সেই রুটিনগুলির জন্য ব্যবহৃত অপটিমাইজেশন রুটিন এবং প্রারম্ভিক পয়েন্টগুলির উপর নির্ভর করে। কেবল একক অনন্য সমাধান নেই is
আর-তে, ফ্যাশনাল () ফাংশনটি সিএফএকে সর্বাধিক সম্ভাবনার নিষ্কাশন সরবরাহ করে। সুতরাং, আপনি এটি এসপিএসএস ফলাফল পুনরুত্পাদন করার আশা করবেন না যা একটি পিসিএ নিষ্কাশন উপর ভিত্তি করে। এটি কেবল একই মডেল বা যুক্তি নয়। আমি নিশ্চিত না যে আপনি এসপিএসএস-এর সর্বাধিক সম্ভাবনা নিষ্কাশন যদি তারা একই অ্যালগরিদম না ব্যবহার করেন তবে আপনি একই ফলাফলটি পান কিনা।
আর এর চেয়ে ভাল বা খারাপের জন্য, আপনি এসপিএসএস এর ডিফল্ট হিসাবে সরবরাহ করে এমন মিশ্র "ফ্যাক্টর বিশ্লেষণ" পুনরুত্পাদন করতে পারেন। আরে প্রক্রিয়াটি এখানে রয়েছে এই কোডের সাহায্যে, আমি এসপিএসএসের অধ্যক্ষ উপাদান "ফ্যাক্টর বিশ্লেষণ" ফলাফলটি এই ডেটাসেটটি ব্যবহার করে পুনরুত্পাদন করতে সক্ষম। (স্বাক্ষর ব্যতীত, যা অনির্দিষ্ট)। এর পরে আর এর যে কোনও উপলব্ধ রোটেশন পদ্ধতি ব্যবহার করে ঘোরানো যেতে পারে।
data(attitude)
# Compute eigenvalues and eigenvectors of the correlation matrix.
pfa.eigen <- eigen(cor(attitude))
# Print and note that eigenvalues are those produced by SPSS.
# Also note that SPSS will extract 2 components as eigenvalues > 1 = 2.
pfa.eigen$values
# Set a value for the number of factors (for clarity)
kFactors <- 2
# Extract and transform two components.
pfa.eigen$vectors[, seq_len(kFactors)] %*%
diag(sqrt(pfa.eigen$values[seq_len(kFactors)]), kFactors, kFactors)
principal(attitude, 2, rotate="none")
থেকে একই ফলাফল পাবেন psych
এবং কায়সারের নিয়ম (উদাহরণস্বরূপ 1) মাত্রিকতার জন্য এটি পরীক্ষা করার সবচেয়ে প্রস্তাবিত উপায় নয় (এটি কারণগুলির সংখ্যাকে ছাড়িয়ে যায়)।
factanal()
সিএফএ নয় ইএফএ সরবরাহ করে। এছাড়াও, আমার অভিজ্ঞতা থেকে, এসপিএসএসের সর্বাধিক সম্ভাবনা নিষ্কাশনকে একই ফলাফল factanal()
দেওয়া উচিত যে কোনও তির্যক ঘূর্ণন নেই given
আপনার প্রথম বক্তব্য সম্পর্কে আপনি সঠিক, যদিও এফএতে আপনি সাধারণত উভয় (স্বতন্ত্রতা এবং সাম্প্রদায়িকতা) নিয়ে কাজ করেন। পিসিএ এবং এফএর মধ্যে পছন্দটি মনোবিজ্ঞানীদের মধ্যে একটি দীর্ঘকালীন বিতর্ক। যদিও আমি আপনার পয়েন্টগুলি পুরোপুরি অনুসরণ করি না। সুপ্ত উপাদানগুলি তৈরি করতে যে পদ্ধতিটি ব্যবহৃত হয় তা মূল অক্ষগুলির আবর্তন প্রয়োগ করা যেতে পারে। প্রকৃতপক্ষে, বেশিরভাগ সময় ভারিম্যাক্স রোটেশন (অরথোগোনাল রোটেশন, অসংলগ্ন বিষয় বিবেচনা করে) ব্যবহার করা হয় যা ব্যবহারিক কারণে (সবচেয়ে সহজ ব্যাখ্যা, সহজতম স্কোরিংয়ের নিয়ম বা ফ্যাক্টর স্কোরগুলির ব্যাখ্যা ইত্যাদি), যদিও তির্যিক ঘূর্ণন (যেমন প্রোম্যাক্স) ) সম্ভবত বাস্তবতার আরও ভাল প্রতিফলিত হতে পারে (সুপ্ত নির্মাণগুলি প্রায়শই একে অপরের সাথে সম্পর্কিত হয়), কমপক্ষে এফএ-র traditionতিহ্য যেখানে আপনি ধরে নিয়েছেন যে একটি সুপ্ত নির্মাণ আপনার ভেরিয়েবলের মধ্যে পরিলক্ষিত আন্তঃসংযোগের কেন্দ্রস্থলে রয়েছে। মুল বক্তব্যটি হ'ল পিসিএ ভারম্যাক্স ঘোরার পরে কিছুটা "ডেটা বিশ্লেষণ" traditionতিহ্যে মূল পরিবর্তনশীল রৈখিক সংমিশ্রণের ব্যাখ্যাকে বিকৃত করে (মিশেল টেনেনহাউসের কাজ দেখুন)। একটি সাইকোমেট্রিকাল পার্সপেক্টেস থেকে, এফএ মডেলগুলি অগ্রাধিকার দেওয়া উচিত যেহেতু তারা পরিমাপের ত্রুটিগুলিতে স্পষ্টভাবে অ্যাকাউন্ট করে, যদিও পিসিএ সে বিষয়ে যত্ন করে না। সংক্ষেপে বলা হয়েছে, পিসিএ ব্যবহার করে আপনি প্রতিটি উপাদানকে (ফ্যাক্টর) ভেরিয়েবলের রৈখিক সংমিশ্রণ হিসাবে প্রকাশ করছেন, অন্যদিকে এফএতে এগুলি হল ভেরিয়েবল যা কারণগুলির লিনিয়ার সংমিশ্রণ হিসাবে প্রকাশ করা হয়েছে (সাম্প্রদায়িকতা এবং স্বতন্ত্রতা উপাদানগুলি সহ, যেমনটি আপনি বলেছেন)। মুল বক্তব্যটি হ'ল পিসিএ ভারম্যাক্স ঘোরার পরে কিছুটা "ডেটা বিশ্লেষণ" traditionতিহ্যে মূল পরিবর্তনশীল রৈখিক সংমিশ্রণের ব্যাখ্যাকে বিকৃত করে (মিশেল টেনেনহাউসের কাজ দেখুন)। একটি সাইকোমেট্রিকাল পার্সপেক্টেস থেকে, এফএ মডেলগুলি অগ্রাধিকার দেওয়া উচিত যেহেতু তারা পরিমাপের ত্রুটিগুলিতে স্পষ্টভাবে অ্যাকাউন্ট করে, যদিও পিসিএ সে বিষয়ে যত্ন করে না। সংক্ষেপে বলা হয়েছে, পিসিএ ব্যবহার করে আপনি প্রতিটি উপাদানকে (ফ্যাক্টর) ভেরিয়েবলের রৈখিক সংমিশ্রণ হিসাবে প্রকাশ করছেন, অন্যদিকে এফএতে এগুলি হল ভেরিয়েবল যা কারণগুলির লিনিয়ার সংমিশ্রণ হিসাবে প্রকাশ করা হয়েছে (সাম্প্রদায়িকতা এবং স্বতন্ত্রতা উপাদানগুলি সহ, যেমনটি আপনি বলেছেন)। মুল বক্তব্যটি হ'ল পিসিএ ভারম্যাক্স ঘোরার পরে কিছুটা "ডেটা বিশ্লেষণ" traditionতিহ্যে মূল পরিবর্তনশীল রৈখিক সংমিশ্রণের ব্যাখ্যাকে বিকৃত করে (মিশেল টেনেনহাউসের কাজ দেখুন)। একটি সাইকোমেট্রিকাল পার্সপেক্টেস থেকে, এফএ মডেলগুলি অগ্রাধিকার দেওয়া উচিত যেহেতু তারা পরিমাপের ত্রুটিগুলিতে স্পষ্টভাবে অ্যাকাউন্ট করে, যদিও পিসিএ সে বিষয়ে যত্ন করে না। সংক্ষেপে বলা হয়েছে, পিসিএ ব্যবহার করে আপনি প্রতিটি উপাদানকে (ফ্যাক্টর) ভেরিয়েবলের রৈখিক সংমিশ্রণ হিসাবে প্রকাশ করছেন, অন্যদিকে এফএতে এগুলি হল ভেরিয়েবল যা কারণগুলির লিনিয়ার সংমিশ্রণ হিসাবে প্রকাশ করা হয়েছে (সাম্প্রদায়িকতা এবং স্বতন্ত্রতা উপাদানগুলি সহ, যেমনটি আপনি বলেছেন)। এফএ মডেলগুলি পছন্দ করা উচিত যেহেতু তারা পরিমাপের ত্রুটিগুলি স্পষ্টভাবে অ্যাকাউন্ট করে, যদিও পিসিএ এ সম্পর্কে কোনও চিন্তা করে না। সংক্ষেপে বলা হয়েছে, পিসিএ ব্যবহার করে আপনি প্রতিটি উপাদানকে (ফ্যাক্টর) ভেরিয়েবলের রৈখিক সংমিশ্রণ হিসাবে প্রকাশ করছেন, অন্যদিকে এফএতে এগুলি হল ভেরিয়েবল যা কারণগুলির লিনিয়ার সংমিশ্রণ হিসাবে প্রকাশ করা হয়েছে (সাম্প্রদায়িকতা এবং স্বতন্ত্রতা উপাদানগুলি সহ, যেমনটি আপনি বলেছেন)। এফএ মডেলগুলি পছন্দ করা উচিত যেহেতু তারা পরিমাপের ত্রুটিগুলি স্পষ্টভাবে অ্যাকাউন্ট করে, যদিও পিসিএ এ সম্পর্কে কোনও চিন্তা করে না। সংক্ষেপে বলা হয়েছে, পিসিএ ব্যবহার করে আপনি প্রতিটি উপাদানকে (ফ্যাক্টর) ভেরিয়েবলের রৈখিক সংমিশ্রণ হিসাবে প্রকাশ করছেন, অন্যদিকে এফএতে এগুলি হল ভেরিয়েবল যা কারণগুলির লিনিয়ার সংমিশ্রণ হিসাবে প্রকাশ করা হয়েছে (সাম্প্রদায়িকতা এবং স্বতন্ত্রতা উপাদানগুলি সহ, যেমনটি আপনি বলেছেন)।
আমি আপনাকে এই বিষয়ে প্রথমে নিম্নলিখিত আলোচনাগুলি পড়ার পরামর্শ দিচ্ছি:
PCA followed by VARIMAX rotation somewhat distorts the interpretation of the linear combinations of the original variables in the "data analysis" tradition
। Chl, আপনি এটি ব্যাখ্যা করতে পারেন? ইহা আকর্ষণীয়.
ওয়েবে প্রচুর প্রস্তাবিত সংজ্ঞা রয়েছে। এখানে পরিসংখ্যান শেখার উপর অন-লাইন গ্লোসারি থেকে একটি :
প্রধান উপাদান বিশ্লেষণ
নতুন বৈশিষ্ট্যগুলি তৈরি করা যা কোনও ডেটা সেটের মূল উপাদান। প্রধান উপাদানগুলি হ'ল ইনপুট বৈশিষ্ট্যের লিনিয়ার সংমিশ্রণ থেকে নির্মিত সর্বোচ্চ বৈকল্পের এলোমেলো পরিবর্তনশীল। সমানভাবে, এগুলি হ'ল মূল উপাদানগুলির অক্ষগুলির উপর অনুমান, যা লাইন যা ডেটা সেটের প্রতিটি বিন্দুতে গড় স্কোয়ার দূরত্বকে হ্রাস করে। স্বতন্ত্রতা নিশ্চিত করতে, মূল উপাদানগুলির সমস্ত অক্ষই অরথোগোনাল হতে হবে। পিসিএ হ'ল ইনপুট এবং আউটপুট উভয় গায়েসীয় শব্দগুলির উপস্থিতিতে রৈখিক প্রতিরোধের সর্বাধিক সম্ভাবনার কৌশল। কিছু ক্ষেত্রে, পিসিএ ফুরিয়ার ট্রান্সফর্মের সাথে সম্পর্কিত, যেমন জেপিইজি চিত্র সংকোচনে ব্যবহৃত ডিসিটি। "স্বীকৃতির জন্য ইগেনফেসগুলি" (তুর্ক ও পেন্টল্যান্ড, জে কগনিটিভ নিউরোসায়েন্স 3 (1), 1991), বিশপ, "দেখুন
ফ্যাক্টর বিশ্লেষণ
পিসিএর একটি সাধারণীকরণ যা সর্বাধিক সম্ভাবনার উপর ভিত্তি করে তৈরি। পিসিএর মতো প্রতিটি উপাত্ত পয়েন্ট উপসর্গের মধ্যে একটি বিন্দুর নমুনা তৈরি করে এবং তারপরে পূর্ণ মাত্রিক গাউসিয়ান শব্দের সাথে ব্যথিত থেকে উদ্ভূত হয়। পার্থক্যটি হ'ল ফ্যাক্টর বিশ্লেষণ শোরগোলকে একটি নির্বিচারে তির্যক কোভেরিয়েন্স ম্যাট্রিক্সের অনুমতি দেয়, যখন পিসিএ ধরে নেয় গোলমালটি গোলাকৃতির is সাবস্পেসটি অনুমান করার পাশাপাশি ফ্যাক্টর বিশ্লেষণ শব্দের কোভারিয়েন্স ম্যাট্রিক্সের অনুমান করে। "ফ্যাক্টর অ্যানালাইজারদের মিশ্রণগুলির জন্য ইএম অ্যালগরিদম" দেখুন। পিসিএর জন্য মাত্রিকতার পছন্দ "।
এই থ্রেডের শীর্ষ উত্তরটি জানিয়েছে যে পিসিএ একটি মাত্রিক হ্রাস কৌশল বেশি, অন্যদিকে এফএ একটি সুপ্ত পরিবর্তনশীল কৌশল বেশি। এটি সেন্সু স্ট্রাইকটো সঠিক। তবে এখানে অনেক উত্তর এবং অন্য কোথাও অনেকগুলি চিকিত্সা পিসিএ এবং এফএকে দুটি সম্পূর্ণ ভিন্ন পদ্ধতি হিসাবে উপস্থাপন করে, বিপরীত লক্ষ্য, পদ্ধতি এবং ফলাফলগুলি নয় তবে ভিন্ন with আমি দ্বিমত পোষণ করি; আমি বিশ্বাস করি যে পিসিএ যখন একটি সুপ্ত পরিবর্তনশীল প্রযুক্তি হিসাবে নেওয়া হয়, তখন এটি এফএর বেশ কাছাকাছি থাকে এবং তাদেরকে আরও অনুরূপ পদ্ধতি হিসাবে আরও ভালভাবে দেখা উচিত।
আমি নীচের থ্রেডে পিসিএ এবং এফএর মধ্যে সাদৃশ্য এবং পার্থক্যের নিজস্ব অ্যাকাউন্ট সরবরাহ করেছি: EFA এর পরিবর্তে পিসিএ ব্যবহার করার কোনও ভাল কারণ আছে কি? এছাড়াও, পিসিএ কি ফ্যাক্টর বিশ্লেষণের বিকল্প হতে পারে? সেখানে আমি যুক্তি দিচ্ছি যে সাধারণ গাণিতিক কারণে পিসিএ এবং এফএর ফলাফলগুলি বেশ সমান হবে বলে আশা করা যায়, কেবলমাত্র ভেরিয়েবলের সংখ্যা খুব কম নয় (সম্ভবত এক ডজনেরও বেশি)। গাণিতিক বিবরণ এবং মন্টে কার্লো সিমুলেশনগুলির জন্য লিঙ্কযুক্ত থ্রেডে আমার [দীর্ঘ!] উত্তরটি দেখুন। আমার যুক্তির আরও সংক্ষিপ্ত সংস্করণের জন্য এখানে দেখুন: কোন অবস্থার অধীনে পিসিএ এবং এফএ একই ফলাফল দেয়?
এখানে আমি এটি একটি উদাহরণে দেখাতে চাই। আমি ইউসিআই মেশিন লার্নিং রিপোজিটরি থেকে ওয়াইন ডেটাসেট বিশ্লেষণ করব । এটি পি = 13 ভেরিয়েবল দ্বারা বর্ণিত তিনটি ভিন্ন আঙ্গুরের ওয়াইন সহ একটি মোটামুটি সুপরিচিত ডেটাসেট । এখানে পারস্পরিক সম্পর্ক ম্যাট্রিক্স কেমন দেখাচ্ছে:
আমি পিসিএ এবং এফএ উভয় বিশ্লেষণ চালিয়েছি এবং নীচের চিত্রটিতে তাদের উভয়ের জন্য বাইপ্লট হিসাবে ডেটার 2 ডি অনুমান দেখিয়েছি (বামদিকে পিসিএ, ডানদিকে এফএ)। অনুভূমিক এবং উল্লম্ব অক্ষগুলি 1 ম এবং 2 য় উপাদান / গুণক স্কোর দেখায়। প্রতিটি বিন্দু একটি ওয়ানের সাথে মিলে যায় এবং দলগুলি অনুযায়ী বর্ণগুলি বর্ণিত হয় (কিংবদন্তি দেখুন):
নোট করুন যে পিসিএ এবং এফএ মধ্যে খুব কমই পার্থক্য আছে! এখানে এবং সেখানে ছোট ছোট বিচ্যুতি রয়েছে, তবে সাধারণ চিত্রটি প্রায় অভিন্ন এবং সমস্ত লোডগুলি একই দিক এবং একই দিক নির্দেশ করে। তত্ত্বের কাছ থেকে এটাই প্রত্যাশা ছিল এবং অবাক হওয়ার কিছু নেই; তবুও, এটি পালন করা শিক্ষণীয়।
গীত। একই ডেটাসেটের অনেক সুন্দর পিসিএ বাইপ্লটের জন্য, @vqv দ্বারা এই উত্তরটি দেখুন ।
PPS। যদিও পিসিএ গণনাগুলি স্ট্যান্ডার্ড, এফএ গণনাতে একটি মন্তব্য প্রয়োজন হতে পারে। আংশিক পারস্পরিক সম্পর্কের সাথে সাম্প্রদায়িকতার সূচনা করে ফ্যাক্টর লোডিংগুলি একটি "পুনরাবৃত্ত মূল উপাদান" এলগরিদম দ্বারা কনভার্জেন্স (9 পুনরাবৃত্তি) অবধি গণনা করা হয়েছিল। লোডগুলি রূপান্তরিত হয়ে গেলে বার্টলেট পদ্ধতি ব্যবহার করে স্কোরগুলি গণনা করা হত। এটি মানসম্পন্ন স্কোর অর্জন করে; আমি তাদের সংশ্লিষ্ট ফ্যাক্টর বৈকল্পিক (লোডিংয়ের দৈর্ঘ্যের দ্বারা দেওয়া) দ্বারা মাপিয়েছি।
যৌক্তিক পদক্ষেপে স্ক্যাটারপ্লটসের সাহায্যে পিসিএ বনাম ফ্যাক্টর বিশ্লেষণের একটি মৌলিক, তবুও একধরনের শ্রমসাধ্য বিষয় । (আমি @ অ্যামিবা কে ধন্যবাদ জানাই যিনি এই প্রশ্নের মন্তব্যে আমাকে অন্য কোথাও লিঙ্ক তৈরি করার জায়গায় উত্তর পোস্ট করতে উত্সাহিত করেছেন। সুতরাং এখানে অবসর, দেরিতে সাড়া দেওয়া হয়েছে।)
আশা করি আপনারা ইতিমধ্যে পিসিএ সম্পর্কে বুঝতে পেরেছেন। এখনই পুনরুদ্ধার করতে।
এই সহগগুলি হ'ল ঘূর্ণনের কোসাইন (= দিকের কোসিন, মূল দিকনির্দেশ) এবং যাকে ইগেনভেেক্টর বলা হয় তা অন্তর্ভুক্ত হয়, যখন কোভরিয়েন্স ম্যাট্রিক্সের ইগেনভ্যালুগুলি মূল উপাদানগুলির বৈকল্পিক। পিসিএ-তে আমরা সাধারণত দুর্বল শেষ উপাদানগুলি ফেলে রাখি: আমরা অল্প তথ্য হ্রাসের সাথে কয়েকটি প্রথম উত্তোলিত উপাদান দ্বারা ডেটা সংক্ষিপ্ত করি।
Covariances
V1 V2
V1 1.07652 .73915
V2 .73915 .95534
----PCA----
Eigenvalues %
P1 1.75756 86.500
P2 .27430 13.500
Eigenvectors
P1 P2
V1 .73543 -.67761
V2 .67761 .73543
আমাদের প্লট করা ডেটা, পি 1 উপাদান মান (স্কোর) P1 = .73543*V1 + .67761*V2
এবং উপাদান পি 2 সহ আমরা বাতিল করি। পি 1 এর বৈকল্পিকতা হল 1.75756
, কোভারিয়েন্স ম্যাট্রিক্সের 1 ম ইগেনাল্যু, এবং তাই পি 86.5%
1 সমান সমান মোট প্রকরণের ব্যাখ্যা করে (1.07652+.95534) = (1.75756+.27430)
।
এখন, পিসিএর বৈশিষ্ট্যটি হ'ল আমরা যদি ডেটার প্রতিটি পয়েন্টের জন্য E1 এবং E2 গণনা করি এবং এই স্থানাঙ্কগুলি প্লট করি - তবে ত্রুটিগুলিকে একাই স্ক্রটারপ্লট বানিয়ে ফেলি তবে ক্লাউড "ত্রুটি ডেটা" বাতিল করা উপাদান পি 2 এর সাথে মিলে যাবে। এবং এটি করে: মেঘটি বেইজ মেঘের মতো একই ছবিতে প্লট করা হয়েছিল - এবং আপনি দেখতে পাচ্ছেন যে এটি পি 2 উপাদান স্কোরের সাথে টাইল্ড হিসাবে অক্ষ P2 ( চিত্র 1 এর ) গঠন করে।
অবাক হওয়ার কিছু নেই, আপনি বলতে পারেন। এটি এতটাই সুস্পষ্ট: পিসিএ-তে , ফেলে দেওয়া জুনিয়র উপাদান (গুলি) হ'ল প্রক্ষেপণ ত্রুটিগুলিতে ই স্পষ্টভাবে পচে যাওয়া (গুলি), যে মডেলটিতে সুপ্ত বৈশিষ্ট্য (গুলি) পি 1 দ্বারা মূল ভেরিয়েবল ভি ব্যাখ্যা করে (পুনরুদ্ধার করে)। ত্রুটিগুলি E একসাথে বাম আউট উপাদান (গুলি) গঠন করে। এখানেই ফ্যাক্টর বিশ্লেষণ পিসিএ থেকে পৃথক হতে শুরু করে।
সাধারণত, নিষ্কাশিত সুপ্ত বৈশিষ্ট্য (গুলি) দ্বারা ম্যানিফেস্ট ভেরিয়েবলের পূর্বাভাসকারী মডেলটি পিসিএর মতোই এফএতে একই; [ EQ.3 ]:
যেখানে এফ হ'ল সুপ্ত সাধারণ উপাদান যা ডেটা থেকে বের করা হয় এবং E1.2 তে P1 কী ছিল তা প্রতিস্থাপন করে । মডেলের পার্থক্যটি হ'ল এফএ-তে, পিসিএর বিপরীতে, ত্রুটি ভেরিয়েবলগুলি (E1 এবং E2) একে অপরের সাথে সম্পর্কযুক্ত হওয়া প্রয়োজন ।
ঠিক আছে, থ্রেড ফিরে। E1 এবং E2 ফ্যাক্টর বিশ্লেষণে অসামঞ্জস্যিত; সুতরাং, তাদের গোলাকার বা উপবৃত্তাকার ত্রুটিগুলির মেঘ গঠন করা উচিত তবে ত্রিভুজ ভিত্তিক নয়। পিসিএ থাকাকালীন তাদের মেঘটি সরু রেখার তির্যকভাবে পি 2 এর সাথে মিলে যায়। উভয় ধারণা ছবিতে প্রদর্শিত হয়:
নোট করুন যে ত্রুটিগুলি এফএ-তে বৃত্তাকার (তির্যকভাবে দীর্ঘায়িত নয়) মেঘ। এফএ-তে ফ্যাক্টর (সুপ্ত) কিছুটা আলাদা ভিত্তিক, যেমন এটি পিসিএতে "সুপ্ত" হ'ল প্রথম প্রধান উপাদানটি ঠিক নয়। ছবিটিতে, ফ্যাক্টর লাইনটি অদ্ভুতভাবে কিছুটা শঙ্কুযুক্ত - শেষ পর্যন্ত কেন এটি স্পষ্ট হবে।
পিসিএ এবং এফএ মধ্যে এই পার্থক্যটির অর্থ কী? ভেরিয়েবলগুলি সম্পর্কযুক্ত, যা ডেটা মেঘের তির্যক উপবৃত্তাকার আকারে দেখা যায়। পি 1 সর্বাধিক বৈকল্পিকতা স্কিম করেছে, সুতরাং উপবৃত্তটি P1 তে সহ-নির্দেশিত। ফলস্বরূপ পি 1 নিজে থেকেই পারস্পরিক সম্পর্ক ব্যাখ্যা করেছেন; তবে এটি বিদ্যমান সম্পর্কের পরিমাণ পর্যাপ্তভাবে ব্যাখ্যা করতে পারেনি ; এটি ডেটা পয়েন্টের পার্থক্য ব্যাখ্যা করতে চেয়েছিল , পারস্পরিক সম্পর্ক নয়। প্রকৃতপক্ষে, এটি পারস্পরিক সম্পর্ককে বেশি পরিমাণে জড়িত করে, যার ফলস্বরূপ ত্রুটিগুলির ত্রিভুজযুক্ত মেঘের উপস্থিতি ছিল যা ওভার অ্যাকাউন্টের জন্য ক্ষতিপূরণ দেয়। একা P1 সম্পূর্ণরূপে / covariation শক্তি ব্যাখ্যা করতে পারবেন না। ফ্যাক্টর এফ পারেনএকা কর; এবং যখন এটি করতে সক্ষম হয় তখন শর্তটি ঠিক যেখানে ত্রুটিগুলি সম্পর্কযুক্ত হতে বাধ্য করা যেতে পারে। যেহেতু ত্রুটির মেঘটি কোনও সম্পর্কযুক্ত নয় - ইতিবাচক বা নেতিবাচক - ফ্যাক্টরটি বের করার পরে থেকে যায়, তাই এটিই ফ্যাক্টর যা এটি সমস্ত স্কিম করে।
একটি মাত্রিকতা হ্রাস হিসাবে, পিসিএ বৈকল্পিক ব্যাখ্যা করে কিন্তু সংশোধনকে সঠিকভাবে ব্যাখ্যা করে। এফএ সংযোগগুলি ব্যাখ্যা করে তবে পিসিএ যতটা ডেটা প্রকরণের হিসাব করতে পারে না (সাধারণ কারণগুলির দ্বারা)। এফএতে ফ্যাক্টর (গুলি) পরিবর্তনশীলতার সেই অংশের জন্য অ্যাকাউন্ট যা নেট পারস্পরিক সম্পর্কযুক্ত অংশ, যাকে সাম্প্রদায়িকতা বলা হয় ; এবং তাই কারণগুলিকে প্রকৃত এখনও অবলম্বনযোগ্য শক্তি / বৈশিষ্ট্য / বৈশিষ্ট্য হিসাবে ব্যাখ্যা করা যেতে পারে যা ইনপুট ভেরিয়েবলগুলি "সম্পর্কিত" বা "পিছনে" লুকিয়ে রাখে যাতে তারা সম্পর্কিত হতে পারে। কারণ তারা গাণিতিকভাবে পারস্পরিক সম্পর্ককে ব্যাখ্যা করে। প্রধান উপাদান (প্রথম কয়েকটি) এটি গাণিতিকভাবে ব্যাখ্যা করে না পাশাপাশি এবং তাই কেবল কিছু প্রসারিত এবং স্থায়ীভাবে "সুপ্ত বৈশিষ্ট্য" (বা এ জাতীয়) বলা যেতে পারে ।
গুণ loadings যদি বিশ্লেষণ সহভেদাংক ম্যাট্রিক্স ওপর ভিত্তি করে (আউট উদাহরণ হিসাবে) বরং পারস্পরিক সম্পর্ক ম্যাট্রিক্স চেয়ে - কি (পুনরুদ্ধার) পারস্পরিক সম্পর্ক, অথবা সহভেদাংক আকারে correlatedness ব্যাখ্যা করে। আমি প্রাপ্ত তথ্য দিয়ে ফ্যাক্টর বিশ্লেষণ করেছি a_1=.87352, a_2=.84528
, তাই পণ্য a_1*a_2 = .73837
প্রায় সমবায় সমান .73915
। অন্যদিকে, পিসিএ loadings ছিল a1_1=.97497, a1_2=.89832
, তাই a1_1*a1_2 = .87584
overestimates .73915
যথেষ্ট।
পিসিএ এবং এফএ-এর মধ্যে মূল তাত্ত্বিক পার্থক্য ব্যাখ্যা করে, আসুন ধারণাটির উদাহরণ দেওয়ার জন্য আমাদের ডেটাতে ফিরে আসি।
নীচে স্ক্র্যাপপ্লট বিশ্লেষণের ফলাফলগুলি দেখায় যা আমরা অস্থায়ীভাবে "উপ-অনুকূল ফ্যাক্টর বিশ্লেষণ", চিত্র 3 বলব ।
A technical detail (you may skip): PAF method used for factor extraction.
Factor scores computed by Regression method.
Variance of the factor scores on the plot was scaled to the true
factor variance (sum of squared loadings).
থেকে প্রস্থান দেখুন Fig.2 পিসিএ করুন। ত্রুটিগুলির বেইজ মেঘটি গোলাকার নয়, এটি ত্রিভুজাকারে উপবৃত্তাকার - তবু এটি পিসিএতে পাতলা তির্যক রেখার চেয়ে স্পষ্টতই আরও মোটা। এও লক্ষ্য করুন যে ত্রুটি সংযোগকারীগুলি (কিছু পয়েন্টের জন্য দেখানো হয়েছে) আর সমান্তরাল নয় (পিসিএতে, তারা পি 2 এর সমান্তরাল সংজ্ঞা অনুসারে ছিল)। তদতিরিক্ত, যদি আপনি উদাহরণস্বরূপ, ফ্যাক্টরের এফ অক্ষের উপর প্রতিসাম্যিকভাবে আয়না পড়ে থাকা "F" এবং "E" পয়েন্টগুলিতে দেখেন, অপ্রত্যাশিতভাবে, তাদের সম্পর্কিত ফ্যাক্টর স্কোরগুলি বেশ আলাদা মান হতে পারে। অন্য কথায়, ফ্যাক্টর স্কোরগুলি কেবল রৈখিকভাবে রূপান্তরিত মূল উপাদান স্কোর নয়: ফ্যাক্টর এফ তার নিজস্ব উপায়ে পি 1 উপায় থেকে পৃথকভাবে পাওয়া যায়। তাদের অক্ষ সম্পূর্ণরূপে যদি একই চক্রান্ত একসাথে দেখানো কাকতালীয়ভাবে না Fig.4 :
এগুলি ছাড়াও তারা কিছুটা ভিন্ন প্রাচ্যযুক্ত, এফ (স্কোর সহ টাইলস) খাটো, অর্থাত্ এটি পি 1 অ্যাকাউন্টগুলির চেয়ে ছোট ভেরিয়েন্স হিসাবে বিবেচিত। আগে যেমন উল্লেখ করা, শুধুমাত্র পরিবর্তনশীলতা জন্য ফ্যাক্টর অ্যাকাউন্টগুলির V1 থেকে V2 এর correlatedness জন্য দায়ী, মোট ভ্যারিয়েন্সের অংশ যে আদিম সহভেদাংক থেকে ভেরিয়েবল আনতে যথেষ্ট অর্থাৎ 0
তথ্যসংক্রান্ত সহভেদাংক করতে .73915
।
একটি অনুকূল ফ্যাক্টর সমাধান হ'ল ত্রুটিগুলি বৃত্তাকার বা অ-তির্যক উপবৃত্তাকার মেঘ: E1 এবং E2 সম্পূর্ণরূপে অসম্পৃক্ত থাকে । ফ্যাক্টর বিশ্লেষণ আসলে ফেরৎ যেমন একটি সন্তোষজনক সমাধান। আমি উপরেরগুলির মতো সাধারণ স্ক্রেটারপ্লোটে এটি দেখাইনি। কেন করলাম? - কারণ এটি সর্বোপরি সবচেয়ে আকর্ষণীয় জিনিস হত।
কারণটি হ'ল স্ক্রেটারপ্লোটে পর্যাপ্ত পরিমাণে প্রদর্শন করা অসম্ভব, এমনকি একটি 3D প্লটও গ্রহণ করা। এটি তাত্ত্বিকভাবে বেশ আকর্ষণীয় বিষয়। E1 এবং E2 সম্পূর্ণরূপে অসম্পর্কিত করার জন্য এটি প্রদর্শিত হয় যে এফ, ই 1, ই 2 এই তিনটি ভেরিয়েবল V1, V2 দ্বারা সংজ্ঞায়িত স্থান (প্লেন) এ থাকা উচিত নয় ; এবং তিনটি একে অপরের সাথে সম্পর্কযুক্ত হতে হবে । আমি বিশ্বাস করি যে 5D তে এই জাতীয় একটি স্ক্র্যাটারপ্লট আঁকানো সম্ভব (এবং সম্ভবত কিছু কল্পনা দিয়ে - 4 ডি তে) তবে আমরা 3 ডি বিশ্বে বাস করি, হায়! ফ্যাক্টর এফ অবশ্যই E1 এবং E2 উভয়ের সাথেই সম্পর্কহীন থাকতে হবে (যখন তারা দু'জনও খুব বেশি সম্পর্কযুক্ত নয়) কারণ পর্যবেক্ষণ করা তথ্যের মধ্যে F একমাত্র (পরিষ্কার) এবং পারস্পরিক সম্পর্কের সম্পূর্ণ উত্স বলে মনে করা হচ্ছে। ফ্যাক্টর বিশ্লেষণ মোট ভ্যারিয়েন্স splits এরp
ইনপুট ভেরিয়েবলগুলি দুটি অযৌক্তিক (ননওভারল্যাপিং) অংশগুলিতে রূপান্তরিত করে: সাম্প্রদায়িকতা অংশ ( m
-মাত্রিক, যেখানে m
সাধারণ উপাদানগুলি নিয়ম করে) এবং স্বতন্ত্রতা অংশ ( p
-ত্রৈমাসিক, যেখানে ত্রুটিগুলি হয়, একে একে অনন্য উপাদানও বলা হয়, পারস্পরিকভাবে অসংবিযুক্ত)।
সুতরাং এখানে একটি স্ক্যাটারপ্লোটে আমাদের ডেটার সত্যিকারের গুণকটি প্রদর্শন না করার জন্য ক্ষমা করুন। এটি "সাবজেক্ট স্পেস" তে ভেক্টরদের মাধ্যমে ডেটা পয়েন্ট প্রদর্শন না করে এখানে যথেষ্ট পরিমাণে ভিজ্যুয়ালাইজ করা যেতে পারে ।
উপরে, "সাধারণ এফএ (সুপ্ত বৈশিষ্ট্য) ধারণা" বিভাগে, আমি সত্যিকারের ফ্যাক্টর অক্ষটি প্লেন ভি 1 ভি 2-তে পড়ে না বলে সতর্ক করার জন্য আমি ফেজার (অক্ষ এফ) প্রদর্শন করলাম । এর অর্থ এই যে - প্রধান উপাদান পি 1 এর বিপরীতে - অক্ষর হিসাবে ফ্যাক্টর এফ তাদের স্থানের অক্ষ V1 বা V2 এর ঘূর্ণন নয় এবং ভেরিয়েবল হিসাবে ভেরিয়েবল ভি 1 এবং ভি 2 এর রৈখিক সংমিশ্রণ নয় । সুতরাং এফটি মডেল করা হয়েছে (ভেরিয়েবল ভি 1 ভি 2 থেকে প্রাপ্ত) যেন কোনও বাহ্যিক, স্বতন্ত্র ভেরিয়েবল, সেগুলির উত্স নয়। EQ.1 এর মতো সমীকরণগুলি যেখানে পিসিএ শুরু হয়, ফ্যাক্টর বিশ্লেষণের ক্ষেত্রে সত্য (অনুকূল) গুণক গণনা করতে অনুপযুক্ত , অন্যদিকে আনুষ্ঠানিকভাবে আইসোমরফিক সমীকরণ Eq.2 এবং Eq.3।উভয় বিশ্লেষণের জন্য বৈধ। এটি হ'ল, পিসিএ ভেরিয়েবলগুলিতে উপাদান এবং উপাদানগুলির ব্যাকটি ভেরিয়েবল উত্পন্ন করে; এফএ মধ্যে ফ্যাক্টর (গুলি) জেনারেট / ভেরিয়েবল ভবিষ্যদ্বাণী করা, এবং ফিরে না সাধারণ ফ্যাক্টর মডেল ধারণার দিক থেকে অনুমান - তাই , যদিও টেকনিক্যালি কারণের পরিলক্ষিত ভেরিয়েবল থেকে নিষ্কাশিত হয়।
কেবল সত্য ফ্যাক্টরই মেনিফেস্ট ভেরিয়েবলের কাজ নয়, সত্য ফ্যাক্টরের মানগুলি স্বতন্ত্রভাবে সংজ্ঞায়িত হয় না । অন্য কথায়, এগুলি কেবল অজানা। এই সমস্ত কারণে আমরা অতিরিক্ত 5D বিশ্লেষণকারী স্পেসে থাকি এবং আমাদের বাড়ির 2D স্পেসে নেই। ফ্যাক্টর স্কোর বলা প্রকৃত গুণকের মানগুলির জন্য কেবলমাত্র ভাল অনুমান (বেশ কয়েকটি পদ্ধতি বিদ্যমান ) আমাদের জন্য রয়েছে। ফ্যাক্টর স্কোরগুলি প্লেন ভি 1 ভি 2-তে থাকে, যেমন মূল উপাদানগুলির স্কোর, সেগুলিও ভি 1, ভি 2 এর লিনিয়ার ফাংশন হিসাবে গণনা করা হয় এবং এটি ছিলযা আমি "এফএ: আনুমানিক সমাধান (ফ্যাক্টর স্কোর)" বিভাগে প্লট করেছি। প্রধান উপাদান স্কোরগুলি সত্য উপাদান উপাদান; ফ্যাক্টর স্কোরগুলি নিরবচ্ছিন্ন প্রকৃত গুণকের মানগুলির জন্য কেবলমাত্র যুক্তিসঙ্গত।
সুতরাং, "এফএ: আনুমানিক সমাধান (ফ্যাক্টর স্কোর)" বিভাগে আমার দ্বারা প্রদর্শিত "ফ্যাক্টর সলিউশন "টি আসলে সর্বোত্তম লোডিংয়ের উপর নির্ভর করে, যেমন সত্য কারণগুলির উপর। তবে স্কোরগুলি ভাগ্যের দ্বারা অনুকূল ছিল না। স্কোরগুলি পর্যবেক্ষিত ভেরিয়েবলগুলির একটি লিনিয়ার ফাংশন হিসাবে গণনা করা হয়, যেমন উপাদান স্কোরগুলি হয়, তাই তাদের উভয়কে একটি স্ক্র্যাটারপ্লোটের সাথে তুলনা করা যেতে পারে এবং আমি এফএ ধারণা সম্পর্কে পিসিএ ধারণা থেকে ধীরে ধীরে পাসের মতো প্রদর্শন করার জন্য ডায়টিক অনুসরণে এটি করেছি।
যখন একই ষড়যন্ত্র এক সতর্ক হতে হবে biplot "কারণের স্থান" ফ্যাক্টর স্কোর সঙ্গে ফ্যাক্টর loadings, সচেতন যে loadings সত্য কারণের অধিকারে থাকা যখন স্কোর কারণের ভাড়াটে করার জন্য (আমার মন্তব্য দেখতে অধিকারে থাকা হতে এই উত্তরটি এই থ্রেড)।
কারণগুলির ঘূর্ণন (লোডিং) সুপ্ত বৈশিষ্ট্যগুলি ব্যাখ্যা করতে সহায়তা করে। লোডিংয়ের আবর্তন পিসিএতেও করা যেতে পারে আপনি যদি পিসিএ ব্যবহার করেন যেন ফ্যাক্টাল এনালাইসিস (অর্থাৎ পিসিএকে ভেরিয়েবল প্রেডিকশন হিসাবে দেখুন)। ভেরিয়েবলের সংখ্যা বাড়ার সাথে সাথে পিসিএ এফএর সাথে ফলাফলগুলিতে রূপান্তরিত হয় ( ব্যবহারিক এবং ধারণাগত মিল এবং দুটি পদ্ধতির মধ্যে পার্থক্য সম্পর্কে অত্যন্ত সমৃদ্ধ সুতো দেখুন )। এই উত্তরটির শেষে আমার পিসিএ এবং এফএর মধ্যে পার্থক্যগুলির তালিকাটি দেখুন । আইরিস ডেটাसेट ে পিসিএ বনাম এফএ এর ধাপে ধাপে গণনা এখানে পাওয়া যায় । এই থ্রেডের বাইরের বিষয়ে অন্যান্য অংশগ্রহণকারীদের উত্তরের জন্য যথেষ্ট সংখ্যক ভাল লিঙ্ক রয়েছে; আমি দুঃখিত আমি বর্তমান উত্তরটিতে তাদের মধ্যে কয়েকটি ব্যবহার করেছি।
এখানে পিসিএ এবং এফএর মধ্যে পার্থক্যগুলির একটি বুলেট তালিকাও দেখুন ।
ফ্যাক্টর বিশ্লেষণ এবং প্রধান উপাদান বিশ্লেষণের মধ্যে পার্থক্যগুলি হ'ল:
Factor ফ্যাক্টর বিশ্লেষণে একটি কাঠামোগত মডেল এবং কিছু অনুমান রয়েছে। এই ক্ষেত্রে এটি একটি পরিসংখ্যান কৌশল যা মূল উপাদান বিশ্লেষণের ক্ষেত্রে প্রযোজ্য না যা খাঁটি গণিতের রূপান্তর।
Component মূল উপাদান বিশ্লেষণের লক্ষ্যটি হ'ল বৈচিত্রটি ব্যাখ্যা করা হয় যখন ফ্যাক্টর বিশ্লেষণের সাথে ভেরিয়েবলগুলির মধ্যে সমবায় ব্যাখ্যা হয়।
দুজনের মধ্যে বিভ্রান্তির সবচেয়ে বড় কারণটির সাথে ফ্যাক্টর বিশ্লেষণে ফ্যাক্টর এক্সট্রাকশন পদ্ধতির একটিকে "প্রধান উপাদানগুলির পদ্ধতি" বলা হয় with তবে, পিসিএ ব্যবহার করা একটি জিনিস এবং এফএতে প্রধান উপাদানগুলির পদ্ধতিটি ব্যবহার করার জন্য অন্য জিনিস । নামগুলি একই হতে পারে, তবে উল্লেখযোগ্য পার্থক্য রয়েছে। পূর্ববর্তীটি একটি স্বতন্ত্র বিশ্লেষণ পদ্ধতি যেখানে দ্বিতীয়টি কেবল ফ্যাক্টর নিষ্কাশনের একটি সরঞ্জাম।
আমার জন্য (এবং আমি আশা করি এটি দরকারী) ফ্যাক্টর বিশ্লেষণ পিসিএর চেয়ে অনেক বেশি কার্যকর।
সম্প্রতি, আমি ফ্যাক্টর বিশ্লেষণের মাধ্যমে স্কেল বিশ্লেষণের আনন্দ পেয়েছি। এই স্কেলটি (যদিও এটি ব্যাপকভাবে শিল্পে ব্যবহৃত হয়) পিসিএ ব্যবহার করে তৈরি করা হয়েছিল এবং আমার জ্ঞানের সাথে ফ্যাক্টর বিশ্লেষণ করা হয়নি।
যখন আমি ফ্যাক্টর বিশ্লেষণ (প্রধান অক্ষ) সম্পাদন করি তখন আমি আবিষ্কার করেছি যে তিনটি আইটেমের জন্য সাম্প্রদায়িকতা 30% এরও কম ছিল, যার অর্থ আইটেমগুলির বৈকল্পিকতার 70% এর বেশি বিশ্লেষণ করা হচ্ছে না। পিসিএ কেবলমাত্র ডেটাটিকে একটি নতুন সংমিশ্রণে রূপান্তরিত করে এবং সাম্প্রদায়িকতার বিষয়ে চিন্তা করে না। আমার উপসংহারটি ছিল যে স্কেলটি মনোবিজ্ঞানের দিক থেকে খুব ভাল ছিল না এবং আমি এটি একটি ভিন্ন নমুনা দিয়ে নিশ্চিত করেছি।
মূলত, আপনি যদি উপাদানগুলি ব্যবহার করে ভবিষ্যদ্বাণী করতে চান, পিসিএ ব্যবহার করুন, আপনি যদি সুপ্ত কারণগুলি বুঝতে চান তবে ফ্যাক্টর বিশ্লেষণ ব্যবহার করুন।
@ স্ট্যাটিস্টিকস ডক কনসাল্টিংয়ের উত্তরে প্রসারিত: ইএফএ এবং পিসিএর মধ্যে লোডিংয়ের পার্থক্য অল্প সংখ্যক ভেরিয়েবলের সাথে অ-তুচ্ছ। আর-তে এটি প্রদর্শনের জন্য এখানে একটি সিমুলেশন ফাংশন রয়েছে:
simtestit=function(Sample.Size=1000,n.Variables=3,n.Factors=1,Iterations=100)
{require(psych);X=list();x=matrix(NA,nrow=Sample.Size,ncol=n.Variables)
for(i in 1:Iterations){for(i in 1:n.Variables){x[,i]=rnorm(Sample.Size)}
X$PCA=append(X$PCA,mean(abs(principal(x,n.Factors)$loadings[,1])))
X$EFA=append(X$EFA,mean(abs(factanal(x,n.Factors)$loadings[,1])))};X}
Iterations
Sample.Size
Iterations
principal()
factanal()
এই কোডটি ব্যবহার করে, আমি ডেটা তৈরির জন্য প্রতিটি 500 টি পুনরাবৃত্তির সাথে 3 data100 ভেরিয়েবলের নমুনাগুলি সিমুলেটেড করেছি:
Y=data.frame(n.Variables=3:100,Mean.PCA.Loading=rep(NA,98),Mean.EFA.Loading=rep(NA,98))
for(i in 3:100)
{X=simtestit(n.Variables=i,Iterations=500);Y[i-2,2]=mean(X$PCA);Y[i-2,3]=mean(X$EFA)}
... গড় লোডিংয়ের সংবেদনশীলতার প্লটের জন্য (ভেরিয়েবল এবং পুনরাবৃত্তির জুড়ে) ভ্যারিয়েবলের সংখ্যায়:
একজন পিসিএকে এফএর মতো হিসাবে ভাবতে পারে যেখানে সাম্প্রদায়িকতাগুলি সমস্ত ভেরিয়েবলের জন্য 1 সমান বলে ধরে নেওয়া হয়। অনুশীলনে, এর অর্থ এই যে আইটেমগুলিতে কম সাম্প্রদায়িকতার কারণে এফএতে তুলনামূলকভাবে কম ফ্যাক্টর লোডিং থাকবে তাদের পিসিএতে বেশি লোডিং থাকবে। বিশ্লেষণের প্রাথমিক উদ্দেশ্যটি হ'ল আইটেমের দৈর্ঘ্য কাটা এবং স্বল্প বা স্বতঃস্ফূর্ত লোডযুক্ত ব্যক্তিদের আইটেমগুলির একটি ব্যাটারি পরিষ্কার করা বা আইটেম পুলটিতে ভালভাবে প্রতিনিধিত্ব করা না এমন ধারণাগুলি সনাক্ত করা যদি এটি বিশিষ্ট বৈশিষ্ট্য নয়।
সত্যিই দুর্দান্ত পাঠ্যপুস্তকের একটি উদ্ধৃতি (ব্রাউন, 2006, পৃষ্ঠা 22, জোর দেওয়া হয়েছে)।
পিসিএ = প্রধান উপাদান বিশ্লেষণ
ইএফএ = অনুসন্ধানমূলক উপাদান বিশ্লেষণ
সিএফএ = নিশ্চিতকরণমূলক ফ্যাক্টর বিশ্লেষণ
যদিও এএফএ সম্পর্কিত, মূল উপাদান বিশ্লেষণ (পিসিএ) প্রায়শই সাধারণ ফ্যাক্টর বিশ্লেষণের অনুমান পদ্ধতি হিসাবে ভুলভ্রষ্ট হয়। পূর্ববর্তী অনুচ্ছেদে (এমএল, পিএফ) আলোচিত অনুমানের বিপরীতে, পিসিএ বিভিন্ন পরিমাণগত পদ্ধতিতে নির্ভর করে যা সাধারণ ফ্যাক্টর মডেলের ভিত্তিতে নয়। পিসিএ সাধারণ এবং অনন্য বৈচিত্রকে আলাদা করে না। বরং, পিসিএ লক্ষ্য করেছে যে তাদের মধ্যে পারস্পরিক সম্পর্কের ব্যাখ্যা দেওয়ার পরিবর্তে পর্যবেক্ষণ করা ব্যবস্থাগুলির পার্থক্যের জন্য অ্যাকাউন্ট করা। সুতরাং, পরবর্তী বিশ্লেষণগুলিতে ব্যবহারের জন্য কম, সামঞ্জস্যযোগ্য ভেরিয়েবলের বৃহত্তর ব্যবস্থাগুলির একটি বৃহত সেটকে হ্রাস করতে পিসিএ আরও সঠিকভাবে ডেটা হ্রাস কৌশল হিসাবে ব্যবহৃত হয়। তবে কিছু পদ্ধতিবিজ্ঞানী যুক্তি দেখিয়েছেন যে পিসিএ হ'ল ইএফএর একটি যুক্তিসঙ্গত বা সম্ভবত উচ্চতর বিকল্প, পিসিএর বেশ কয়েকটি কাঙ্ক্ষিত পরিসংখ্যানগত বৈশিষ্ট্য রয়েছে (যেমন, গণ্যকরূপে সহজ, অনুপযুক্ত সমাধানের জন্য সংবেদনশীল নয়) এর প্রেক্ষিতে, প্রায়শই ইএফএর মতো ফলাফল তৈরি করে, পিসিএর ক্ষমতা একটি মূল উপাদানটিতে অংশগ্রহীতার স্কোর গণনা করার ক্ষমতা যেখানে অনির্দিষ্ট প্রকৃতির ইএফএ এই জাতীয় গণনা জটিল করে)। যদিও এই বিষয়ে বিতর্ক অব্যাহত রয়েছে, ফ্যাব্রিগার এট আল। (1999) ফ্যাক্টর বিশ্লেষণে পিসিএর স্থানের পক্ষে যুক্তির বিরোধিতা করার কয়েকটি কারণ প্রদান করে। এই লেখকরা পরিস্থিতিগুলিকে আন্ডাররেড করে যেখানে ইফা এবং পিসিএ ভিন্ন ভিন্ন ফলাফল দেয়; উদাহরণস্বরূপ, যখন সাম্প্রদায়িকতা কম থাকে বা যখন কোনও প্রদত্ত ফ্যাক্টরের কয়েকটি সূচক থাকে (সিএফ। উইদামান, 1993)। প্রায়শই ইএফএর মতো ফলাফল তৈরি করে, মূল উপাদানটিতে অংশগ্রহণকারীদের স্কোর গণনা করার ক্ষমতা পিসিএর ক্ষমতা যেখানে ইএফএর অনির্দিষ্ট প্রকৃতি যেমন গণনা জটিল করে তোলে)। যদিও এই বিষয়ে বিতর্ক অব্যাহত রয়েছে, ফ্যাব্রিগার এট আল। (1999) ফ্যাক্টর বিশ্লেষণে পিসিএর স্থানের পক্ষে যুক্তির বিরোধিতা করার কয়েকটি কারণ প্রদান করে। এই লেখকরা পরিস্থিতিগুলিকে আন্ডাররেড করে যেখানে ইফা এবং পিসিএ ভিন্ন ভিন্ন ফলাফল দেয়; উদাহরণস্বরূপ, যখন সাম্প্রদায়িকতা কম থাকে বা যখন কোনও প্রদত্ত ফ্যাক্টরের কয়েকটি সূচক থাকে (সিএফ। উইদামান, 1993)। প্রায়শই ইএফএর মতো ফলাফল তৈরি করে, মূল উপাদানটিতে অংশগ্রহণকারীদের স্কোর গণনা করার ক্ষমতা পিসিএর ক্ষমতা যেখানে ইএফএর অনির্দিষ্ট প্রকৃতি যেমন গণনা জটিল করে তোলে)। যদিও এই বিষয়ে বিতর্ক অব্যাহত রয়েছে, ফ্যাব্রিগার এট আল। (1999) ফ্যাক্টর বিশ্লেষণে পিসিএর স্থানের পক্ষে যুক্তির বিরোধিতা করার কয়েকটি কারণ প্রদান করে। এই লেখকরা পরিস্থিতিগুলিকে আন্ডাররেড করে যেখানে ইফা এবং পিসিএ ভিন্ন ভিন্ন ফলাফল দেয়; উদাহরণস্বরূপ, যখন সাম্প্রদায়িকতা কম থাকে বা যখন কোনও প্রদত্ত ফ্যাক্টরের কয়েকটি সূচক থাকে (সিএফ। উইদামান, 1993)। (1999) ফ্যাক্টর বিশ্লেষণে পিসিএর স্থানের পক্ষে যুক্তির বিরোধিতা করার কয়েকটি কারণ প্রদান করে। এই লেখকরা পরিস্থিতিগুলিকে আন্ডাররেড করে যেখানে ইফা এবং পিসিএ ভিন্ন ভিন্ন ফলাফল দেয়; উদাহরণস্বরূপ, যখন সাম্প্রদায়িকতা কম থাকে বা যখন কোনও প্রদত্ত ফ্যাক্টরের কয়েকটি সূচক থাকে (সিএফ। উইদামান, 1993)। (1999) ফ্যাক্টর বিশ্লেষণে পিসিএর স্থানের পক্ষে যুক্তির বিরোধিতা করার কয়েকটি কারণ প্রদান করে। এই লেখকরা পরিস্থিতিগুলিকে আন্ডাররেড করে যেখানে ইফা এবং পিসিএ ভিন্ন ভিন্ন ফলাফল দেয়; উদাহরণস্বরূপ, যখন সাম্প্রদায়িকতা কম থাকে বা যখন কোনও প্রদত্ত ফ্যাক্টরের কয়েকটি সূচক থাকে (সিএফ। উইদামান, 1993)।নির্বিশেষে, যদি কোনও বিশ্লেষণের ওভাররাইডিং যুক্তি এবং অভিজ্ঞতাগত উদ্দেশ্যগুলি সাধারণ ফ্যাক্টর মডেলের সাথে মিলিত হয়, তবে এটি পিসিএ পরিচালনার জন্য ধারণাগত এবং গাণিতিকভাবে বেমানান; এটি হ'ল, উল্লিখিত উদ্দেশ্যটি পর্যবেক্ষণকৃত ব্যবস্থায় পরিমাপের ত্রুটির অস্তিত্বকে স্বীকৃতি দিয়ে স্বল্প মাত্রার সংখ্যার সাথে সূচকগুলির একটি সেটের আন্তঃসংযোগগুলি পুনরুত্পাদন করা যদি ইএফএ আরও উপযুক্ত।ফ্লয়েড এবং উইদামান (১৯৯৫) সম্পর্কিত পয়েন্টটি তৈরি করেছেন যে পিএফএর তুলনায় ইএফএ ভিত্তিক অনুমানগুলি সিএফএ-তে সাধারণীকরণের সম্ভাবনা বেশি, পিসিএ, ইএফএ এবং সিএফএ সাধারণ ফ্যাক্টর মডেলের উপর ভিত্তি করে। এটি এএফএ প্রায়শই স্কেল ডেভলপমেন্ট এবং বৈধতা তৈরিতে সিএফএর পূর্বসূর হিসাবে ব্যবহৃত হয় এই আলোকে এটি একটি উল্লেখযোগ্য বিবেচ্য বিষয়। পিসিএ এবং ইএফএর মধ্যে কম্পিউটেশনাল পার্থক্যের একটি বিশদ বিক্ষোভ মাল্টিভারিয়েট এবং ফ্যাক্টর অ্যানালিটিক পাঠ্যপুস্তকগুলিতে পাওয়া যায় (যেমন, ট্যাবনিক এবং ফিডেল, 2001)।
ব্রাউন, টিএ (2006) প্রয়োগিত গবেষণার জন্য কনফার্মেটরি ফ্যাক্টর বিশ্লেষণ। নিউ ইয়র্ক: গিলফোর্ড প্রেস।
টিপিং এবং বিশপের একটি গবেষণাপত্রে প্রোবাবলিস্টিক পিসিএ (পিপিসিএ) এবং ফ্যাক্টর বিশ্লেষণের মধ্যে ঘনিষ্ঠ সম্পর্ক নিয়ে আলোচনা করা হয়েছে। ক্লাসিক পিসিএর তুলনায় পিপিসিএ এফএর আরও কাছাকাছি। সাধারণ মডেলটি হ'ল
মাইকেল ই টিপিং, ক্রিস্টোফার এম বিশপ (1999)। সম্ভাব্য প্রিন্সিপাল কম্পোনেন্ট বিশ্লেষণ , রয়্যাল স্ট্যাটিস্টিকাল সোসাইটির জার্নাল, খণ্ড 61, সংখ্যা 3, পৃষ্ঠা 611–622
এই প্রতিক্রিয়াগুলির কোনওটিই নিখুঁত নয়। হয় এফএ বা পিসিএর কিছু বৈকল্পিক রয়েছে। কোন রূপের তুলনা করা হচ্ছে তা আমাদের পরিষ্কারভাবে উল্লেখ করতে হবে। আমি সর্বাধিক সম্ভাবনা ফ্যাক্টর বিশ্লেষণ এবং হোটেলিংয়ের পিসিএ তুলনা করব। প্রাক্তন ধরে নিন যে সুপ্ত পরিবর্তনশীল একটি সাধারণ বিতরণ অনুসরণ করে তবে পিসিএর তেমন কোনও অনুমান নেই। এর ফলে সমাধান, উপাদানগুলির বাসা বাঁধার সমাধানের অনন্যতা, অপ্টিমাইজেশন অ্যালগরিদমের মত পার্থক্য দেখা দিয়েছে।
এই পোস্টের জন্য অনেক দুর্দান্ত উত্তর রয়েছে তবে সম্প্রতি, আমি আরও একটি পার্থক্য পেয়েছি।
ক্লাস্টারিং হ'ল একটি অ্যাপ্লিকেশন যেখানে পিসিএ এবং এফএ বিভিন্ন ফলাফল দেয়। যখন ডেটাতে অনেকগুলি বৈশিষ্ট্য উপস্থিত থাকে, তখন একজনকে শীর্ষ পিসির দিকনির্দেশগুলি অনুসন্ধান করার চেষ্টা করা যেতে পারে এবং এই পিসিতে ডেটা প্রজেক্ট করার চেষ্টা করা যেতে পারে, তারপরে ক্লাস্টারিংয়ের সাথে এগিয়ে যান। প্রায়শই এটি ডেটা সহজাত ক্লাস্টারগুলিকে বিরক্ত করে - এটি একটি ভাল প্রমাণিত ফলাফল। গবেষকরা সাব-স্পেস ক্লাস্টারিং পদ্ধতিগুলি নিয়ে এগিয়ে যাওয়ার পরামর্শ দেন, যা মডেলটিতে নিম্ন-মাত্রিক সুপ্ত কারণগুলির সন্ধান করে।
এই পার্থক্যের চিত্রটি বিবেচনা করার Crabs
জন্য আর। ক্র্যাবসে ডেটাসেটের 200 টি সারি এবং 8 টি কলাম রয়েছে, যেখানে 50 টি কাঁকড়ার উপর দুটি বর্ণের আকার এবং উভয় লিঙ্গের, 5 প্রজাতির মরফোলজিকাল পরিমাপ বর্ণিত রয়েছে - মূলত বিভিন্ন শ্রেণীর 4 টি (2x2) রয়েছে কাঁকড়া।
library(MASS)
data(crabs)
lbl <- rep(1:4,each=50)
pc <- princomp(crabs[,4:8])
plot(pc) # produce the scree plot
X <- as.matrix(crabs[,4:8]) %*% pc$loadings
library(mclust)
res_12 <- Mclust(X[,1:2],G=4)
plot(res_12)
res_23 <- Mclust(X[,2:3],G=4)
plot(res_23)
পিসি 1 এবং পিসি 2 ব্যবহার করে ক্লাস্টারিং:
পিসি 2 এবং পিসি 3 ব্যবহার করে ক্লাস্টারিং:
#using PC1 and PC2:
1 2 3 4
1 12 46 24 5
2 36 0 2 0
3 2 1 24 0
4 0 3 0 45
#using PC2 and PC3:
1 2 3 4
1 36 0 0 0
2 13 48 0 0
3 0 1 0 48
4 1 1 50 2
আমরা উপরের প্লটগুলি থেকে দেখতে পাচ্ছি, পিসি 2 এবং পিসি 3 পিসি 1 এর চেয়ে বেশি বৈষম্যমূলক তথ্য বহন করে।
যদি কেউ মিশ্রণটির ফ্যাক্টর বিশ্লেষক ব্যবহার করে সুপ্ত উপাদানগুলি ব্যবহার করে গুচ্ছামুক্ত হওয়ার চেষ্টা করে, তবে আমরা প্রথম দুটি পিসি ব্যবহারের তুলনায় অনেক ভাল ফলাফল দেখতে পাচ্ছি।
mfa_model <- mfa(y, g = 4, q = 2)
|............................................................| 100%
table(mfa_model$clust,c(rep(1,50),rep(2,50),rep(3,50),rep(4,50)))
1 2 3 4
1 0 0 0 45
2 16 50 0 0
3 34 0 0 0
4 0 0 50 5