এই আমার উত্তর (ক দ্বিতীয় ও অতিরিক্ত সালে অন্যান্য এখানে খনি) আমি যে ছবিগুলি দেখানোর জন্য চেষ্টা করবে পিসিএ (- maximizes - ভ্যারিয়েন্স সন্তোষজনক ভাবে যেহেতু এটি পুনরুদ্ধার) কোন ভাল একটি সহভেদাংক পুনঃস্থাপন করে না।
পিসিএ বা ফ্যাক্টর বিশ্লেষণে আমার উত্তরগুলির মতো আমি বিষয়বস্তুতে ভেরিয়েবলের ভেক্টর উপস্থাপনার দিকে ঝুঁকছি । এই উদাহরণে এটি কেবল একটি লোডিং প্লট যা ভেরিয়েবল এবং তাদের উপাদান লোডগুলি দেখায়। সুতরাং আমরা পেয়েছিলাম এবং ভেরিয়েবল (আমরা শুধুমাত্র ডেটাসেটে দুই ছিল), , তাদের 1 ম প্রধান উপাদান loadings সঙ্গে এবং । ভেরিয়েবলের মধ্যে কোণটিও চিহ্নিত করা হয়। ভেরিয়েবলগুলি প্রাথমিকভাবে কেন্দ্রিক ছিল, সুতরাং তাদের স্কোয়ার দৈর্ঘ্য, এবং their তাদের নিজ নিজ প্রকরণের।এক্স 2 এফ একটি 1 একটি 2 জ 2 1 জ 2 2X1X2Fa1a2h21h22
এবং মধ্যে হ'ল - এটি তাদের স্কেলার পণ্য - (এই পারস্পরিক সম্পর্ক মান is পিসিএ এর Loadings, অবশ্যই, সামগ্রিক ভ্যারিয়েন্স সর্বোচ্চ সম্ভব ক্যাপচার দ্বারা , কম্পোনেন্ট এর ভ্যারিয়েন্স।X1X2h1h2cosϕh21+h22a21+a22F
এখন, কোভেরিয়েন্স , যেখানে হল ভেরিয়েবল উপর ভ্যারিয়েবল এর প্রজেকশন (প্রজেকশনটি যা দ্বিতীয় দ্বারা প্রথমটির রিগ্রেশন )) এবং সুতরাং কোভেরিয়েন্সের তীব্রতা নীচের আয়তক্ষেত্রের অঞ্চল দ্বারা উপস্থাপিত হতে পারে (দিকগুলি এবং )।h1h2cosϕ=g1h2g1X1X2g1h2
তথাকথিত "ফ্যাক্টর উপপাদ্য" অনুসারে (আপনি যদি ফ্যাক্টর বিশ্লেষণের উপর কিছু পড়েন তবে জানা থাকতে পারে), ভেরিয়েবলের মধ্যে সমবায় (গুলি) সঠিকভাবে বের করা উচিত (নিবিড়ভাবে, ঠিক না হলে) এক্সট্রাক্ট অব सुप्त ভেরিয়েবল (গুলি) এর লোডিংয়ের গুণ দ্বারা পুনরুত্পাদন করা উচিত ( পড়ুন )। এটি হল, , আমাদের নির্দিষ্ট ক্ষেত্রে (যদি আমাদের সুপ্ত পরিবর্তনশীল হিসাবে মূল উপাদানটি স্বীকৃতি দেয়)। পুনরুত্পাদন করা কোভারিয়েন্সের সেই মানটি এবং সাথে একটি আয়তক্ষেত্রের অঞ্চল দ্বারা রেন্ডার করা যেতে পারে । তুলনা করার জন্য পূর্ববর্তী আয়তক্ষেত্রের দ্বারা সাজানো আয়তক্ষেত্রটি আঁকুন। এই আয়তক্ষেত্রটি নীচে ছিটিয়ে দেখানো হয়েছে এবং এর ক্ষেত্রটির ডাকনাম কোভ * (পুনরুত্পাদন কোভ )।a1a2a1a2
এটা সুস্পষ্ট যে দুটি ক্ষেত্রই বেশ ভিন্ন, যেমন কোভ * আমাদের উদাহরণে যথেষ্ট বড়। কোভারিয়েন্স , প্রথম অধ্যক্ষ উপাদান লোডিং দ্বারা অত্যধিক গুরুত্ব পেয়েছে । এটি এমন কারও বিপরীতে যারা আশা করতে পারে যে পিসিএ, সম্ভাব্য দু'জনের প্রথম একক উপাদান দ্বারা সমবায়িকতার পর্যবেক্ষিত মান পুনরুদ্ধার করবে।F
প্রজননকে প্রশস্ত করার জন্য আমাদের প্লটটি দিয়ে আমরা কী করতে পারি? আমরা উদাহরণস্বরূপ, বিমটিকে ঘড়ির কাঁটার দিকে কিছুটা ঘোরান , এমনকি এটি দিয়ে সুপারপোজ না করা পর্যন্ত । যখন তাদের রেখাগুলি মিলে যায়, এর অর্থ হ'ল আমরা কে আমাদের সুপ্ত পরিবর্তনশীল হতে বাধ্য করে । তারপরে লোড করা ( এটিতে অভিক্ষেপ ) হবে এবং ( এটিতে অভিক্ষেপ ) লোড করা হবে । তারপরে দুটি আয়তক্ষেত্র এক হ'ল - কোভ লেবেলযুক্ত একটি , এবং সুতরাং সমাহারটি পুরোপুরি পুনরুত্পাদন করা হয়। তবে, , নতুন "সুপ্ত ভেরিয়েবল" দ্বারা ব্যাখ্যা করা বৈকল্পিকটি এর চেয়ে ছোটFX2X2a2X2h2a1X1g1g21+h22a21+a22 , পুরানো সুপ্ত পরিবর্তনশীল দ্বারা ব্যাখ্যা করা বৈকল্পিক, প্রথম মুল উপাদান (তুলনামূলকভাবে চিত্রের দুটি আয়তক্ষেত্রের প্রতিটি অংশকে বর্গাকার এবং স্ট্যাক করুন)। দেখা যাচ্ছে যে আমরা সমবায় প্রজনন পরিচালনা করতে পেরেছি, তবে তারতম্যের পরিমাণ ব্যাখ্যা করার ব্যয়ে। অর্থাৎ প্রথম প্রধান উপাদানটির পরিবর্তে অন্য একটি সুপ্ত অক্ষ নির্বাচন করে।
আমাদের কল্পনা বা অনুমান প্রস্তাব দিতে পারে (আমি গণিত দ্বারা এটি প্রমাণ করতে পারব না এবং আমি গণিতবিদ নই) আমরা যদি এবং দ্বারা নির্ধারিত স্থান থেকে সুপ্ত অক্ষটি ছেড়ে দিই , তবে বিমানটি এটিকে সুইং করার অনুমতি দেয় আমাদের দিকে কিছুটা হলেও আমরা এর সর্বোত্তম অবস্থানটি খুঁজে পেতে পারি - এটিকে কল করুন, বলুন, - যার মাধ্যমে লোডিং ( ) দ্বারা সমবায়িকতা আবার পুরোপুরি পুনরুত্পাদন করা হয়েছে যখন বৈকল্পিক ব্যাখ্যা হয়েছে ( ) চেয়ে বড় হবে , যদিও মূল উপাদান এর মতো বড় নয় ।X1X2F∗a∗1a∗2a∗21+a∗22g21+h22a21+a22F
আমি বিশ্বাস করি যে এই অবস্থা হয় সাধনযোগ্য যখন সুপ্ত অক্ষ বিশেষ করে যে ক্ষেত্রে এমনভাবে সমতল থেকে বের ব্যাপ্ত হিসাবে দুই উদ্ভূত লম্ব প্লেন এর "ফণা", এক অক্ষ এবং ধারণকারী টান টানা পরার এবং অক্ষ এবং অন্যটি । তারপরে এই সুপ্ত অক্ষটিকে আমরা সাধারণ ফ্যাক্টর বলব এবং আমাদের পুরো "মৌলিকতায় প্রচেষ্টা" নামকরণ করা হবে ফ্যাক্টর বিশ্লেষণ ।F∗X1X2
পিসিএ সম্পর্কিত @ অ্যামিবার "আপডেট 2" তে একটি উত্তর to
এসোডি বা ইগেন-পচনের উপর ভিত্তি করে একোয়ার-ইয়ং উপপাদ্য যা পিসিএ এবং এর কনজেনেরিক কৌশল (পিসিওএ, বিপ্লট, চিঠিপত্র বিশ্লেষণ) এর জন্য মৌলিক, এটি অ্যামিবা সঠিক এবং প্রাসঙ্গিক। এটা মতে, প্রথম অধ্যক্ষ অক্ষ সন্তোষজনক ভাবে কমান - একটি পরিমাণ সমান , - সেইসাথে । এখানে তথ্য হিসাবে দ্বারা পুনরুত্পাদন ঘোরা প্রধান অক্ষ। সমান হিসাবে পরিচিত , এর ভেরিয়েবল লোডিং হিসাবেkX||X−Xk||2tr(X′X)−tr(X′kXk)||X′X−X′kXk||2XkkX′kXkWkW′kWkk উপাদান।
তার মানে যে কম সত্য থাকা যদি আমরা শুধুমাত্র বিবেচনা অফ-তির্যক উভয় প্রতিসম ম্যাট্রিক্সের অংশ? আসুন পরীক্ষা করে এটি পরিদর্শন করি insp||X′X−X′kXk||2
500 এলোমেলো 10x6
ম্যাট্রিক্স তৈরি করা হয়েছিল (অভিন্ন বিতরণ)। প্রত্যেকের জন্য, এর কলামগুলি কেন্দ্র করে, পিসিএ সঞ্চালিত হয়েছিল এবং দুটি পুনর্গঠিত তথ্য ম্যাট্রিকেস গণনা করা হয়েছে: একটি উপাদান 1 থেকে 3 দ্বারা পুনর্গঠিত ( প্রথম হিসাবে স্বাভাবিক হিসাবে), এবং অন্যটি উপাদান 1, 2 দ্বারা পুনর্গঠিত হিসাবে , এবং 4 (অর্থাৎ উপাদান 3 একটি দুর্বল উপাদান 4 দ্বারা প্রতিস্থাপিত হয়েছিল)। পুনর্গঠন ত্রুটি (ছক পার্থক্য এর সমষ্টি = ইউক্লিডিয় দূরত্ব ছক) তাহলে এক জন্য নির্ণিত ছিল , অপরের জন্য । এই দুটি মান একটি স্ক্যাটারপ্লোতে দেখানোর জন্য একটি জুড়ি।XXkk||X′X−X′kXk||2XkXk
পুনর্গঠন ত্রুটি প্রতিবার দুটি সংস্করণে গণনা করা হয়েছিল: (ক) পুরো ম্যাট্রিকেস এবং তুলনা করা; (খ) দুটি ম্যাট্রিকের তুলনায় কেবল অফ-ডায়াগোনাল। সুতরাং, আমাদের দুটি স্ক্রেটারপ্লট রয়েছে যার প্রতিটি 500 পয়েন্ট রয়েছে।X′XX′kXk
আমরা দেখতে পাচ্ছি যে "পুরো ম্যাট্রিক্স" প্লটে সমস্ত পয়েন্ট y=x
লাইন উপরে রয়েছে । যার অর্থ হ'ল পুরো স্কেলার-প্রোডাক্ট ম্যাট্রিক্সের পুনর্গঠনটি "1, 3, 4 উপাদান" এর চেয়ে "1 থেকে 3 উপাদান" দ্বারা সবসময় আরও নির্ভুল হয়। এটি এককার্ট-ইয়ং উপপাদ্যের সাথে সামঞ্জস্যপূর্ণ: প্রথম প্রধান উপাদানগুলি সেরা ফিটরা।k
যাইহোক, যখন আমরা "অফ-ডায়াগোনাল কেবল" প্লটটি দেখি আমরা y=x
লাইনের নীচে বেশ কয়েকটি পয়েন্ট লক্ষ্য করি । দেখা গেছে যে কখনও কখনও "1 মাধ্যমে 3 উপাদান" দ্বারা ত্রিভুজ অংশগুলির পুনর্গঠন "1, 2, 4 উপাদান" এর চেয়ে খারাপ ছিল। যা স্বয়ংক্রিয়ভাবে এই সিদ্ধান্তে পৌঁছে যায় যে প্রথম প্রধান উপাদানগুলি নিয়মিতভাবে পিসিএতে উপলব্ধ ফিটারের মধ্যে অফ-ডায়াগোনাল স্কেলার পণ্যগুলির সেরা ফিটার নয়। উদাহরণস্বরূপ, শক্তিশালীের পরিবর্তে দুর্বল উপাদান গ্রহণ করা কখনও কখনও পুনর্গঠনের উন্নতি করতে পারে।k
সুতরাং, এমনকি পিসিএর ডোমেনেও , সিনিয়র প্রধান উপাদানগুলি - যারা আমাদের জানা হিসাবে প্রায় সামগ্রিক বৈকল্পিকতা করে, এমনকি সমগ্র কোভরিয়েন্স ম্যাট্রিক্সও - অগত্যা অফ-ডায়াগোনাল কোভেরিয়েন্সগুলি আনুমানিক নয় । সেগুলির থেকে আরও ভাল অপ্টিমাইজেশন প্রয়োজন; এবং আমরা জানি যে ফ্যাক্টর এনালাইসিস হ'ল (বা এর মধ্যে) প্রযুক্তি যা এটি সরবরাহ করতে পারে।
@ অ্যামিবার "আপডেট 3" - এর ফলোআপ: ভেরিয়েবলের সংখ্যা বাড়ার সাথে সাথে পিসিএ কি এফএ-র কাছে আসে? পিসিএ এফএ এর একটি বৈধ বিকল্প?
আমি সিমুলেশন স্টাডি একটি জাল্লা চালিয়েছি। কয়েকটি সংখ্যক জনসংখ্যার ফ্যাক্টর কাঠামো, লোডিং ম্যাট্রিক্স এলোমেলো সংখ্যার দ্বারা নির্মিত হয়েছিল এবং তাদের সাথে সম্পর্কিত জনসংখ্যার কোভরিয়েন্স ম্যাট্রিকগুলিকে হিসাবে রূপান্তর করা হয়েছিল , একটি তির্যক গোলমাল (অনন্য) ভেরিয়ানস)। এই সমবায় ম্যাট্রিকগুলি সমস্ত ভেরিয়েন্স 1 দিয়ে তৈরি হয়েছিল, তাই তারা তাদের পারস্পরিক সম্পর্ক ম্যাট্রিক্সের সমান ছিল।AR=AA′+U2U2
দুটি ধরণের ফ্যাক্টর কাঠামো ডিজাইন করা হয়েছিল - তীক্ষ্ণ এবং ছড়িয়ে দেওয়া । তীক্ষ্ণ কাঠামো হ'ল পরিষ্কার কাঠামোযুক্ত একটি: লোডিংগুলি "কম" এর "উচ্চ" হয়, মধ্যবর্তী হয় না; এবং (আমার ডিজাইনে) প্রতিটি পরিবর্তনশীল এক ফ্যাক্টর দ্বারা খুব লোড হয়। সংশ্লিষ্ট তাই লক্ষণীয়ভাবে ব্লক-মত is ডিফিউজ কাঠামোটি উচ্চ এবং নিম্ন লোডিংয়ের মধ্যে পার্থক্য করে না: এগুলি একটি গণ্ডির মধ্যে যে কোনও এলোমেলো মান হতে পারে; এবং লোডিংয়ের মধ্যে কোনও নিদর্শন কল্পনা করা হয় না। ফলস্বরূপ, সংশ্লিষ্ট মসৃণ হয়। জনসংখ্যার ম্যাট্রিকগুলির উদাহরণ:RR
কারণগুলির সংখ্যা ছিল বা । ভেরিয়েবলের সংখ্যা নির্ধারণ করা হয়েছিল অনুপাত অনুসারে k = সংখ্যার অনুপাত দ্বারা ; গবেষণায় কে মান দৌড়ে ।264,7,10,13,16
কয়েক নির্মাণ জনসংখ্যা প্রত্যেকের জন্য , বিশ্বকাপ বন্টন (নমুনা আকার অধীনে থেকে তার র্যান্ডম উপলব্ধির ) উত্পন্ন হয়। এগুলি ছিল নমুনা কোভেরিয়েন্স ম্যাট্রিক্স। প্রতিটি এফএ (প্রধান অক্ষ এক্সট্রাকশন দ্বারা) পাশাপাশি পিসিএ দ্বারা ফ্যাক্টর-বিশ্লেষণ করা হয়েছিল । তদুপরি, এই জাতীয় প্রতিটি কোভরিয়েন্স ম্যাট্রিক্সকে একইভাবে নমুনা পারস্পরিক সম্পর্ক ম্যাট্রিক্সে রূপান্তরিত করা হয়েছিল যা একইভাবে ফ্যাক্টর-এনালাইজড (ফ্যাকটেড) হয়েছিল। শেষ অবধি, আমি নিজেই "পিতামাতা", জনসংখ্যার কোভারিয়েন্স (= পারস্পরিক সম্পর্ক) ম্যাট্রিক্সের ফ্যাক্টরিংও সম্পাদন করেছি। নমুনা দেওয়ার পর্যাপ্ততার কায়সার-মায়ার-ওলকিন পরিমাপ সর্বদা 0.7 এর উপরে ছিল।50R50n=200
২ টি ফ্যাক্টর সহ ডেটাগুলির জন্য বিশ্লেষণগুলি 2 টি বের করে এবং 1 টি পাশাপাশি 3 টি কারণও ("অবমূল্যায়ন" এবং "গুণনীয়ানগুলির সঠিক সংখ্যার" অত্যধিক গুরুত্ব ")। Factors টি কারণ সহ ডেটাগুলির জন্য বিশ্লেষণগুলি একইভাবে racted টি এবং আরও ৪ টি পাশাপাশি 8 টি কারণকেও বিশ্লেষণ করে।
গবেষণার লক্ষ্য ছিল এফএ বনাম পিসিএর সমবায় / পারস্পরিক সম্পর্ক পুনরুদ্ধার গুণাবলী। সুতরাং অফ-তির্যক উপাদানগুলির অবশিষ্টাংশ প্রাপ্ত করা হয়েছিল। আমি পুনরুত্পাদন উপাদান এবং জনসংখ্যার ম্যাট্রিক্স উপাদানগুলির পাশাপাশি পূর্বের এবং বিশ্লেষণকৃত নমুনা ম্যাট্রিক্স উপাদানগুলির মধ্যে অবশিষ্টাংশ নিবন্ধিত করেছি। 1 ম প্রকারের অবশিষ্টাংশগুলি ধারণাগতভাবে আরও আকর্ষণীয় ছিল।
নমুনা কোভেরিয়েন্স এবং নমুনা পারস্পরিক সম্পর্কের ম্যাট্রিকগুলিতে করা বিশ্লেষণের পরে প্রাপ্ত ফলাফলগুলির মধ্যে কিছু পার্থক্য ছিল, তবে সমস্ত মূল ফলাফল একই রকম ছিল। অতএব আমি কেবলমাত্র "পারস্পরিক সম্পর্ক-মোড" বিশ্লেষণ করে আলোচনা করছি (ফলাফল দেখাচ্ছে)।
1. পিসিএ বনাম এফএ দ্বারা সামগ্রিকভাবে অফ ডায়াগোনাল ফিট
প্লটের নীচের গ্রাফিকগুলি, বিভিন্ন সংখ্যক উপাদান এবং বিভিন্ন কে-এর বিপরীতে, গড় স্কোয়ার অফ অফ-ডায়াগোনাল অবশিষ্টাংশের অনুপাত পিসিএতে সমান পরিমাণে এফএতে প্রাপ্ত হয়েছিল । এটি "অ্যামিবা" "আপডেট 3" তে যা দেখায় তার অনুরূপ। প্লটের রেখাগুলি 50 টি সিমুলেশন জুড়ে গড় প্রবণতাগুলি উপস্থাপন করে (আমি তাদের উপর st ত্রুটি বার দেখানো বাদ দিই)।
(দ্রষ্টব্য: ফলাফলগুলি এলোমেলো নমুনা পারস্পরিক সম্পর্ক ম্যাট্রিক্সের ফ্যাক্টরিং সম্পর্কিত, জনসংখ্যার ম্যাট্রিক্স পিতামাতাকে তাদের কাছে ফ্যাক্টরিং করার বিষয়ে নয়: তারা জনসংখ্যার ম্যাট্রিক্সকে কতটা ভালভাবে ব্যাখ্যা করে তা হিসাবে পিসিএর তুলনা করা বোকামি - এফএ সর্বদা জিতবে, এবং যদি সঠিক সংখ্যক উপাদানগুলি বের করা হয়েছে, এর অবশিষ্টাংশগুলি প্রায় শূন্য হবে এবং সুতরাং অনুপাতটি অনন্তের দিকে ছুটে যাবে))
এই প্লট মন্তব্য:
- সাধারণ প্রবণতা: কে হিসাবে (প্রতিটি ফ্যাক্টর অনুসারে ভেরিয়েবলের সংখ্যা) পিসিএ / এফএ সামগ্রিক সাবফিট অনুপাত 1 এর দিকে ম্লান হয়। এটি, আরও ভেরিয়েবলের সাথে পিসিএ অফ-ডায়াগোনাল পারস্পরিক সম্পর্ক / কোভেরিয়েন্সগুলি ব্যাখ্যা করার জন্য এফএর সাথে যোগাযোগ করে। (তার উত্তরে @ অ্যামিবা ডকুমেন্টেড।) সম্ভবতঃ বক্ররেখাগুলি অনুমান করা আইনটি অনুপাত = এক্সপ্রেস (বি 0 + বি 1 / কে) 0 এর সাথে বি 0 থাকে।
- অনুপাতটি আর্টের অবশিষ্টাংশগুলি "জনসংখ্যার বিয়োগ পুনরায় উত্পাদিত নমুনা" (ডান প্লট) এর চেয়ে বৃহত্তর আর্টের অবশিষ্টাংশগুলি "নমুনা বিয়োগ পুনরুত্পৃত নমুনা" (বাম প্লট)। এটি (তুচ্ছভাবে), মেট্রিক্সের সাথে সাথে বিশ্লেষণ করা ফিটিংয়ের ক্ষেত্রে পিসিএ এফএর থেকে নিকৃষ্ট হয়। তবে, বাম চক্রান্তের রেখাগুলিতে দ্রুত হ্রাসের হার রয়েছে, সুতরাং কে = 16 দ্বারা অনুপাতটি 2 এরও নীচে, এটি ডান প্লট হিসাবে রয়েছে।
- অবশিষ্টাংশগুলির সাথে "জনসংখ্যার বিয়োগ পুনরুত্পাদন করা নমুনা", ট্রেন্ডগুলি সর্বদা উত্তল বা এমনকি একঘেয়ে হয় না (অস্বাভাবিক কনুইটি প্রদত্ত দেখানো হয়)। সুতরাং, যতক্ষণ বক্তৃতাটি একটি নমুনা ফ্যাক্টরিংয়ের মাধ্যমে সহগের একটি জনসংখ্যার ম্যাট্রিক্স ব্যাখ্যা করার জন্য, ভেরিয়েবলের সংখ্যা বৃদ্ধি করা নিয়মিতভাবে পিসিএকে তার ফিটনেক মানের এফএর কাছাকাছি নিয়ে আসে না, যদিও প্রবণতা রয়েছে।
- জনসংখ্যার মি = factors ফ্যাক্টরের তুলনায় অনুপাত এম = ২ ফ্যাক্টরের চেয়ে বেশি (গা bold় লাল রেখাগুলি গা bold় সবুজ রেখার নীচে থাকে)। যার অর্থ যে আরও বেশি কারণের সাথে ডেটা পিসিএ অভিনয় করে তাড়াতাড়ি এফএতে ধরা দেয়। উদাহরণস্বরূপ, ডান প্লটটিতে k = 4 ফলন অনুপাত 6 কারণের জন্য প্রায় 1.7, যখন 2 কারণের জন্য একই মান কে = 7 এ পৌঁছেছে।
- অনুপাতের পরিমাণ আরও বেশি হয় যদি আমরা আরও বেশি কারণকে সত্যিকারের সংখ্যার সাথে তুলনা করি। এটি, পিসিএ এফএর তুলনায় আরও কিছুটা খারাপ হয় যদি এক্সট্রাকশনে আমরা কারণগুলির সংখ্যাকে অবমূল্যায়ন করি; এবং কারণগুলির সংখ্যা সঠিক বা অত্যধিক সংশোধন করা হলে (গা bold় রেখার সাথে পাতলা রেখাগুলির তুলনা করুন) এটি এতে আরও বেশি হারায়।
- ফ্যাক্টর কাঠামোর তীক্ষ্ণতার একটি আকর্ষণীয় প্রভাব রয়েছে যা কেবলমাত্র তখনই উপস্থিত হয় যখন আমরা অবশিষ্টাংশগুলিকে "জনসংখ্যার বিয়োগ পুনরুত্পাদন করা নমুনা" বিবেচনা করি: ডানদিকে ধূসর এবং হলুদ প্লট তুলনা করুন। যদি জনসংখ্যার উপাদানগুলি ভেরিয়েবলগুলি বিচ্ছিন্নভাবে লোড করে তবে লাল রেখাগুলি (এম = 6 ফ্যাক্টর) নীচে ডুবে যায়। এটি হ'ল, ছড়িয়ে পড়া কাঠামোতে (যেমন বিশৃঙ্খলা সংখ্যার লোডিং) পিসিএ (একটি নমুনার উপর সঞ্চালিত) জনসংখ্যা সম্পর্কিত পুনর্গঠনের ক্ষেত্রে এফএর চেয়ে কিছুটা খারাপ - এমনকি ছোট কে-এর অধীনে, শর্ত থাকে যে জনসংখ্যার কারণগুলির সংখ্যা না খুব ছোট. পিসিএ এফএর সবচেয়ে কাছাকাছি অবস্থিত এবং এটির চিপার বিকল্প হিসাবে সর্বাধিক সতর্ক করা হয় এমন অবস্থা সম্ভবত। যদিও ধারালো ফ্যাক্টর কাঠামোর উপস্থিতিতে পিসিএ জনসংখ্যার পারস্পরিক সম্পর্ক (বা সমবায়) পুনর্গঠনে এতটা আশাবাদী নয়: এটি কেবল বড় কে দৃষ্টিকোণে এফএর কাছে পৌঁছেছে।
2. পিসিএ বনাম এফএ দ্বারা প্রাথমিক স্তরের ফিট: অবশিষ্টাংশ বিতরণ
প্রতিটি সিমুলেশন পরীক্ষার জন্য যেখানে জনসংখ্যার ম্যাট্রিক্স থেকে 50 টি এলোমেলো নমুনা ম্যাট্রিক্সের ফ্যাক্টরিং (পিসিএ বা এফএ দ্বারা) সঞ্চালিত হয়েছিল, সেখানে প্রতিটি অফ-ডায়োনাল পারস্পরিক সম্পর্কের উপাদানগুলির জন্য "জনসংখ্যা সম্পর্কিত বিয়োগ পুনরুত্পাদন (ফ্যাক্টরিং দ্বারা) নমুনার পারস্পরিক সম্পর্ক" বন্টন প্রাপ্ত হয়েছিল। বিতরণগুলি সুস্পষ্ট নিদর্শন অনুসরণ করেছে এবং সাধারণ বিতরণের উদাহরণগুলি নীচে চিত্রিত করা হয়েছে। পরে ফলাফল পিসিএ ফ্যাক্টরিং নীল বাম পক্ষের এবং পরে ফলাফল নেই এফএ ফ্যাক্টরিং সবুজ অধিকার পক্ষই।
প্রধান সন্ধানটি এটি
- নিখুঁত মাত্রার দ্বারা, জনসংখ্যার পারস্পরিক সম্পর্কগুলি অপরিশোধিতভাবে পিসিএ দ্বারা পুনরুদ্ধার করা হয়: পুনরুত্পাদন করা মানগুলি দৈর্ঘ্যের দ্বারা অতিরিক্ত হয় res
- কিন্তু পক্ষপাতটি কে (কারণের অনুপাতের সংখ্যার পরিবর্তকের সংখ্যা) বৃদ্ধি পাওয়ার সাথে সাথে অদৃশ্য হয়ে যায় । পিকটিতে, যখন ফ্যাক্টর অনুসারে কেবল কে = 4 ভেরিয়েবল থাকে, পিসিএর অবশিষ্টাংশগুলি 0 থেকে অফসেটে ছড়িয়ে পড়ে যখন 2 টি উপাদান এবং 6 টি কারণ উপস্থিত থাকে তখন এটি উভয়ই দেখা যায়। তবে কে = 16 দিয়ে অফসেটটি খুব কমই দেখা যায় - এটি প্রায় অদৃশ্য হয়ে যায় এবং পিসিএ ফিট ফিট এফএ ফিট করে। পিসিএ এবং এফএ এর মধ্যে অবশিষ্টাংশের স্প্রেড (ভেরিয়েন্স) মধ্যে কোনও পার্থক্য পরিলক্ষিত হয়।
অনুরূপ চিত্রটিও দেখা যায় যখন উত্তোলিত উপাদানগুলির সংখ্যা সঠিক সংখ্যার সাথে মেলে না: কেবলমাত্র অবশিষ্টাংশের ভিন্নতা কিছুটা পরিবর্তিত হয়।
ধূসর পটভূমিতে উপরে দেখানো বিতরণগুলি জনসংখ্যায় উপস্থিত তীক্ষ্ণ (সাধারণ) ফ্যাক্টর কাঠামোর সাথে পরীক্ষাগুলির সাথে সম্পর্কিত । সমস্ত বিশ্লেষণ যখন ছড়িয়ে পড়া জনসংখ্যার ফ্যাক্টর কাঠামোর পরিস্থিতিতে করা হয়েছিল, তখন দেখা গিয়েছিল যে পিসিএর পক্ষপাতদুষ্টতা কেবল কে-এর উত্থানের সাথেই নয়, মিটার (সংখ্যাগুলির সংখ্যা) বৃদ্ধির সাথেও ম্লান হয়ে যায় । অনুগ্রহ করে "6 টি কারণ, কে = 4" কলামে হলুদ-পটভূমি সংযুক্তিগুলি স্কেল করা হয়েছে: পিসিএ ফলাফলের জন্য 0 টি পর্যবেক্ষণ করা থেকে প্রায় কোনও অফসেট নেই (অফসেটটি এখনও এম = 2 দিয়ে উপস্থিত রয়েছে, যা পিকটিতে দেখানো হয়নি) )।
বর্ণিত অনুসন্ধানগুলি গুরুত্বপূর্ণ বলে ভেবে আমি সেই অবশিষ্টাংশগুলি আরও গভীরভাবে পরিদর্শন করার সিদ্ধান্ত নিয়েছি এবং উপাদানগুলির (জনসংযোগ সম্পর্কিত) মান (এক্স অক্ষ) এর বিপরীতে অবশিষ্টাংশ (ওয়াই অক্ষ) এর বিক্ষিপ্ত প্লটগুলি প্লট করেছি । এই স্ক্যাটারপ্লটগুলি প্রতিটি (50) বহু সিমুলেশন / বিশ্লেষণের ফলাফলগুলিকে একত্রিত করে। নিখরচায় ফিট লাইন (50% স্থানীয় পয়েন্ট ব্যবহারের জন্য, ইপেনটেকনিকভ কার্নেল) হাইলাইট করা হয়েছে। প্লটের প্রথম সেটটি জনসংখ্যার তীক্ষ্ণ ফ্যাক্টর কাঠামোর ক্ষেত্রে (পারস্পরিক সম্পর্কের মানগুলির ত্রৈমাসিকত্ব তাই প্রকাশিত হয়):
মন্তব্য:
- আমরা স্পষ্টতই (উপরে বর্ণিত) পুনর্গঠন পক্ষপাত দেখতে পাই যা পিসিএর বৈশিষ্ট্য হ'ল স্কিউ, নেতিবাচক প্রবণতা লোস লাইন: পরম মানের জনসংখ্যার পারস্পরিক সম্পর্কের ক্ষেত্রে বড় নমুনা ডেটাসেটের পিসিএ দ্বারা অত্যুক্তি করা হয়। এফএ নিরপেক্ষ (অনুভূমিক লাউস)।
- কে বাড়ার সাথে সাথে পিসিএর পক্ষপাতিত্ব হ্রাস পায়।
- জনসংখ্যায় কতগুলি কারণ রয়েছে তা নির্বিশেষে পিসিএ পক্ষপাতদুষ্ট: 6 টি উপাদান বিদ্যমান (এবং 6 বিশ্লেষণে আহরণ করা হয়েছে) এটি 2 টি কারণের অস্তিত্বের সাথে একইভাবে ত্রুটিযুক্ত (2 উত্তোলিত)।
নীচে প্লটের দ্বিতীয় সেটটি জনসংখ্যার মধ্যে ছড়িয়ে পড়া ফ্যাক্টর কাঠামোর ক্ষেত্রে :
আবার আমরা পিসিএ দ্বারা পক্ষপাতিত্ব পর্যবেক্ষণ। তবে তীব্র ফ্যাক্টর স্ট্রাকচার কেসের বিপরীতে পক্ষপাতগুলি ফ্যাক্টর সংখ্যা বৃদ্ধি করার সাথে সাথে ম্লান হয়ে যায়: 6 জনসংখ্যার কারণের সাথে, পিসিএর লম্ব লাইনটি কেবল 4 কে এর অধীনে অনুভূমিক হওয়া থেকে খুব বেশি দূরে নয় is এটিই আমরা প্রকাশ করেছি " ইয়েলো হিস্টোগ্রাম "এর আগে।
স্ক্যাটারপ্লটসের উভয় সেটগুলির একটি আকর্ষণীয় ঘটনাটি হ'ল পিসিএর জন্য লোস লাইনগুলি এস-বাঁকা। এই বক্রতাটি অন্যান্য জনসংখ্যার ফ্যাক্টর কাঠামোর (লোডিং) এলোমেলোভাবে আমার দ্বারা নির্মিত (আমি পরীক্ষা করে দেখেছি) দেখায় যদিও এর ডিগ্রিটি পরিবর্তিত হয় এবং প্রায়শই দুর্বল থাকে। যদি এস-শেপ থেকে অনুসরণ করা হয় তবে পিসিএ 0 (বা বিশেষত ছোট কে এর অধীনে) থেকে লাফিয়ে নেওয়ার সাথে সাথে দ্রুত সংযোগগুলি বিকৃত করতে শুরু করে, তবে কিছু মান থেকে - প্রায় 30 বা .40 - এটি স্থিতিশীল হয়। সেই আচরণের সম্ভাব্য কারণের জন্য আমি এখনই অনুমান করতে পারি না, তবে আমি বিশ্বাস করি যে "সাইনোসয়েড" পারস্পরিক সম্পর্কের ত্রিকোণমিতি প্রকৃতি থেকে উদ্ভূত।
পিসিএ বনাম এফএ দ্বারা ফিট: উপসংহার
পারস্পরিক সম্পর্ক / কোভেরিয়েন্স ম্যাট্রিক্সের অফ-ডায়াগোনাল অংশের সামগ্রিক ফিটার হিসাবে , পিসিএ - যখন কোনও জনসংখ্যার থেকে একটি নমুনা ম্যাট্রিক্স বিশ্লেষণ করার জন্য প্রয়োগ করা হয় - ফ্যাক্টর বিশ্লেষণের পক্ষে মোটামুটি ভাল বিকল্প হতে পারে। এটি ঘটে যখন ভেরিয়েবলের অনুপাতের সংখ্যা / প্রত্যাশিত উপাদানগুলির সংখ্যা যথেষ্ট বড় হয়। (অনুপাতের উপকারী প্রভাবের জ্যামিতিক কারণটি নীচের পাদটীকাগুলি in ব্যাখ্যা করা হয়েছে more) আরও বেশি কারণের সাথে অনুপাত কেবল কয়েকটি কারণের চেয়ে কম হতে পারে। তীক্ষ্ণ ফ্যাক্টর কাঠামোর উপস্থিতি (জনসাধারণের মধ্যে সহজ কাঠামো বিদ্যমান) এফএর মানের দিকে যেতে পিসিএকে বাধা দেয়।1
পিসিএর সামগ্রিক ফিটের ক্ষমতার উপর তীক্ষ্ণ ফ্যাক্টর কাঠামোর প্রভাব ততক্ষণ স্পষ্ট হয় যতক্ষণ না অবশিষ্টাংশ "জনসংখ্যার বিয়োগ পুনরুত্পাদন নমুনা" বিবেচিত হয়। সুতরাং যেহেতু এটি একটি সিমুলেশন অধ্যয়ন সেটিংয়ের বাইরে এটি সনাক্ত করতে মিস করতে পারে - একটি নমুনার পর্যবেক্ষণ গবেষণায় আমাদের এই গুরুত্বপূর্ণ অবশিষ্টাংশগুলিতে অ্যাক্সেস নেই।
ফ্যাক্টর বিশ্লেষণের বিপরীতে, পিসিএ হ'ল শূন্য থেকে দূরে থাকা জনসংখ্যার পারস্পরিক সম্পর্ক (বা সমবায়) এর বিশালতার এক (ইতিবাচক) পক্ষপাতদায়ক অনুমানকারী। পিসিএর পক্ষপাতদুষ্টতা অবশ্য হ্রাস পায় কারণ ভেরিয়েবলের অনুপাত সংখ্যা / প্রত্যাশিত কারণগুলির সংখ্যা বৃদ্ধি পায়। Biasedness এছাড়াও হ্রাস পায় যেমন জনসংখ্যা কারণের সংখ্যা বৃদ্ধি, কিন্তু এই আধুনিক প্রবণতা একটি ধারালো ফ্যাক্টর গঠন বর্তমান অধীনে বাধাগ্রস্ত হয়।
আমি মন্তব্য করব যে পিসিএ ফিট ফিট পক্ষপাতিত্ব এবং এর উপর তীক্ষ্ণ কাঠামোর প্রভাব অবশিষ্টাংশগুলিকে "নমুনা বিয়োগ পুনরুত্পাদন করা নমুনা" বিবেচনা করেও উদ্ঘাটন করা যেতে পারে; আমি কেবল এ জাতীয় ফলাফল প্রদর্শন করা বাদ দিয়েছি কারণ তারা নতুন ইমপ্রেশনটি যোগ করবে না বলে মনে হয়।
আমার খুব অস্থায়ী, বিস্তৃত পরামর্শটি হতে পারে সাধারণত কারণগুলির জন্য এফএ-এর পরিবর্তে পিসিএ ব্যবহার করা থেকে বিরত থাকুন (অর্থাত্ জনসংখ্যায় প্রত্যাশিত 10 বা কম কারণের সাথে) ফ্যাক্টর অ্যানালিটিক উদ্দেশ্য যদি না থাকে তবে আপনি যদি কারণগুলির চেয়ে 10+ গুণ বেশি পরিবর্তনশীল না হন। এবং সংক্ষিপ্ততরগুলি হ'ল প্রয়োজনীয় অনুপাত factors আমি এফএ স্থানে পিসিএ ব্যবহার না করার পরামর্শ আরো হবে এ সব যখনই সুপ্রতিষ্ঠিত, ধারালো ফ্যাক্টর গঠন সাথে ডেটা বিশ্লেষণ করা হয় - যেমন যখন ফ্যাক্টর বিশ্লেষণ যাচাই করতে সম্পন্ন করা হয় হিসাবে বিকশিত অথবা ইতিমধ্যেই স্পষ্টভাবে নির্মান / দাঁড়িপাল্লা সঙ্গে মনস্তাত্ত্বিক পরীক্ষা বা প্রশ্নাবলী চালু হচ্ছে । পিসিএ একটি সাইকোমেট্রিক যন্ত্রের জন্য প্রাথমিক, প্রাথমিক নির্বাচনের সরঞ্জাম হিসাবে ব্যবহৃত হতে পারে be
অধ্যয়নের সীমাবদ্ধতা । 1) আমি কেবল পিএএফ পদ্ধতিটি ফ্যাক্টর আহরণের জন্য ব্যবহার করেছি। 2) নমুনা আকার স্থির করা হয়েছিল (200)। 3) সাধারণ জনসংখ্যার নমুনা ম্যাট্রিকগুলির নমুনা গ্রহণ করা হয়েছিল। 4) তীক্ষ্ণ কাঠামোর জন্য, প্রতি গুণক হিসাবে মডেলের সমান সংখ্যক ভেরিয়েবল ছিল। 5) জনসংখ্যার ফ্যাক্টর লোডগুলি তৈরি করা আমি তাদের প্রায় ইউনিফর্ম (ধারালো কাঠামোর জন্য - ট্রায়োমডাল, অর্থাৎ 3-পিস ইউনিফর্ম) বিতরণ থেকে ধার করেছিলাম। )) এই তাত্ক্ষণিক পরীক্ষায় অবশ্যই অবশ্যই অন্য কোথাও তদারকি হতে পারে।
পাদটীকা । পিসিএ এফএ-এর ফলাফলগুলি নকল করে এবং পারস্পরিক সম্পর্কের সমতুল্য ফিটার হয়ে উঠবে - যেমন এখানে বলা হয়েছে - মডেলের ত্রুটি ভেরিয়েবলগুলি, যাকে অনন্য কারণ বলা হয় , নিরবিচ্ছিন্ন হয়ে উঠবে। এফএ কামনা তাদের সম্পর্কহীন করতে, কিন্তু পিসিএ না, তারা পারে না ঘটতে পিসিএ মধ্যে সম্পর্কহীন হবে। এটি দেখা দিতে পারে তখন প্রধান শর্তটি যখন সাধারণ কারণগুলির সংখ্যার প্রতি উপাদানগুলির সংখ্যা (উপাদানগুলি সাধারণ কারণ হিসাবে রাখা হয়) বড় হয়।1
নিম্নলিখিত ছবিগুলি বিবেচনা করুন (যদি আপনার সেগুলি কীভাবে বোঝার দরকার হয় তবে যদি প্রথমে আপনার প্রয়োজন হয় তবে দয়া করে এই উত্তরটি পড়ুন ):
কয়েকটি m
সাধারণ কারণের সাথে সফলভাবে পারস্পরিক সম্পর্ক পুনরুদ্ধার করতে সক্ষম হওয়ার জন্য ফ্যাক্টর বিশ্লেষণের প্রয়োজনীয়তা অনুসারে , ম্যানিফেস্ট ভেরিয়েবল এর পরিসংখ্যানগতভাবে স্বতন্ত্র অংশগুলিকে বৈশিষ্ট্যযুক্ত অনন্য কারণগুলি , অবশ্যই অসংযুক্ত হতে হবে। যখন পিসিএ ব্যবহার করা হয়, গুলি শুয়ে থাকতে এর subspace -space দ্বারা দৃশ্যও গুলি কারণ পিসিএ নেই বিশ্লেষণ ভেরিয়েবল স্থান ছেড়ে। সুতরাং - বাম ছবিটি দেখুন - এর সাথে (মূল উপাদান হ'ল ফ্যাক্টর) এবং ( , ) বিশ্লেষণ করা, অনন্য উপাদানগুলি ,এক্স ইউ এক্স পি 1 এক্স 1 এক্স 2 ইউ 1 ইউ 2 আর = - 1Up
Xp
Up-m
p
Xm=1
P1p=2
X1X2U1U2বাধ্যতামূলকভাবে দ্বিতীয় দ্বিতীয় উপাদান (বিশ্লেষণের ত্রুটি হিসাবে পরিবেশন করা) উপর সুপারমোজ করা। ফলস্বরূপ তাদের সাথে সম্পর্কযুক্ত হতে হবে । (ছবিটিতে, ভেক্টরগুলির মধ্যে কোণগুলির সমান কোষীয় সম্পর্কগুলি সংযুক্ত করে)r=−1
তবে আপনি যদি আরও একটি পরিবর্তনশীল ( ) যোগ করেন তবে ডান পিক করুন এবং এখনও একটি জনসংযোগ উত্তোলন করুন। সাধারণ উপাদান হিসাবে উপাদান, তিনটি একটি প্লেনে শুয়ে থাকতে হবে (বাকি দুটি জন উপাদান দ্বারা সংজ্ঞায়িত।)। তিনটি তীর এমনভাবে একটি বিমান বিস্তৃত করতে পারে যেগুলির মধ্যে কোণগুলি 180 ডিগ্রির চেয়ে কম হয়। সেখানে কোণগুলির জন্য স্বাধীনতার উদয় হয়। একটি সম্ভাব্য নির্দিষ্ট ক্ষেত্রে হিসাবে, কোণ পারেন সমান 120 ডিগ্রী সম্পর্কে হও। এটি ইতিমধ্যে 90 ডিগ্রি থেকে খুব বেশি দূরে নয়, এটি নিরঙ্কুশতা থেকে। এই পিক দেখানো পরিস্থিতি। ইউX3U
আমরা ৪ র্থ ভেরিয়েবল যুক্ত করার সাথে সাথে 4 এস 3 ডি স্প্যান করবে। 5, 5 থেকে 4 ডি স্প্যান ইত্যাদির সাথে এক সাথে 90 ডিগ্রি কাছাকাছি পৌঁছতে একই সাথে প্রচুর কোণগুলির ঘর প্রসারিত হবে। যার অর্থ এই যে পিসিএর সাথে এফএ-র কাছে যোগাযোগের ক্ষেত্রে ম্যাট্রিক্সের অফ-ডায়াগোনাল ত্রিভুজগুলি ফিট করার ক্ষমতা বাড়ানোর ঘরটিও প্রসারিত হবে।U
তবে সত্য এফএ সাধারণত ছোট অনুপাতের মধ্যে "পার্থক্যের সংখ্যা / কারণগুলির সংখ্যা" এর সাথেও সম্পর্কগুলি পুনরুদ্ধার করতে সক্ষম হয় কারণ এখানে বর্ণিত (এবং ২ য় চিত্র দেখুন) ফ্যাক্টর বিশ্লেষণ সমস্ত ফ্যাক্টর ভেক্টরকে (সাধারণ ফ্যাক্টরগুলি) এবং অনন্যকে মঞ্জুরি দেয় বেশী) ভেরিয়েবলের স্পেসে থাকা থেকে বিচ্যুত হওয়া। সুতরাং কেবলমাত্র 2 ভেরিয়েবল এবং একটি ফ্যাক্টর সহ এর অরথোগোনালটির জন্য জায়গা রয়েছে ।এক্সUX
উপরের ছবিগুলি পিসিএ কেন পারস্পরিক সম্পর্ককে বেশি বিবেচনা করে তা স্পষ্ট ধারণা দেয় । বাম মাংসখণ্ডের, উদাহরণস্বরূপ, উপর , যেখানে s এর অনুমান হয় উপর গুলি (এর loadings ) এবং s এর লেন্থ হয় গুলি (এর loadings )। কিন্তু যে পারস্পরিক সম্পর্ক যেমন দ্বারা পুনর্নির্মিত একা শুধু সমান , অর্থাত্ বড় চেয়ে । এ এক্স পি 1 পি 1 উ ইউ পি 2 পি 1 এ 1 এ 2 আর এক্স 1 এক্স 2rX1X2=a1a2−u1u2aXP1P1uUP2P1a1a2rX1X2