পিসিএ বা এফএর জন্য ন্যূনতম নমুনার আকার যখন মূল লক্ষ্যটি কেবলমাত্র কয়েকটি উপাদান অনুমান করা যায়?


27

আমার কাছে যদি পর্যবেক্ষণ এবং ভেরিয়েবল (মাত্রা) সহ একটি ডেটাসেট থাকে এবং সাধারণত ছোট হয় ( ), এবং ছোট ( ) থেকে সম্ভবত অনেক বড় ( ) হতে পারে )।পি এন এন = 12 - 16 পি পি = 4 - 10 পি = 30 - 50npnn=1216pp=410p=3050

আমি মনে করি যে শিখছি যে মূল উপাদানগুলির বিশ্লেষণ (পিসিএ) বা ফ্যাক্টর বিশ্লেষণ (এফএ) চালানোর জন্য এর চেয়ে অনেক বড় হওয়া উচিত তবে এটি আমার ডেটাতে এমনটি হতে পারে না বলে মনে হয়। মনে রাখবেন যে আমার উদ্দেশ্যগুলির জন্য আমি পিসি 2 এর অতীতের কোনও মূল উপাদানগুলিতে খুব কমই আগ্রহী।পিnp

প্রশ্নাবলী:

  1. ন্যূনতম নমুনা আকারের জন্য থাম্বের নিয়মগুলি কী কী যখন পিসিএ ব্যবহার করা ঠিক থাকে, এবং কখন হয় না?
  2. বা এমনকি প্রথম কয়েকটি পিসি ব্যবহার করা কি ঠিক আছে ?এন < পিn=pn<p
  3. এই সম্পর্কে কোন রেফারেন্স আছে?
  4. আপনার মূল লক্ষ্যটি পিসি 1 এবং সম্ভবত পিসি 2 ব্যবহার করা কিনা তা বিবেচ্য নয়:

    • কেবল গ্রাফিকালি, বা
    • সিনথেটিক ভেরিয়েবল হিসাবে কি তখন রিগ্রেশনে ব্যবহৃত হয়?

আমি ফ্যাক্টর বিশ্লেষণের ক্ষেত্রে এই ধরণের নির্দেশিকাগুলি সম্পর্কে পড়া মনে করি। আপনি কি এটিতে আগ্রহী নাকি কেবল পিসিএতে? এছাড়াও, উত্তরটি আপনি যে ধরণের ডেটা নিয়ে কাজ করছেন তার উপর নির্ভর করে, আপনার কি প্রয়োগের একটি নির্দিষ্ট ক্ষেত্র মনে আছে?
গালা

1
নীচে মন্তব্য এবং রেফারেন্স জন্য গ্যায়েল ধন্যবাদ। এখন আমার এফএ এবং পিসিএর মধ্যে পার্থক্যগুলি জানা দরকার। :)
প্যাট্রিক

3
এই প্রশ্নটি এই সাইটে ব্যাপকভাবে চিকিত্সা করা হয়েছে, উদাহরণস্বরূপ দেখুন stats.stackexchange.com/questions/1576/… এবং stats.stackexchange.com/questions/612/…
গালা

উত্তর:


21

আপনার নমুনার আকারটি "যথেষ্ট পরিমাণে বড়" কিনা তা আপনি আসলে পরিমাপ করতে পারবেন । ছোট নমুনার আকার খুব ছোট হওয়ার একটি লক্ষণ হ'ল অস্থিরতা।

আপনার পিসিএ বুটস্ট্র্যাপ বা ক্রসকে বৈধতা দিন: এই কৌশলগুলি আপনার নমুনার একটি ছোট ভগ্নাংশ মুছে ফেলা / বিনিময় করে আপনার ডেটা সেটকে বিঘ্নিত করে এবং তারপরে বিরক্ত হওয়া প্রতিটি ডেটার সেটের জন্য "সারোগেট মডেল" তৈরি করে। যদি সারোগেট মডেলগুলি যথেষ্ট পরিমাণে (= স্থিতিশীল) হয় তবে আপনি ভাল আছেন। আপনার সম্ভবত এটি বিবেচনায় নেওয়া দরকার যে পিসিএ এর সমাধানটি অনন্য নয়: পিসিগুলি ফ্লপ করতে পারে (স্কোর এবং সংশ্লিষ্ট মূল উপাদান উভয়কে দ্বারা গুণ করে )। আপনি যথাসময়ে অনুরূপ পিসি মডেলগুলি পেতে, প্রোক্রাস্টেস রোটেশনটিও ব্যবহার করতে চাইতে পারেন।1


ধন্যবাদ সিবেলাইটস আপনি কি মনে করেন যে, 16 বলে নিন, তত কম সহ বুটস্ট্র্যাপিং অতিরিক্ত তথ্যবহুল হবে? বোঝার জন্য, আমি কেবলমাত্র অনেকগুলি পিসিএ চালিয়ে আপেক্ষিক স্থিতিশীলতার সন্ধান করব, প্রতিটি সাইটের জন্য একটি করে সাইট রেখে।
প্যাট্রিক

সেক্ষেত্রে একটি করে নমুনা মুছে ফেলার মাধ্যমে (বা এমনকি দুটি নমুনা ছেড়ে দেওয়া সমস্ত 120 মডেলটিতে) বিড়বিড় হওয়া সমস্ত 16 টি মডেলের দিকে অবশ্যই তাকানো সম্ভাব্য। আমি মনে করি ছোট আমি সম্ভবত এই জাতীয় পদ্ধতিতে সিভি-এর মতো পদ্ধতির জন্য যেতে চাই। n
ক্যাবলাইটরা মনিকে

23

ফ্যাক্টর বিশ্লেষণের জন্য (মূল উপাদান বিশ্লেষণ নয়) যথেষ্ট পরিমাণে একটি সাহিত্য রয়েছে যা পর্যবেক্ষণের সংখ্যার উপর থাম্বের কিছু পুরানো নিয়মকে প্রশ্নবিদ্ধ করে। Ditionতিহ্যবাহী সুপারিশগুলি - কমপক্ষে সাইকোমেট্রিক্সের মধ্যে - ভেরিয়েবলের জন্য কমপক্ষে পর্যবেক্ষণ করা উচিত ( সাধারণত থেকে পর্যন্ত কোথাও ) যাতে কোনও ক্ষেত্রে ।x 5 20 n পিxx520np

অনেকগুলি রেফারেন্সের সাথে একটি বরং পুঙ্খানুপুঙ্খ ধারণাটি পাওয়া যেতে পারে http://www.encorewiki.org/display/~nzhao/The+ সর্বনিম্ন + নমুনা + আকার +++ ফ্যাক্টর + অ্যানালাইসিস

যাইহোক, সাম্প্রতিক সিমুলেশন অধ্যয়নগুলির মূল গ্রহণযোগ্য বার্তাটি হ'ল ফলাফলের গুণমানটি এত বেশি পরিবর্তিত হবে (সাম্প্রদায়িকতার উপর নির্ভর করে, কারণগুলির সংখ্যার উপর নির্ভর করে বা উপাদানগুলি থেকে ভেরিয়েবল অনুপাত ইত্যাদি) বিবেচনা করে যা ভেরিয়েবল থেকে পর্যবেক্ষণ অনুপাত পর্যবেক্ষণের প্রয়োজনীয় সংখ্যার বিষয়ে সিদ্ধান্ত নেওয়ার পক্ষে ভাল উপায় নয়। যদি শর্তগুলি শুভ হয় তবে আপনি পুরানো দিকনির্দেশনাগুলির তুলনায় অনেক কম পর্যবেক্ষণ দিয়ে পালাতে সক্ষম হতে পারবেন তবে বেশিরভাগ রক্ষণশীল নির্দেশিকাও কিছু ক্ষেত্রে খুব আশাবাদী। উদাহরণস্বরূপ, প্রচারক ও ম্যাককালাম (২০০২) অত্যন্ত ছোট নমুনা আকার এবং দিয়ে ভাল ফলাফল পেয়েছে তবে মুন্ডফ্রোম, শ ও কে (২০০৫) এমন কিছু ক্ষেত্রে খুঁজে পেয়েছে যেখানে একটি নমুনা আকারn > 100 পিp>nn>100pপ্রয়োজনীয় ছিল। তারা আরও জানতে পেরেছিল যে অন্তর্নিহিত কারণগুলির সংখ্যা যদি একই থাকে তবে আরও ভেরিয়েবল (এবং কম নয়, পর্যবেক্ষণ-থেকে-ভেরিয়েবল অনুপাতের ভিত্তিতে নির্দেশিকা দ্বারা উল্লিখিত) পর্যবেক্ষণের ছোট নমুনাগুলির সাথে আরও ভাল ফলাফলের দিকে নিয়ে যেতে পারে।

প্রাসঙ্গিক তথ্যসূত্র:

  • মুন্ডফ্রোম, ডিজে, শ, ডিজি, এবং কে, টিএল (2005)। ফ্যাক্টর বিশ্লেষণ পরিচালনা করার জন্য ন্যূনতম নমুনা আকারের সুপারিশ। আন্তর্জাতিক জার্নাল অফ টেস্টিং, 5 (2), 159-168।
  • প্রচারক, কেজে, এবং ম্যাককালাম, আরসি (2002)। আচরণ জেনেটিক্স গবেষণায় অনুসন্ধানের ফ্যাক্টর বিশ্লেষণ: ছোট নমুনা আকারের সাথে ফ্যাক্টর পুনরুদ্ধার। আচরণ জেনেটিক্স, 32 (2), 153-161।
  • ডি শীতকালীন, জেসিএফ, ডোডো, ডি, এবং উইরিঙ্গা, পিএ (২০০৯)। ছোট নমুনা মাপের সাথে এক্সপ্লোরার ফ্যাক্টর বিশ্লেষণ। মাল্টিভিয়ারিয়েট আচরণমূলক গবেষণা, 44 (2), 147-181।

5
(+1) সিমুলেশন এবং রিয়েল ডেটাসেট ব্যবহার করে এখানে আরও একটি কাগজ দেওয়া হয়েছে, যা প্রস্তাব দেয় যে এন / পি নিয়ম-অফ-থাম্বটি অনুশীলনে খুব ভাল সম্পাদন করে না এবং এটি EFA- এ স্থিতিশীল এবং নির্ভুল সমাধান পেতে প্রয়োজনীয় নমুনা আকার সরবরাহ করে provides বিভিন্ন মানের মানদণ্ডের জন্য নিয়ন্ত্রণ - একটি মানসিক রোগের স্কেলগুলিতে কারণগুলির সংখ্যা এবং আইটেমগুলির সংখ্যার (এবং allyচ্ছিকভাবে ক্রোনব্যাকের আলফা 95% সিআই এর অর্ধ-প্রস্থ) ফাংশন হিসাবে: এর জন্য নমুনা আকারের প্রয়োজনীয়তা মানসিক চিকিত্সার অভ্যন্তরীণ বৈধতা ইন্ট জে মেথডস সাইকিয়াটর রেজ 2011 ডিসেম্বর; 20 (4): 235-49।
chl

1

এমভিএ অসমতার পিছনে ধারণাটি সহজ: পিসিএ ভেরিয়েবলের পারস্পরিক সম্পর্ক মেট্রিক্স অনুমান করার সমতুল্য। আপনি অনুমান করার চেষ্টা করছেনpp12np

সমতাটি এইভাবে দেখা যায়: প্রতিটি পিসিএ পদক্ষেপটি একটি অপ্টিমাইজেশান সমস্যা problem আমরা সবচেয়ে বেশি বৈচিত্র্য ব্যক্ত করার দিকনির্দেশনার সন্ধান করার চেষ্টা করছি। অর্থাৎ,

max(aiTΣai)

σ

সীমাবদ্ধতার অধীনে:

aiTai=1

aiTaj=0
j<i

Σσ

মাত্র দুটি দাতাসহ একটি মান অনুমান করার সাথে এন = পি নেওয়া কম বেশি সমান ... এটি নির্ভরযোগ্য নয়।

থাম্বসের কোনও নিয়ম নেই, কেবল মনে রাখবেন যে পিসিএ কমপক্ষে থেকে কোনও মান অনুমান করার মতো একই জিনিস2np


kk(p1)+(p2)++(pk)pkp(p1)/2
হুবুহু

মুল বক্তব্যটি হ'ল আপনি ম্যাট্রিক্সের p (p-1) / 2 সহগগুলি থেকে ইগেনভেেক্টরগুলির (pk) সহগের গণনা করছেন। এলোমেলো ম্যাট্রিক্সের জন্য, আমি ভাবি না যে ইগেনভেেক্টর / ইগেনভ্যালু গণনা করে কিছু সহগকে "এড়িয়ে" যাওয়ার কোনও উপায় আছে।
lcrmorin

নিশ্চিতভাবেই রয়েছে: সাধারণ অ্যালগরিদমগুলি নীচে সবচেয়ে বড় ইগ্যালভ্যালু থেকে একসাথে একবারে আইগানুয়ালগুলি এবং ইগেনভেেক্টরগুলিকে খুঁজে পায়। তদ্ব্যতীত, এটি কোনও গণ্য সমস্যা নয়, তবে অনুমিত মানের সংখ্যা গণনার মধ্যে একটি - যদি না আমি আপনার উত্তরটি ভুল করে বলি?
whuber

1

আমি আশা করি এটি সহায়ক হতে পারে:

এফএ এবং পিসিএ উভয়ের জন্য

'' এই অধ্যায়ে বর্ণিত পদ্ধতিগুলির স্থিতিশীল সমাধানগুলি পেতে বড় নমুনাগুলির প্রয়োজন। পর্যাপ্ত নমুনার আকারটি কী গঠন করে তা কিছুটা জটিল। সাম্প্রতিক অবধি বিশ্লেষকরা থাম্বের নিয়মগুলি ব্যবহার করেছিলেন যেমন "ফ্যাক্টর বিশ্লেষণের ক্ষেত্রে ভেরিয়েবলের মতো অনেকগুলি বিষয়ের 5-10 গুণ গতি প্রয়োজন” "সাম্প্রতিক গবেষণাগুলি থেকে প্রমাণিত হয় যে প্রয়োজনীয় নমুনা আকারটি প্রতিটি ফ্যাক্টরের সাথে সম্পর্কিত ভেরিয়েবলের সংখ্যার উপর নির্ভর করে এবং কীভাবে ভাল কারণগুলির সেটগুলি ভেরিয়েবলগুলির মধ্যে বিভিন্নতা ব্যাখ্যা করে (ব্যান্ডালোস এবং বোহেম-কাউফম্যান, ২০০৯)। আমি একটি অঙ্গ নিয়ে বেরিয়ে যাব এবং বলব যে আপনার যদি কয়েকশ পর্যবেক্ষণ থাকে তবে আপনি সম্ভবত নিরাপদ। '

রেফারেন্স:

ব্যান্ডালোস, ডিএল, এবং এমআর বোহেম-কাউফম্যান। 2009 "অনুসন্ধানমূলক ফ্যাক্টর বিশ্লেষণ চার প্রচলিত ভ্রান্ত ধারনা।" পরিসংখ্যানের এবং পদ্ধতিগত শ্রুতি এবং আরবান কিংবদন্তী, সিই ল্যান্স এবং আরজে Vandenberg, 61-87 সম্পাদিত। নিউ ইয়র্ক: রাউটলেজ।

রবার্ট আই ক্যাবাকফের "আর ইন অ্যাকশন" থেকে, খুব ভাল তথ্যযুক্ত বইটি প্রায় সমস্ত পরিসংখ্যানের পরীক্ষা কভার করার পরামর্শ দেয়।


2
দেখে মনে হচ্ছে আপনি কোনও বইয়ের জন্য প্লাগ করছেন এবং গৌণ বা তৃতীয় উত্সের উপর ভিত্তি করে তৈরি কিছু পয়েন্ট পুনরায় তুলছেন। এটি খুব দরকারী বলে মনে হয় না। আপনি কি কমপক্ষে ব্যান্ডালোস এবং বোহেম-কাউফম্যান, ২০০৯ এর পুরো রেফারেন্স সরবরাহ করতে পারেন?
গালা
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.