এআইসি (বা বিআইসি) ব্যবহার করে পিসিএ মডেল নির্বাচন


12

আমি পিসিএতে নিষ্কাশনের জন্য উপযুক্ত সংখ্যক উপাদান নির্বাচন করতে আকাইকে তথ্য মানদণ্ড (এআইসি) ব্যবহার করতে চাই। একমাত্র ইস্যুটি হ'ল প্যারামিটারগুলির সংখ্যা নির্ধারণ করার জন্য আমি নিশ্চিত নই।

একটি ম্যাট্রিক্স বিবেচনা করুন , যেখানে ভেরিয়েবলের সংখ্যা এবং পর্যবেক্ষণের সংখ্যার প্রতিনিধিত্ব করে , যেমন । যেহেতু সহভেদাংক ম্যাট্রিক্স প্রতিসম হয়, তাহলে সর্বোচ্চ সম্ভাবনা অনুমান স্থির করতে পারে এআইসি মধ্যে পরামিতি সংখ্যার সমান ।T×Nএন টি এক্স এন ( 0 , Σ ) Σ এন ( এন + 1 )XNTXN(0,Σ)ΣN(N+1)2

বিকল্পভাবে, একটি পিসিএতে, আপনি প্রথম ইগেনভেেক্টর এবং ইগেনভ্যালুগুলি বের করতে পারেন , তাদেরকে এবং কল করতে পারেন এবং তারপরে যেখানে the হ'ল গড় অবশিষ্টাংশ iance আমার গণনা করার মাধ্যমে, আপনি আছে যদি কারণের, তাহলে আপনি would মধ্যে পরামিতি , মধ্যে পরামিতি , এবং মাপদণ্ড ।Σ β f Λ f Σ = β f Λ f β f + I σ 2 r σ 2 r f f Λ f N f β f 1 σ 2 rfΣβfΛf

Σ=βfΛfβf+Iσr2
σr2ffΛfNfβf1σr2

এই পদ্ধতির সঠিক? দেখে মনে হচ্ছে এটি জাতীয় সম্ভাব্যতার চেয়ে বেশি প্যারামিটারের দিকে নিয়ে যাবে কারণ কারণগুলির সংখ্যা বৃদ্ধি পায় ।N


1
Nf প্যারামিটারগুলিকে ওভারকাউন্ট করে: ইগেনভেেক্টরগুলি পারস্পরিক অর্থেগোনাল হওয়ার কারণে এখানে অপ্রয়োজনীয়তা রয়েছে।
শুক্র

10
প্রথম ইগেনভেেক্টরটিতে ফ্রি পরামিতি রয়েছে। অরথোগোনালিটি শর্তটি দ্বিতীয় আইজেনভেક્ટરকে হাইপারস্পেস र्थোগোনালকে প্রথমটিতে সীমাবদ্ধ করে, কেবলমাত্র প্যারামিটারের প্রয়োজন। প্রতিটি ক্রমাগত ইগেনভেেক্টরের পূর্ববর্তীগুলির চেয়ে কম প্যারামিটার প্রয়োজন। সীমা এ eigenvectors আপনি বাতিল (এটা এখন শূন্য কারণ), দান = পরামিতি Toto এ, আপনার প্রথম প্যারামিটার সাথে চুক্তিতে গণনা। NN1Nσr2N+(N1)++1N(N+1)/2
whuber

1
@ এডোন্ডা পরিস্থিতিটি অস্পষ্ট: ধরা যাক আপনি প্রতিটি সংখ্যাবৃদ্ধিও নির্দেশ করেছেন এবং এই গুণগুলি সমষ্টি হিসাবে রয়েছে যে পিসিএ একটি অরথোগোনাল রূপান্তর খুঁজে পেয়েছে, আমাদের কাছে এটি নির্ধারণের জন্য পরামিতি। তবে প্রতিটি ইগেনস্পেসের স্টেবিলাইজারগুলি মাত্রায় গ্রুপপ্রতিটি পরামিতিগুলি মুছে ফেলে পরামিতিগুলির জন্য ঘূর্ণনের জন্য eigenvalues অবশিষ্ট পরামিতি সরবরাহ। n1,n2,,ns,N.N(N1)/2ni.ni(ni1)/2
N(N1)/2i=1sni(ni1)/2
s
whuber

1
পিসিএ: (i যোগ করা উচিত যে প্রশ্ন এই কাউন্টিং প্রয়োগের সন্দেহজনক হয় ব্যবহার সব , পরামিতি, এমনকি যদি এটি বেশী সংখ্যাধিক্য কিছু eigenvalues এটি ঘটতে পারে এবং প্রায় যে কোনো বাস্তব ডেটাসেটে। এটা চেয়ে সংখ্যাধিক্য বৃহত্তর প্রাপ্ত হবে না যাহাই হউক না কেন)।1N(N1)/21
whuber

1
@ শুভ, ধন্যবাদ! আমার প্রশ্ন এমন পরিস্থিতি দ্বারা অনুপ্রাণিত হয়েছে যেখানে আমি ইউজ্যুয়াল্যুয়সের প্রতিবন্ধকতার অধীনে কোভারিয়েন্স ম্যাট্রিক্সের অনুমান করি।
এ ডন্ডা

উত্তর:


5

মিনকার কাজ ( পিসিএ-এর জন্য মাত্রিকতার স্বয়ংক্রিয় পছন্দ , 2000) এবং পিসিএর একটি সম্ভাব্য দৃষ্টিভঙ্গি সম্পর্কিত টিপিং এবং বিশপ ( সম্ভাব্য প্রিন্সিপাল কম্পোনেন্ট বিশ্লেষণ ) এর কাজগুলি আপনাকে আগ্রহী কাঠামো সরবরাহ করতে পারে Min সম্ভাবনা যেখানে আপনার ল্যাপ্লেস আনুমানিকতা ব্যবহার করে ডেটাসেট এর সুপ্ত মাত্রিকতা ; যেমনটি স্পষ্টভাবে বলা হয়েছে: " ল্যাপ্লেসের পদ্ধতির সরলীকরণ হ'ল বিআইসির আনুমানিকতা " "কে ডিlogp(D|k)kD

স্পষ্টতই এটি আপনার সমস্যার একটি বায়সীয় দৃষ্টিভঙ্গি গ্রহণ করে যা এআইসি দ্বারা ব্যবহৃত তথ্য তত্ত্বের মানদণ্ড (কেএল-ডাইভারজেন্স) এর ভিত্তিতে নয়।

মূল "পরামিতিগুলির সংখ্যার নির্ধারণ" প্রশ্নের বিষয়ে আমিও মনে করি @ হুইলারের মন্তব্য সঠিক অন্তর্দৃষ্টি বহন করে।


আমি বিভিন্ন মাপের এলোমেলো ম্যাট্রিকগুলিতে এআইসি বনাম এআইসিসির সাথে প্রায় খেলছিলাম। এআইসিসি আরও ভাল কাজ করছে বলে মনে হচ্ছে। সেগুলি উল্লেখগুলি দেখতে দুর্দান্ত, তবে আমার হজম করার কোনও সুযোগ এখনও পেল না।
জন

6

পিসিএতে একটি "উপযুক্ত" সংখ্যক উপাদান নির্বাচন করা হর্নের সমান্তরাল বিশ্লেষণ (পিএ) দিয়ে মার্জিতভাবে সম্পাদন করা যেতে পারে। কাগজগুলি দেখায় যে এই মানদণ্ডটি নিয়মিতভাবে কনুইয়ের মানদণ্ড বা কায়সারের বিধি হিসাবে থাম্বের নিয়মকে কার্যকর করে per আর প্যাকেজ "পারান" এর PA বাস্তবায়ন রয়েছে যার জন্য কয়েকটি মাউস ক্লিক প্রয়োজন।

অবশ্যই, আপনি কতগুলি উপাদান বজায় রাখবেন তা ডেটা হ্রাসের লক্ষ্যগুলির উপর নির্ভর করে। যদি আপনি কেবল "অর্থপূর্ণ" বৈকল্পিকতা ধরে রাখতে চান তবে পিএ অনুকূল হ্রাস দেবে। আপনি যদি মূল তথ্যটির ক্ষয়ক্ষতি হ্রাস করতে চান তবে আপনার 95% বর্ণিত বৈকল্পিকটি কভার করার জন্য পর্যাপ্ত উপাদান বজায় রাখতে হবে। এটি স্পষ্টতই পিএর তুলনায় আরও অনেকগুলি উপাদান রাখবে, যদিও উচ্চ-মাত্রিক ডেটাসেটগুলির জন্য, মাত্রিকতা হ্রাস এখনও যথেষ্ট হবে।

"মডেল নির্বাচন" সমস্যা হিসাবে পিসিএ সম্পর্কে একটি চূড়ান্ত নোট। আমি পিটারের জবাবের সাথে পুরোপুরি একমত নই। অনেকগুলি কাগজপত্র রয়েছে যা পিসিএকে রিগ্রেশন-টাইপ সমস্যা হিসাবে সংশোধন করে, যেমন স্পার্স পিসিএ, স্পার্স প্রোব্যাবিলিস্টিক পিসিএ, বা স্কটলাস। এই "মডেল-ভিত্তিক" পিসিএ সমাধানগুলিতে লোডিংগুলি এমন প্যারামিটার যা উপযুক্ত জরিমানার শর্তাদি 0 এ সেট করা যেতে পারে। সম্ভবত, এই প্রসঙ্গে, বিবেচনাধীন মডেলের জন্য এআইসি বা বিআইসির ধরণের পরিসংখ্যানও গণনা করা সম্ভব হবে।

এই পদ্ধতির তাত্ত্বিকভাবে এমন একটি মডেল অন্তর্ভুক্ত থাকতে পারে যেখানে উদাহরণস্বরূপ, দুটি পিসি সীমাহীন (সমস্ত লোডিং শূন্য নয়), বনাম এমন একটি মডেল যেখানে পিসি 1 অনিয়ন্ত্রিত এবং পিসি 2 এর সমস্ত লোডিং সেট করা আছে 0 এটি পিসি 2 অপ্রয়োজনীয় কিনা অনুমানের সমান হবে? সমগ্রভাবে.

তথ্যসূত্র (পিএ) :

  • দিন্নো, এ (২০১২)। পারান: প্রধান উপাদানসমূহ / উপাদানগুলির হর্নের পরীক্ষা। আর প্যাকেজ সংস্করণ 1.5.1। http://CRAN.R-project.org/package=paran
  • হর্ন জেএল 1965. ফ্যাক্টর বিশ্লেষণের কারণগুলির সংখ্যার জন্য একটি যুক্তি এবং পরীক্ষা। সাইকোমেট্রিকা । 30: 179–185
  • হাববার্ড, আর। এবং অ্যালেন এসজে (1987)। প্রধান উপাদান নিষ্কাশন জন্য বিকল্প পদ্ধতির একটি অভিজ্ঞতা অভিজ্ঞতা। ব্যবসায় গবেষণা জার্নাল, 15 , 173-190।
  • জুইউইক, ডাব্লুআর এবং ভিসিলার, ডাব্লুএফ 1986. পুনরুদ্ধার করার উপাদানগুলির সংখ্যা নির্ধারণের জন্য পাঁচটি বিধিগুলির তুলনা। মনস্তাত্ত্বিক বুলেটিন। 99 : 432–442

@ بینম, সাইটে আপনাকে স্বাগতম M আপনার উত্তর থেকে, আমি মনে করি আপনার চারপাশে থাকা ভাল লাগবে (যদিও আপনার দাবিগুলি মূল্যায়ন করার জন্য বেসিকের বাইরে আমি পিসিএ সম্পর্কে যথেষ্ট জানি না)। একটি প্রশ্ন, আপনি লক্ষ করুন যে এই অবস্থানগুলি সুপ্রতিষ্ঠিত হয়েছে, আপনি কি এমন বেশ কয়েকটি প্রতিনিধি প্রকাশনা তালিকাবদ্ধ করতে পারেন যেখানে আগ্রহী পাঠক আরও বিশদ পেতে পারেন?
গুং - মনিকা পুনরায়

-1

মডেল নির্বাচনের জন্য এআইসি ডিজাইন করা হয়েছে। এটি সত্যিই কোনও মডেল নির্বাচনের সমস্যা নয় এবং সম্ভবত আপনি কোনও ভিন্ন পদ্ধতির গ্রহণ করা ভাল। বিকল্পটি নির্দিষ্ট পরিমাণের বিভিন্ন ধরণের ব্যাখ্যা (যেমন 75% বলুন) নির্দিষ্ট করে এবং শতাংশটি যদি 75% পর্যন্ত পৌঁছায় তবে থামাতে পারে।


1
আমি কারণগুলির সংখ্যার উপর ভিত্তি করে বিভিন্ন মডেলের মধ্যে নির্বাচন করছি (2 টির সাথে মডেলের বিপরীতে 1 ফ্যাক্টর সহ মডেল)। বৈষম্যের শতাংশের সমস্যাটি মূলত এটি অতিরিক্ত ইগেনভেেক্টরগুলির অনুমানের ব্যয়কে উপেক্ষা করে, বিশেষত যখন পর্যবেক্ষণের সংখ্যা ভেরিয়েবলের সংখ্যার চেয়ে কম হয়। একটি সম্ভাব্য পিসিএ পদ্ধতির সাথে এআইসি ভাল ফিট করে।
জন

3
মাইকেল, আপনি কেন সঠিকভাবে ব্যাখ্যা করতে পারেন যে এটি কোনও মডেল নির্বাচনের সমস্যা নয়? দেখে মনে হচ্ছে জন স্পষ্টতই এটি এক হিসাবে তৈরি করেছে।
শুক্র

@ হুবুহু স্ট্যাটিস্টিকাল মডেল কী? আমার কাছে মনে হয় যে ভেরিয়েবলের ওয়াইয়ের পরিবর্তনের x% উপস্থাপন করতে ব্যবহৃত মূল উপাদানগুলির সংখ্যা সিদ্ধান্ত নেওয়া কোনও মডেল নির্বাচন করছেন না। আমি মূল উপাদানগুলি মডেল প্যারামিটার হিসাবে ভাবি না।
মাইকেল আর। চেরনিক

2
XiN(0,Σ)Σσi2ρ|ρ|=1θλ1λ2λ2=0। উভয় দৃষ্টিভঙ্গি নিখুঁত পারস্পরিক সম্পর্ক (সমান্তরালতা) জন্য পরীক্ষা; তারা কেবল বিভিন্ন পরামিতি ব্যবহার করে। আপনি যদি প্রথমটিকে মডেল হিসাবে অনুমতি দেন তবে আপনাকে অবশ্যই দ্বিতীয়টির অনুমতি দিতে হবে
whuber

-3

এআইসি এখানে উপযুক্ত নয়। আপনি বিভিন্ন সংখ্যক পরামিতির মডেলগুলির মধ্যে নির্বাচন করছেন না - একটি প্রধান উপাদান প্যারামিটার নয়।

ফ্যাক্টর বিশ্লেষণ বা মূল উপাদান বিশ্লেষণ - স্ক্রি টেস্ট, ইগেনভ্যালু> 1 ইত্যাদি ইত্যাদি থেকে উপাদান বা উপাদানগুলির সংখ্যার বিষয়ে সিদ্ধান্ত নেওয়ার বিভিন্ন পদ্ধতি রয়েছে তবে আসল পরীক্ষাটি তাত্পর্যপূর্ণ: কোন সংখ্যাটির কারণগুলি বোঝায় ? কারণগুলি দেখুন, ওজন বিবেচনা করুন, যা আপনার ডেটার সাথে উপযুক্ত উপযুক্ত তা নির্ধারণ করুন।

পরিসংখ্যানের অন্যান্য জিনিসের মতো, এটি এমন কিছু নয় যা সহজেই স্বয়ংক্রিয়ভাবে তৈরি করা যায়।


4
ΣΣ

1
@ হুবুহু কোভরিয়েন্স ম্যাট্রিক্সের একটি প্যারামিটার তবে কোনও মডেল প্যারামিটার নয়। আমি এই বিষয়ে পিটারের সাথে আছি।
মাইকেল আর চেরনিক

3
পিটার, আপনি একটি "মডেল প্যারামিটার" এবং একটি "পরামিতি" এর মধ্যে ঠিক কী পার্থক্য করছেন? আমি এ জাতীয় কোনও বিষয় সম্পর্কে অসচেতন এবং তাই এ সম্পর্কে শেখার প্রশংসা করব। যদি আপনার উদ্দেশ্য হ'ল মাল্টিভিয়ারিয়েট কোভেরিয়েন্সগুলির একটি পার্সামোনীয় বিবরণ সন্ধান করা হয়, তবে তারা "মডেল" পরামিতি গঠন করে না?
হোবার

3
nmn

1
তথ্যের জন্য ধন্যবাদ। সময় সিরিজ পরিসংখ্যানগুলির একটি ক্ষেত্র যা সম্পর্কে আমি খুব কম জানি।
পিটার ফ্লুম - মনিকা
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.