পিসিএর উদাহরণ যেখানে কম বৈচিত্র সহ পিসিগুলি "দরকারী"


24

সাধারণত অধ্যক্ষ উপাদান বিশ্লেষণে (পিসিএ) প্রথম কয়েকটি পিসি ব্যবহার করা হয় এবং কম ভেরিয়েন্স পিসি বাদ দেওয়া হয়, কারণ তারা ডেটাগুলির মধ্যে তারতম্যের খুব বেশি ব্যাখ্যা করে না।

যাইহোক, এমন কোনও উদাহরণ রয়েছে যেখানে নিম্ন প্রকরণের পিসিগুলি দরকারী (যেমন তথ্যগুলির প্রসঙ্গে ব্যবহার করতে পারে, একটি স্বজ্ঞাত ব্যাখ্যা আছে ইত্যাদি) এবং এগুলি ফেলে দেওয়া উচিত নয়?


5
একটু চুপ কর. পিসিএ দেখুন , উপাদানটির এলোমেলোতা? এটি এমনকি একটি সদৃশও হতে পারে তবে আপনার শিরোনামটি আরও স্পষ্ট ((সুতরাং অনুসন্ধানের মাধ্যমে এটি সন্ধান করা আরও সহজ), সুতরাং দয়া করে এটি মুছে ফেলবেন না এমনকি যদি এটি বন্ধ হয়ে যায়।
নিক স্টাওনার

উত্তর:


18

এখানে জলিফের একটি দুর্দান্ত অংশ (1982) যা আমি আমার অনুরূপ প্রশ্নের আগের উত্তরটিতে অন্তর্ভুক্ত করি নি, " পিসিএতে কম ভেরিয়েন্স উপাদানগুলি, তারা কি সত্যিই শব্দ করছে? এর জন্য পরীক্ষার কোনও উপায় আছে? " আমি খুঁজেছি এটা বেশ স্বজ্ঞাত।

ধরুন যে বিমানবন্দরগুলির একটি গুরুত্বপূর্ণ সমস্যা মেঘ-বেস, এইচ এর উচ্চতা সম্পর্কে পূর্বাভাস দেওয়ার প্রয়োজন এইচ। বিভিন্ন জলবায়ু ভেরিয়েবল তাপমাত্রা সহ মাপা হয় টিগুলি , এবং পৃষ্ঠ শিশিরাঙ্ক, টি । এখানে, টি হ'ল তাপমাত্রা যেখানে তলের বায়ু জলীয় বাষ্পে পরিপূর্ণ হবে এবং পার্থক্য টিগুলি-টি , এটি পৃষ্ঠের আর্দ্রতার একটি পরিমাপ। এখন টিগুলি,টি সাধারণত ধনাত্মকভাবে সম্পর্কযুক্ত, তাই জলবায়ু পরিবর্তনশীলগুলির একটি মূল উপাদান বিশ্লেষণে একটি উচ্চ-ভেরিয়েন্স উপাদান থাকবে যা টি_এস + টি_ডি এর সাথে অত্যন্ত সংযুক্তটিগুলি+ +টি , এবং একটি কম-ভেরিয়েন্স উপাদান যা একইভাবে টি_এস-টি_ডি এর সাথে সম্পর্কযুক্ত টিগুলি-টি। কিন্তু এইচ আর্দ্রতা প্রয়োজন এবং অত: পর সঙ্গে সম্পর্কযুক্ত টিগুলি-টি , অর্থাত একটি উচ্চ ভ্যারিয়েন্স উপাদান একটি নিম্ন ভ্যারিয়েন্স বদলে করার জন্য একটি কৌশল যা কম ভ্যারিয়েন্স উপাদান প্রত্যাখ্যান জন্য দরিদ্র ভবিষ্যৎবাণী দিতে হবে যাতে এইচ
এই উদাহরণটির আলোচনা অবিচ্ছিন্ন কারণ অন্য কোন জলবায়ু পরিবর্তকের অজানা প্রভাব যা পরিমাপ ও বিশ্লেষণের অন্তর্ভুক্ত। যাইহোক, এটি একটি শারীরিকভাবে প্রশ্রয়যোগ্য কেস দেখায় যেখানে নির্ভরশীল পরিবর্তনশীল একটি স্বল্প পরিবর্তনের উপাদানগুলির সাথে সম্পর্কিত হবে, এটি সাহিত্যের তিনটি অভিজ্ঞতামূলক উদাহরণকে নিশ্চিত করে।
তদ্ব্যতীত, ক্লাউড-বেস উদাহরণটি ১৯––-–– সময়ের জন্য কার্ডিফ (ওয়েলস) বিমানবন্দর থেকে প্রাপ্ত একটি অতিরিক্ত জলবায়ু পরিবর্তনশীল, সমুদ্র-পৃষ্ঠের তাপমাত্রা সহ উপাত্তের উপর পরীক্ষিত হয়েছে। উপরের পূর্বাভাস অনুসারে ফলাফলগুলি মূলত ছিল। সর্বশেষ মূল উপাদানটি প্রায় T_s-T_d ছিল টিগুলি-টিএবং এটি মোট পরিবর্তনের মাত্র 0 · 4 শতাংশ ছিল। যাইহোক, মূল উপাদানগুলির প্রতিরোধের ক্ষেত্রে এটি সহজেই এইচ এর সবচেয়ে গুরুত্বপূর্ণ ভবিষ্যদ্বাণী ছিলএইচ[সামনে জোর দাও]

দ্বিতীয় অনুচ্ছেদের শেষ বাক্যে সাহিত্যের যে তিনটি উদাহরণ উল্লেখ করা হয়েছিল সেগুলি হ'ল আমি লিঙ্কিত প্রশ্নের উত্তরে আমার তিনটি উল্লেখ করেছি


রেফারেন্স
জলিফ, আইটি (1982)। রিগ্রেশনে মূল উপাদানগুলির ব্যবহার সম্পর্কে নোট। ফলিত পরিসংখ্যান, 31 (3), 300-303। থেকে সংগৃহীত http://automatica.dei.unipd.it/public/Schenato/PSC/2010_2011/gruppo4-Building_termo_identification/IdentificazioneTermodinamica20072008/Biblio/Articoli/PCR%20vecchio%2082.pdf


এটা সত্যিই দুর্দান্ত। আমি কেবল একটি নোট যোগ করব যে সর্বদা । এটি কেন আমাকে বুঝতে দ্বিতীয় কেন অবশ্যই একটি "কম বৈকল্পিক" উপাদান ছিলভী(একজন+ +বি)=ভী(একজন)+ +ভী(বি)+ +2সিবনাম(একজন,বি)ভী(একজন-বি)=ভী(একজন)+ +ভী(বি)-2সিবনাম(একজন,বি)টিগুলি-টি
শ্যাডট্যালকার

+1, এটি একটি দুর্দান্ত উদাহরণ। মজার বিষয় হল এটি দমন করারও একটি উদাহরণ।
গুং - মনিকা পুনরায়

17

আপনার যদি আর থাকে crabsতবে ম্যাস প্যাকেজের ডেটাতে একটি ভাল উদাহরণ রয়েছে ।

> library(MASS)
> data(crabs)
> head(crabs)

  sp sex index   FL  RW   CL   CW  BD
1  B   M     1  8.1 6.7 16.1 19.0 7.0
2  B   M     2  8.8 7.7 18.1 20.8 7.4
3  B   M     3  9.2 7.8 19.0 22.4 7.7
4  B   M     4  9.6 7.9 20.1 23.1 8.2
5  B   M     5  9.8 8.0 20.3 23.0 8.2
6  B   M     6 10.8 9.0 23.0 26.5 9.8

> crabs.n <- crabs[,4:8]
> pr1 <- prcomp(crabs.n, center=T, scale=T)
> cumsum(pr1$sdev^2)/sum(pr1$sdev^2)
[1] 0.9577670 0.9881040 0.9974306 0.9996577 1.0000000

প্রথম দুটি পিসি দ্বারা 98% এরও বেশি বৈকল্পিকতা "ব্যাখ্যা" করা হয়েছে তবে বাস্তবে আপনি যদি এই পরিমাপগুলি সংগ্রহ করেছিলেন এবং সেগুলি অধ্যয়ন করছেন তবে তৃতীয় পিসিটি অত্যন্ত আকর্ষণীয়, কারণ এটি কাঁকড়ার প্রজাতির সাথে ঘনিষ্ঠভাবে সম্পর্কিত। তবে এটি পিসি 1 (যা কাঁকড়ার আকারের সাথে মিলে যায় বলে মনে হয়) এবং পিসি 2 (যা কাঁকড়ার লিঙ্গের সাথে সঙ্গতিপূর্ণ বলে মনে হয়) দ্বারা জলাবদ্ধ is

এখানে চিত্র বর্ণনা লিখুন

এখানে চিত্র বর্ণনা লিখুন


2
+1, এটি সত্যিই ঝরঝরে বিক্ষোভ। আমি 2 স্ক্যাটারপ্ল্লট ম্যাট্রিক তৈরি করেছি যা আপনার পছন্দ হলে যুক্ত করা যায়।
গুং - মনিকা পুনরায়

1
@ গুং: স্ক্যাটারপ্লটগুলি যুক্ত করার জন্য ধন্যবাদ! আমি এই উত্তরটি আগেই উন্নত করেছিলাম, তবে প্লটগুলি না দেখে এটির সম্পূর্ণ প্রশংসা করি না। স্কেটারপ্ল্লট পিসি 2 বনাম পিসি 3 সত্যিই দুর্দান্ত: উভয় লিঙ্গ এবং প্রজাতিকে প্রায় পুরোপুরি আলাদা করে দেয়। আমি এই উদাহরণটিও পছন্দ করি কারণ এটি যখন সমস্ত ভেরিয়েবল দৃ strongly়ভাবে ইতিবাচকভাবে সম্পর্কিত হয় তখন কী ঘটে তা চিত্রিত করে (অর্থাত পিসি 1 প্রচুর পরিমাণে বৈকল্পিক ব্যাখ্যা করে এবং মূলত গড় হয়)।
অ্যামিবা 22.38 এ মনিকা

1
ধন্যবাদ, @ অ্যামিবা তারা যেভাবে পরিণত হয়েছিল আমি সত্যিই পছন্দ করি। আমি w / তাদের (রঙ, pch, lables, কিংবদন্তি) futzing অনেক সময় ব্যয়। আমি আসলে মনে করি তারা এখন বেশ সুন্দর। আপনি পিসি 1 সম্পর্কে একটি ভাল পয়েন্ট তৈরি করুন। আমরা আরও দেখতে পাচ্ছি যে অনেকগুলি সম্পর্কের ক্ষেত্রে (সম্ভবত) বিভিন্ন ধরণের পরিবর্তনের ক্রম এবং যৌনতা এবং / বা প্রজাতির দ্বারা একটি মিথস্ক্রিয়া রয়েছে: ছোট (বাচ্চা?) কাঁকড়ার লিঙ্গ বা প্রজাতি নির্বিশেষে একই মান রয়েছে, তবে হিসাবে তারা বড় হয় (বয়স?) তারা আরও স্বতন্ত্র হয়ে ওঠে। ইত্যাদি দেখতে প্রচুর ঝরঝরে স্টাফ রয়েছে - আপনি কেবল সেগুলি দেখতেই পারেন।
গুং - মনিকা পুনরায়

8

আমার অভিজ্ঞতা থেকে দুটি উদাহরণ এখানে রয়েছে (কেমোমেট্রিক্স, অপটিক্যাল / কম্পনীয় / রমন বর্ণালী)

  • আমি সম্প্রতি অপটিকাল বর্ণালী সম্পর্কিত তথ্য পেয়েছি, যেখানে> কাঁচা তথ্যের মোট বৈকল্পিকতার 99% ব্যাকগ্রাউন্ড আলোতে পরিবর্তনের কারণে হয়েছিল (পরিমাপ করা বিন্দুটির উপর স্পটলাইট কম বেশি তীব্র হয়, ফ্লোরোসেন্ট ল্যাম্পগুলি চালু / বন্ধ হয়, আরও বা কম মেঘের আগে ছিল) সূর্য). পরিচিত প্রভাবিতকারী উপাদানগুলির অপটিকাল বর্ণালীর সাথে ব্যাকগ্রাউন্ড সংশোধন করার পরে (কাঁচা তথ্যতে পিসিএ দ্বারা নেওয়া; এই বিভিন্নতাগুলি আবরণ করার জন্য অতিরিক্ত পরিমাপ করা হয়েছিল), পিসি ৪ এবং ৫ এর মধ্যে আমরা কী প্রভাব নিয়ে আগ্রহী তা দেখিয়েছি
    যেখানে পিসি 1 এবং 3 যেখানে পরিমাপক নমুনায় অন্যান্য প্রভাবের কারণে, এবং পিসি 2 পরিমাপকালে যন্ত্র টিপ গরম করার সাথে সম্পর্কযুক্ত।

  • অন্য পরিমাপে, পরিমাপ বর্ণালী রেঞ্জের জন্য রঙ সংশোধন ছাড়াই একটি লেন্স ব্যবহার করা হয়েছিল। ক্রোম্যাটিক বিভেদ সিএর জন্য দায়ী বর্ণালীতে বিকৃতি ঘটায় lead প্রাক-প্রক্রিয়াজাত তথ্যের মোট বৈকল্পিকতার 90% (বেশিরভাগ পিসি 1 তে ধরা পড়ে)।
    এই ডেটাটির জন্য ঠিক কী ঘটেছে তা বুঝতে আমাদের বেশ সময় লেগেছে, তবে আরও ভাল উদ্দেশ্যে স্যুইচ করা পরবর্তী পরীক্ষাগুলির জন্য সমস্যার সমাধান করেছে।

(এই অধ্যয়নগুলি এখনও অপ্রকাশিত হওয়ায় আমি বিশদটি প্রদর্শন করতে পারি না)


3

আমি লক্ষ্য করেছি যে কোভারিয়েন্স ম্যাট্রিক্সে পিসিএ সঞ্চালনের সময় স্বল্প পরিমাণে পিসি সবচেয়ে সহায়ক হয় যেখানে অন্তর্নিহিত ডেটাগুলি কোনওভাবে ক্লাস্টার করা বা গোষ্ঠীযুক্ত করা হয়। গ্রুপগুলির মধ্যে একটিতে যদি অন্য গ্রুপগুলির তুলনায় যথেষ্ট কম গড় বৈকল্পিক হয়, তবে ক্ষুদ্রতম পিসিগুলি সেই গোষ্ঠীর দ্বারা আধিপত্য অর্জন করবে। যাইহোক, আপনার কাছে সেই গোষ্ঠী থেকে ফলাফলগুলি ফেলে দিতে না চাওয়ার কিছু কারণ থাকতে পারে।

ফিনান্সে, স্টক রিটার্নগুলির প্রায় 15-25% বার্ষিক স্ট্যান্ডার্ড বিচ্যুতি থাকে। বন্ড ফলনের পরিবর্তনগুলি historতিহাসিকভাবে অনেক কম স্ট্যান্ডার্ড বিচ্যুতি। আপনি যদি স্টক রিটার্নের কোভেরিয়েন্স ম্যাট্রিক্স এবং বন্ড ফলন পরিবর্তনের উপর পিসিএ করেন তবে শীর্ষ পিসিগুলি সমস্ত স্টকের বৈচিত্রকে প্রতিফলিত করবে এবং ক্ষুদ্রতমগুলি বন্ডের বৈচিত্রগুলি প্রতিফলিত করবে। বন্ডগুলি ব্যাখ্যা করার জন্য আপনি যদি পিসিগুলি ফেলে দেন তবে আপনি কিছুটা সমস্যায় পড়তে পারেন। উদাহরণস্বরূপ, বন্ডগুলির স্টকের তুলনায় খুব আলাদা বিতরণ বৈশিষ্ট্য থাকতে পারে (পাতলা লেজ, বিভিন্ন সময় পরিবর্তিত বিভিন্ন প্রকরণের বৈশিষ্ট্য, ভিন্ন গড় বিপর্যয়, সমন্বয় ইত্যাদি)। পরিস্থিতিগুলির উপর নির্ভর করে মডেলগুলির পক্ষে এগুলি খুব গুরুত্বপূর্ণ হতে পারে।

আপনি যদি পারস্পরিক সম্পর্ক মেট্রিক্সে পিসিএ করেন, তবে আপনি আরও পিসি দেখতে পাবেন শীর্ষের কাছে বন্ডগুলি ব্যাখ্যা করে।


এই উত্তরটি বোঝা খুব শক্ত যে যদি স্টক, বন্ড, ফলন এবং রিটার্ন কী তা যদি কেউ না জানে। আমি তা করি না এবং তাই আপনার প্রথম বাক্যটি আপনার দ্বিতীয়টির সাথে কীভাবে সম্পর্কিত তা আমি দেখতে পাচ্ছি না ...
অ্যামিবা বলেছেন

1
আমি কিছু সম্পাদনা করেছি।
জন

1

ইন এই আলাপ ( স্লাইড ) প্রযোযক উচ্চ পরিবর্তনশীলতা এবং কম পরিবর্তনশীলতা বৈশিষ্ট্য মধ্যে পার্থক্য করতে পিসিএ তাদের ব্যবহার নিয়ে আলোচনা।

তারা প্রকৃতপক্ষে অসাধারণ সনাক্তকরণের জন্য কম পরিবর্তনশীল বৈশিষ্ট্যগুলি পছন্দ করে, যেহেতু কম পরিবর্তনশীলতার মাত্রায় একটি উল্লেখযোগ্য স্থানান্তর ব্যতিক্রমী আচরণের একটি শক্তিশালী সূচক। তারা প্রদত্ত অনুপ্রেরণামূলক উদাহরণ নিম্নরূপ:

ধরে নিন কোনও ব্যবহারকারী সর্বদা ম্যাক থেকে লগ ইন করেন। তাদের ক্রিয়াকলাপের "অপারেটিং সিস্টেম" মাত্রা খুব কম বৈকল্পিক হবে। তবে যদি আমরা সেই একই ব্যবহারকারীর লগইন ইভেন্টটি দেখতে পাই যেখানে "অপারেটিং সিস্টেম" উইন্ডোজ ছিল, এটি খুব আকর্ষণীয় হবে এবং আমরা এটি ধরতে চাই।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.