পিসিএর জন্য অনুপস্থিত মানগুলির অনুদান utation


23

আমি আর- prcomp()তে একটি পিসিএ (মূল উপাদান বিশ্লেষণ) সম্পাদন করতে ফাংশনটি ব্যবহার করেছি However তবে, সেই ফাংশনে একটি বাগ রয়েছে যাতে na.actionপ্যারামিটারটি কাজ করে না। আমি স্ট্যাকওভারফ্লোতে সহায়তা চেয়েছি ; সেখানে দুইজন ব্যবহারকারী NAমূল্যবোধের সাথে আচরণ করার দুটি পৃথক উপায়ে প্রস্তাব করেছিলেন । যাইহোক, উভয় সমাধানের সাথে সমস্যাটি হ'ল যখন কোনও NAমান থাকে, তখন সেই সারিটি বাদ পড়ে যায় এবং পিসিএ বিশ্লেষণে বিবেচনা করা হয় না। আমার আসল ডেটা সেটটি 100 x 100 এর ম্যাট্রিক্স এবং এটিতে একটি একক NAমান রয়েছে বলেই আমি একটি সম্পূর্ণ সারিটি হারাতে চাই না ।

নিম্নলিখিত উদাহরণটি দেখায় যে prcomp()ফাংশনটি 5 সারিটির জন্য কোনও মূল উপাদানকে ফেরত দেয় না কারণ এতে একটি NAমান রয়েছে ।

d       <- data.frame(V1 = sample(1:100, 10), V2 = sample(1:100, 10), 
                      V3 = sample(1:100, 10))
result  <- prcomp(d, center = TRUE, scale = TRUE, na.action = na.omit)
result$x                                # $
d$V1[5] <- NA                           # $
result  <- prcomp(~V1+V2, data=d, center = TRUE, scale = TRUE, na.action = na.omit)
result$x

আমি ভাবছিলাম যে আমি NAযখন একটি নির্দিষ্ট সংখ্যার মানগুলিতে সেট করতে পারি centerএবং scaleসেট করা থাকে TRUEযাতে prcomp()ফাংশনটি কাজ করে এবং এতে থাকা সারিগুলি সরিয়ে না দেয় NA, তবে পিসিএ বিশ্লেষণের ফলাফলকেও প্রভাবিত করে না।

আমি NAমানগুলি একটি একক কলাম জুড়ে মধ্যমানের মানটি বা খুব কাছাকাছি মানের সাথে প্রতিস্থাপন করার কথা ভেবেছিলাম However তবে, আমি নিশ্চিত নই যে এটি পিসিএ বিশ্লেষণকে কীভাবে প্রভাবিত করে।

কেউ কি এই সমস্যা সমাধানের ভাল উপায় সম্পর্কে চিন্তা করতে পারেন?


8
আপনার সমস্যা পিসিএ সমস্যা নয় তবে একটি বৃহত্তর অনুপস্থিত মান ট্র্যারমেন্ট সমস্যা। আপনি যদি এর সাথে পরিচিত না হন তবে দয়া করে এটিতে কিছুটা পড়ুন । আপনার অনেক সুযোগ রয়েছে: (1) কেস লিস্টওয়াইজ করুন বা (2) পেয়ারওয়াইজ, বা (3) মিসিংগুলি প্রতিস্থাপন বা মিডিয়ান দ্বারা প্রতিস্থাপন করুন। অথবা (4) বৈধ মানগুলির (এলোমেলো ডেক পদ্ধতির) এলোমেলোভাবে স্থান দ্বারা প্রতিস্থাপন করুন। বা (5) পারস্পরিক রিগ্রেশন (শব্দ সংযোজন সহ বা ছাড়া) পদ্ধতির মাধ্যমে বা আরও ভাল, (6) ইএম পদ্ধতির মাধ্যমে মিস করা মিস করুন
ttnphns

মতামত এবং উত্তরগুলি যেমন প্রদর্শিত হচ্ছে, একটি ভাল উত্তর পাওয়ার চাবিকাঠিটি NAমূল্যবোধগুলির অর্থ কী তা বোঝানো : "নিখোঁজ হওয়া" এর কারণ কী?
হোয়বার

2
আমি মনে করি "pcaMethods" প্যাকেজটি আপনার সমস্যার সমাধান করতে পারে ( এখানে )
ToNoY

উত্তর:


22

আসলে গ্যাপি ম্যাট্রিক্সের সাথে মোকাবিলা করার জন্য একটি ভাল নথিভুক্ত উপায় রয়েছে - আপনি আপনার ডেটা from থেকে একটি কোভেরিয়েন্স ম্যাট্রিক্স বিভক্ত করতে পারেন , যা ভাগ করা মানগুলির সংখ্যার সাহায্যে :CXn

C=1nXTX,                Cjl=X.jY.l¯

এবং তারপরে কমপক্ষে স্কোয়াস ফিট হয়ে মূল সংখ্যাগুলি প্রসারিত করুন (@ ব্যবহারকারী969113 উল্লেখ হিসাবে)। এখানে একটি উদাহরণ

যাইহোক, এই পদ্ধতির সাথে সম্পর্কিত যে covariance ম্যাট্রিক্স আর semipositive সুনির্দিষ্ট হয় না এবং ইগান / একবচনীয় মান স্ফীত হয় প্রসঙ্গে এই সমস্যা আছে। এই সমস্যাগুলির একটি দুর্দান্ত পর্যালোচনা বেকারস এবং রিক্সেন (2003)-এ পাওয়া যাবে , যেখানে তারা নিখোঁজ ফাঁকগুলি যথোপযুক্তভাবে ইন্টারপোল্ট করার একটি পদ্ধতির প্রস্তাবও দেয় - ডাইনওএফ (ডেটা ইন্টারপোলটিং এম্পিরিকাল অর্থোগোনাল ফাংশন)। আমি সম্প্রতি একটি ফাংশন লিখেছি যা ডাইনফ সম্পাদন করে এবং এটি সত্যিই আরও অনেক ভাল উপায় হতে পারে বলে মনে হয়। আপনি আপনার ডেটাসেট সরাসরি সম্পাদন করতে পারেন এবং তারপরে ইনপুট হিসাবে ইন্টারপোল্টেড ডেটাসেটটি ব্যবহার করতে পারেন ।Xprcomp

হালনাগাদ

গ্যাপি ডেটাসেটে পিসিএ পরিচালনার জন্য অন্য একটি বিকল্প হ'ল "পুনরাবৃত্তভাবে সাবট্রাক্টেড এম্পিরিকাল অর্থমোগোনাল ফাংশনস" (টেলর এট আল। 2013)। এটি ন্যূনতম স্কোয়ার পদ্ধতির কিছু সমস্যার জন্যও সংশোধন করে এবং DINEOF এর চেয়ে কমপিটেশনিয়ালি আরও দ্রুত। এই পোস্টটি পিসি ব্যবহার করে ডেটা পুনর্গঠনের যথার্থতার দিক দিয়ে তিনটি পদ্ধতির তুলনা করে।

তথ্যসূত্র

বেকারস, জিন-মেরি এবং এম। রিক্সেন। "অসম্পূর্ণ মহাসাগরীয় ডেটাসেটগুলি থেকে ইওএফ গণনা এবং ডেটা ফিলিং" " বায়ুমণ্ডল এবং মহাসাগর প্রযুক্তি জার্নাল 20.12 (2003): 1839-1856।

টেলর, এম।, লশক, এম।, ওয়েঞ্জেল, এম।, এবং শ্রিয়েটার, জে। (2013)। গ্যাপি ডেটা থেকে প্রাপ্ত ইমিরিকাল অर्थোগোনাল ফাংশনগুলি ব্যবহার করে ক্ষেত্রের পুনর্গঠন এবং পূর্বাভাসের সংবেদনশীলতা। জলবায়ু জার্নাল, 26 (22), 9194-9205।


(+1) এটি আমার কাছে মূল্যবান অবদানের মতো দেখাচ্ছে, কারণ এটি একটি অভিনব ধারণা। আমি অনেক আগে একটি অনুরূপ প্রশ্ন জিজ্ঞাসা করেছি যা উল্লেখযোগ্যভাবে অনুরূপ: ডেটা সেন্সর করা হলে (অনুপস্থিতির পরিবর্তে) আপনি কীভাবে কোনও সমবায় ম্যাট্রিক্সের অনুমান করবেন ? আপনার যদি সেই পরিস্থিতি সম্পর্কে কিছু ভাবনা থাকে তবে আমি একটি উত্তর পেয়ে খুশি হব!
whuber

ধন্যবাদ @ শুভ- আমি বিশ্বাস করি যে এই পদ্ধতিতেও যথেষ্ট যোগ্যতা রয়েছে। এমনকি আপনি যদি দ্বিবিভক্ত মানগুলিতে আগ্রহী না হন, তবুও পদ্ধতিটি ডেটাসেটের জন্য ইওফ / পিসি বর্ণনা করার মতো আরও ভাল - যেমন পুনর্গঠিত ডেটা এবং মূলটির মধ্যে ত্রুটিটি অ্যালগরিদমের মাধ্যমে হ্রাস করা হয়।
বক্সে মার্ক করুন

@ হুইবার - সেন্সর করা ডেটা সম্পর্কিত - এটি আমার দক্ষতার ক্ষেত্রের বাইরে এবং মজার বিষয় হল কয়েক সপ্তাহ আগে আমি এই দিকে একটি প্রশ্ন জিজ্ঞাসা করেছি (যার বিষয়ে আপনি মন্তব্য করেছিলেন!) । আমার কুণ্ডলীটি হ'ল একটিকে শনাক্তকরণের সীমা থেকে নীচে এলোমেলো মানগুলি দিয়ে শূন্যস্থান পূরণ করা উচিত যা পর্যবেক্ষণকৃত মানগুলির বন্টনের আনুমানিক। আমি আপনার পোস্ট থেকে উদ্ধৃত সাহিত্যের কিছু সন্ধান করব - এটি সত্যিই একটি খুব আকর্ষণীয় বিষয়।
মার্কে মার্ক করুন

@ হুইবার - আপনার ডেটা কমিয়ে দেওয়ার জন্য একই রকম একটি পুনরাবৃত্ত কোভেরিয়েন্স ম্যাট্রিক্স ফিটিং পদ্ধতি বর্ণনা করার জন্য নিম্নলিখিত কাগজটিতে আগ্রহী হতে পারেন: বিয়েন, জ্যাকব এবং রবার্ট জে তিবশিরানী। "একটি সমবায় ম্যাট্রিক্সের বিচ্ছিন্ন অনুমান।" বায়োমেটিকার 98.4 (2011): 807-820।
মার্কে মার্ক করুন

ধন্যবাদ @ মার্ক। দুর্ভাগ্যক্রমে সেন্সরিং এবং স্পেয়ারেসনেস বিভিন্ন উদ্বেগের সাথে দুটি আলাদা জিনিস।
whuber

6

আমার পরামর্শ নির্ভর করে যে কতটা ডাটা অনুপস্থিত এবং কেন এটি অনুপস্থিত। তবে পিসিএর সাথে এটির কোনও সম্পর্ক নেই। যদি খুব অল্প ডেটা অনুপস্থিত থাকে, তবে আপনি কী করেন তা কিছু বিবেচ্য হবে না। মাঝারিটির সাথে প্রতিস্থাপন আদর্শ নয়, তবে যদি খুব বেশি অনুপস্থিত থাকে তবে এটি আরও ভাল সমাধান থেকে আলাদা হবে না। আপনি মিডিয়েন রিপ্লেসমেন্ট এবং লিস্টওয়্যার মোছা উভয়ই পিসিএ করার চেষ্টা করতে পারেন এবং ফলাফলের মধ্যে বড় পার্থক্য রয়েছে কিনা তা দেখতে পারেন।

এরপরে, যদি আরও ডেটা অনুপস্থিত থাকে তবে আপনার বিবেচনা করা উচিত যে এটি এলোমেলোভাবে পুরোপুরি অনুপস্থিত, এলোমেলোভাবে অনুপস্থিত, বা এলোমেলোভাবে অনুপস্থিত কিনা। আমি প্রথম দুটি ক্ষেত্রে একাধিক অনুশাসন এবং তৃতীয় ক্ষেত্রে কিছু সময় প্রস্তাব দেব - যদি না তার এনএমআর স্ট্যাটাসের দ্বারা ডেটাটি খুব বেশি বিকৃত করা হয় তবে আমি মনে করি তালিকাভুক্তকরণের চেয়ে একাধিক অনুবর্তন আরও ভাল হবে (পেন স্টেটের জো স্ক্যাফার একটি করেছেন) অনুপস্থিত ডেটা নিয়ে প্রচুর কাজ - আমি তার দেখানোর কিছু কাজ স্মরণ করি যা একাধিক অনুমিত এমনকি কিছু এনএমআর ক্ষেত্রেও বেশ ভাল কাজ করেছিল)। যাইহোক, যদি ডেটা এমসিএআর বা এমএআর হয় তবে একাধিক অনুমানের বৈশিষ্ট্য প্রমাণিত হতে পারে।

আপনি যদি এমআই-এর সাথে যাওয়ার সিদ্ধান্ত নেন, একটি নোট সতর্কতা অবলম্বন করা উচিত কারণ পিসিএতে উপাদানগুলির লক্ষণগুলি ইচ্ছামত হয় এবং তথ্যগুলিতে একটি সামান্য পরিবর্তন একটি চিহ্নকে উল্টাতে পারে। তারপরে আপনি পিসিএ করবেন তখন আজেবাজে পাবে। অনেক দিন আগে আমি এসএএস-তে একটি সমাধান নিয়ে কাজ করেছি - এটি কঠিন নয়, তবে এটি সম্পর্কে সতর্কতা অবলম্বন করার মতো বিষয়।


1

সমস্যার সঠিক কোনও সমাধান নেই। মূল উপাদানগুলির সঠিক সেট পেতে ভেক্টরটির প্রতিটি স্থানাঙ্ক নির্দিষ্ট করতে হবে। যদি কোনও স্থানাঙ্ক অনুপস্থিত এবং কিছু অভিযুক্ত মান দ্বারা প্রতিস্থাপিত হয় তবে আপনি ফল পাবেন তবে তা দোষযুক্ত মানের উপর নির্ভর করবে। সুতরাং যদি অভিযুক্ত মানের জন্য দুটি যুক্তিসঙ্গত পছন্দ থাকে তবে বিভিন্ন পছন্দ বিভিন্ন উত্তর দেবে।


3
আমি স্রেফ পিসিএ এবং হারিয়ে যাওয়া ডেটার জন্য গুগল করেছি এবং এটি পেয়েছি: 4.2 সিমসিএ কীভাবে হারিয়ে যাওয়া ডেটার সাথে মোকাবেলা করে? কেবল নিপালস অ্যালগরিদম অন্ততপক্ষে বিভক্ত বিন্দুটিকে কমপক্ষে স্কোয়াস ফিট করে তবে গুম হওয়া তথ্যকে মডেলের কোনও প্রভাব দেয় না। ক্রমাগত পুনরাবৃত্তিগুলি কেবলমাত্র পয়েন্টের জন্য স্কোর এবং লোডিংয়ের দ্বারা অনুপস্থিত মানটিকে সংশোধন করে। অনুমানের মতো ডেটা হারিয়ে যাওয়ার জন্য অনেকগুলি পৃথক পদ্ধতি বিদ্যমান তবে তারা সাধারণত একই সমাধানে রূপান্তর করে। নিখোঁজ ডেটা যদি এলোমেলোভাবে বিতরণ করা হয় তা গ্রহণযোগ্য। সিস্টেমেটিক ব্লকগুলি হারিয়ে যাওয়া ডেটা সমস্যাযুক্ত।
ব্যবহারকারী 969113

1
মডেলটির কোনও প্রভাব দ্বারা আপনি কী বোঝেন তা আমি জানি না। স্থানাঙ্কের জন্য নিখোঁজ মানের যে কোনও পছন্দ মূল উপাদানগুলিকে প্রভাবিত করবে।
মাইকেল আর। চেরনিক

1

একটি সাম্প্রতিক কাগজ যা রিভিউ পিসিএ মধ্যে বিশ্লেষণ অনুপস্থিত মানের সঙ্গে তার আচরণ জন্য পন্থা হল ড্রে & Josse (2015) দ্বারা: "পদ্ধতি তুলনামূলক জরিপ মান অনুপস্থিত সঙ্গে প্রধান উপাদান বিশ্লেষণ" । পিসিএ পদ্ধতি মান অনুপস্থিত জন্য অনুমতি শ্রেষ্ঠ পরিচিত পদ্ধতি দুই NIPALS অ্যালগরিদম বাস্তবায়িত হয় nipalsএর ফাংশন ade4প্যাকেজ, এবং পুনরাবৃত্ত পিসিএ (Ipca বা ই.এম.-পিসিএ), বাস্তবায়িত imputePCAফাংশন missMDAপ্যাকেজ। কাগজটি উপসংহারে পৌঁছেছিল যে ইপকা পদ্ধতিটি বিস্তৃত শর্তের মধ্যে সর্বোত্তম অভিনয় করেছে।

আপনার উদাহরণের বাক্য গঠনটি হ'ল:

নিপালের জন্য:

library(ade4)
nipals(d[,c(1,2)])

ইপকার জন্য:

library(missMDA)
imputePCA(d[,c(1,2)],method="EM",ncp=1)
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.