পারস্পরিক সম্পর্ক মেট্রিক্স গণনা করার সময় অনুপস্থিত মানগুলির সাথে পর্যবেক্ষণগুলি বাদ দেওয়ার ক্ষেত্রে কি গুরুতর সমস্যা আছে?


12

আমার কাছে 2500 ভেরিয়েবল এবং 142 টি পর্যবেক্ষণের মতো এই বিশাল ডেটা সেট রয়েছে।

আমি ভেরিয়েবল এক্স এবং বাকি ভেরিয়েবলগুলির মধ্যে একটি সম্পর্ক স্থাপন করতে চাই। তবে অনেক কলামের জন্য, এন্ট্রিগুলি অনুপস্থিত রয়েছে।

আমি "জোড়াওয়ালা-সম্পূর্ণ" আর্গুমেন্ট ( use=pairwise.complete.obs) ব্যবহার করে আর-তে এটি করার চেষ্টা করেছি এবং এটি সংশ্লেষণের একটি গোছা তৈরি করেছে। কিন্তু তারপরে স্ট্যাকওভারফ্লো-তে থাকা কেউ এই নিবন্ধটির একটি লিঙ্ক পোস্ট করেছেন http://bwlewis.github.io/covar/missing.html এবং এটি আর-তে "জোড়াযুক্ত-সম্পূর্ণ" পদ্ধতিটিকে অকেজো দেখায় ।

আমার প্রশ্ন: "জোড়াওয়ালা-সম্পূর্ণ" বিকল্পটি ব্যবহার করা যখন উপযুক্ত তখন আমি কীভাবে জানব?

আমার use = complete.obsফিরে এসেছে no complete element pairs, সুতরাং যদি আপনি এর অর্থ কী তা ব্যাখ্যা করতে পারেন তবে তা দুর্দান্ত।


4
জানতে একটি ক্লাসিক গল্প হ'ল আব্রাহাম ওয়াল্ডের গল্প এবং দ্বিতীয় বিশ্বযুদ্ধের প্লেনগুলিতে কোথায় বর্ম যুক্ত করা উচিত তা নিয়ে প্রশ্ন । আপনার ডেটা কেন অনুপস্থিত তা সম্পর্কে কিছুটা বোঝা গুরুত্বপূর্ণ ।
ম্যাথু গুন

উত্তর:


11

যুগলভাবে সম্পূর্ণ পর্যবেক্ষণের সাথে সম্পর্কিত সম্পর্কিত সমস্যা

আপনি যে ক্ষেত্রে বর্ণনা করছেন, মূল বিষয়টি হ'ল ব্যাখ্যা। যেহেতু আপনি যুগলভাবে সম্পূর্ণ পর্যবেক্ষণগুলি ব্যবহার করছেন, আপনি কোনটি পর্যবেক্ষণ অনুপস্থিত রয়েছে তার উপর নির্ভর করে প্রতিটি সংশ্লেষণের জন্য আপনি কিছুটা আলাদা ডেটাসেটগুলি বিশ্লেষণ করছেন।

নিম্নলিখিত উদাহরণ বিবেচনা করুন:

a <- c(NA,NA,NA, 5, 6, 3, 7, 8, 3)
b <- c(2, 8, 3, NA,NA,NA, 6, 9, 5)
c <- c(2, 9, 6, 3, 2, 3, NA,NA,NA) 

ডেটা সেটটি তিনটি ভেরিয়েবল, a, b, এবং c, প্রতিটি কিছু অনুপস্থিত মান আছে। আপনি যদি এখানে ভেরিয়েবলের জোড় সম্পর্কিত পারস্পরিক সম্পর্ক গণনা করেন তবে আপনি কেবলমাত্র এমন কেসগুলি ব্যবহার করতে সক্ষম হবেন যা প্রশ্নে উভয় ভেরিয়েবলের জন্য মূল্য অনুপস্থিত রয়েছে। এই ক্ষেত্রে, তার মানে কি মধ্যে পারস্পরিক মাত্র গত 3 মামলা বিশ্লেষণ হবেন aএবং bশুধু প্রথম তিনটি মধ্যে পারস্পরিক জন্য মামলা bএবং cইত্যাদি

আপনি প্রতিটি পারস্পরিক সম্পর্কের গণনা করার সময় আপনি সম্পূর্ণ পৃথক কেস বিশ্লেষণ করে আসছেন এর অর্থ দাঁড়ায় যে পরস্পরের সম্পর্কের ফলাফলটি নিখরচায় দেখতে পারা যায়। দেখা:

> cor(a,b, use = "pairwise.complete.obs")
[1] 0.8170572
> cor(b,c, use = "pairwise.complete.obs")
[1] 0.9005714
> cor(a,c, use = "pairwise.complete.obs")
[1] -0.7559289

একটি লজিক্যাল অসঙ্গতি মত এই সৌন্দর্য --- aএবং bদৃঢ়ভাবে ইতিবাচক সম্পর্ক হয়, এবং bএবং cএছাড়াও দৃঢ়ভাবে ইতিবাচক সম্পর্ক, তাই আপনি আশা করবে aএবং cইতিবাচক পাশাপাশি সম্পর্কিত করা, কিন্তু আসলে বিপরীত দিক একটি শক্তিশালী সমিতি আছে। আপনি দেখতে পাচ্ছেন কেন অনেক বিশ্লেষক এটিকে পছন্দ করেন না।

Whuber থেকে দরকারী ব্যাখ্যা অন্তর্ভুক্ত সম্পাদনা করুন:

নোট করুন যে আর্গুমেন্টের অংশটি "শক্তিশালী" পারস্পরিক সম্পর্ক বলতে কী বোঝায় তার উপর নির্ভর করে। এটা তোলে জন্য বেশ সম্ভব aএবং bসেইসাথে bএবং c"দৃঢ়ভাবে ইতিবাচক সম্পর্ক" হতে যখন তার মাঝে একটি "বিপরীত দিক শক্তিশালী সমিতি" বিদ্যমান aএবং cএই উদাহরণ হিসাবে, কিন্তু বেশ যেমন চরম। বিষয়টির মূল বিষয়টি হ'ল অনুমানযুক্ত পারস্পরিক সম্পর্ক (বা সমবায়) ম্যাট্রিক্স ইতিবাচক-সুনির্দিষ্ট হতে পারে না: এইভাবেই "শক্তিশালী" পরিমাণটি নির্ধারণ করা উচিত।

নিখোঁজ হওয়ার ধরণের সমস্যাটি

আপনি নিজেরাই ভাবতে পারেন, "আচ্ছা, ঠিক কি ধরে নেওয়া ঠিক হয় না যে আমি প্রতিটি পারস্পরিক সম্পর্কের জন্য যে কেসগুলির সাবসেটটি পেয়েছি সেগুলি আমার সম্পূর্ণ ডেটা থাকলে কমপক্ষে একই প্যাটার্নটি অনুসরণ করবে?" এবং হ্যাঁ, এটি সত্য --- যতক্ষণ না উপলব্ধ ডেটা এলোমেলো , যতক্ষণ না আপনার ডেটার একটি উপসেটের সাথে একটি সম্পর্কিত সম্পর্ক গণনা করার ক্ষেত্রে মূলত কোনও ভুল নেই ( যতক্ষণ না আপনি যথাযথতা এবং শক্তি হ্রাস করেছেন অবশ্যই) যদি আপনার কোনও অনুপস্থিতি না থাকে তবে সমস্ত তথ্যের নমুনা

যখন নিখোঁজতা নিখুঁতভাবে এলোমেলো হয়, তখন তাকে এমসিএআর বলা হয় (এলোমেলোভাবে সম্পূর্ণ অনুপস্থিত)। সেক্ষেত্রে, নিখোঁজ নেই এমন উপাত্তের উপসেট বিশ্লেষণ করা আপনার ফলাফলগুলিকে নিয়মতান্ত্রিকভাবে পক্ষপাতিত্ব করবে না এবং উপরের উদাহরণে আমি যে ধরণের সংক্ষেপযুক্ত সম্পর্কের ধরণ দেখিয়েছি তা পাওয়া অসম্ভব (তবে অসম্ভব নয়) হতে পারে।

আপনার অনুপস্থিতি যখন কোনও উপায়ে পদ্ধতিগত হয় (প্রায়শই এমআর বা এনআই কে সংক্ষেপে দুটি ভিন্ন ধরণের পদ্ধতিগতভাবে নিখোঁজ করা হয়) তখন আপনার আরও অনেক গুরুতর সমস্যা হয়, উভয়ই আপনার গণনায় সম্ভাব্য পক্ষপাতিত্ব প্রবর্তনের ক্ষেত্রে এবং আপনার সাধারণকরণের দক্ষতার দিক থেকেও আগ্রহের জনসংখ্যার ফলাফল (কারণ আপনি যে নমুনাটি বিশ্লেষণ করছেন তা জনসংখ্যার এলোমেলো নমুনা নয়, এমনকি যদি আপনার পুরো ডেটাसेटটি হত)।

সেখানে ডেটা অনুপস্থিত এবং কিভাবে তা মোকাবেলা করার বিষয়ে জানার জন্য উপলব্ধ মহান সম্পদের একটি অনেক আছে, কিন্তু আমার সুপারিশ রুবিন হল: একটি ক্লাসিক , এবং একটি আরো সাম্প্রতিক প্রবন্ধ


2
abbcac

1
@ শুভ ধন্যবাদ, এটি একটি গুরুত্বপূর্ণ বিষয়। আমি সেই স্পষ্টকরণটি অন্তর্ভুক্ত করার জন্য উত্তরের সেই অংশটি আপডেট করেছি।
রোজ হার্টম্যান

7

একটি বিশাল উদ্বেগ হ'ল ডেটাটি কোনও নিয়মানুগ পদ্ধতিতে অনুপস্থিত যা আপনার বিশ্লেষণকে দূষিত করবে। আপনার ডেটা এলোমেলোভাবে অনুপস্থিত হতে পারে।

এটি পূর্ববর্তী উত্তরে উত্থাপিত হয়েছিল, তবে আমি ভেবেছিলাম আমি একটি উদাহরণ অবদান রাখব।

অর্থ উদাহরণ: অনুপস্থিত রিটার্নগুলি দরিদ্র আয় হতে পারে

  • মিউচুয়াল তহবিলের বিপরীতে, বেসরকারী ইক্যুইটি তহবিল (এবং অন্যান্য বেসরকারী তহবিল) আইন দ্বারা কিছু কেন্দ্রীয় ডাটাবেসে তাদের রিটার্নের রিপোর্ট করার প্রয়োজন হয় না।
  • অতএব একটি বড় উদ্বেগ হ'ল রিপোর্টিং অন্তঃসত্ত্বা, বিশেষত, কিছু সংস্থাগুলি খারাপ রিটার্নের খবর দেয় না।
  • যদি তা হয় তবে আপনার প্রতিবেদনিত তহবিলের গড় রিটার্ন দেয়1niRiRi

অগত্যা এই পরিস্থিতিতে সমস্ত কিছু হারাবে না (আপনি যা করতে পারেন সেগুলি রয়েছে) তবে নিখোঁজভাবে অনুপস্থিত ডাটাতে একটি রিগ্রেশন (বা কম্পিউটিং পারস্পরিক সম্পর্ক) চালানো জনসংখ্যার সত্যিকারের পরামিতিগুলির গুরুতর পক্ষপাত, অসামঞ্জস্যপূর্ণ অনুমানের দিকে পরিচালিত করতে পারে।


4

আপনার অনুপস্থিত ডেটা র্যান্ডম (এমসিএআর) এ নিখুঁত হয়ে থাকলে পেয়ারওয়্যার পারস্পরিক সম্পর্ক উপযুক্ত। পল অ্যালিসনের হারিয়ে যাওয়া ডেটা বইটি কেন শুরু করার জন্য ভাল জায়গা।

আপনি BaylorEdPsychপ্যাকেজে থাকা লিটল (1988) এর এমসিএআর টেস্ট ব্যবহার করে এটি পরীক্ষা করতে পারেন ।


1
উদ্বেগের কারণ এখনও রয়েছে: এমনকি এমসিএআর ডেটা সহ, জুটিওয়াস পারস্পরিক সম্পর্কের মাধ্যমে অনুমানের পারস্পরিক সম্পর্ক মেট্রিক্স ইতিবাচক-সুনির্দিষ্ট হতে ব্যর্থ হতে পারে।
হোবার

অবশ্যই, তবে প্রশ্নটি পারস্পরিক সম্পর্ক সম্পর্কে জিজ্ঞাসা করে, এটি অন্য কিছু অ্যালগরিদমের ইনপুট হিসাবে ফলাফলের সম্পর্কযুক্ত ম্যাট্রিক্সের ব্যবহারের কোনও উল্লেখ করে না। এবং, নমুনা আকার দেওয়া, এমসিএআর যাই হোক না কেন সম্ভবত সম্ভাবনা কম।
টিম

1
যদি ম্যাট্রিক্স ইতিবাচক-নির্দিষ্ট না হয় তবে এটি একটি অবৈধ অনুমান। কমপক্ষে আমাদের সেই অসঙ্গতি সম্পর্কে উদ্বিগ্ন হতে হবে। আমি ভয় পাচ্ছি যে আমি এমসিএআর (যা নিখোঁজের একটি প্রক্রিয়া) এর সম্ভাবনা কীভাবে নমুনা আকারের সাথে সম্পর্কিত হতে পারি তা দেখছি না।
হোয়বার

প্রশ্নকারী পারস্পরিক সম্পর্ক ম্যাট্রিক্সের একক সারিতে আগ্রহী। আপনি কি এমন প্রমাণ পেয়েছেন যা ম্যাট্রিক্স ধনাত্মক-সুনির্দিষ্ট না হলে একটি সারিতে সংযোগগুলি সমস্ত অবৈধ দেখায়? আমি এর একটি প্রমাণ দেখতে এবং কিছু জ্ঞান অর্জন করতে চাই। এমসিএআর, সাধারণভাবে, বাস্তব বিশ্বের ডেটাগুলির সাথে প্রায় অসম্ভব। একটি বৃহত নমুনা আকারের সাথে, লিটল পরীক্ষার শক্তি বৃদ্ধি পায়, তাই এমসিএআর এর নাল অনুমানটি প্রত্যাখ্যান করার ভাল সম্ভাবনা রয়েছে good আমাকে এখানে ভুল করবেন না: মাল্টিভারিয়েট পদ্ধতিতে কোনও ইনপুট হিসাবে আমি কখনই আংশিক-ডেটা রিলেশন ম্যাট্রিক্স ব্যবহার করব না, তবে প্রশ্নটি এটিই বলে না।
টিম

1
আমাকে পরিষ্কার করতে দাও: আমি দাবি করিনি যে সম্পর্কগুলি "সমস্ত অবৈধ"। আমি দাবি করেছি যে পারস্পরিক সম্পর্কের অনুমানের সংগ্রহ (যা ম্যাট্রিক্স) অবৈধ হতে পারে । এটি অনিন্দ্যস্বরূপ (কোনও প্রমাণের প্রয়োজন নেই), কারণ সমস্ত প্রয়োজন কেবল একটি অবৈধ অনুমানের একটি উদাহরণ প্রদর্শন করা হয় যা @ রোজহার্টম্যান ইতিমধ্যে এই থ্রেডটিতে করেছে। আমি আপনার দাবির বিষয়ে বিতর্ক করব না যে এমসিএআর সম্ভাব্য নয় - তবে যদি এটি ব্যক্তিগত বিবেচনায় বোঝা যায়: আপনার অভিজ্ঞতার সাথে, আপনি যে ধরণের ডেটার সাথে পরিচিত, এটি এমসিআর বিরল। আপনি কীভাবে এই দাবির কোনও বিস্তৃত ব্যাখ্যাকে ন্যায়সঙ্গত করতে পারেন তা আমি দেখতে পাচ্ছি না।
whuber
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.