যুগলভাবে সম্পূর্ণ পর্যবেক্ষণের সাথে সম্পর্কিত সম্পর্কিত সমস্যা
আপনি যে ক্ষেত্রে বর্ণনা করছেন, মূল বিষয়টি হ'ল ব্যাখ্যা। যেহেতু আপনি যুগলভাবে সম্পূর্ণ পর্যবেক্ষণগুলি ব্যবহার করছেন, আপনি কোনটি পর্যবেক্ষণ অনুপস্থিত রয়েছে তার উপর নির্ভর করে প্রতিটি সংশ্লেষণের জন্য আপনি কিছুটা আলাদা ডেটাসেটগুলি বিশ্লেষণ করছেন।
নিম্নলিখিত উদাহরণ বিবেচনা করুন:
a <- c(NA,NA,NA, 5, 6, 3, 7, 8, 3)
b <- c(2, 8, 3, NA,NA,NA, 6, 9, 5)
c <- c(2, 9, 6, 3, 2, 3, NA,NA,NA)
ডেটা সেটটি তিনটি ভেরিয়েবল, a
, b
, এবং c
, প্রতিটি কিছু অনুপস্থিত মান আছে। আপনি যদি এখানে ভেরিয়েবলের জোড় সম্পর্কিত পারস্পরিক সম্পর্ক গণনা করেন তবে আপনি কেবলমাত্র এমন কেসগুলি ব্যবহার করতে সক্ষম হবেন যা প্রশ্নে উভয় ভেরিয়েবলের জন্য মূল্য অনুপস্থিত রয়েছে। এই ক্ষেত্রে, তার মানে কি মধ্যে পারস্পরিক মাত্র গত 3 মামলা বিশ্লেষণ হবেন a
এবং b
শুধু প্রথম তিনটি মধ্যে পারস্পরিক জন্য মামলা b
এবং c
ইত্যাদি
আপনি প্রতিটি পারস্পরিক সম্পর্কের গণনা করার সময় আপনি সম্পূর্ণ পৃথক কেস বিশ্লেষণ করে আসছেন এর অর্থ দাঁড়ায় যে পরস্পরের সম্পর্কের ফলাফলটি নিখরচায় দেখতে পারা যায়। দেখা:
> cor(a,b, use = "pairwise.complete.obs")
[1] 0.8170572
> cor(b,c, use = "pairwise.complete.obs")
[1] 0.9005714
> cor(a,c, use = "pairwise.complete.obs")
[1] -0.7559289
একটি লজিক্যাল অসঙ্গতি মত এই সৌন্দর্য --- a
এবং b
দৃঢ়ভাবে ইতিবাচক সম্পর্ক হয়, এবং b
এবং c
এছাড়াও দৃঢ়ভাবে ইতিবাচক সম্পর্ক, তাই আপনি আশা করবে a
এবং c
ইতিবাচক পাশাপাশি সম্পর্কিত করা, কিন্তু আসলে বিপরীত দিক একটি শক্তিশালী সমিতি আছে। আপনি দেখতে পাচ্ছেন কেন অনেক বিশ্লেষক এটিকে পছন্দ করেন না।
Whuber থেকে দরকারী ব্যাখ্যা অন্তর্ভুক্ত সম্পাদনা করুন:
নোট করুন যে আর্গুমেন্টের অংশটি "শক্তিশালী" পারস্পরিক সম্পর্ক বলতে কী বোঝায় তার উপর নির্ভর করে। এটা তোলে জন্য বেশ সম্ভব a
এবং b
সেইসাথে b
এবং c
"দৃঢ়ভাবে ইতিবাচক সম্পর্ক" হতে যখন তার মাঝে একটি "বিপরীত দিক শক্তিশালী সমিতি" বিদ্যমান a
এবং c
এই উদাহরণ হিসাবে, কিন্তু বেশ যেমন চরম। বিষয়টির মূল বিষয়টি হ'ল অনুমানযুক্ত পারস্পরিক সম্পর্ক (বা সমবায়) ম্যাট্রিক্স ইতিবাচক-সুনির্দিষ্ট হতে পারে না: এইভাবেই "শক্তিশালী" পরিমাণটি নির্ধারণ করা উচিত।
নিখোঁজ হওয়ার ধরণের সমস্যাটি
আপনি নিজেরাই ভাবতে পারেন, "আচ্ছা, ঠিক কি ধরে নেওয়া ঠিক হয় না যে আমি প্রতিটি পারস্পরিক সম্পর্কের জন্য যে কেসগুলির সাবসেটটি পেয়েছি সেগুলি আমার সম্পূর্ণ ডেটা থাকলে কমপক্ষে একই প্যাটার্নটি অনুসরণ করবে?" এবং হ্যাঁ, এটি সত্য --- যতক্ষণ না উপলব্ধ ডেটা এলোমেলো , যতক্ষণ না আপনার ডেটার একটি উপসেটের সাথে একটি সম্পর্কিত সম্পর্ক গণনা করার ক্ষেত্রে মূলত কোনও ভুল নেই ( যতক্ষণ না আপনি যথাযথতা এবং শক্তি হ্রাস করেছেন অবশ্যই) যদি আপনার কোনও অনুপস্থিতি না থাকে তবে সমস্ত তথ্যের নমুনা
যখন নিখোঁজতা নিখুঁতভাবে এলোমেলো হয়, তখন তাকে এমসিএআর বলা হয় (এলোমেলোভাবে সম্পূর্ণ অনুপস্থিত)। সেক্ষেত্রে, নিখোঁজ নেই এমন উপাত্তের উপসেট বিশ্লেষণ করা আপনার ফলাফলগুলিকে নিয়মতান্ত্রিকভাবে পক্ষপাতিত্ব করবে না এবং উপরের উদাহরণে আমি যে ধরণের সংক্ষেপযুক্ত সম্পর্কের ধরণ দেখিয়েছি তা পাওয়া অসম্ভব (তবে অসম্ভব নয়) হতে পারে।
আপনার অনুপস্থিতি যখন কোনও উপায়ে পদ্ধতিগত হয় (প্রায়শই এমআর বা এনআই কে সংক্ষেপে দুটি ভিন্ন ধরণের পদ্ধতিগতভাবে নিখোঁজ করা হয়) তখন আপনার আরও অনেক গুরুতর সমস্যা হয়, উভয়ই আপনার গণনায় সম্ভাব্য পক্ষপাতিত্ব প্রবর্তনের ক্ষেত্রে এবং আপনার সাধারণকরণের দক্ষতার দিক থেকেও আগ্রহের জনসংখ্যার ফলাফল (কারণ আপনি যে নমুনাটি বিশ্লেষণ করছেন তা জনসংখ্যার এলোমেলো নমুনা নয়, এমনকি যদি আপনার পুরো ডেটাसेटটি হত)।
সেখানে ডেটা অনুপস্থিত এবং কিভাবে তা মোকাবেলা করার বিষয়ে জানার জন্য উপলব্ধ মহান সম্পদের একটি অনেক আছে, কিন্তু আমার সুপারিশ রুবিন হল:
একটি ক্লাসিক ,
এবং একটি আরো সাম্প্রতিক প্রবন্ধ