কেন এই একাধিক অভিব্যক্তি নিম্ন মানের?


9

নিম্নলিখিত আর কোড বিবেচনা করুন:

> data <- data.frame(
            a=c(NA,2,3,4,5,6),b=c(2.2,NA,6.1,8.3,10.2,12.13),c=c(4.2,7.9,NA,16.1,19.9,23))
> data
   a     b    c
1 NA  2.20  4.2
2  2    NA  7.9
3  3  6.10   NA
4  4  8.30 16.1
5  5 10.20 19.9
6  6 12.13 23.0

আপনি দেখতে পাচ্ছেন যে আমি ডেটা ইঞ্জিনিয়ার করেছি যাতে মোটামুটিভাবে c = 2*b = 4*a। এর মতো, আমি আশা করব যে অনুপস্থিত মানগুলি প্রায় হবে a=1, b=2, c=12। সুতরাং আমি বিশ্লেষণ সম্পাদন করেছি:

> imp <- mi(data)
Beginning Multiple Imputation ( Sat Oct 18 03:02:41 2014 ):
Iteration 1 
 Chain 1 : a*  b*  c*  
 Chain 2 : a*  b*  c*  
 Chain 3 : a*  b*  c*  
Iteration 2 
 Chain 1 : a*  b   c   
 Chain 2 : a*  b*  c*  
 Chain 3 : a   b*  c   
Iteration 3 
 Chain 1 : a   b   c   
 Chain 2 : a   b   c   
 Chain 3 : a*  b*  c*  
Iteration 4 
 Chain 1 : a   b   c   
 Chain 2 : a   b*  c   
 Chain 3 : a*  b   c   
Iteration 5 
 Chain 1 : a   b   c*  
 Chain 2 : a   b*  c   
 Chain 3 : a   b*  c   
Iteration 6 
 Chain 1 : a*  b   c*  
 Chain 2 : a   b   c   
 Chain 3 : a   b   c   
Iteration 7 
 Chain 1 : a   b   c   
 Chain 2 : a   b*  c   
 Chain 3 : a   b   c*  
Iteration 8 
 Chain 1 : a   b   c   
 Chain 2 : a   b   c   
 Chain 3 : a   b*  c*  
Iteration 9 
 Chain 1 : a   b   c   
 Chain 2 : a   b   c*  
 Chain 3 : a   b   c   
Iteration 10 
 Chain 1 : a   b*  c   
 Chain 2 : a   b   c   
 Chain 3 : a   b   c   
Iteration 11 
 Chain 1 : a   b   c   
 Chain 2 : a   b   c   
 Chain 3 : a   b   c   
Iteration 12 
 Chain 1 : a   b   c   
 Chain 2 : a*  b   c   
 Chain 3 : a   b   c   
Iteration 13 
 Chain 1 : a   b   c   
 Chain 2 : a   b   c*  
 Chain 3 : a   b   c*  
Iteration 14 
 Chain 1 : a   b   c   
 Chain 2 : a   b   c   
 Chain 3 : a   b   c   
Iteration 15 
 Chain 1 : a   b   c   
 Chain 2 : a   b   c   
 Chain 3 : a   b   c*  
Iteration 16 
 Chain 1 : a   b   c   
 Chain 2 : a   b   c   
 Chain 3 : a   b*  c   
Iteration 17 
 Chain 1 : a   b   c   
 Chain 2 : a   b   c   
 Chain 3 : a   b   c   
Iteration 18 
 Chain 1 : a   b   c*  
 Chain 2 : a   b   c   
 Chain 3 : a   b   c   
Iteration 19 
 Chain 1 : a   b   c   
 Chain 2 : a   b   c   
 Chain 3 : a   b   c*  
Iteration 20 
 Chain 1 : a   b   c*  
 Chain 2 : a   b   c   
 Chain 3 : a   b   c   
Iteration 21 
 Chain 1 : a   b   c   
 Chain 2 : a   b   c   
 Chain 3 : a   b   c   
Iteration 22 
 Chain 1 : a   b   c*  
 Chain 2 : a   b   c   
 Chain 3 : a   b   c   
Iteration 23 
 Chain 1 : a   b   c   
 Chain 2 : a   b   c   
 Chain 3 : a   b   c   
Iteration 24 
 Chain 1 : a   b   c*  
 Chain 2 : a   b   c   
 Chain 3 : a   b   c   
Iteration 25 
 Chain 1 : a   b   c   
 Chain 2 : a   b   c   
 Chain 3 : a   b   c   
Iteration 26 
 Chain 1 : a   b   c   
 Chain 2 : a   b   c   
 Chain 3 : a   b   c   
Iteration 27 
 Chain 1 : a   b   c   
 Chain 2 : a   b   c   
 Chain 3 : a   b   c   
Iteration 28 
 Chain 1 : a   b   c   
 Chain 2 : a   b   c   
 Chain 3 : a   b   c   
Iteration 29 
 Chain 1 : a   b   c   
 Chain 2 : a   b   c   
 Chain 3 : a   b   c   
mi converged ( Sat Oct 18 03:02:45 2014 )
Run 20 more iterations to mitigate the influence of the noise...
Beginning Multiple Imputation ( Sat Oct 18 03:02:45 2014 ):
Iteration 1 
 Chain 1 : a   b   c   
 Chain 2 : a   b   c   
 Chain 3 : a   b   c   
Iteration 2 
 Chain 1 : a   b   c   
 Chain 2 : a   b   c   
 Chain 3 : a   b   c   
Iteration 3 
 Chain 1 : a   b   c   
 Chain 2 : a   b   c   
 Chain 3 : a   b   c   
Iteration 4 
 Chain 1 : a   b   c   
 Chain 2 : a   b   c   
 Chain 3 : a   b   c   
Iteration 5 
 Chain 1 : a   b   c   
 Chain 2 : a   b   c   
 Chain 3 : a   b   c   
Iteration 6 
 Chain 1 : a   b   c   
 Chain 2 : a   b   c   
 Chain 3 : a   b   c   
Iteration 7 
 Chain 1 : a   b   c   
 Chain 2 : a   b   c   
 Chain 3 : a   b   c   
Iteration 8 
 Chain 1 : a   b   c   
 Chain 2 : a   b   c   
 Chain 3 : a   b   c   
Iteration 9 
 Chain 1 : a   b   c   
 Chain 2 : a   b   c   
 Chain 3 : a   b   c   
Iteration 10 
 Chain 1 : a   b   c   
 Chain 2 : a   b   c   
 Chain 3 : a   b   c   
Iteration 11 
 Chain 1 : a   b   c   
 Chain 2 : a   b   c   
 Chain 3 : a   b   c   
Iteration 12 
 Chain 1 : a   b   c   
 Chain 2 : a   b   c   
 Chain 3 : a   b   c   
Iteration 13 
 Chain 1 : a   b   c   
 Chain 2 : a   b   c   
 Chain 3 : a   b   c   
Iteration 14 
 Chain 1 : a   b   c   
 Chain 2 : a   b   c   
 Chain 3 : a   b   c   
Iteration 15 
 Chain 1 : a   b   c   
 Chain 2 : a   b   c   
 Chain 3 : a   b   c   
Iteration 16 
 Chain 1 : a   b   c   
 Chain 2 : a   b   c   
 Chain 3 : a   b   c   
Iteration 17 
 Chain 1 : a   b   c   
 Chain 2 : a   b   c   
 Chain 3 : a   b   c   
Iteration 18 
 Chain 1 : a   b   c   
 Chain 2 : a   b   c   
 Chain 3 : a   b   c   
Iteration 19 
 Chain 1 : a   b   c   
 Chain 2 : a   b   c   
 Chain 3 : a   b   c   
Iteration 20 
 Chain 1 : a   b   c   
 Chain 2 : a   b   c   
 Chain 3 : a   b   c   
Reached the maximum iteration, mi did not converge ( Sat Oct 18 03:02:48 2014 )

এবং অবশেষে সম্পূর্ণ ডেটা সেট পর্যবেক্ষণ:

> mi.completed(imp)
[[1]]
  a     b    c
1 2  2.20  4.2
2 2  2.20  7.9
3 3  6.10 16.1
4 4  8.30 16.1
5 5 10.20 19.9
6 6 12.13 23.0

[[2]]
  a     b    c
1 2  2.20  4.2
2 2  6.10  7.9
3 3  6.10  7.9
4 4  8.30 16.1
5 5 10.20 19.9
6 6 12.13 23.0

[[3]]
  a     b    c
1 2  2.20  4.2
2 2  2.20  7.9
3 3  6.10  7.9
4 4  8.30 16.1
5 5 10.20 19.9
6 6 12.13 23.0

যেহেতু আপনি দেখতে পাচ্ছেন অভিযুক্ত মানগুলি আমার প্রত্যাশা মতো নয়। প্রকৃতপক্ষে, তারা একক অনুমানের ফলাফলের মতো দেখায় কারণ অনুপস্থিত মানগুলি সংলগ্ন রেকর্ড থেকে আপাতদৃষ্টিতে নেওয়া হয়েছে।

আমি কী মিস করছি?

আমার অবশ্যই লক্ষ্য করা উচিত যে পরিসংখ্যানগুলিতে আমার "জ্ঞান" বেশিরভাগ ক্ষেত্রে সীমাবদ্ধ যা আমি স্পষ্টভাবে স্মরণ করি ~ 14 বছর আগে আমি একটি প্রবর্তনীয় কোর্স থেকে remember আমি কেবল অনুপস্থিত মানগুলিকে বোঝানোর জন্য একটি সহজ উপায় খুঁজছি, এটি সর্বাধিক অনুকূলিতকরণের মতো হতে হবে না তবে এর জন্য কিছুটা বোধ করা প্রয়োজন (যা আমি এই ফলাফলগুলি তৈরি করতে পারি না)। এটি ভাল ক্ষেত্রে miহতে পারে যা আমি যা চাই তা অর্জনের জন্য সঠিক পদ্ধতির নয় (সম্ভবত পূর্বাভাসটি পরিবর্তে ব্যবহার করা উচিত), সুতরাং আমি পরামর্শগুলির জন্য উন্মুক্ত।

আমিও এর সাথে একই ধরণের দৃষ্টিভঙ্গি চেষ্টা করেছি mice, যার ফলস্বরূপ একই ফলাফল হয়েছিল to

আপডেট আপডেট অ্যামেলিয়া বক্সের বাইরে দুর্দান্ত কাজ করে। আমি এখনও মাই / ইঁদুরের সাথে কী অনুপস্থিত তা জানতে আগ্রহী হবে।


1
আপনি সাধারণত একাধিক অনুশাসন নিয়ে কী করার চেষ্টা করছেন? কিছুটা প্রসঙ্গ ছাড়াই এই প্রশ্নের উত্তর দেওয়া আমার পক্ষে পক্ষে কঠিন। [আপনি কেবল তিনটি ভেরিয়েবল এবং ছয়টি রেকর্ড নিয়ে কাজ করছেন বলে আপনার অনুমানের গুণমান কম ছিল তা আমি মোটেও অবাক করে দেখছি না
প্যাট্রিক এস ফোর্চার

@ প্যাট্রিকস.ফোরচার আপনি ঠিক বলেছেন। আমি 100 টি রেকর্ড সহ একই ধরণের পরীক্ষার চেষ্টা করেছি এবং ফলাফলগুলি যেমনটি প্রত্যাশা করছিলাম তেমনই হয়েছিল। দয়া করে একটি উত্তর দিন যাতে আমি এটি গ্রহণ করতে পারি, এবং আপনি যদি সফল অনুগতির জন্য কিছু বলপার্ক ন্যূনতম নির্দিষ্ট করতে পারেন তবে তা দুর্দান্ত।
t0x1n

নিম্নলিখিত ফলাফল সম্পর্কে আপনি কি বলবেন? > mi.completed(imp) [[1]] a b c 1 0.289 2.20 4.2 2 2.000 2.57 7.9 3 3.000 6.10 12.7 4 4.000 8.30 16.1 5 5.000 10.20 19.9 6 6.000 12.13 23.0 [[2]] a b c 1 0.603 2.20 4.2 2 2.000 5.82 7.9 3 3.000 6.10 13.4 4 4.000 8.30 16.1 5 5.000 10.20 19.9 6 6.000 12.13 23.0 [[3]] a b c 1 1.05 2.20 4.2 2 2.00 4.18 7.9 3 3.00 6.10 12.0 4 4.00 8.30 16.1 5 5.00 10.20 19.9 6 6.00 12.13 23.0বিন্যাস সম্পর্কে দুঃখিত, তবে আমি অনুমান করি যে কোনও মন্তব্যে আমি এটিই করতে পারি সেরা।
আলেকসান্দ্র ব্লেক

অ্যামেলিয়া II ক্রস-বিভাগীয় সময় সিরিজ (ওরফে প্যানেল স্টাডিজ) এর একাধিক প্রত্যাখ্যানের জন্য স্পষ্টতই। মাইসটি ক্রস-বিভাগীয় সময় সিরিজের ডেটাগুলির জন্য (বা কমপক্ষে, মাইসিস এই জাতীয় সময় সিরিজের জন্য খারাপ ধারণা তৈরি করে, দেখুন হোনেকার, জে এবং কিং, জি। (২০১০)। -বিভাগের ডেটা। আমেরিকান জার্নাল অফ পলিটিকাল সায়েন্স , 54 (2): 561–581।)
অ্যালেক্সিস

@AleksandrBlekh আমি তাদের পছন্দ করি না হয়, আমি কাছাকাছি কিছু আশা করতে চাই x/ 2x/4x
t0x1n

উত্তর:


13

আপনি ছয়টি কেস [রেকর্ড] এবং তিনটি ভেরিয়েবল ব্যবহার করছেন তা প্রদত্ত, আপনার অনুমানের গুণমানটি খুব কম হবে।

এটি কেন হবে তা দেখতে, মনে রাখবেন যে একাধিক অনুবর্তন করনীয়যোগ্য দোষযুক্ত মানগুলি অনুপস্থিত মান পূরণ করে কাজ করে। এই অভিযুক্ত মানগুলি গণনা করা হয়mপৃথক ডেটাসেটগুলি (এই উত্তরটিতে পরে এই অভিযুক্ত মানগুলি কীভাবে প্রাপ্ত তা আমি ফিরে আসব)। অভিযুক্ত মানগুলি ডেটাসেট থেকে ডেটাসেটে কিছুটা পৃথক হয়।

সুতরাং, সুদের একটি পরিসংখ্যানগত পরিমাণ দেওয়া q (যেমন, একটি গড়, একটি রিগ্রেশন সহগ ইত্যাদি), কেউ এটি ব্যবহার করতে পারেন m এর জন্য গড় স্ট্যান্ডার্ড ত্রুটিটি অনুমান করার জন্য ডেটাসেট q মধ্যে m ডেটাসেটস (এমন একটি পরিমাণ যা আমি অভ্যন্তরীণ প্রতিস্থাপনের বৈকল্পিক কল করব, বা U¯) এবং যা ডিগ্রীq জুড়ে পরিবর্তিত হয় m ডেটাসেটস (এমন একটি পরিমাণ যা আমি মধ্যবর্তী ইমপুটেশন ভেরিয়েন্সকে কল করব, বা B)।

অভিশংসনের মানের মধ্যে সম্পর্ক, B, এবং U¯

একের মধ্যে-অভিবাসন প্রকরণটি ব্যবহার করতে পারেন U¯ এবং মধ্যবর্তী অভিগমন বৈকল্পিক Bযে পরিসংখ্যান পরিমানের একটি অনুমিত হিসাব অনুপস্থিত তথ্যের দ্বারা প্রভাবিত হয়েছে সেই ডিগ্রির একটি অনুমান আনতে। অবশ্যই, আরও তথ্য হারিয়ে গেছে, অনুমানের গরিবটি। হারিয়ে যাওয়া তথ্যের অনুমানের উপর লেবেলযুক্ত γ, এবং নিম্নলিখিত সূত্র দ্বারা দেওয়া হয়:

γ=r+2df+3r+1

r এই সূত্রে হ'ল পার্থক্য-অনুদানের বৈকল্পিকের অনুপাত B অভ্যর্থনা-বৈকল্পিকতা U¯:

r=(1+1m)BU¯

সুতরাং, উচ্চ মান B উচ্চ মানের ফলাফল r, যার ফলস্বরূপ উচ্চ মানের হতে হবে γ। একটি উচ্চ মূল্যγপরিবর্তে, ডেটা হারিয়ে যাওয়া এবং একটি দরিদ্র মানের অনুগতির কারণে হারিয়ে যাওয়া আরও তথ্য নির্দেশ করে।

সূত্রে γ এছাড়াও একটি ফাংশন বি এবং ইউ¯। বিশেষ করে, দ্বারা অনুমান করা হয়

=(মি-1)(1+ +মিইউ¯(মি+ +1)বি)2

সুতরাং, এর মধ্যে-অনুদানের বৈকল্পিকের মধ্যে-প্রতিস্থাপনের বৈকল্পিকের অনুপাত বাড়ানো ছাড়াও বাড়ছে বি হ্রাসও । এটির উচ্চতর মান হবেγ, নিখোঁজ হওয়া এবং আরও দরিদ্র মানের অনুমানের কাছে হারিয়ে যাওয়া আরও তথ্য নির্দেশ করে।

সংক্ষেপে, মধ্যস্থকরণের পার্থক্যের উচ্চতর মান বি অভিব্যক্তির গুণমানকে দুইভাবে প্রভাবিত করুন:

  1. উচ্চতর মান বি অনুপ্রেরণার মধ্যে বৈচিত্র্যের প্রতিপাদনগুলির মধ্যে পার্থক্যের অনুপাত বাড়ান, অনুপাতের গুণমান হ্রাস করে
  2. উচ্চতর মান বি স্বাধীনতার উপলভ্য ডিগ্রি হ্রাস করুন, অনুমানের গুণমান হ্রাস করুন

মামলার সংখ্যা এবং এর মধ্যে সম্পর্ক The বি

দুটি অন্যভাবে অনুরূপ ডেটাসেট দেওয়া, একটি ছোট সংখ্যক কেস সহ একটি ডেটাসেটের মধ্যে একটি বৃহত্তর-ইমপুটেশন ভেরিয়েন্স থাকবে বি

এটি ঘটবে কারণ আমি উপরে বর্ণিত হিসাবে, পার্থক্য-অনুবর্তন প্রকরণটি সুদের একটি পরিসংখ্যানের পরিমাণ গণনা করে গণনা করা হয় কুই প্রতিটি মধ্যে মি অভিযুক্ত ডেটাসেট এবং ডিগ্রি যা কম্পিউটিং কুই এর প্রতিটি জুড়ে পরিবর্তিত হয় মিডেটাসেট। যদি কোনও প্রদত্ত ডেটাসেটের ক্ষেত্রে উচ্চ পরিমাণ থাকে তবে একই পরিমাণে অনুপস্থিত মানগুলির মতো হয় তবে মানগুলির একটি ছোট অনুপাত প্রতিটি ক্ষেত্রে পৃথক হতে পারেমি অভিযুক্ত ডেটাসেটস, এর অর্থ হ'ল কম সামগ্রিক প্রকরণটি এখানে থাকবে কুই অভিযুক্ত ডেটাসেট জুড়ে।

সুতরাং, সাধারণভাবে, মামলার সংখ্যা বৃদ্ধি করা (বা আরও স্পষ্টভাবে, নিখোঁজ মানের অনুপাত হ্রাস করা) অনুপাতের গুণমানকে বাড়িয়ে তুলবে।

ভেরিয়েবলের সংখ্যার মধ্যে সম্পর্ক বি

দুটি অন্যভাবে অনুরূপ ডেটাসেট দেওয়া হয়েছে, একটি বৃহত সংখ্যক ভেরিয়েবলের একটি ডেটাসেটের মধ্যে ছোট ছোট ইম্পুটেশন ভেরিয়েন্স থাকবে বি, যতক্ষণ না সেই অতিরিক্ত ভেরিয়েবলগুলি অনুপস্থিত মানগুলি সম্পর্কে তথ্যপূর্ণ are

এটি ঘটবে কারণ সাধারণভাবে, প্রদত্ত ভেরিয়েবলের জন্য অনুপস্থিত মানগুলি অন্য ভেরিয়েবলের তথ্য ব্যবহার করে অনুপস্থিত মানগুলির প্রশংসনীয় প্রাক্কলন তৈরি করে "পূরণ করা হয়" (এই অনুমানগুলি কীভাবে উত্পন্ন হয় তার নির্দিষ্ট বিশদটি এমআই প্রয়োগের উপর নির্ভর করে পৃথক হবে) আপনি ব্যবহার করছেন)। অতিরিক্ত ভেরিয়েবলের আকারে আরও তথ্যের ফলে আরও স্থিতিশীল মানযুক্ত মানগুলি আসবে, ফলস্বরূপ পরিসংখ্যানের পরিমাণের স্বল্পের পরিমাণ কম হ'লকুই প্রতিটি জুড়ে মি অভিযুক্ত ডেটাসেটস।

সুতরাং, সাধারণভাবে, একটি ডেটাসেটে উপলভ্য ভেরিয়েবলের সংখ্যা বৃদ্ধি করা অনুপাতের গুণমানকে বাড়িয়ে তুলবে, যতক্ষণ না এই অতিরিক্ত ভেরিয়েবলগুলি অনুপস্থিত মানগুলির জন্য তথ্যবহুল থাকে।

তথ্যসূত্র

রুবিন, ডিবি (1996)। 18+ বছর পরে একাধিক অনুদান। আমেরিকান পরিসংখ্যান সমিতির জার্নাল , 91, 473-489।

শেফার, জেএল (1999)। একাধিক অনুশাসন: একটি প্রাইমার। মেডিকেল গবেষণার পরিসংখ্যান পদ্ধতি , 8, 3-15।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.