ডেটা এলোমেলোভাবে অনুপস্থিত কিনা তা নির্ধারণের জন্য একটি পরিসংখ্যানিক পদ্ধতি approach


21

আমার কাছে ফিচার ভেক্টরগুলির একটি বিশাল সেট রয়েছে যা আমি বাইনারি শ্রেণিবদ্ধকরণ সমস্যাটিতে আক্রমণ করার জন্য ব্যবহার করব (পাইথনে সাইকিট শিখার ব্যবহার করে)। অনুমান সম্পর্কে ভাবতে শুরু করার আগে, আমি যদি অনুপস্থিত তথ্য 'এলোমেলোভাবে অনুপস্থিত' বা এলোমেলোভাবে অনুপস্থিত থাকে তবে ডেটার বাকী অংশগুলি থেকে তা নির্ধারণের চেষ্টা করতে আগ্রহী।

এই প্রশ্নের কাছে যাওয়ার একটি বুদ্ধিমান উপায় কী?


দেখা যাচ্ছে এটি আরও ভাল প্রশ্ন জিজ্ঞাসা করা হয় যে ডেটাটি 'এলোমেলোভাবে পুরোপুরি অনুপস্থিত' আছে কি না। এটি করার একটি বুদ্ধিমান উপায় কী?


যদি অনুপস্থিত সূচক এবং কোনও পর্যবেক্ষণযোগ্য ভেরিয়েবলের মধ্যে কোনও সংযোগ না থাকে, তবে অনুপস্থিত ডেটা মেকানিজমটি হ'ল এমসিএআর।
র্যান্ডেল

@ রান্ডেল এটি পরীক্ষা করার জন্য অনুশীলনে প্রয়োগ করার জন্য একটি ভাল পরীক্ষা কী?
লেম্বিক

পারস্পরিক সম্পর্ক পরীক্ষা বা রিগ্রেশন ছাড়া বিশেষ কিছু নয়।
র্যান্ডেল

3
এটি আপনি যা পরীক্ষা করেন তা নয়, এটি এমন কিছু যা আপনি ধরে নেন
টিম

3
কেবল স্পষ্ট করে বলা: এলোমেলোভাবে পুরোপুরি অনুপস্থিত হওয়ার অর্থ নিখোঁজ হওয়ার সম্ভাবনাটি একটি ধ্রুবক, এটি কোনও কিছুর উপর নির্ভর করে না। এলোমেলোভাবে অনুপস্থিতির অর্থ হ'ল নিখোঁজ হওয়া বয়স বা লিঙ্গের মতো কিছু পরিমাপক কারণের উপর নির্ভর করে যাতে আপনি নিখোঁজ নিদর্শনগুলি পূরণ করতে কয়েকটি মডেল ব্যবহার করতে পারেন। এলোমেলোভাবে অনুপস্থিত হওয়া মানে নিখোঁজ হওয়া সেই জিনিসগুলির উপর নির্ভর করে যা আপনি মাপেন নি । প্রশ্নে ওপি বলে এনএমআর বনাম এমএআর তবে ওপি মানেই এমএআর বনাম এমসিএআর।
আদমো

উত্তর:


8

আমি আমার মন্তব্যে যে তথ্য নিয়ে কথা বলছিলাম তা পেয়েছি।

ভ্যান বুউরেন্স বইয়ের ৩১ পৃষ্ঠা থেকে তিনি লিখেছেন

"MCAR বনাম MAR পরীক্ষা করার জন্য বেশ কয়েকটি পরীক্ষার প্রস্তাব দেওয়া হয়েছে। এই পরীক্ষাগুলি ব্যাপকভাবে ব্যবহৃত হয় না এবং তাদের ব্যবহারিক মূল্য অস্পষ্ট two দুটি পদ্ধতির মূল্যায়নের জন্য এন্ডার্স (২০১০, পিপি। ১–-২১) দেখুন। পরীক্ষা করা সম্ভব নয় এমআরএল বনাম এমএনএআর, যেহেতু এই জাতীয় পরীক্ষার জন্য প্রয়োজনীয় তথ্যগুলি অনুপস্থিত রয়েছে।


প্রশ্নটি এমআরএল বনাম এমএনএআর সম্পর্কে জিজ্ঞাসা করে, তবে আপনার উত্তর এমসিআর বনাম এমএআর সম্পর্কে। এমসিএআর এমএনএআর থেকে সম্পূর্ণ আলাদা।
টিম

আপনি যদি ডেটা এমএআর নির্ধারণ করতে পারেন তবে তা যথেষ্ট। বিজোর যেমন বলেছেন, এটি এমএআর / এমএনএআর কিনা তা বলা সম্ভব নয়, তবে এই উত্তরটি তাঁর বিশ্বাসের একটি ভাল প্রক্সি বলে আমি বিশ্বাস করি। আপনি যদি এন্ডার্স পরীক্ষা করে দেখেন যে এটি এমসিএআর হয়, তবে আপনার অনুশাসনের প্রয়োজন হবে না। যদি আপনি দেখতে পান যে এটি এমএআর, তবে আপনি এটি এমএনএআর হতে পারে বলে বিশ্বাস করার কোনও কারণ আছে কিনা তা দেখতে আপনি অনুমান করতে পারেন বা আপনার ডেটাটিকে কড়া নজর দিতে পারেন।
রায়ভেলকোরো

@ রায়ভেলকোরো এটি একটি সনাক্তকরণযোগ্যতা সম্পর্কিত সমস্যা: এনএমএআর এর ডেটা এমসিএআর প্রদর্শিত হওয়া সম্ভব। টিম ঠিক বলেছেন যে এনএমএআর (বা কথোপকথন) এমন কিছু নয় যার জন্য আমরা পরীক্ষা করি, এটি এমন একটি বিষয় যা আমরা ধরে নিই। MCAR vs MAR সম্পর্কে আপনার বক্তব্য অবধি, আরও বেশি (সর্বাধিক?) গুরুত্বপূর্ণ বিষয়টি হ'ল: যদি ডেটা এমসিএআর হয় এবং আপনি এমএআর পদ্ধতি ব্যবহার করেন তবে ডেটাতে আসলেই কোনও নেট প্রভাব আছে? আমি তাই মনে করি না. এমএআর পদ্ধতির জন্য অনুপ্রবেশ, প্রাপ্যতা এবং ব্যবহারের সহজতা দেওয়া, পরীক্ষা এবং পরীক্ষাগুলির একটি অলঙ্কারীয় ধাঁধা অনুসরণ করার চেয়ে কেবলমাত্র প্যারামিমেটিক ওজন বা অভিশাপের পদ্ধতিটি ব্যবহার করা ভাল।
আদমো

17

অনুপস্থিত ডেটা পুনরুদ্ধার করতে পরিচালিত না হলে এটি সম্ভব নয়। নিখোঁজ হওয়া ডেটাটি এলোমেলোভাবে (এমএআর) হারিয়েছে বা এলোমেলোভাবে (এমএনএআর) নেই তা আপনি পর্যবেক্ষণ করা ডেটা থেকে নির্ধারণ করতে পারবেন না। আপনি কেবলমাত্র তা বলতে পারবেন যে ডেটা স্পষ্টভাবে র্যান্ডম (এমসিএআর) এ পুরোপুরি অনুপস্থিত। এর বাইরে কেবলমাত্র আপনি যা জানেন তার উপর ভিত্তি করে এমএনএআর এর বিপরীতে এমসিএআর বা এমএআর এর প্রশংসাসূচক আবেদন করার জন্য আবেদন করুন (উদাহরণস্বরূপ ডেটা অনুপস্থিত থাকার কারণ হিসাবে রিপোর্ট করা কারণ)। বিকল্পভাবে, আপনি যুক্তি দিতে সক্ষম হতে পারেন যে এটি খুব বেশি গুরুত্ব দেয় না, কারণ হারিয়ে যাওয়া ডেটার অনুপাত খুব কম এবং এমএনএআর এর অধীনে খুব চরম পরিস্থিতি আপনার ফলাফলগুলি উল্টে যাওয়ার জন্য ঘটবে (দেখুন "টিপিং পয়েন্ট বিশ্লেষণ")।


1
আপনাকে অনেক ধন্যবাদ. ডেটা এমসিআর কিনা তা বলার ভাল উপায় কী?
লেম্বিক

@ জর্জান, উপরেরগুলিতে আমরা ডেটা থেকে কী শিখতে পারি প্রয়োজনীয় অপরিহার্য অসামঞ্জস্য প্রতিফলিত করার জন্য পুনরুদ্ধার করা প্রয়োজন। যদিও একটি অনুমানকে মিথ্যা বলা সম্ভব যে ডেটা এমসিএআর (উদাহরণস্বরূপ, নিখোঁজের কিছু অংশের জন্য অ্যাকাউন্টে পর্যবেক্ষিত কোভেরিয়েটদের শোষণ করে এমন একটি মডেল তৈরি করে), এমসিএআর বা এই জাতীয় কোনও হাইপোথিসিসের পক্ষে নিশ্চিত হওয়া সম্ভব নয় ।
ডেভিড সি নরিস

ভাল যুক্তি. আমি যে আরও পরিষ্কার করেছি।
Björn

4

শ্রেণিবিন্যাসের দৃষ্টিকোণ থেকে এটি বেশ কার্যকর বলে মনে হচ্ছে।

আপনি অন্যান্য সমস্ত বৈশিষ্ট্য ব্যবহার করে অনুপস্থিত বনাম অনুপস্থিত ডেটা শ্রেণিবদ্ধ করতে চান। যদি আপনি এলোমেলো ফলাফলের তুলনায় উল্লেখযোগ্যভাবে ভাল হন তবে আপনার ডেটা এলোমেলোভাবে অনুপস্থিত।


2

আপনি জানতে চান যে কোনও বৈশিষ্ট্যে কোনও বৈশিষ্ট্যের অভাব বঞ্চিত হচ্ছে এবং এর সাথে অন্য কোনও বৈশিষ্ট্যের মানের কিছু সম্পর্ক রয়েছে কিনা।

প্রতিটি বৈশিষ্ট্যের জন্য, একটি নতুন বৈশিষ্ট্য তৈরি করুন যা মানটি অনুপস্থিত বা না তা নির্দেশ করে (আসুন তাদের "is_missing" বৈশিষ্ট্যটি কল করুন)। Is_missing বৈশিষ্ট্যগুলি এবং অন্যান্য বৈশিষ্ট্যগুলির মধ্যে আপনার পছন্দসই সম্পর্ক সম্পর্কিত পরিমাপের (আমি এখানে পারস্পরিক তথ্য ব্যবহার করার পরামর্শ দিচ্ছি) গণনা করুন।

নোট করুন যদি আপনি দুটি বৈশিষ্ট্যের মধ্যে কোনও সম্পর্ক খুঁজে না পান তবে গ্রুপের বৈশিষ্ট্যগুলির কারণে এটি একটি পারস্পরিক সম্পর্ক হতে পারে (দশটি বৈশিষ্ট্যের এক্সওআর হিসাবে একটি মান অনুপস্থিত)।

এটি আপনার কাছে বৈশিষ্ট্যগুলির একটি বিশাল সেট এবং বিপুল সংখ্যক মান রয়েছে, এলোমেলোতার কারণে আপনি ভ্রান্ত পারস্পরিক সম্পর্ক পাবেন। সেই সাথে মোকাবিলার নিয়মিত উপায়গুলি ব্যতীত (বৈধতা সেট, উচ্চ পর্যায়ে প্রান্তিক) পারস্পরিক সম্পর্কগুলি প্রতিসম ও ট্রানজিটিভ কিনা তা আপনি পরীক্ষা করতে পারেন। যদি তারা হয় তবে সম্ভবত এটি সত্য এবং আপনার আরও তাদের পরীক্ষা করা উচিত।


1

আমি যে পদ্ধতিটি ব্যবহার করি তা হল শ্যাডো ম্যাট্রিক্স, যেখানে ডেটাসেটে সূচক ভেরিয়েবল থাকে যেখানে মান উপস্থিত থাকলে 1 প্রদান করা হয় এবং যদি তা না হয় তবে 0 হয়। একে অপরের সাথে সম্পর্কিত এবং মূল ডেটা নির্ধারণ করতে সাহায্য করতে পারে ভেরিয়েবলগুলি একসাথে (এমএআর) অনুপস্থিত বা না (এমসিএআর) অনুপস্থিত কিনা। Rউদাহরণস্বরূপ ব্যবহার করে (রবার্ট কাবাকফের লেখা "আর ইন অ্যাকশন" বইটি থেকে ধার করা):

#Load dataset
data(sleep, package = "VIM")

x <- as.data.frame(abs(is.na(sleep)))

#Elements of x are 1 if a value in the sleep data is missing and 0 if non-missing.
head(sleep)
head(x)

#Extracting variables that have some missing values.
y <- x[which(sapply(x, sd) > 0)]
cor(y)

#We see that variables Dream and NonD tend to be missing together. To a lesser extent, this is also true with Sleep and NonD, as well as Sleep and Dream.

#Now, looking at the relationship between the presence of missing values in each variable and the observed values in other variables:
cor(sleep, y, use="pairwise.complete.obs")

#NonD is more likely to be missing as Exp, BodyWgt, and Gest increases, suggesting that the missingness for NonD is likely MAR rather than MCAR.

1
ইন VIM , এছাড়াও আপনি spinoplots আউট করতে পারেন। তারা প্রতিটি অনুপস্থিত সাথে দুটি ভেরিয়েবলের একটি হিস্টোগ্রাম দেয়। আমরা দুটি ভেরিয়েবল প্লট করতে পারি এবং দেখতে পাচ্ছি যে কীভাবে একের মধ্যে অনুপস্থিতি অন্যটির সাথে পরিবর্তিত হয়। উদাহরণস্বরূপ, আমরা যদি বেঁচে থাকার সময় এবং চিকিত্সার কার্যাদি পরিকল্পনা করি, যদি আমরা নিখোঁজ হওয়ার সঠিক ত্রুটিযুক্ত বন্টন দেখতে পাই, তবে আমরা অনুভব করতে পারি যে বেঁচে থাকার সময়টি আরও নিখোঁজ হওয়ার সাথে সম্পর্কিত ... অর্থাৎ চিকিত্সায় নিখোঁজ হওয়াটা এমএআর হয় কারণ এটি নির্ভর করে পরিবর্তনশীল বেঁচে থাকার সময় পর্যবেক্ষণ করেছেন।
রায়ভেলকোরো

1
প্রশ্নটি এমআরএল বনাম এমএনএআর সম্পর্কে জিজ্ঞাসা করে, তবে আপনার উত্তর এমসিআর বনাম এমএআর সম্পর্কে। এমসিএআর এমএনএআর থেকে সম্পূর্ণ আলাদা।
টিম

@ টিম হিসাবে অ্যাডামো প্রশ্নের নীচে একটি মন্তব্যে বলেছিলেন, ওপি মানে মার্ড বনাম এমসিএআর।
ফিল
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.