একক ভেরিয়েবলের ৮০% হারানো ডেটা


12

আমার ডেটাতে একটি ভেরিয়েবলের রয়েছে 80% হারানো ডেটা। অস্তিত্বের কারণে ডেটাগুলি অনুপস্থিত (অর্থাত্ সংস্থাটি কত ব্যাংক bankণ গ্রহণ করে)। আমি একটি নিবন্ধ জুড়ে এসেছি যে ডামি ভেরিয়েবল সামঞ্জস্য পদ্ধতি এই সমস্যার সমাধান। এর অর্থ যে এই ক্রমাগত পরিবর্তনশীলটিকে শ্রেণিবদ্ধে রূপান্তর করা দরকার?

এটাই কি একমাত্র সমাধান? আমি তাত্ত্বিকভাবে মনে করি হিসাবে আমি এই পরিবর্তনশীলটি বাদ দিতে চাই না, এটি আমার গবেষণার প্রশ্নে গুরুত্বপূর্ণ।

উত্তর:


21

ডেটা কি অজানা অর্থে "অনুপস্থিত" বা এটির অর্থ কি কোনও loanণ নেই (তাই loanণের পরিমাণ শূন্য হয়)? এটি পরবর্তীকালের মতো শোনাচ্ছে, isণ রয়েছে কিনা তা বোঝাতে আপনার অতিরিক্ত বাইনারি ডামি দরকার । Loanণের পরিমাণের কোনও রূপান্তর প্রয়োজন হয় না (পৃথকভাবে, সম্ভবত একটি অবিচ্ছিন্ন পুনঃপ্রকাশের মতো, যেমন একটি মূল বা শুরু হওয়া লগ, যা অন্যান্য বিবেচনার ভিত্তিতে নির্দেশিত হতে পারে)।

এটি একটি রিগ্রেশন ভাল কাজ করে। একটি সাধারণ উদাহরণ হ'ল ফর্মের একটি ধারণামূলক মডেল

dependent variable (Y) = loan amount (X) + constant.

Loanণ সূচক ( ) যোগ করার সাথে সাথে রিগ্রেশন মডেলটি হয়I

Y=βII+βXX+β0+ϵ

সঙ্গে শূন্য প্রত্যাশার সঙ্গে র্যান্ডম ত্রুটি উপস্থাপন করে। গুণাগুণগুলি ব্যাখ্যা করা হয়:ϵ

ওয়াই এক্স = 0 আই = 0β0 হ'ল পরিস্থিতিতে প্রত্যাশা , কারণ এগুলি এবং ।YX=0I=0

ওয়াই এক্সβX হ'ল পরিমাণ ( ) এর সাথে এর প্রান্তিক পরিবর্তন ।YX

βI+β0 হ'ল জন্য বিরতি।


2
তাদের অনুপস্থিত হিসাবে বিবেচনা করা হবে না, তারা কোনও loanণের জন্য মূল্য নির্ধারণ করবে। হতে পারে আপনি কোনও loanণ 'এনএ' করেননি সেই ক্ষেত্রে আপনাকে সেইগুলি 0 এ পুনঃনির্মাণ করতে হবে
জন

2
@ জন আপনাকে ধন্যবাদ, আমি ঠিক তাই বলছি। মুল বক্তব্যটি হ'ল loanণের মানগুলি ( ) যেকোন উপায়ে উপযুক্ত (যেমন লগ (পরিমাণ + 1)) এবং ণ ব্যতীত যে কোনও ক্ষেত্রে এবং সেট করুন । এটি লজিস্টিক রিগ্রেশন সহ রিগ্রেশন-এর একটি মানক কৌশল। এক্স = 0 আই = 1XX=0I=1
হুবুহু

3
@ lcl23 যদি আমি পরিস্থিতিটি সঠিকভাবে বুঝতে পারি, অনুমানের কোনও অর্থ হয় না: আপনার "অনুপস্থিত" ডেটা অনুপস্থিত নয়; তারা নির্দেশ করে যে কোনও loanণ নেওয়া হয়নি।
whuber

1
I(X=1)I(X=0)

1
1βI0

1

আমি মনে করি আপনি নিবন্ধের পরামর্শটি ভুল বুঝেছেন: মূলত কারণ প্রস্তাবটির কোনও অর্থ নেই। তারপরে আপনার দুটি সমস্যা হবে: ভেরিয়েবলটি কীভাবে পুনর্নির্মাণ করবেন এবং এর মানগুলি এখনও অনুপস্থিত। সম্ভবত যা প্রস্তাবিত হয়েছিল তা হ'ল নিখোঁজ সূচক তৈরি করা ।

নিখোঁজ ডেটা হ্যান্ডেল করার জন্য কিছুটা প্রাসঙ্গিক পদ্ধতির সাথে যা এই বিবরণটি আলগাভাবে মেলে তা নিখোঁজ সূচকটির জন্য সামঞ্জস্য করা । এটি অবশ্যই একটি সহজ এবং সহজ পদ্ধতি, তবে সাধারণভাবে এটি পক্ষপাতদুষ্ট। পক্ষপাতটি তার খারাপ দিক থেকে সীমাহীন হতে পারে। এটি কার্যকরভাবে যা করে তা দুটি মডেলের ফিট এবং একসাথে তাদের প্রভাবগুলি গড়: প্রথম মডেল হ'ল সম্পূর্ণ শর্তাধীন মডেল , দ্বিতীয়টি একটি সম্পূর্ণ ফ্যাক্টর মডেল। পুরোপুরি শর্তযুক্ত মডেল হ'ল সম্পূর্ণ কেস মডেল, যাতে প্রতিটি পর্যবেক্ষণ মুছে ফেলা হয় যার মানগুলি নেই। সুতরাং এটি ডেটা 20% উপসেট উপর ফিট। দ্বিতীয়টি মোটামুটি অনুপস্থিত মানটির জন্য সামঞ্জস্য না করে বাকি 80% এর উপর ফিট। এই প্রান্তিক মডেলটি সম্পূর্ণ মডেলের মতো একই প্রভাবগুলির অনুমান করে যখন কোনও মীমাংসিত ইন্টারঅ্যাকশন না থাকে, যখন লিঙ্ক ফাংশনটি সঙ্কুচিত হয় এবং যখন ডেটা মিস হয় এ র্যান্ডম (এমএআর)। এই প্রভাবগুলি পরে একটি ওজনযুক্ত গড় দ্বারা সংযুক্ত করা হয়। এমনকি আদর্শ অবস্থার অধীনে, কোনও অপ্রয়োজনীয় মিথস্ক্রিয়া, এবং এলোমেলো (এমসিএআর) ডেটাতে সম্পূর্ণরূপে অনুপস্থিত, অনুপস্থিত সূচক পদ্ধতির পক্ষপাতিত্বমূলক প্রভাবের দিকে পরিচালিত করে কারণ প্রান্তিক মডেল এবং শর্তাধীন মডেল বিভিন্ন প্রভাবের অনুমান করে। এমনকি ভবিষ্যদ্বাণীগুলি এই ক্ষেত্রে পক্ষপাতদুষ্ট।

একটি আরও ভাল বিকল্প হ'ল একাধিক অনুমান ব্যবহার করা। এমনকি যখন বেশিরভাগ অনুপস্থিত ফ্যাক্টরটি খুব স্বল্প মাত্রায় পরিমাপ করা হয় তখনও এমআই সম্ভাব্য মানগুলি কী হতে পারে তার পরিশীলিত উপলব্ধি তৈরির তুলনামূলকভাবে ভাল কাজ করে। এখানে একমাত্র প্রয়োজনীয় অনুমানটি এমএআর।


"লিঙ্ক ফাংশনটি সঙ্কুচিত" এর অর্থ কী?
ম্যাথু ড্রুরি

1
@ ম্যাথহেড্রুরি মূলত, "সংযোগযোগ্যতা" এর অর্থ হল যে ফলাফলগুলির পূর্বাভাস দেয় তবে মূল প্রভাবগুলি (গুলি) পরিবর্তন করে না এমন পরিবর্তনের জন্য সামঞ্জস্য করা নির্ভুলতা বাড়িয়ে তুলবে, তবে আনুমানিক প্রভাব পরিবর্তন করবে না।
অ্যাডমো

দুর্দান্ত, ধন্যবাদ আদম। এর আগে এই পরিভাষা শোনেনি।
ম্যাথু ড্রুরি
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.