আর-তে তথ্য হারিয়ে যাওয়ার সর্বাধিক সম্ভাবনা


19

প্রসঙ্গ : কিছু অনুপস্থিত ডেটা সহ শ্রেণিবিন্যাসের রিগ্রেশন।

প্রশ্ন : আর-এ হারিয়ে যাওয়া ডেটা সম্বোধনের জন্য আমি কীভাবে পূর্ণ তথ্য সর্বাধিক সম্ভাবনা (এফআইএমএল) অনুমান ব্যবহার করব? এমন কোনও প্যাকেজ রয়েছে যা আপনি সুপারিশ করবেন এবং সাধারণ পদক্ষেপগুলি কী কী? অনলাইন সংস্থান এবং উদাহরণগুলিও খুব সহায়ক হবে।

পিএস : আমি একজন সামাজিক বিজ্ঞানী যিনি সম্প্রতি আর ব্যবহার শুরু করেছেন একাধিক অনুবর্তন একটি বিকল্প, তবে আমি সত্যিই পছন্দ করি যে এমপ্লাসের মতো প্রোগ্রামগুলি কীভাবে FIML ব্যবহার করে হারিয়ে যাওয়া ডেটা পরিচালনা করে। দুর্ভাগ্যক্রমে এমপ্লাস এই মুহুর্তে শ্রেণিবিন্যাসের রিগ্রেশন প্রসঙ্গে মডেলগুলির তুলনা করে বলে মনে হচ্ছে না (দয়া করে আপনি যদি এটি করার কোনও উপায় জানেন তবে আমাকে জানান!)। আমি ভাবলাম আর এর মতো কিছু আছে কি না? অনেক ধন্যবাদ!


1
আপনি WinBugs বিবেচনা করেছেন ? এটি একটি সুন্দর প্রাকৃতিক উপায়ে হারিয়ে যাওয়া ডেটা পরিচালনা করে।
মাইক ডুনলাভে

WinBUGS এর বিকল্প হ'ল ওপেনবগস বা স্ট্যান। এগুলি আরও ম্যাক বান্ধব হওয়া উচিত।
ম্যাক্সিম.কে

উত্তর:


16

এই উত্তরের কৃতিত্ব @ জোশুয়ার কাছে যায় যিনি এই প্রশ্নটি Google+ এ আর এবং পরিসংখ্যান সম্প্রদায়ের কাছে পোস্ট করার সময় একটি দুর্দান্ত উত্তর দিয়েছেন । আমি কেবল নীচে তার উত্তর পেস্ট করছি।

রিগ্রেশন চালানোর জন্য (সুপ্ত ভেরিয়েবল মডেলিং ছাড়াই) দয়া করে উদ্ধৃত পাঠ্যের পরে টাইপ করা আমার নোটগুলি পড়ুন।

সমস্ত উপলভ্য ডেটাতে (তথাকথিত এফআইএমএল) সর্বাধিক সম্ভাবনার সাথে নিখোঁজ ডেটা হ্যান্ডেল করা একটি খুব দরকারী কৌশল। তবে, বেশ কয়েকটি জটিলতা রয়েছে যা একটি সাধারণ উপায়ে প্রয়োগ করা চ্যালেঞ্জিং করে তোলে। বয়স, লিঙ্গ এবং পেশার ধরণ থেকে কিছু ধারাবাহিক ফলাফলের পূর্বাভাস দিয়ে একটি সাধারণ লিনিয়ার রিগ্রেশন মডেল বিবেচনা করুন। ওএলএস-এ, আপনি বয়স, লিঙ্গ এবং পেশার বন্টন সম্পর্কে চিন্তা করবেন না, কেবল ফলাফল। সাধারণত শ্রেণিবদ্ধ ভবিষ্যদ্বাণীকারীদের জন্য এগুলি ডামি কোডড (0/1)। এমএল ব্যবহার করতে, নিখোঁজ হওয়া সমস্ত ভেরিয়েবলের জন্য বিতরণীয় অনুমানের প্রয়োজন। এখন পর্যন্ত সবচেয়ে সহজ পদ্ধতির নাম মাল্টিভারিয়েট নরমাল (এমভিএন)। উদাহরণস্বরূপ এমপ্লাস ডিফল্টরূপে এটি করবে যদি আপনি ভেরিয়েবলের ধরণের (যেমন, শ্রেণীবদ্ধ) ঘোষণা করার উপায় না বের করেন। আমি যে সহজ উদাহরণ দিয়েছি, আপনি সম্ভবত ধরে নিতে পারেন, বয়সের জন্য স্বাভাবিক, যৌনতার জন্য বার্নোল্লি এবং কাজের ধরণের জন্য মাল্টিনোমল। পরেরটি জটিল কারণ আপনার কাছে যা আছে তা বেশ কয়েকটি বাইনারি ভেরিয়েবল, তবে আপনি এগুলি বার্নোল্লি হিসাবে বিবেচনা করতে চান না। এর অর্থ আপনি ডামি কোডেড ভেরিয়েবলগুলির সাথে কাজ করতে চান না, আপনাকে প্রকৃত শ্রেণিবদ্ধ ভেরিয়েবলের সাথে কাজ করতে হবে যাতে এমএল অনুমানকারীরা সঠিকভাবে একটি বহুজাতিক ব্যবহার করতে পারে তবে এর পরিবর্তে ডামি কোডিং প্রক্রিয়াটি মডেলটিতে তৈরি করা দরকার , তথ্য না। আবার জীবনকে জটিল করে তোলেন। তদুপরি, অবিচ্ছিন্ন এবং শ্রেণিবদ্ধ ভেরিয়েবলগুলির যৌথ বিতরণ গণনা করার জন্য অনর্থক (যখন আমি এমপ্লাসে এই জাতীয় সমস্যায় পড়ি, এটি খুব দ্রুত ভেঙে ফেলা এবং সংগ্রাম শুরু করে)। অবশেষে, আপনি সত্যিই আদর্শভাবে অনুপস্থিত ডেটা মেকানিজম নির্দিষ্ট করে দিন। এসইএম স্টাইলে, এফআইএমএল, সমস্ত ভেরিয়েবলগুলি অন্য সকলের জন্য মূলত শর্তযুক্ত, তবে এটি অগত্যা সঠিক নয়। উদাহরণস্বরূপ, সম্ভবত বয়স লিঙ্গ এবং পেশার ধরণের নয়, তবে তাদের মিথস্ক্রিয় হিসাবে ফাংশন হিসাবে অনুপস্থিত। ফোকাসের ফলাফলের জন্য মিথস্ক্রিয়াটি গুরুত্বপূর্ণ নাও হতে পারে তবে বয়সে অনুপস্থিতির জন্য যদি এটি গুরুত্বপূর্ণ হয় তবে তা অবশ্যই মডেলটির মধ্যে থাকতে হবে, অগত্যা আগ্রহের মূল মডেল নয়, অনুপস্থিত ডাটা মডেল।

লাভান এমভিএন এর জন্য এমএল ব্যবহার করবে তবে বর্তমানে আমি বিশ্বাস করি যে বিভাগীয় ডেটা বিকল্পগুলি সীমিত (আবার এসইএম ক্ষেত্র থেকে আসছে, এটি স্ট্যান্ডার্ড)। একাধিক অনুমান প্রথমে কম মার্জিত বলে মনে হয় কারণ এটি FIML এর পিছনে সুস্পষ্ট অনেকগুলি গোপন অনুমান করে (যেমন প্রতিটি ভেরিয়েবলের জন্য বিতরণ অনুমান এবং প্রতিটি ভেরিয়েবলের জন্য নিখোঁজ হওয়ার জন্য অনুমানযোগ্য মডেল)। যাইহোক, এটি আপনাকে প্রচুর নিয়ন্ত্রণ দেয় এবং প্রতিটি ভেরিয়েবলের বিতরণ সম্পর্কে স্পষ্টভাবে চিন্তা করে এবং প্রতিটিটির জন্য সর্বোত্তম অনুপস্থিত ডেটা প্রক্রিয়াটি মূল্যবান।

আমি আরও বেশি করে নিশ্চিত হয়ে উঠছি যে বেয়েশিয়ান মডেলগুলি হ'ল ডেটা হ্যান্ডেল করার উপায়। কারণটি হ'ল তারা প্রতিটি ভেরিয়েবলের জন্য বিতরণ অন্তর্ভুক্ত করার ক্ষেত্রে অনেক নমনীয়, বিভিন্ন ধরণের বিতরণকে মঞ্জুরি দেয় এবং সামগ্রিক মডেল অনুমানের মধ্যে সহজেই ভবিষ্যদ্বাণীকারীদের গায়েবিহীন ডেটা দ্বারা প্রবর্তিত পরিবর্তনশীলকে অন্তর্ভুক্ত করতে পারে (যেখানে আপনি একাধিক অনুমানের সাথে কৌশল যেখানে আপনি যেখানে তারপরে কোনওভাবে ফলাফল একত্রিত করতে হবে)। অবশ্যই, এই পদ্ধতিগুলি সহজ নয় এবং ব্যবহারের জন্য প্রচুর প্রশিক্ষণ এবং সময় নিতে পারে।

সুতরাং এটি সত্যিই আপনার প্রশ্নের উত্তর দেয় না, তবে নিখোঁজ হওয়ার সাথে মোকাবিলার জন্য সম্পূর্ণ সাধারণ কাঠামো কেন জটিল তা কিছুটা ব্যাখ্যা করে। কোভেরিয়েন্স ম্যাট্রিক্সের জন্য আমার সেমিউটিস প্যাকেজে, আমি এমএল ব্যবহার করতে নীচে লভান ব্যবহার করি। আমি তা করি কারণ আমি কোনও বৈকল্পিক কোভারিয়েন্স ম্যাট্রিক্সের জন্য ধরে নিয়েছি যে আপনি যে কোনও উপায়ে অবিচ্ছিন্ন পরিবর্তনগুলি ব্যবহার করছেন যাতে আমি ধারণা করি যে আমার ব্যবহারকারীরা ইতিমধ্যে তাদের ডেটার জন্য এমভিএন ধরে নিচ্ছেন।

এর অর্থ হ'ল যদি নিখোঁজ হওয়া সমস্ত ভেরিয়েবলগুলি অবিচ্ছিন্ন থাকে, তবে , স্ট্রাকচারাল সমীকরণ মডেলিং (এসইএম) প্যাকেজটি আর এফআইএমএল-এর জন্য ব্যবহার করার জন্য একটি দুর্দান্ত is

এখন আমার প্রাথমিক প্রশ্নে ফিরে যাচ্ছি। আমার উদ্দেশ্য ছিল লিনিয়ার রিগ্রেশন চলাকালীন নিখোঁজ হওয়ার জন্য একটি যাদু ফিক্স করা। আমার সমস্ত ভেরিয়েবলগুলি অনুপস্থিত এবং দুর্দান্ত এবং অবিচ্ছিন্ন ছিল। সুতরাং আমি আমার বিশ্লেষণগুলি দুটি শৈলীতে চালিয়ে গেলাম:

  • একাধিক অনুমান সহ স্বাভাবিক উপায়
  • এফআইএমএল ব্যবহার করে লাভান দিয়ে এসইএম স্টাইলে।

আমি এসইএম স্টাইলে রিগ্রেশন করে অনেক কিছুই মিস করছিলাম। উভয় শৈলী একই ধরণের সহগ এবং আর স্কোয়ার দিয়েছে, তবে এসইএম স্টাইলে আমি রিগ্রেশন (ডিএফের সাথে আদর্শ এফ মানগুলি) এর তাত্পর্য পরীক্ষা করেছিলাম না, পরিবর্তে আমি ফিট সূচকগুলি পেয়েছি যা আমার সমস্ত ডিগ্রি ব্যবহার করার কারণে সহায়ক ছিল না helpful স্বাধীনতার। এছাড়াও যখন একটি মডেলের অন্যের চেয়ে বড় আর 2 ছিল, আমি পার্থক্যটি উল্লেখযোগ্য কিনা তা তুলনা করার কোনও উপায় খুঁজে পাই না। অতিরিক্ত হিসাবে, স্বাভাবিকভাবেই রিগ্রেশন করা অমূল্য এমন রিগ্রেশন অনুমানগুলির জন্য একগুচ্ছ পরীক্ষার অ্যাক্সেস দেয়। এই ইস্যুতে আরও বিস্তারিত উত্তরের জন্য আমার অন্যান্য প্রশ্নটি দেখুন যা সুন্দরভাবে @ স্ট্যাসকে উত্তর দিয়েছিল

সুতরাং উপসংহারটি মনে হয় যে লাভান আর এফআইএমএল এর জন্য একটি শালীন প্যাকেজ, তবুও এফআইএমএল এর ব্যবহার পরিসংখ্যানগত অনুমান এবং কোনটি বিশ্লেষণের ধরণেরটি পরিচালনা করছে তার উপর নির্ভর করে। যতদূর পর্যন্ত রিগ্রেশন (সুপ্ত ভেরিয়েবল মডেলিং ছাড়াই) যায়, এটিকে এসইএম প্রোগ্রামের বাইরে রাখা এবং একাধিক অনুদান ব্যবহার করা সম্ভবত বুদ্ধিমানের পদক্ষেপ।


1

আপনার এফআইএমএল প্রশ্নের সাথে, আমি ভেবেছিলাম আমি পল অ্যালিসনের এই দুর্দান্ত এসএএস পেপারটি ভাগ করব http://www.statisticalhorizons.com/wp-content/uploads/

পল অ্যালিসন যে মন্তব্য করেছেন, সেগুলি সহজেই lme বা nlmer ব্যবহার করে আর এ একই পদ্ধতি প্রয়োগ করতে পারে।


-3

হারিয়ে যাওয়া ডেটা / রেকর্ডগুলি পরিচালনা করার জন্য দুটি প্রধান উপায় রয়েছে। আপনি হয় নিখুঁত মান রয়েছে এমন পর্যবেক্ষণের পুরো সারিটি মুছুন বা আপনি এই হারিয়ে যাওয়া মানটি তৈরি করার কোনও উপায় খুঁজে পাবেন। আপনি যদি প্রথম পন্থা অবলম্বন করেন তবে আপনি প্রচুর ডেটা হারাতে পারেন। দ্বিতীয় পদ্ধতির ক্ষেত্রে, আপনাকে এই অনুপস্থিত ডেটা তৈরির জন্য একটি "চতুর" উপায়টি আবিষ্কার করতে হবে, নতুন ডেটা সেটটির পরামিতিগুলির অনুমান, পর্যবেক্ষণ করা ডেটা সেটের পরামিতিগুলির অনুমানের চেয়ে খুব বেশি আলাদা নয়।

এই দ্বিতীয় পদ্ধতির ডেটা ইমপুটেশন বলা হয়, এবং এটি বেশ কয়েকটি আর প্যাকেজ রয়েছে। এর মধ্যে একটিকে ম্যাক্লাস্ট বলা হয় এবং আপনার যে ফাংশনটি প্রয়োজন তা ইমপুডডেটা বলে। EM (প্রত্যাশা সর্বাধিকীকরণ) অ্যালগোরিদম ব্যবহার করে এই ফাংশনটি পর্যবেক্ষিত অংশটি দেওয়া তথ্য উপাত্তের অরক্ষিত অংশের পরামিতিগুলি অনুমান করতে। একবার প্যারামিটারগুলি সন্ধান করা হলে, নতুন ডেটা পয়েন্ট উত্পন্ন হয়। অনুপস্থিত তথ্য, পর্যবেক্ষণ করা ডেটা এবং পুরো ডেটা সেটের বিতরণ অনুমানটি গাউসিয়ান বলে ধরে নেওয়া হয়।

আশা করি এই ব্যাখ্যাটি আপনি যা করতে চেষ্টা করছেন তা অর্জনে সহায়তা করবে


ধন্যবাদ। আমি একাধিক অনুমানের জন্য প্যাকেজগুলি সম্পর্কে সচেতন, তবে সর্বাধিক সম্ভাবনা অনুমান করার অপেক্ষাকৃত সহজ উপায় আছে কিনা তা দেখতে চাই।
Sootica

নমুনা, এক্স, অনুপস্থিত যখন সম্ভাব্যতা ফাংশন সংজ্ঞায়িত করা হয় না। সুতরাং আমি মনে করি আপনি সম্ভবত এমন কোনও কিছুর সন্ধান করছেন যা অস্তিত্বহীন।
লালাস

2
নিখোঁজ তথ্য ( অ্যালিসন, ২০১২ ) এর সর্বাধিক সম্ভাবনা পদ্ধতির ব্যবহারের ব্যাখ্যার জন্য এই কাগজটি দেখুন । ওপি যা বর্ণনা করে তা বিদ্যমান।
অ্যান্ডি ডাব্লু

2
এবং এটি সম্পর্কে এসএএস থেকে কিছু এখানে। সমর্থন.sas.com/docamentation/cdl/en/statug/63347/HTML/default/… আমি আর তে কখনও কিছুই দেখিনি
জেরেমি মাইলস

ধন্যবাদ @ জেরেমি মাইলস, আমি এই পোস্টটি পোস্ট করেছি যা এই প্রশ্নের উত্তর দিতে আমাকে সাহায্য করেছে, ভেবেছিলাম অন্যরাও এটি সহায়ক হতে পারে। পুনশ্চ. অ্যান্ডি ফিল্ডের সাথে আপনার লেখা আর বইটি দুর্দান্ত !! : ডি
সোটিকা
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.