রিগ্রেশনে একাধিক মডেল তৈরির চেয়ে অনুশাসনের সুবিধা কী?


10

আমি ভাবছি যে কেউ যদি অনুপস্থিত তথ্যের সাথে মামলার জন্য কেবল আলাদা মডেল তৈরি করার চেয়ে অনুপস্থিত ডেটার জন্য অনুদান কেন ভাল তবে যদি কিছুটা অন্তর্দৃষ্টি সরবরাহ করতে পারে। বিশেষত [জেনারালাইজড] লিনিয়ার মডেলগুলির ক্ষেত্রে (আমি সম্ভবত দেখতে পাই না লিনিয়ার ক্ষেত্রে জিনিসগুলি ভিন্ন)

ধরুন আমাদের কাছে মৌলিক রৈখিক মডেল রয়েছে:

ওয়াই=β1এক্স1+ +β2এক্স2+ +β3এক্স3+ +ε

তবে আমাদের ডেটা সেটে অনুপস্থিত সহ কিছু রেকর্ড রয়েছে । পূর্বাভাস ডেটা সেটটিতে যেখানে মডেলটি ব্যবহার করা হবে সেখানে হারিয়ে । এগিয়ে যাওয়ার দুটি উপায় আছে বলে মনে হচ্ছে:এক্স 3এক্স3এক্স3

একাধিক মডেল

আমরা ডেটা এবং নন- এক্স 3 কে বিভক্ত করতে পারি এবং প্রত্যেকের জন্য একটি পৃথক মডেল তৈরি করতে পারি। যদি আমরা ধরে নিই যে এক্স 3 এক্স 2 এর সাথে ঘনিষ্ঠভাবে জড়িত তবে অনুপস্থিত ডাটা মডেলটি সেরা দ্বি-ভবিষ্যদ্বাণীমূলক ভবিষ্যদ্বাণী পেতে এক্স 2- কে বেশি ওজন করতে পারে। এছাড়াও যদি অনুপস্থিত ডেটা কেসগুলি কিছুটা আলাদা হয় (নিখোঁজ ডেটা মেকানিজমের কারণে) তবে এটি সেই তফাতটিকে সংযুক্ত করতে পারে। নীচের দিকে, দুটি মডেল প্রতিটি তথ্য উপাত্তের একটি অংশে ফিট করে এবং একে অপরকে "সহায়তা" করছে না, সুতরাং সীমিত ডেটাসেটগুলিতে ফিট কম হতে পারে।এক্স3এক্স3এক্স3এক্স2এক্স2

নিন্দা

রিগ্রেশন একাধিক অনুবর্তন প্রথমে এক্স 1 এবং এক্স 2 এর উপর ভিত্তি করে একটি মডেল তৈরি করে এবং পরে অনিচ্ছাকৃত ডেটাতে শব্দটি বজায় রাখতে এলোমেলোভাবে নমুনা তৈরি করে পূরণ করবে । যেহেতু এটি আবার দুটি মডেল, সুতরাং এটি কেবল উপরের একাধিক মডেল পদ্ধতির সমান হবে না? যদি এটি আউটফর্ম করতে সক্ষম হয় - লাভটি কোথা থেকে আসে? এটি কি ঠিক যে এক্স 1 এর জন্য পুরো সেটটিতে ফিট হয়ে গেছে?এক্স3এক্স1এক্স2এক্স1

সম্পাদনা করুন:

যদিও স্টেফানের উত্তর এখনও অবধি ব্যাখ্যা করেছে যে অভিযুক্ত তথ্যগুলিতে সম্পূর্ণ কেস মডেলটি পুরো ডেটাতে ফিটিংকে ছাড়িয়ে যাবে এবং এটি বিপরীতটি সত্য বলে প্রতীয়মান হবে, নিখোঁজ ডেটা পূর্বাভাস সম্পর্কে এখনও কিছু ভুল ধারণা রয়েছে।

যদি আমার উপরোক্ত মডেলটি থাকে, এমনকি পুরোপুরি ফিটও থাকে তবে ভবিষ্যদ্বাণী করার সময় আমি যদি শূন্য রাখি তবে এটি সাধারণভাবে একটি ভয়াবহ পূর্বাভাস মডেল হবে। কল্পনা করুন, উদাহরণস্বরূপ, যে তারপর এক্স 2 সম্পূর্ণ অকেজো আছে ( β 2 = 0 যখন) এক্স 3 উপস্থিত থাকলে, কিন্তু এখনও অভাবে দরকারী হবে এক্স 3এক্স2=এক্স3+ +ηএক্স2β2=0এক্স3এক্স3

আমি যে মূল প্রশ্নটি বুঝতে পারি না তা হ'ল: দুটি মডেল, একটি ব্যবহার করে এবং একটি ( এক্স 1 , এক্স 2 , এক্স 3 ) ব্যবহার করা ভাল, বা একটি একক তৈরি করা আরও ভাল () পূর্ণ) মডেল এবং পূর্বাভাস ডেটাসেটগুলিতে অভিব্যক্তি ব্যবহার - বা এই একই জিনিস?(এক্স1,এক্স2)(এক্স1,এক্স2,এক্স3)

স্টিফান এর জবাব এনে, এটি প্রদর্শিত হবে যে অনুমিত প্রশিক্ষণের সেটটিতে সম্পূর্ণ কেস মডেল তৈরি করা আরও ভাল এবং বিপরীতভাবে বাতিল হওয়া পুরো ডেটা সেটটিতে অনুপস্থিত ডাটা মডেলটি তৈরি করা ভাল। এই দ্বিতীয় পদক্ষেপটি পূর্বাভাসের ডেটাতে কোনও অভিশাপক মডেল ব্যবহার করা থেকে আলাদা কি?এক্স3

উত্তর:


4

আমি মনে করি যে এখানে কীটি নিখোঁজ হওয়া ডেটা মেকানিজমটি বুঝছে; বা কমপক্ষে কিছু রায়। পৃথক মডেল তৈরি করা নিখোঁজ এবং অনুপস্থিত গোষ্ঠীগুলিকে এলোমেলো নমুনা হিসাবে গণ্য করার অনুরূপ। যদি এক্স 3 এ অনুপস্থিতি এক্স 1 বা এক্স 2 বা অন্য কোনও অনাবদ্ধ ভেরিয়েবলের সাথে সম্পর্কিত হয় তবে আপনার অনুমানগুলি প্রতিটি মডেলটিতে সম্ভবত পক্ষপাতদুষ্ট হবে। কেন ডেটা বিকাশের ডেটা সেটগুলিতে একাধিক অনুদান ব্যবহার করে এবং গুণিতকৃত পূর্বাভাস সেটটিতে সম্মিলিত সহগ ব্যবহার করবেন না? পূর্বাভাস জুড়ে গড় এবং আপনার ভাল হওয়া উচিত।


তবে অনুপস্থিতি যদি এক্স 1 বা এক্স 2 এর সাথে সম্পর্কিত হয় তবে অবশ্যই দুটি পৃথক মডেল থাকা ভাল - যেহেতু তারা সেই তথ্যকে অন্তর্ভুক্ত করবে। এটি বলার অপেক্ষা রাখে না, ভবিষ্যতে যখন আমি অনুপস্থিত এক্স 3 পেয়ে যাব তখন আমি সঠিক দিকে পক্ষপাতদুষ্ট হতে জানব।
করোন

3

আমি ধরে নিই যে আপনি রিগ্রেশন কো-কোফিয়েন্টিয়েন্টগুলির পক্ষপাতহীন অনুমান পেতে আগ্রহী। সম্পূর্ণ মামলার বিশ্লেষণ আপনার রিগ্রেশন কোফিসিয়েন্টস এর পক্ষপাতিত্বহীন অনুমান উৎপাদ প্রদান সম্ভাব্যতা যে X3 অনুপস্থিত ওয়াই এই উপর নির্ভর করে না ঝুলিতে যে এমনকি যদি missingness সম্ভাব্যতা X1, অথবা X2 তে উপর নির্ভর করে, এবং রিগ্রেশন বিশ্লেষণ কোন প্রকার জন্য।

অবশ্যই, সম্পূর্ণ মামলার অনুপাত কম হলে অনুমানগুলি অকার্যকর হতে পারে। সেক্ষেত্রে আপনি নির্ভুলতা বাড়াতে X3, X1 এবং Y প্রদত্ত এক্স 3 এর একাধিক অভিব্যক্তি ব্যবহার করতে পারেন । দেখুন হোয়াইট এবং এ Carlin (2010) তাত্ক্ষণিকবাজার মেড বিস্তারিত জানার জন্য।


আহা, তাই সহগত্যগুলি সঠিকভাবে পাওয়ার সম্পর্কে কি সমস্ত ধারণা? গুণাগুণগুলি সেগুলি আমার পক্ষে আগ্রহী নয় - আমি কেবলমাত্র নতুন ডেটাতে আমার ভবিষ্যদ্বাণীপূর্ণ শক্তি সর্বাধিক করে তুলতে চাই (যা হারিয়ে যেতে পারে)
করোন

1
সেটা ঠিক আছে. সর্বাধিক ভবিষ্যদ্বাণীপূর্ণ শক্তি অর্জন করতে আপনি মডেল সহগগুলির সুনির্দিষ্ট এবং নিরপেক্ষ অনুমানও চান।
স্টিফ ভ্যান বুউরেন

আমি যদি কেবলমাত্র সম্পূর্ণ কেসগুলিই ব্যবহার করি, তবে আমার কাছে ডেটা অনুপস্থিত থাকাকালীন আমি সেই মডেলটি পূর্বাভাসের জন্য ব্যবহার করতে পারি না, কারণ সহগগুলি সাধারণত ভুল হয়ে যায় (উদাহরণস্বরূপ যদি এক্স 2 এবং এক্স 3 এর মধ্যে সম্পর্ক থাকে)। ভবিষ্যদ্বাণী করার সময় আমার অবশ্যই X3 গালাগালি করতে হবে বা কেবল এক্স 1 এবং এক্স 2 এ একটি দ্বিতীয় মডেল তৈরি করতে হবে। প্রশ্নটি হ'ল এর ফলাফল যদি বিভিন্ন পূর্বাভাস দেয় এবং এর থেকে ভাল হয়?
কোরোনে

আহ, আমি মনে করি আপনি যে একটি পয়েন্টটি তৈরি করছেন তা আমি বুঝতে পেরেছি: যদি আমি অনুচ্ছেদ ব্যবহার করে সম্পূর্ণ ক্ষেত্রে পূর্বাভাসের জন্য মডেলটি ফিট করি তবে এটি সম্পূর্ণ ক্ষেত্রে পূর্বাভাসের উন্নতি করবে, বনাম কেবল প্রতিযোগিতামূলক মামলাগুলির সাথে এটি ফিট করে। বাকি প্রশ্নটি অসম্পূর্ণ মামলাগুলির জন্য সর্বোত্তম?
করোন 18

ধরা যাক যে বিটা_1 = বিটা_2 = 0 এবং বিটা_3 = ১। কেবল এক্স 1 এবং এক্স 2 ব্যবহার করা একটি ধ্রুবক সম্পর্কে পূর্বাভাস দেবে, যেখানে এক্স 3 ব্যবহারের পূর্বাভাস Y এর কিছু ভিন্নতা ব্যাখ্যা করবে এবং ফলস্বরূপ অবশিষ্টাংশের ত্রুটি কম হবে। সুতরাং, অভিযুক্ত সংস্করণ আরও ভাল পূর্বাভাস উত্পাদন করে।
স্টেফ ভ্যান বুউরেন

0

হার্ভার্ডের একটি সমীক্ষা অনুপস্থিত তথ্যগুলির পাঁচটি পূর্বাভাসের সাথে একাধিক অনুষ্টানের পরামর্শ দেয় (এখানে রেফারেন্স, http://m.circoutcomes.ahajournals.org/content/3/1/98.full )। তারপরেও, আমি মন্তব্যগুলি স্মরণ করি যে অভিশাপ মডেলগুলি এখনও সত্য অন্তর্নিহিত মানগুলি অন্তর্ভুক্ত না করে এমন মডেল পরামিতিগুলির জন্য কভার অন্তর তৈরি করতে পারে না!

এটি মনে রেখে, অনুপস্থিত মূল্যের জন্য পাঁচটি সহজ নিষ্পাপ মডেল (বর্তমান আলোচনায় এলোমেলোভাবে অনুপস্থিত অনুমান করে) ব্যবহার করা ভাল বলে মনে হয় যা মানগুলির ভাল ছড়িয়ে দেয়, যাতে কভার অন্তরগুলি অন্ততপক্ষে সত্য পরামিতি ধারণ করতে পারে ।

স্যাম্পলিং তত্ত্বের আমার অভিজ্ঞতাটি হ'ল প্রায়শই প্রতিক্রিয়াশীল জনগোষ্ঠীকে সাবমল করার জন্য প্রচুর সংস্থান ব্যয় করা হয় যা সময়ে সময়ে প্রতিক্রিয়া জনসংখ্যার থেকে খুব আলাদা বলে মনে হয়। এর মতো, আমি প্রয়োগের নির্দিষ্ট ক্ষেত্রে অন্তত একবার ভ্যালু রিগ্রেশন হারিয়ে যাওয়াতে অনুরূপ অনুশীলনের পরামর্শ দেব। অনুপস্থিত তথ্য যেমন একটি অনুসন্ধানে অপ্রকাশিত সম্পর্ক ভবিষ্যতের জন্য আরও ভাল অনুপস্থিত তথ্য পূর্বাভাস মডেল নির্মাণে inতিহাসিক মূল্য হতে পারে।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.