আমি ভাবছি যে কেউ যদি অনুপস্থিত তথ্যের সাথে মামলার জন্য কেবল আলাদা মডেল তৈরি করার চেয়ে অনুপস্থিত ডেটার জন্য অনুদান কেন ভাল তবে যদি কিছুটা অন্তর্দৃষ্টি সরবরাহ করতে পারে। বিশেষত [জেনারালাইজড] লিনিয়ার মডেলগুলির ক্ষেত্রে (আমি সম্ভবত দেখতে পাই না লিনিয়ার ক্ষেত্রে জিনিসগুলি ভিন্ন)
ধরুন আমাদের কাছে মৌলিক রৈখিক মডেল রয়েছে:
তবে আমাদের ডেটা সেটে অনুপস্থিত সহ কিছু রেকর্ড রয়েছে । পূর্বাভাস ডেটা সেটটিতে যেখানে মডেলটি ব্যবহার করা হবে সেখানে হারিয়ে । এগিয়ে যাওয়ার দুটি উপায় আছে বলে মনে হচ্ছে:এক্স 3
একাধিক মডেল
আমরা ডেটা এবং নন- এক্স 3 কে বিভক্ত করতে পারি এবং প্রত্যেকের জন্য একটি পৃথক মডেল তৈরি করতে পারি। যদি আমরা ধরে নিই যে এক্স 3 এক্স 2 এর সাথে ঘনিষ্ঠভাবে জড়িত তবে অনুপস্থিত ডাটা মডেলটি সেরা দ্বি-ভবিষ্যদ্বাণীমূলক ভবিষ্যদ্বাণী পেতে এক্স 2- কে বেশি ওজন করতে পারে। এছাড়াও যদি অনুপস্থিত ডেটা কেসগুলি কিছুটা আলাদা হয় (নিখোঁজ ডেটা মেকানিজমের কারণে) তবে এটি সেই তফাতটিকে সংযুক্ত করতে পারে। নীচের দিকে, দুটি মডেল প্রতিটি তথ্য উপাত্তের একটি অংশে ফিট করে এবং একে অপরকে "সহায়তা" করছে না, সুতরাং সীমিত ডেটাসেটগুলিতে ফিট কম হতে পারে।
নিন্দা
রিগ্রেশন একাধিক অনুবর্তন প্রথমে এক্স 1 এবং এক্স 2 এর উপর ভিত্তি করে একটি মডেল তৈরি করে এবং পরে অনিচ্ছাকৃত ডেটাতে শব্দটি বজায় রাখতে এলোমেলোভাবে নমুনা তৈরি করে পূরণ করবে । যেহেতু এটি আবার দুটি মডেল, সুতরাং এটি কেবল উপরের একাধিক মডেল পদ্ধতির সমান হবে না? যদি এটি আউটফর্ম করতে সক্ষম হয় - লাভটি কোথা থেকে আসে? এটি কি ঠিক যে এক্স 1 এর জন্য পুরো সেটটিতে ফিট হয়ে গেছে?
সম্পাদনা করুন:
যদিও স্টেফানের উত্তর এখনও অবধি ব্যাখ্যা করেছে যে অভিযুক্ত তথ্যগুলিতে সম্পূর্ণ কেস মডেলটি পুরো ডেটাতে ফিটিংকে ছাড়িয়ে যাবে এবং এটি বিপরীতটি সত্য বলে প্রতীয়মান হবে, নিখোঁজ ডেটা পূর্বাভাস সম্পর্কে এখনও কিছু ভুল ধারণা রয়েছে।
যদি আমার উপরোক্ত মডেলটি থাকে, এমনকি পুরোপুরি ফিটও থাকে তবে ভবিষ্যদ্বাণী করার সময় আমি যদি শূন্য রাখি তবে এটি সাধারণভাবে একটি ভয়াবহ পূর্বাভাস মডেল হবে। কল্পনা করুন, উদাহরণস্বরূপ, যে তারপর এক্স 2 সম্পূর্ণ অকেজো আছে ( β 2 = 0 যখন) এক্স 3 উপস্থিত থাকলে, কিন্তু এখনও অভাবে দরকারী হবে এক্স 3 ।
আমি যে মূল প্রশ্নটি বুঝতে পারি না তা হ'ল: দুটি মডেল, একটি ব্যবহার করে এবং একটি ( এক্স 1 , এক্স 2 , এক্স 3 ) ব্যবহার করা ভাল, বা একটি একক তৈরি করা আরও ভাল () পূর্ণ) মডেল এবং পূর্বাভাস ডেটাসেটগুলিতে অভিব্যক্তি ব্যবহার - বা এই একই জিনিস?
স্টিফান এর জবাব এনে, এটি প্রদর্শিত হবে যে অনুমিত প্রশিক্ষণের সেটটিতে সম্পূর্ণ কেস মডেল তৈরি করা আরও ভাল এবং বিপরীতভাবে বাতিল হওয়া পুরো ডেটা সেটটিতে অনুপস্থিত ডাটা মডেলটি তৈরি করা ভাল। এই দ্বিতীয় পদক্ষেপটি পূর্বাভাসের ডেটাতে কোনও অভিশাপক মডেল ব্যবহার করা থেকে আলাদা কি?