মিশ্র মডেলগুলি কি ভবিষ্যদ্বাণীপূর্ণ মডেল হিসাবে কার্যকর?


24

ভবিষ্যদ্বাণীমূলক মডেলিংয়ের ক্ষেত্রে মিশ্র মডেলগুলির সুবিধাগুলি সম্পর্কে আমি কিছুটা বিভ্রান্ত। যেহেতু ভবিষ্যদ্বাণীমূলক মডেলগুলি সাধারণত পূর্ববর্তী অজানা পর্যবেক্ষণগুলির মানগুলি পূর্বাভাস দেওয়ার জন্য বোঝানো হয় তবে এটি আমার কাছে স্পষ্ট মনে হয় যে মিশ্র মডেলটি কার্যকর হতে পারে কেবলমাত্র জনসংখ্যা-স্তরের পূর্বাভাস সরবরাহের দক্ষতার মাধ্যমে (এটি কোনও এলোমেলো প্রভাব সংযোজন না করে)। তবে সমস্যাটি হ'ল আমার অভিজ্ঞতায় এখন পর্যন্ত মিশ্র মডেলগুলির উপর ভিত্তি করে জনসংখ্যা স্তরের পূর্বাভাসগুলি কেবল স্থির প্রভাবগুলির সাথে স্ট্যান্ডার্ড রিগ্রেশন মডেলগুলির উপর ভিত্তি করে পূর্বাভাসগুলির তুলনায় উল্লেখযোগ্যভাবে খারাপ।

তাহলে ভবিষ্যদ্বাণীজনিত সমস্যাগুলির ক্ষেত্রে মিশ্র মডেলগুলির বক্তব্য কী?

সম্পাদনা করুন। সমস্যাটি হ'ল: আমি একটি মিশ্র মডেল লাগিয়েছি (উভয় স্থির এবং এলোমেলো প্রভাব সহ) এবং কেবল স্থির প্রভাবগুলির সাথে স্ট্যান্ডার্ড লিনিয়ার মডেল। আমি যখন ক্রস-বৈধতা করি তখন আমি ভবিষ্যদ্বাণীমূলক নির্ভুলতার নীচের স্তরবিন্যাস পাই: 1) স্থির এবং এলোমেলো প্রভাব ব্যবহার করার পূর্বাভাস দেওয়ার সময় মিশ্র মডেলগুলি (তবে এটি অবশ্যই এলোমেলো প্রভাবের ভেরিয়েবলগুলির পরিচিত স্তরের পর্যবেক্ষণের জন্যই কাজ করে, সুতরাং এই ভবিষ্যদ্বাণীমূলক পদ্ধতির মনে হয় না) বাস্তব ভবিষ্যদ্বাণীপূর্ণ অ্যাপ্লিকেশন জন্য উপযুক্ত হতে পারে!); 2) স্ট্যান্ডার্ড লিনিয়ার মডেল; 3) জনসংখ্যা-স্তরের পূর্বাভাসগুলি ব্যবহার করার সময় মিশ্র মডেল (তাই এলোমেলো প্রভাবগুলি ছুঁড়ে দেওয়া হয়)। সুতরাং, স্ট্যান্ডার্ড লিনিয়ার মডেল এবং মিশ্র মডেলের মধ্যে একমাত্র পার্থক্য হ'ল বিভিন্ন অনুমানের পদ্ধতির কারণে সহগের কিছুটা আলাদা মান হয় (অর্থাত্ উভয় মডেলগুলিতে একই প্রভাব / ভবিষ্যদ্বাণী রয়েছে, তবে তাদের পৃথক সম্পর্কিত সহগ রয়েছে)।

সুতরাং আমার বিভ্রান্তি একটি প্রশ্নে ফুটে উঠেছে, কেন আমি কখনই ভবিষ্যদ্বাণীপূর্ণ মডেল হিসাবে মিশ্র মডেলটি ব্যবহার করব, যেহেতু জনসংখ্যা-স্তরের পূর্বাভাসগুলি তৈরি করতে মিশ্র মডেল ব্যবহার করা একটি আদর্শ রৈখিক মডেলের তুলনায় নিম্নমানের কৌশল বলে মনে হয়।


আপনি কিভাবে আপনার ভবিষ্যদ্বাণী করছেন? আপনি কি এলোমেলো প্রভাব ব্যবহার করছেন না বা আপনি কি তাদের মাধ্যমগুলিতে আপনার এলোমেলো প্রভাবগুলি ঠিক করছেন? (অর্থাৎ আপনি পূর্বাভাসের সময় এলোমেলো প্রভাব ফেলে দিচ্ছেন?)
ওয়েইন

যতদূর আমি র্যান্ডম এফেক্টগুলি সঠিকভাবে বুঝতে পারি, এলোমেলো প্রভাবগুলি তাদের উপায়গুলিতে স্থির করে ফেলা সমান, যেহেতু র্যান্ডম এফেক্টস (কমপক্ষে প্যারামিট্রাইজেশন আমি ব্যবহার করি) এর অর্থ 0 এবং ভেরিয়েন্স সিগমা এর সাধারণ বিতরণ থেকে উত্পন্ন হয়। তবে যাইহোক, যেহেতু আমি নতুন পর্যবেক্ষণগুলির জন্য র্যান্ডম এফেক্টের পরিবর্তনশীলগুলির মানগুলি জানি না তবে অবশ্যই আমি পূর্বাভাসের সময় এলোমেলো প্রভাবগুলি ব্যবহার করি না, কেবলমাত্র স্থির প্রভাব।
sztal

1
আপনি এই গবেষণাপত্রটি দেখতে চাইতে পারেন, "অনুদৈর্ঘ্য তথ্যের জন্য মিশ্র মডেল ভিত্তিক লজিস্টিক রিগ্রেশন শ্রেণিবদ্ধের কার্যকারিতা সম্পর্কে
জন

1
sztal: আপনি অবশ্যই আছেন। আমি দ্রুত সাড়া দেওয়ার চেষ্টা করছিলাম এবং অর্থপূর্ণ না বলে কিছু বলছিলাম। আমি paper ধারাতে ভবিষ্যদ্বাণী সম্বলিত কাগজ ( gllamm.org/JRSSApredict_09.pdf ) পেয়েছি । আমাকে বলতে হবে যে আমি একটি মন্তব্যে এটি সংক্ষিপ্ত করতে পারছি না, যা ইঙ্গিত করে যে আমি সত্যই এটি বুঝতে পারি না।
ওয়েইন

একটি শেষ প্রশ্ন: আপনি যখন স্থির-প্রতিক্রিয়াগুলি কেবলমাত্র মিশ্র-প্রভাবের সাথে তুলনা করেন, আপনি কি পৃথক স্তরের বিরতি জাতীয় কিছু যুক্ত করে প্রতিটি ক্ষেত্রে একই স্থির প্রতিক্রিয়া ব্যবহার করছেন? মনে হয় এই পরিস্থিতিতে আপনার সত্য ভবিষ্যদ্বাণীমূলক বিরতি সম্পর্কে আরও ভাল ধারণা ব্যতীত আপনার খুব অনুরূপ প্রভাব থাকতে হবে।
ওয়েইন

উত্তর:


17

এটি ডেটা প্রকৃতির উপর নির্ভর করে, তবে সাধারণভাবে আমি মিশ্র মডেলগুলি কেবল স্থির-প্রতিক্রিয়াশীল মডেলগুলিকে ছাড়িয়ে যাওয়ার আশা করব।

আসুন একটি উদাহরণ নেওয়া যাক: রৌদ্র এবং গমের ডাঁটার উচ্চতার মধ্যে সম্পর্কের মডেলিং করা। আমাদের কাছে পৃথক ডালপালার অনেকগুলি পরিমাপ রয়েছে তবে অনেকগুলি ডাঁটা একই স্থানে পরিমাপ করা হয় (যা মাটি, জল এবং উচ্চতায় প্রভাবিত করতে পারে এমন অন্যান্য জিনিসগুলির মধ্যে একই রকম)। এখানে কয়েকটি সম্ভাব্য মডেল রয়েছে:

1) উচ্চতা ~ রোদ

2) উচ্চতা ~ রোদ + সাইট site

3) উচ্চতা ~ রৌদ্র + (1 | সাইট)

নতুন গমের ডালপালা তারা যে পরিমাণ রোদ অনুভব করবে তার কিছুটা অনুমান করে আমরা এই মডেলগুলি ব্যবহার করতে চাই। আমি প্যারামিটার পেনাল্টিটি উপেক্ষা করতে চলেছি আপনি কেবলমাত্র স্থির-প্রভাবের মডেলটিতে অনেকগুলি সাইট থাকার জন্য অর্থ প্রদান করবেন এবং কেবলমাত্র মডেলগুলির আপেক্ষিক শক্তি বিবেচনা করুন।

এখানে সর্বাধিক প্রাসঙ্গিক প্রশ্নটি হ'ল আপনি যে নতুন ডেটা পয়েন্টগুলি পূর্বাভাস দেওয়ার চেষ্টা করছেন সেগুলি আপনার পরিমাপকৃত কোনও একটি সাইট থেকে এসেছে কিনা; আপনি বলছেন এটি বাস্তব বিশ্বে বিরল, তবে এটি ঘটে।

ক) নতুন ডেটা আপনি পরিমাপ করা কোনও সাইট থেকে

যদি তা হয় তবে, # 2 এবং # 3 মডেলগুলি # 1 ছাড়িয়ে যাবে। ভবিষ্যদ্বাণী করতে তারা উভয়ই আরও প্রাসঙ্গিক তথ্য (অর্থ সাইটের প্রভাব) ব্যবহার করে।

খ) নতুন ডেটা একটি অপ্রয়োজনীয় সাইট থেকে

আমি নীচের কারণে মডেল # 3 এবং # 1 এবং # 2 কে ছাড়িয়ে যাওয়ার আশা করব।

(i) মডেল # 3 বনাম # 1:

মডেল # 1 এমন অনুমান তৈরি করবে যা উপস্থাপিত সাইটের পক্ষে পক্ষপাতদুষ্ট। যদি আপনার কাছে প্রতিটি সাইট থেকে একই সংখ্যক পয়েন্ট এবং সাইটের যথাযথভাবে প্রতিনিধিত্বমূলক নমুনা থাকে তবে আপনার উভয় থেকেই অনুরূপ ফলাফল পাওয়া উচিত।

(ii) মডেল # 3 বনাম # 2:

এই ক্ষেত্রে # 3 মডেল কেন সেই মডেল # 2 এর চেয়ে ভাল হবে? কারণ এলোমেলো প্রভাব সংকোচনের সুবিধা নেয় - সাইটের প্রভাবগুলি শূন্যের দিকে 'সঙ্কুচিত' হবে। অন্য কথায়, কোনও নির্দিষ্ট প্রভাব হিসাবে নির্দিষ্ট করার চেয়ে যখন এলোমেলো প্রভাব হিসাবে নির্দিষ্ট করা হয় তখন আপনি সাইট এফেক্টের জন্য কম চরম মান খুঁজে পাওয়ার প্রবণতা পাবেন। এটি দরকারী এবং আপনার ভবিষ্যদ্বাণীমূলক দক্ষতার উন্নতি করে যখন জনসংখ্যার অর্থ যথাযথভাবে একটি সাধারণ বিতরণ থেকে আঁকা হিসাবে বিবেচনা করা যায় ( পরিসংখ্যানের স্টেইনের প্যারাডক্স দেখুন )। জনসংখ্যার মাধ্যমটি যদি সাধারণ বিতরণ অনুসরণ করে এমন প্রত্যাশা না করা হয় তবে এটি সমস্যা হতে পারে তবে এটি সাধারণত একটি খুব যুক্তিসঙ্গত অনুমান এবং পদ্ধতিটি ছোট ছোট বিচ্যুতির পক্ষে দৃ is়।

[পার্শ্ব দ্রষ্টব্য: ডিফল্টরূপে, মডেল # 2 ফিটিং করার সময়, বেশিরভাগ সফ্টওয়্যার রেফারেন্স থেকে তাদের বিচ্যুতি উপস্থাপন করে এমন অন্যান্য সাইটের জন্য রেফারেন্স হিসাবে এবং অনুমানের সহগগুলির একটি সাইট ব্যবহার করবে। সুতরাং এটি প্রদর্শিত হতে পারে যদিও সামগ্রিক 'জনসংখ্যার প্রভাব' গণনা করার কোনও উপায় নেই। তবে আপনি স্বতন্ত্র সাইটের সকলের জন্য পূর্বাভাস জুড়ে গড়ের মাধ্যমে বা আরও সহজেই মডেলের কোডিং পরিবর্তন করে এটি গণনা করতে পারেন যাতে প্রতিটি সাইটের জন্য সহগুণ গণনা করা হয়]]


উত্তর করার জন্য ধন্যবাদ. আমি বরং বিশ্বাসী। দুর্ভাগ্যক্রমে আমি এখন আমার সঠিক প্রশ্নটি মনে করতে পারি না যা আমার প্রশ্নকে অনুপ্রাণিত করেছিল, তবে আমি মনে করি যে মডেলটিতে আমি ব্যবহৃত ভবিষ্যদ্বাণীদের অনিয়মিত বিতরণের কারণে আমার ক্ষেত্রে একটি মিশ্র মডেলের খারাপ অভিনয় হতে পারে। আমি শীঘ্রই উত্তরটি গ্রহণ করব, তবে যেহেতু প্রশ্নটি খানিকটা মনোযোগ আকর্ষণ করেছে আমি আরও কয়েক দিন দিব যাতে কেউ সম্ভবত আরও কঠোর ব্যাখ্যা দিতে পারে (সম্ভবত কিছু উদাহরণ সহ)।
sztal

1
ভাল করা. এটি লক্ষ করা উচিত যে উত্তরাধিকারসূত্রে সাইট-নির্দিষ্ট প্রভাবগুলির পূর্বাভাস দেওয়া যা এলোমেলো প্রভাবগুলির জন্ম দেয়, মডেল থেকে র্যান্ডম ইন্টারসেপ বা এলোমেলো slালু যা অনুমিতভাবে অনুমান করা হয়েছিল তা পূর্বাভাস দেওয়ার জন্য কেবল পৃথক স্তর এবং সাইট নির্দিষ্ট স্থির প্রভাবগুলির একগুচ্ছ থাকার সমতুল্য হওয়া উচিত মডেল মধ্যে।
অ্যাডমো

8

এমকেটির দুর্দান্ত প্রতিক্রিয়া অনুসরণ করা: আমার নিজের ব্যক্তিগত অভিজ্ঞতা থেকে স্বাস্থ্য বীমা ক্ষেত্রে ভবিষ্যদ্বাণীপূর্ণ মডেলগুলি বিকাশ করা, ভবিষ্যদ্বাণীপূর্ণ মডেলগুলিতে (মেশিন লার্নিং মডেলগুলি সহ) এলোমেলো প্রভাবকে অন্তর্ভুক্ত করার বিভিন্ন সুবিধা রয়েছে।

আমাকে প্রায়শই একজন ব্যক্তির historicalতিহাসিক দাবির উপর ভিত্তি করে ভবিষ্যতের দাবির ফলাফল (যেমন ভবিষ্যতের স্বাস্থ্য ব্যয়, থাকার দৈর্ঘ্য ইত্যাদির) পূর্বাভাস দেওয়ার মডেল তৈরি করতে বলা হয়। প্রায়শই পারস্পরিক সম্পর্কযুক্ত ফলাফলের সাথে একাধিক দাবি রয়েছে। একই দাবিদার দ্বারা অনেক দাবি ভাগ করে নেওয়া হয়েছে তা উপেক্ষা করে ভবিষ্যদ্বাণীমূলক মডেলটিতে মূল্যবান তথ্য ছড়িয়ে দেওয়া হবে।

একটি সমাধান হ'ল ডেটাসেটের প্রতিটি সদস্যের জন্য স্থির প্রভাব নির্দেশক ভেরিয়েবলগুলি তৈরি করা এবং সদস্য-স্তরের স্থির প্রভাবগুলির পৃথক পৃথকভাবে সঙ্কুচিত করার জন্য একটি দন্ডিত পেনশন ব্যবহার করা। তবে, যদি আপনার ডেটাতে কয়েক হাজার বা মিলিয়ন সদস্য থাকে তবে কম্পিউটার এবং ভবিষ্যদ্বাণীমূলক উভয় অবস্থান থেকেই আরও কার্যকর সমাধান হতে পারে একাধিক সদস্য-স্তরের স্থির প্রভাবগুলি একটি সাধারণ বন্টন সহ একক র্যান্ডম এফেক্ট টার্ম হিসাবে উপস্থাপন করা।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.