মিশ্র মডেল বনাম একাধিক সাইট অধ্যয়নের জন্য পুলিং স্ট্যান্ডার্ড ত্রুটি - কেন একটি মিশ্র মডেল এত বেশি দক্ষ?


16

আমি কয়েকটি ডেটা সেট পেয়েছি যাতে কয়েকটি মুভি সাইট থেকে "ভাঙা স্টিক" মাসিক কেস গণনা করা হয়। আমি দুটি ভিন্ন কৌশল থেকে একক সংক্ষিপ্ত প্রাক্কলন অনুমান করার চেষ্টা করছি:

কৌশল 1: 0/1 সূচক ভেরিয়েবলের সাথে পোইসন জিএলএম দিয়ে একটি "ভাঙা লাঠি" ফিট করুন এবং সময় প্রবণতা নিয়ন্ত্রণ করতে সময় এবং সময় ^ 2 ভেরিয়েবল ব্যবহার করুন। সেই 0/1 সূচক ভেরিয়েবলের অনুমান এবং এসই মুহুর্তের কৌশলগুলির একটি দুর্দান্ত সোজা আপ এবং ডাউন পদ্ধতি ব্যবহার করে বা একটি "বায়সিয়ান" অনুমান পাওয়ার জন্য আর-তে tlnise প্যাকেজ ব্যবহার করে পুল করা হয়। এটি পেং এবং ডোমিনিসি বায়ু দূষণের ডেটাগুলির সাথে একই রকম, তবে কয়েকটি সাইট ((এক ডজন) রয়েছে to

কৌশল 2: সময়ে ট্রেন্ডের জন্য সাইট-নির্দিষ্ট নিয়ন্ত্রণের কিছু ত্যাগ করুন এবং রৈখিক মিশ্র মডেল ব্যবহার করুন। বিশেষ করে:

lmer(cases ~ indicator + (1+month+I(month^2) + offset(log(p)), family="poisson", data=data)

আমার প্রশ্নে এই অনুমানগুলির বাইরে আসা স্ট্যান্ডার্ড ত্রুটিগুলি জড়িত। টেকনিক 1 এর স্ট্যান্ডার্ড ত্রুটি, যা প্রকৃতপক্ষে মাসিক সময় নির্ধারণের পরিবর্তে সাপ্তাহিক ব্যবহার করছে এবং এর ফলে আরও নির্ভুল হওয়া উচিত , মূহুর্তের পদ্ধতির জন্য approach 0.206 এবং tlnise এর জন্য 0.306 ডলার অনুমানের একটি স্ট্যান্ডার্ড ত্রুটি রয়েছে।

Lmer পদ্ধতি standard 0.09 একটি স্ট্যান্ডার্ড ত্রুটি দেয়। প্রভাব অনুমানগুলি যুক্তিসঙ্গতভাবে নিকটবর্তী, সুতরাং মনে হয় না যে তারা মিশ্র মডেলটি যতটা বেশি কার্যকরী ততই বিভিন্ন সংক্ষিপ্ত প্রাক্কলনের তুলনায় শূন্য করছে।

এটি কি এমন কিছু যা আশা করা যুক্তিসঙ্গত? যদি তা হয় তবে মিক্সড মডেলগুলি কেন এত বেশি দক্ষ? এটি কি সাধারণ ঘটনা, না এই মডেলের নির্দিষ্ট ফলাফল?


আপনি আপনার প্রযুক্তি 1 তে ঠিক কী মডেল ফিট করেন তা না জেনে এই প্রশ্নের উত্তর দেওয়া শক্ত You তারপরে আপনি "টেকনিক 1 এর স্ট্যান্ডার্ড ত্রুটি [...] হ'ল। 0.206"। ঠিক কোন মডেলের জন্য এটি আদর্শ ত্রুটি? আপনি যেমন টেকনিক 2 এর মতো করেছিলেন, আপনি কি এই মডেলটিকে ফিট করার জন্য ব্যবহার করেছেন সিনট্যাক্সটি? এমনকি আরও ভাল একটি পুনরুত্পাদনযোগ্য উদাহরণ প্রদান করা (অগত্যা আপনার মূল ডেটাসেট নয়) যা আমরা নিজেরাই উভয় মডেলকে ফিট করতে পারি।
জ্যাক ওয়েস্টফল

@ জ্যাকওয়েস্টফল আপনি ঠিক বলেছেন, যখন আমি প্রথম এটি লিখলাম সমস্যাটি বিকাশের সাথে সাথে এটি সচেতনতামূলক প্রশ্নের ধরণ ছিল। আমি কিছু সম্পাদনা করব এবং দেখুন এটি আরও সহায়ক হতে পারে কিনা। দুর্ভাগ্যক্রমে, কোডটি কোথাও ঘুরে
দাঁড়িয়েছে

সামান্য পরিচ্ছন্নতা সম্পন্ন - মডেলগুলির ডিজাইনে একই ভেরিয়েবল ব্যবহার করা হয়। দুর্ভাগ্যক্রমে, কোড, ডেটা ইত্যাদি অন্য মেশিনে রয়েছে এবং আমি একটি সম্মেলনে আছি। "একাধিক-সাইট অনুমান: মেশানো মডেলগুলি কি পুলিংয়ের চেয়ে সবসময় / প্রায়শই দক্ষ?"
ফোমাইট

উত্তর:


5

আমি জানি এটি একটি পুরানো প্রশ্ন, তবে এটি তুলনামূলকভাবে জনপ্রিয় এবং এর সহজ উত্তর রয়েছে, তাই আশা করি এটি ভবিষ্যতে অন্যদের পক্ষে সহায়ক হবে। আরও গভীরতার জন্য, লিনিয়ার মিশ্রিত মডেলগুলিতে ক্রিস্টোফ লিপার্টের কোর্সটি একবার দেখুন যা এখানে জিনোম-বিস্তৃত অ্যাসোসিয়েশন স্টাডির প্রসঙ্গে তাদের পরীক্ষা করে । বিশেষত বক্তৃতা 5 দেখুন

মিশ্র মডেলটি আরও ভাল কাজ করার কারণটি হ'ল এটি: জনসংখ্যা কাঠামোর জন্য আপনি কী নিয়ন্ত্রণ করতে চাইছেন তা ঠিক বিবেচনায় নেওয়ার জন্য ডিজাইন করা হয়েছে। আপনার অধ্যয়নের "জনসংখ্যা" হ'ল বিভিন্ন সাইট ব্যবহার করে উদাহরণস্বরূপ, একই প্রোটোকলের কিছুটা ভিন্ন তবে ধারাবাহিক বাস্তবায়ন। এছাড়াও, যদি আপনার অধ্যয়নের বিষয়গুলি মানুষ হয় তবে বিভিন্ন সাইট থেকে চালিত ব্যক্তিরা একই সাইটের লোকদের তুলনায় কমই যুক্ত হওয়ার সম্ভাবনা থাকে, তাই রক্ত-সম্পর্কিততাও ভূমিকা নিতে পারে।

এন(ওয়াই|এক্সβ,σ2)কেএন(ওয়াই|এক্সβ+ +জেডতোমার দর্শন লগ করা,σ2আমি+ +σ2কে)

আপনি জনসংখ্যার কাঠামোর জন্য সুস্পষ্টভাবে নিয়ন্ত্রণের চেষ্টা করছেন বলে লিনিয়ার মিশ্রিত মডেল অন্যান্য রিগ্রেশন কৌশলকে ছাড়িয়ে যায় তাই অবাক হওয়ার কিছু নেই।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.