প্রতিটি স্তরে 1 পর্যবেক্ষণের সাথে মিশ্রিত মডেল


12

আমি glmerকিছু ব্যবসায়িক ডেটার সাথে একটি এলোমেলো প্রভাব মডেল ফিট করছি । লক্ষ্যটি হ'ল আঞ্চলিক বৈকল্পিকতা বিবেচনায় নিয়ে বিতরণকারী দ্বারা বিক্রয় কার্যকারিতা বিশ্লেষণ করা। আমার নিম্নলিখিত ভেরিয়েবলগুলি রয়েছে:

  • distcode: প্রায় 800 স্তর সহ বিতরণকারী আইডি
  • region: শীর্ষ স্তরের ভৌগলিক আইডি (উত্তর, দক্ষিণ, পূর্ব, পশ্চিম)
  • zone: মাঝারি স্তরের ভূগোলের মধ্যে regionপ্রায় 30 টি স্তর থাকে
  • territory: নিম্ন স্তরের ভূগোলটি zoneপ্রায় 150 স্তরের অভ্যন্তরে বাসা বেঁধেছে

প্রতিটি বিতরণকারী কেবল একটি অঞ্চলে পরিচালনা করে in জটিল অংশটি হ'ল এটি সংক্ষিপ্ততর ডেটা, প্রতি পরিবেশকের প্রতি একটি ডেটা পয়েন্ট সহ। সুতরাং আমার কাছে 800 তথ্য পয়েন্ট রয়েছে এবং আমি নিয়মিত ফ্যাশনে যাই হোক না কেন 800 পরামিতি ফিট করার চেষ্টা করছি।

আমি নিম্নলিখিত হিসাবে একটি মডেল ফিট করেছি:

glmer(ninv ~ 1 + (1|region/zone/territory) + (1|distcode), family=poisson)

এটি কোনও সমস্যা ছাড়াই চলে, যদিও এটি কোনও নোট মুদ্রণ করে:

এলোমেলো প্রভাবগুলির জন্য একটি গ্রুপিং ফ্যাক্টরের স্তরগুলির সংখ্যা n এর সমান , পর্যবেক্ষণের সংখ্যা

এটা কি বোধগম্য কাজ? আমি সমস্ত সহগের সসীম অনুমান পাই এবং এআইসিও অযৌক্তিক নয়। আমি যদি পরিচয় লিঙ্কটির সাথে একটি পইসন জিএলএমএম চেষ্টা করি তবে এআইসি আরও খারাপ তাই লগ লিঙ্কটি কমপক্ষে একটি ভাল সূচনার পয়েন্ট।

যদি আমি জড়িত মানগুলি প্রতিক্রিয়াটির তুলনায় প্লট করি তবে আমি পাই যা মূলত একটি নিখুঁত ফিট, যা আমার অনুমান কারণ কারণ আমার প্রতি পরিবেশকের কাছে একটি ডেটা পয়েন্ট রয়েছে। এটি কি যুক্তিসঙ্গত, বা আমি সম্পূর্ণ নির্বোধ কিছু করছি?

এটি এক মাসের জন্য ডেটা ব্যবহার করছে। আমি একাধিক মাসের জন্য ডেটা পেতে পারি এবং সেভাবে কিছু অনুলিপি পেতে পারি, তবে আমাকে মাস থেকে মাসের বিভিন্নতা এবং সম্ভাব্য মিথস্ক্রিয়াগুলির জন্য নতুন পদ যুক্ত করতে হবে, সঠিক?


ইটিএ: আমি আবার উপরের মডেলটি familyচালিয়েছি , তবে কোনও যুক্তি ছাড়াই (কেবলমাত্র একটি জিএলএমএম না করে কেবল গাউসিয়ান এলএমএম)। এখন lmerআমাকে নিম্নলিখিত ত্রুটিটি দিয়েছে:

ত্রুটি (ফাংশন (ফ্রি, এফএল, শুরু, আরএএমএল, ভার্বোজ): এলোমেলো প্রভাবগুলির জন্য একটি গ্রুপিং ফ্যাক্টরের স্তরগুলির পর্যবেক্ষণের সংখ্যার তুলনায় অবশ্যই কম হতে হবে

সুতরাং আমি অনুমান করতে পারি যে আমি বুদ্ধিমান কিছু করছি না, কারণ পরিবার পরিবর্তনের কোনও প্রভাব নেই। তবে এখন প্রশ্ন হচ্ছে কেন এটি প্রথম স্থানে কাজ করেছিল?

উত্তর:


4

আমি দৃ a়ভাবে একটি মিশ্র মডেল ফিট করার অনুশীলনের সাথে একমত নই যেখানে আপনার ধারণাগত ভিত্তিতে পর্যবেক্ষণ হিসাবে সমান সংখ্যক গোষ্ঠী রয়েছে, সেখানে "গোষ্ঠী" নেই, এবং গণনার ভিত্তিতেও রয়েছে, কারণ আপনার মডেলটির চিহ্নিতকরণযোগ্য সমস্যা থাকতে হবে- ক্ষেত্রে অন্তত একটি এলএমএম এর। (আমি এলএমএমের সাথে একচেটিয়াভাবে কাজ করি এটি কিছুটা পক্ষপাতদুষ্টও হতে পারে। :))

yN(Xβ,ZDZT+σ2I)Dσ2

(আপনি "যুক্তিসঙ্গত" এআইসি বলতে কী বোঝেন তা আমি বুঝতে পারছি না A AIC এই অর্থে গণনাযোগ্য হওয়া উচিত যে আপনার ডেটা অতিরিক্ত ফিট করার পরেও আপনি এখনও "কিছু কিছু গণনা" করছেন))

glmeryXβXβ>0glmer

ধারণাগত অংশ: আমি এটিকে আরও কিছুটা "সাবজেক্টিভ" মনে করি তবে আরও কিছুটা সোজাও। আপনি মিক্সড এফ ব্যবহার করেন। মডেলগুলি কারণ আপনি মূলত স্বীকার করেছেন যে আপনার ত্রুটিতে কিছু গ্রুপ-সম্পর্কিত কাঠামো রয়েছে। এখন যদি আপনার কাছে ডেটা-পয়েন্টগুলির মতো অনেকগুলি গোষ্ঠী থাকে তবে দেখার কাঠামো নেই। আপনার এলএম ত্রুটি কাঠামোর যে কোনও বিচ্যুতি যা "" গোষ্ঠীকরণ "হিসাবে চিহ্নিত করা যেতে পারে সেগুলি এখন নির্দিষ্ট পর্যবেক্ষণ পয়েন্টে দায়ী করা হয় (এবং যেমন আপনি একটি ওভার-ফিটেড মডেলটি দিয়ে শেষ করেন)।

সাধারণভাবে একক-পর্যবেক্ষণ দলগুলি কিছুটা অগোছালো হতে থাকে; আর-সিগ-মিশ্র-মডেলগুলির মেলিং তালিকা থেকে ডিবাটসকে উদ্ধৃত করতে:

আমি মনে করি আপনি একক-পর্যবেক্ষণ দলকে অন্তর্ভুক্ত বা বাদ দিলে মডেলটির মধ্যে খুব কম পার্থক্য রয়েছে। চেষ্টা করে দেখুন।


1
এটি ঠিক যে এটি কোনও রৈখিক সেটিংটিতে বেশি বোঝায় না বলে মনে হয় তবে এটি পয়েসন রিগ্রেশন-এ খুব কার্যকর হতে পারে । আমি দেখতে পাচ্ছি যে আমি বেন বলকারের বিষয়টিতে যা কিছু বলেছিল তার একটি লিঙ্ক সন্ধান করতে পারি কিনা (ডগ বেটসের সাথে তিনি lme4 এর বিকাশকারীদের একজন)।
ডেভিড জে হ্যারিস

হ্যাঁ, আমি যেমন বলেছি সম্ভবত আমি এলএমএম-এর বেশিরভাগ ক্ষেত্রেই পক্ষপাতদুষ্ট চিন্তাভাবনা করছি এবং আমি "ধারণাগত অংশ" নিয়ে মন্তব্য করছি। আমি ব্যাখ্যা করেছি যে এটি glmerযাইহোক যদিও এটির ক্ষেত্রে অত্যধিক খুশি না হওয়া সত্ত্বেও কেন কাজ করে ।
usεr11852

8

যদি আপনার প্রতিক্রিয়াশীল ভেরিয়েবল হিসাবে গণ্য ডেটার অতিরিক্ত পরিমাণে ফেলে থাকে তবে পর্যবেক্ষণের জন্য একটি স্তর খুব কার্যকর হতে পারে । এটি বলার সমতুল্য যে আপনি কোনও গণনা-লগনরমাল বিতরণ থেকে আপনার গণনা ডেটা প্রত্যাশা করেছেন, অর্থাত আপনার পোইসন বিতরণের ল্যাম্বডা প্যারামিটারটি আপনার মডেলের পূর্বাভাসকারী ভেরিয়েবলগুলি দ্বারা সম্পূর্ণরূপে নির্ধারিত নয় এবং সম্ভাবনাগুলি লগন্যাল বিতরণ করা হয়েছে।

বেন বলকার, lme4 এর অন্যতম বিকাশকারী এটি দিয়ে দুটি টিউটোরিয়াল-এর মতো উদাহরণ করেছেন। সিন্থেটিক ডেটা সহ প্রথমটি, আরও কিছুটা বিশদে যায়। আপনি এখানে একটি পিডিএফ খুঁজে পেতে পারেন । তিনি পেঁচা ( এখানে থেকে উপলব্ধ পিডিএফ এবং আর কোড ) জড়িত রিয়েল ডেটা সহ একটি অনুসন্ধানের ডেটা বিশ্লেষণের মধ্য দিয়ে গিয়েছেন ।


1
+1 টি। আমি আপনি কি বলতে সঙ্গে একমত। যেমনটি আমি আমার মূল পোস্টে উল্লেখ করেছি: " ওভার-ডিসপ্রেসন (...) হল পর্যবেক্ষণের মতো অনেক গ্রুপ থাকার বিষয়ে আপনি কীভাবে" আশেপাশে "রয়েছেন " " glmerধারণাবাদী পদ্ধতিতে আরও ভাল বিষয় তৈরি করার জন্য আপনাকে ধন্যবাদ ।
usεr11852

1
লিঙ্কগুলির জন্য ধন্যবাদ! সেগুলি পড়ার পরে এবং আমার মডেল থেকে লাগানো মানগুলি ঘনিষ্ঠভাবে দেখার পরে, আমি কী চলছে সে সম্পর্কে আমার আরও ভাল ধারণা রয়েছে। আমি আসলে ভাবি না যে বেন যা করছে তা আমার বিশ্লেষণের জন্য উপযুক্ত। তিনি অতিরিক্ত পর্যবেক্ষণের অনুমতি দেওয়ার জন্য পর্যবেক্ষণ-স্তরের ভেরিয়েবল ব্যবহার করছেন, সুতরাং এটি উপদ্রব প্রভাবের মতো। আমার বিশ্লেষণের জন্য, distributorআগ্রহের একটি প্রভাব: আমি দেখতে চাই যে অন্যান্য ভেরিয়েবলগুলি দেওয়ার সময় বিতরণকারীরা একে অপরের সাথে তুলনামূলকভাবে কীভাবে সম্পাদন করে। সুতরাং এটি একটি প্রচলিত রৈখিক মিশ্র মডেলের তুলনায় আরও তুলনীয়, যেখানে ওভারফিটটি খাঁটি উদ্বেগ।
হংক ওওই
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.