আমি এমন কিছু ডেটা মডেলিং করছি যেখানে আমার মনে হয় আমার দুটি ক্রস এলোমেলো প্রভাব রয়েছে। তবে ডেটা সেটটি ভারসাম্যযুক্ত নয় এবং এটির জন্য অ্যাকাউন্ট নেওয়ার জন্য কী করা দরকার তা আমি নিশ্চিত নই।
আমার ডেটা ইভেন্টগুলির একটি সেট। একটি ইভেন্ট ঘটে যখন কোনও ক্লায়েন্ট কোনও সরবরাহকারীর সাথে কোনও কাজ সম্পাদনের জন্য মিলিত হয়, যা হয় সফল হয় বা না। এখানে হাজার হাজার ক্লায়েন্ট এবং সরবরাহকারী রয়েছে এবং প্রতিটি ক্লায়েন্ট ও সরবরাহকারী বিভিন্ন সংখ্যক ইভেন্টে অংশ নেয় (প্রায় 5 থেকে 500)। প্রতিটি ক্লায়েন্ট এবং সরবরাহকারীর একটি স্তরের দক্ষতা রয়েছে এবং টাস্কটি সফল হওয়ার সম্ভাবনা উভয় অংশগ্রহণকারীদের দক্ষতার একটি ফাংশন। ক্লায়েন্ট এবং সরবরাহকারীদের মধ্যে কোনও ওভারল্যাপ নেই।
আমি ক্লায়েন্ট এবং সরবরাহকারীদের জনসংখ্যার সম্পর্কিত বৈচিত্রগুলিতে আগ্রহী, তাই আমরা জানতে পারি কোন উত্স সাফল্যের হারের উপর আরও বেশি প্রভাব ফেলে has আমি সেরা / নিকৃষ্টতম ক্লায়েন্ট বা সরবরাহকারীদের সনাক্ত করতে আমাদের কাছে ক্লায়েন্ট এবং সরবরাহকারীদের মধ্যে দক্ষতার নির্দিষ্ট মানগুলি জানতে চাই।
প্রাথমিকভাবে, আমি ধরে নিতে চাই যে সাফল্যের সম্ভাবনা কেবল ক্লায়েন্ট এবং সরবরাহকারীর সম্মিলিত দক্ষতা স্তর দ্বারা পরিচালিত, অন্য কোনও স্থির প্রভাব ছাড়াই। সুতরাং, ধরে নিচ্ছি যে এক্স ক্লায়েন্টের জন্য একটি ফ্যাক্টর এবং সরবরাহকারীর জন্য y একটি ফ্যাক্টর, তারপরে আর (প্যাকেজ lme4 ব্যবহার করে) আমার কাছে একটি মডেল উল্লেখ করা হয়েছে:
glmer( success ~ (1 | x) + (1 | y), family=binomial(), data=events)
একটি সমস্যা হ'ল ক্লায়েন্টগুলি সরবরাহকারীর মধ্যে সমানভাবে বিতরণ করা হয় না। উচ্চতর দক্ষতা সরবরাহকারীদের সাথে উচ্চ দক্ষতার ক্লায়েন্টগুলির সাথে মেলে থাকার সম্ভাবনা বেশি। আমার বোধগম্যতা হল মডেলটির অন্য কোনও ভবিষ্যদ্বাণীকের সাথে একটি এলোমেলো প্রভাব থাকতে হবে, তবে কীভাবে এটি হিসাব করবেন তা আমি নিশ্চিত নই।
এছাড়াও, কিছু ক্লায়েন্ট এবং সরবরাহকারীদের খুব কম ইভেন্ট রয়েছে (10 এর চেয়ে কম), আবার অন্যদের অনেকগুলি (500 অবধি) রয়েছে, তাই প্রতিটি অংশগ্রহীর উপর আমাদের যে পরিমাণ ডেটা রয়েছে তা বিস্তৃত রয়েছে। আদর্শভাবে এটি প্রতিটি অংশীদারি দক্ষতা অনুমানের চারপাশে একটি "আত্মবিশ্বাসের ব্যবধানে" প্রতিফলিত হবে (যদিও আমি মনে করি আত্মবিশ্বাসের ব্যবধানটি এখানে যথেষ্ট সঠিক নয়)।
ভারসাম্যহীন ডেটার কারণে কি এলোমেলো প্রভাবগুলি সমস্যাযুক্ত হতে চলেছে? যদি তা হয় তবে আমার বিবেচনা করা উচিত এমন আরও কিছু পদ্ধতির কী আছে?