ক্রসড এলোমেলো প্রভাব এবং ভারসাম্যহীন ডেটা


10

আমি এমন কিছু ডেটা মডেলিং করছি যেখানে আমার মনে হয় আমার দুটি ক্রস এলোমেলো প্রভাব রয়েছে। তবে ডেটা সেটটি ভারসাম্যযুক্ত নয় এবং এটির জন্য অ্যাকাউন্ট নেওয়ার জন্য কী করা দরকার তা আমি নিশ্চিত নই।

আমার ডেটা ইভেন্টগুলির একটি সেট। একটি ইভেন্ট ঘটে যখন কোনও ক্লায়েন্ট কোনও সরবরাহকারীর সাথে কোনও কাজ সম্পাদনের জন্য মিলিত হয়, যা হয় সফল হয় বা না। এখানে হাজার হাজার ক্লায়েন্ট এবং সরবরাহকারী রয়েছে এবং প্রতিটি ক্লায়েন্ট ও সরবরাহকারী বিভিন্ন সংখ্যক ইভেন্টে অংশ নেয় (প্রায় 5 থেকে 500)। প্রতিটি ক্লায়েন্ট এবং সরবরাহকারীর একটি স্তরের দক্ষতা রয়েছে এবং টাস্কটি সফল হওয়ার সম্ভাবনা উভয় অংশগ্রহণকারীদের দক্ষতার একটি ফাংশন। ক্লায়েন্ট এবং সরবরাহকারীদের মধ্যে কোনও ওভারল্যাপ নেই।

আমি ক্লায়েন্ট এবং সরবরাহকারীদের জনসংখ্যার সম্পর্কিত বৈচিত্রগুলিতে আগ্রহী, তাই আমরা জানতে পারি কোন উত্স সাফল্যের হারের উপর আরও বেশি প্রভাব ফেলে has আমি সেরা / নিকৃষ্টতম ক্লায়েন্ট বা সরবরাহকারীদের সনাক্ত করতে আমাদের কাছে ক্লায়েন্ট এবং সরবরাহকারীদের মধ্যে দক্ষতার নির্দিষ্ট মানগুলি জানতে চাই।

প্রাথমিকভাবে, আমি ধরে নিতে চাই যে সাফল্যের সম্ভাবনা কেবল ক্লায়েন্ট এবং সরবরাহকারীর সম্মিলিত দক্ষতা স্তর দ্বারা পরিচালিত, অন্য কোনও স্থির প্রভাব ছাড়াই। সুতরাং, ধরে নিচ্ছি যে এক্স ক্লায়েন্টের জন্য একটি ফ্যাক্টর এবং সরবরাহকারীর জন্য y একটি ফ্যাক্টর, তারপরে আর (প্যাকেজ lme4 ব্যবহার করে) আমার কাছে একটি মডেল উল্লেখ করা হয়েছে:

  glmer( success ~ (1 | x) + (1 | y), family=binomial(), data=events)

একটি সমস্যা হ'ল ক্লায়েন্টগুলি সরবরাহকারীর মধ্যে সমানভাবে বিতরণ করা হয় না। উচ্চতর দক্ষতা সরবরাহকারীদের সাথে উচ্চ দক্ষতার ক্লায়েন্টগুলির সাথে মেলে থাকার সম্ভাবনা বেশি। আমার বোধগম্যতা হল মডেলটির অন্য কোনও ভবিষ্যদ্বাণীকের সাথে একটি এলোমেলো প্রভাব থাকতে হবে, তবে কীভাবে এটি হিসাব করবেন তা আমি নিশ্চিত নই।

এছাড়াও, কিছু ক্লায়েন্ট এবং সরবরাহকারীদের খুব কম ইভেন্ট রয়েছে (10 এর চেয়ে কম), আবার অন্যদের অনেকগুলি (500 অবধি) রয়েছে, তাই প্রতিটি অংশগ্রহীর উপর আমাদের যে পরিমাণ ডেটা রয়েছে তা বিস্তৃত রয়েছে। আদর্শভাবে এটি প্রতিটি অংশীদারি দক্ষতা অনুমানের চারপাশে একটি "আত্মবিশ্বাসের ব্যবধানে" প্রতিফলিত হবে (যদিও আমি মনে করি আত্মবিশ্বাসের ব্যবধানটি এখানে যথেষ্ট সঠিক নয়)।

ভারসাম্যহীন ডেটার কারণে কি এলোমেলো প্রভাবগুলি সমস্যাযুক্ত হতে চলেছে? যদি তা হয় তবে আমার বিবেচনা করা উচিত এমন আরও কিছু পদ্ধতির কী আছে?

উত্তর:


4

ভারসাম্যহীন ডেটা হিসাবে, উজ্জ্বল ভারসাম্যহীন গোষ্ঠীগুলি পরিচালনা করতে সক্ষম: এটি ছিল বারবার-ব্যবস্থার আনোভা-র তুলনায় মিক্সড-মডেল পদ্ধতির বিকাশ করার বিষয়টি যা ভারসাম্য নকশায় সীমাবদ্ধ। কয়েকটি ইভেন্টের সাথে ক্লায়েন্ট বা সরবরাহকারীদের অন্তর্ভুক্ত করা (এমনকি একটি মাত্র) তাদের বাদ দেওয়ার চেয়ে আরও ভাল, কারণ এটি অবশিষ্টাংশের অনুমানের উন্নতি করে ( মার্টিন এট আল। 2011 দেখুন )।

আপনি যদি ranef(model)দক্ষতার প্রক্সি হিসাবে BLUPs ( ) ব্যবহার করতে চান তবে আপনাকে অবশ্যই আপনার পয়েন্ট ভবিষ্যদ্বাণীগুলির অনিশ্চয়তার অনুমান করতে হবে। এটি ranef(model, postVar=TRUE)কোনও বায়েশিয়ার কাঠামোর উত্তরোত্তর বিতরণ ব্যবহার করে বা ঘন ঘনবাদী কাঠামোয় করা যেতে পারে। তবে আপনাকে আরও রিগ্রেশন মডেলগুলিতে প্রতিক্রিয়ার পরিবর্তনশীল হিসাবে বিএলইউপগুলি ব্যবহার করা উচিত নয়: দেখুন হ্যাডফিল্ড এট আল। (2010) BLUPs এর অপব্যবহারের উদাহরণ এবং তাদের অনিশ্চয়তার যথেষ্ট পরিমাণে বিবেচনার জন্য বিভিন্ন পদ্ধতির জন্য।

ক্লায়েন্ট এবং সরবরাহকারীদের মধ্যে দক্ষতার পারস্পরিক সম্পর্ক সম্পর্কিত, এটি ভারসাম্যহীন হলে এই ভারসাম্যহীনতা সমস্যাযুক্ত হতে পারে, কারণ এটি প্রতিটি এলোমেলো প্রভাবের কারণে বৈকল্পিকতার সঠিকভাবে অনুমান করা আটকাতে পারে। এমন কোনও মিশ্র-মডেল ফ্রেমওয়ার্ক বলে মনে হয় না যা সহজেই এলোমেলো ইন্টারসেপ্টগুলির মধ্যে পারস্পরিক সম্পর্ক পরিচালনা করে ( আপনার সমস্যার আনুষ্ঠানিক প্রকাশের জন্য এখানে দেখুন )। আপনি কীভাবে ক্লায়েন্ট এবং সরবরাহকারীদের গড় সাফল্যগুলি সংযুক্ত করতে পারেন তা সঠিকভাবে বলতে পারেন?


আমার পুরানো একটি প্রশ্নের সমাধান করার জন্য আপনাকে অনেক ধন্যবাদ। উত্তরটি এখনও প্রাসঙ্গিক এবং গাইডেন্স এবং রেফারেন্সগুলি প্রশংসা করা হয়েছে। দুঃখিত, আমার সেখানে এটি লক্ষ্য করা এত দীর্ঘ সময় নিয়েছে! আমি এটি সমাধান হিসাবে চিহ্নিত করেছি।
কর্নেল.ট্রিক
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.