আমরা 60 জনকে আটলান্টায় যতটা রেস্তোঁরা ফ্র্যাঞ্চাইজি পারে তার তালিকা করতে বলেছিলাম। সামগ্রিক তালিকায় over০ টিরও বেশি রেস্তোরাঁ অন্তর্ভুক্ত ছিল, তবে আমরা সেগুলিকে সরিয়ে দিয়েছিলাম যেগুলি লোকদের 10% এর চেয়ে কম লোক দ্বারা উল্লেখ করা হয়েছিল, আমাদের 45 রেখে এসেছিল these এই 45 টির জন্য আমরা ভোটাধিকারের তালিকাভুক্ত তথ্যপ্রযুক্তির অনুপাতটি গণনা করেছি এবং আমরা এতে আগ্রহী এই অনুপাতকে ফ্র্যাঞ্চাইজিগুলির (লগ-ট্রান্সফর্মড) বিজ্ঞাপনের বাজেট এবং ফ্র্যাঞ্চাইজি হওয়ার পরে বছরগুলির হিসাবে কাজ করে।
সুতরাং আমি এই কোড লিখেছি:
model <- glm ( cbind (listed, 55-listed) ~ log.budget + years, family = binomial, data = list.45)
পূর্বাভাস হিসাবে, উভয় ভেরিয়েবল শক্তিশালী, উল্লেখযোগ্য প্রভাব প্রদর্শন করে।
তবে যদিও আমি জানি যে আনুপাতিক ডেটা কখনই ওএলএস রিগ্রেশন দিয়ে মডেল করা উচিত নয়, পরে আমি এই কোডটি লিখেছিলাম:
model.lm <- lm ( proportion.55 ~ log.budget + years, data = list.45)
এই ক্ষেত্রে, "বাজেট" এখনও একটি গুরুত্বপূর্ণ ভবিষ্যদ্বাণীকারী, তবে "বছরগুলি" তুলনামূলকভাবে দুর্বল এবং তাৎপর্যপূর্ণ নয়।
এটি আমাকে উদ্বিগ্ন করে তোলে যে অনুমানের উপর আস্থা কৃত্রিমভাবে সমষ্টি দ্বারা ফুলে উঠেছে। দ্বিপদী গ্ল্যাম প্রয়োজনীয়ভাবে ডেটাটিকে ভেক্টরাইজ করে না যে মডেলটি 45 * 55 = 2,475 সারিগুলির উপর ভিত্তি করে? সত্যিই কেবল 45 টি রেস্তোঁরা এবং 55 জন তথ্যপ্রযুক্তি আছে কি তা দেওয়া উপযুক্ত? এই মিশ্র-প্রভাব মডেলিং জন্য কল করবে?
lm
এবং glm(...,family=binomial)
, কিন্তু গুরুত্বপূর্ণ বেশী এক একটি দ্বিপদ GLM ভ্যারিয়েন্স সম্পর্কে শক্তিশালী অনুমানের করে তোলে। যদি ডেটা অত্যধিক সংবেদনশীল না হয় তবে একত্রিত / একত্রিতকরণ কোনও তাত্পর্য রাখে না ।
family=quasibinomial