আমি প্রতিটি শহরের প্রতিটি জেলায় হত্যাকাণ্ডের সংখ্যা ব্যাখ্যা করতে একটি রিগ্রেশন ফিট করার চেষ্টা করছি। যদিও আমি জানি যে আমার ডেটা একটি পয়সন বিতরণ অনুসরণ করে, তবে আমি এই জাতীয় কোনও ওএলএস ফিট করার চেষ্টা করেছি:
তারপরে, আমি একটি পয়েসন রিগ্রেশনও চেষ্টা করেছি (অবশ্যই!) সমস্যাটি হ'ল আমার ওএলএস রিগ্রেশনটির আরও ভাল ফলাফল হয়েছে: সিউডো- চেয়ে বেশি (0.71 বনাম 0.57) এবং আরএমএসইও রয়েছে (3.8 বনাম 8.88। একই ইউনিটটি মানকযুক্ত)।
কেন? এটা কি স্বাভাবিক? ওএলএস ব্যবহারের ক্ষেত্রে কী কী সমস্যা নেই তা তথ্যের বিতরণ কী?
সম্পাদনা করুন কেজিটিল বি হলভারসন এবং অন্যান্যদের পরামর্শ অনুসরণ করে, আমি দুটি মডেলের মাধ্যমে ডেটা লাগিয়েছি: ওএলএস এবং নেতিবাচক বিনোমিয়াল জিএলএম (এনবি)। আমি আমার সমস্ত বৈশিষ্ট্য দিয়ে শুরু করেছিলাম, তারপরে আমি পুনরাবৃত্তি করে একের পর এক বৈশিষ্ট্যগুলি মুছে ফেলি যা উল্লেখযোগ্য ছিল না। ওএলএস হয়
ওজন সহ = ।
summary(w <- lm(sqrt(num/area) ~ RNR_nres_non_daily + RNR_nres_daily + hType_mix_std + area_filtr + num_community_places+ num_intersect + pop_rat_num + employed + emp_rat_pop + nden_daily + nden_non_daily+ bld_rat_area + bor_rat_area + mdist_highways+ mdist_parks, data=p, weights=area))
error2 <- p$num - (predict(w, newdata=p[,-1:-2], type="response")**2)*p$area
rmse(error2)
[1] 80.64783
এনবি জেলার অঞ্চলটি অফসেট হিসাবে অপরাধ সংখ্যার পূর্বাভাস দিয়েছে।
summary(m3 <- glm.nb(num ~ LUM5_single + RNR_nres + mdist_daily + mdist_non_daily+ hType_mix_std + ratio_daily_nondaily_area + area_filtr + num_community_places + employed + nden_daily + nden_non_daily+ bld_rat_area + bor_rat_area + mdist_smallparks + mdist_highways+ mdist_parks + offset(log(area)), data=p, maxit = 1000))
error <- p$num - predict(m3, newdata=p[,-1:-2], type="response")
rmse(error)
[1] 121.8714
ওএলএসের অবশিষ্টাংশ:
এনবি অবশিষ্টাংশ
সুতরাং আরএমএসই ওএলএস-এর চেয়ে কম তবে মনে হয় অবশিষ্টাংশগুলি এতটা সাধারণ নয় ...