সাধারণ ন্যূনতম স্কোয়ারগুলি কেন পায়সন রিগ্রেশনের চেয়ে ভাল পারফর্ম করছে?


18

আমি প্রতিটি শহরের প্রতিটি জেলায় হত্যাকাণ্ডের সংখ্যা ব্যাখ্যা করতে একটি রিগ্রেশন ফিট করার চেষ্টা করছি। যদিও আমি জানি যে আমার ডেটা একটি পয়সন বিতরণ অনুসরণ করে, তবে আমি এই জাতীয় কোনও ওএলএস ফিট করার চেষ্টা করেছি:

log(y+1)=α+βX+ϵ

তারপরে, আমি একটি পয়েসন রিগ্রেশনও চেষ্টা করেছি (অবশ্যই!) সমস্যাটি হ'ল আমার ওএলএস রিগ্রেশনটির আরও ভাল ফলাফল হয়েছে: সিউডো- চেয়ে বেশি (0.71 বনাম 0.57) এবং আরএমএসইও রয়েছে (3.8 বনাম 8.88। একই ইউনিটটি মানকযুক্ত)।R2

কেন? এটা কি স্বাভাবিক? ওএলএস ব্যবহারের ক্ষেত্রে কী কী সমস্যা নেই তা তথ্যের বিতরণ কী?

সম্পাদনা করুন কেজিটিল বি হলভারসন এবং অন্যান্যদের পরামর্শ অনুসরণ করে, আমি দুটি মডেলের মাধ্যমে ডেটা লাগিয়েছি: ওএলএস এবং নেতিবাচক বিনোমিয়াল জিএলএম (এনবি)। আমি আমার সমস্ত বৈশিষ্ট্য দিয়ে শুরু করেছিলাম, তারপরে আমি পুনরাবৃত্তি করে একের পর এক বৈশিষ্ট্যগুলি মুছে ফেলি যা উল্লেখযোগ্য ছিল না। ওএলএস হয়

crimearea=α+βX+ϵ

ওজন সহ = ।area

summary(w <- lm(sqrt(num/area) ~  RNR_nres_non_daily + RNR_nres_daily + hType_mix_std + area_filtr + num_community_places+ num_intersect + pop_rat_num + employed + emp_rat_pop + nden_daily + nden_non_daily+ bld_rat_area + bor_rat_area + mdist_highways+ mdist_parks, data=p, weights=area))

error2 <- p$num - (predict(w, newdata=p[,-1:-2], type="response")**2)*p$area

rmse(error2)
[1] 80.64783

এনবি জেলার অঞ্চলটি অফসেট হিসাবে অপরাধ সংখ্যার পূর্বাভাস দিয়েছে।

summary(m3 <- glm.nb(num ~  LUM5_single  + RNR_nres + mdist_daily + mdist_non_daily+ hType_mix_std + ratio_daily_nondaily_area + area_filtr + num_community_places  + employed  + nden_daily + nden_non_daily+ bld_rat_area + bor_rat_area + mdist_smallparks + mdist_highways+ mdist_parks + offset(log(area)), data=p, maxit = 1000))

error <- p$num - predict(m3, newdata=p[,-1:-2], type="response")

rmse(error)
[1] 121.8714

ওএলএসের অবশিষ্টাংশ:

এখানে চিত্র বর্ণনা লিখুন

এনবি অবশিষ্টাংশ

এখানে চিত্র বর্ণনা লিখুন

সুতরাং আরএমএসই ওএলএস-এর চেয়ে কম তবে মনে হয় অবশিষ্টাংশগুলি এতটা সাধারণ নয় ...


আপনি কি আরও কিছু বিবরণ পোস্ট করতে পারেন? তথ্য প্রকৃতি কি? যে, প্রতিক্রিয়া পরিবর্তনশীল গণনা কি? ব্যাখ্যামূলক পরিবর্তনশীল কি?
কেজেটিল বি হালওয়ারসেন

@ কেজেটিভালভর্সেন নির্ভরশীল পরিবর্তনশীল হ'ল জেলা প্রতি ১১ টি জেলা (112 জেলা) হত্যাকাণ্ডের সংখ্যা। ইন্ডিপেন্ডেন্টগুলি
হ'ল

2
আমি যদি পইসন রিগ্রেশন ব্যবহার করে এই মডেলটি ফিট করে থাকি তবে লগ (জেলা করা) অফসেট হিসাবে অন্তর্ভুক্ত করতাম জেলাগুলির জন্য অ্যাকাউন্টটি অফসেটের মতো না যেহেতু সকলেই মাপের আকার নয়। তারা না থাকলে।
mdewey

1
এমএল অনুমানের (এবং ) সাথে ওএলএস সাথে তুলনা করা আপনাকে একটি নির্দিষ্ট মডেল কতটা ভাল, তার জন্য আপনাকে একটি ইঙ্গিত দেয় এমন ভাবার পিছনে কী যুক্তি রয়েছে ? ওএলএস, নির্মাণ করে, সর্বাধিক করে । সর্বাধিকতর করার জন্য কী পয়জন রিগ্রেশনটি তৈরি করা হয়েছে ? আমি এটি মনে করি না, এবং আমি মনে করি না যে এই তুলনাটি দরকারী। পি গুলি তোমার দর্শন লগ করা - আর 2 আর এম এস আর 2 পি গুলি তোমার দর্শন লগ করা - আর 2R2pseudoR2RMSER2pseudoR2
coffeinjunky

1
যোগ করার জন্য আরেকটা জিনিস - OLS থেকে ভ্যারিয়েন্সের% বলছে ব্যাখ্যা যেহেতু পইসন psuedo ভ্যারিয়েন্স টির মধ্যে% একটি ইঙ্গিত দিতে চেষ্টা করছে হল যে ব্যাখ্যা। এটি পার্থক্যটিও ব্যাখ্যা করতে পারে z = লগ ( y + 1 ) আর 2 yR2z=log(y+1)R2y
সম্ভাব্যতা

উত্তর:


16

আমি সন্দেহ করি যে সমস্যাটির অংশটি আপনার পারফরম্যান্স মেট্রিকের পছন্দে থাকতে পারে। আপনি যদি আরএমএসই ব্যবহার করে পরীক্ষার পারফরম্যান্স পরিমাপ করেন তবে এমএসই কমিয়ে আনতে মডেলটিকে প্রশিক্ষণের সাথে টেস্টের মানদণ্ডের সাথে মেলে, কী গুরুত্বপূর্ণ বলে বিবেচিত হয় সে সম্পর্কে একটি ইঙ্গিত দিয়ে। আপনি দেখতে পাচ্ছেন যে যদি আপনি পয়েসন মডেলটি আরও ভালভাবে কাজ করে (যেমনটি প্রত্যাশা করা যেতে পারে) ব্যবহার করে পরীক্ষা সেটটির নেতিবাচক লগ-সম্ভাবনা ব্যবহার করে পরীক্ষার পারফরম্যান্সটি পরিমাপ করেন। উত্থাপিত অন্যান্য সমস্যার তুলনায় এটি একটি সামান্য সমস্যা হতে পারে, তবে এটি একটি কার্যকর স্যানিটি চেক হতে পারে।


1
+1 টি। যদি ওপিএসের উদ্দেশ্যটি পূর্বাভাস হয় তবে এর পরিবর্তে কোনও ওএলএস মডেল ব্যবহারের জন্য যুক্তি থাকতে পারে! তবুও, ওএলএস থেকে উদ্ভূত ধ্রুপদী ত্রুটি-ভিত্তিক অনুমিতি জিএলএমগুলিতে প্রয়োগ করা যাবে না। কেউ স্ট্যান্ডিনেটেড অবশিষ্টাংশগুলি পরিদর্শন করতে পারে, বা এর চেয়ে আরও ভাল বিকল্পটি এআইসির সাথে মডেলগুলির তুলনা করবে comp
আদমো

11

প্রথমত, এই জাতীয় ডেটা নিয়ে আমি অতিরিক্ত পরিমাণে প্রত্যাশা করব (যদি আপনি এটি কী না জানেন তবে /stats//search?q=hat+is+overdispersion%3F দেখুন )।

log(DistrictSize)Nr. homicidesDistrict Size

আর একটি সমস্যা হ'ল লিনিয়ার রিগ্রেশন সহ আপনি যে রূপান্তরটি ব্যবহার করেছেন is গণনা ডেটার সাথে ব্যবহৃত স্বাভাবিক বৈকল্পিক স্থিতিশীল রূপান্তরটি বর্গমূল হয়, লগারিদম নয়।

Yi/xiYiPoisson(λxi)

EYixiλVYixixi1
xiYi/xilog(Yi/xi+1)
    EDIT

পোস্টে আপনার অতিরিক্ত বিশ্লেষণ হিসাবে, নোট করুন যে rmse গুলি দুটি মডেলের মধ্যে সরাসরি তুলনা করা যায় না, কারণ বিভিন্ন প্রতিক্রিয়া ব্যবহৃত হয়! সরাসরি তুলনা করার জন্য আপনাকে পূর্বাভাসিত মানগুলি মূল স্কেলে ব্যাক ট্রান্সফর্ম করতে হবে। তারপরে আপনি rmse এর নিজের গণনা করতে পারেন, এবং দেখুন। তবে মনে রাখবেন যে ব্যাক ট্রান্সফর্মেশন পরে প্রাপ্ত পূর্বাভাসগুলি পক্ষপাতহীন হতে পারে, কারণ অন-লাইনের কারণে। সুতরাং ব্যাকট্রান্সফর্মড পূর্বাভাসগুলির কিছু সামঞ্জস্য তাদের আরও কার্যকর করে তুলতে পারে। কিছু ক্ষেত্রে, এগুলি তাত্ত্বিকভাবে গণনা করা যেতে পারে, আপনি কেবল একটি বুটস্ট্র্যাপ ব্যবহার করতে পারেন।


আপনার পরামর্শ অনুসারে আমি মডেলগুলি ফিট করেছিলাম, যদিও আমি সত্যই ভারী ওএলএসের পিছনে রজনকে বুঝতে পারি নি। আপনি কি মনে করেন?
মার্কোডেনা


2

এটি সত্য যে আপনার ডেটাগুলি সাধারণত বিতরণ করা হয় না (যার ফলে আমি মনে করি যে আপনি পয়সন রিগ্রেশনও চালিয়েছিলেন) তবে আপনার ডেটা সম্ভবত পয়সন বিতরণ নয়। পোইসন বিতরণ ধরে নেওয়া হয় যে গড় এবং প্রকরণটি একই রকম, সম্ভবত এটি ঘটেনি (অন্যান্য উত্তরে যেমন উল্লেখ করা হয়েছে - আপনি এই তাত্পর্যটি ক্যাপচার করতে পারেন এবং এটি মডেলটিতে অন্তর্ভুক্ত করতে পারেন)। যেহেতু আপনার ডেটা কোনও মডেলের জন্যই নিখুঁত ফিট নয়, তাই এটি বোঝায় যে ওএলএস আরও ভাল পারফর্ম করতে পারে।

আরেকটি বিষয় লক্ষণীয় হ'ল সাধারণ ন্যূনতম বর্গক্ষেত্রের অনুমানগুলি নন-নরমালটির পক্ষে দৃ .় এবং এটি কারণেই আপনি যুক্তিসঙ্গত মডেল পাচ্ছেন। গাউস-মার্কভ থিওরেম আমাদের জানিয়েছে যে ওএলএস সহগের অনুমানগুলি নিম্নোক্ত অনুমানের অধীনে লিনিয়ার অযৌক্তিক অনুমানকারী (ব্লু),

  • ত্রুটিগুলির শূন্যের গড় রয়েছে
  • পর্যবেক্ষণগুলি অসামঞ্জস্যিত
  • ত্রুটিগুলির স্থির বৈকল্পিকতা রয়েছে

এখানে সাধারণতার কোনও অনুমান নেই তাই আপনার ডেটা এই মডেলের জন্য খুব ভাল যুক্তিসঙ্গত হতে পারে! এটি বলা হওয়ার সাথে সাথে, আমি সেখানে একটি পয়েসন মডেলকে ওভার-ডিস্প্রেসন প্যারামিটার বেকড করব এবং আপনার আরও ভাল ফলাফল পাওয়া উচিত।


@ টিনাডোস্ট্যাট ধন্যবাদ! আমি এখন দুটি মডেল লাগিয়েছি, একটি ছড়িয়ে দেওয়ার প্যারামিটার সহ। আপনি কি মনে করেন?
মার্কোডেনা

2
পোয়েসন বিতরণের জন্য বৈকল্পিক অর্থ প্রায়শই পয়েসন রিগ্রেশন সম্পর্কিত সমস্যাযুক্ত অনুমান হিসাবে আহ্বান করা হয় , তবে বিষয়টি এখানে বর্ণিত হিসাবে ততটা কঠিন নয়। এর নাম সত্ত্বেও পোইসন রিগ্রেশন এর মূল ধারণাটি একটি লগ লিঙ্ক ফাংশন; শর্তাধীন বিতরণ সম্পর্কে অনুমানগুলি এতটা গুরুত্বপূর্ণ নয়। যদি অনুমানগুলি সবগুলি ধরে না রাখে তবে মূলত এটি হ'ল মানগুলি ত্রুটিগুলি বন্ধ করে দেওয়া হয় যদি না আপনি সামঞ্জস্য না করেন তবে ফিটটি প্রায়শই বোঝায়।
নিক কক্স

2
প্রকৃতপক্ষে পোইসন রিগ্রেশন অ-নেতিবাচক পরিমাপ প্রতিক্রিয়াগুলির জন্য ধারণা তৈরি করতে পারে যেখানে বৈকল্পিক এবং মানে এমনকি একই মাত্রা নেই। উদাহরণস্বরূপ দেখুন blog.stata.com/2011/08/22/…
নিক কক্স
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.