ফিটের সদ্ব্যবহার এবং কোন মডেলকে লিনিয়ার রিগ্রেশন বা পোইসন বেছে নিতে হবে


19

আমার গবেষণায় দুটি প্রধান দ্বিধা সম্পর্কে আমার কিছু পরামর্শ দরকার, এটি 3 টি বড় ফার্মাসিউটিক্যালস এবং উদ্ভাবনের কেস স্টাডি। প্রতি বছর পেটেন্টের সংখ্যা নির্ভরশীল পরিবর্তনশীল।

আমার প্রশ্নগুলি হয়

  • একটি ভাল মডেল জন্য সবচেয়ে গুরুত্বপূর্ণ মানদণ্ড কি কি? আরও / কম গুরুত্বপূর্ণ কি? এটি কি বেশিরভাগ বা সমস্ত ভেরিয়েবলগুলি উল্লেখযোগ্য হবে? এটা কি "এফ স্ট্যাটিসটিক" এর সম্ভাবনা? এটি কি "অ্যাডজাস্টেড আর স্কোয়ার" এর মান?

  • দ্বিতীয়ত, আমি কীভাবে গবেষণার জন্য সবচেয়ে উপযুক্ত মডেলটি সিদ্ধান্ত নিতে পারি? পেটেন্টগুলি ছাড়াও যা একটি গণনা পরিবর্তনযোগ্য (তাই সম্ভবত পয়সন গণনা) আমার কাছে সম্পদ ফেরত, গবেষণা এবং উন্নয়ন বাজেট, পুনরাবৃত্তি অংশীদার (% বাইনারি ভেরিয়েবল নয়), সংস্থার আকার (কর্মচারী) এবং আরও কিছু দম্পতির মতো ব্যাখ্যাযোগ্য পরিবর্তনশীল রয়েছে। আমার কি লিনিয়ার রিগ্রেশন বা পইসন করা উচিত?


5
কেজেটিল একটি ভাল বিস্তারিত উত্তর দিয়েছে। তার যুক্তির সাথে সামঞ্জস্যপূর্ণ একটি তাত্পর্যপূর্ণ ও মজাদার মতামতটি হ'ল আপনি "সেকেন্ড" কে যা লেবেল করছেন তা সত্যই গুরুত্বপূর্ণ প্রশ্ন। আপনি প্রথমে যা উল্লেখ করেছেন তা ঘটনামূলক।
নিক কক্স

উত্তর:


31

সবচেয়ে গুরুত্বপূর্ণ হ'ল মডেলের পিছনে যুক্তি। আপনার পরিবর্তনশীল "প্রতি বছর পেটেন্টের সংখ্যা" একটি গণনা ভেরিয়েবল, তাই পোইসন রিগ্রেশন নির্দেশিত হয়। এটি (সাধারণত) লগ লিঙ্ক ফাংশন সহ একটি জিএলএম (সাধারণ রৈখিক মডেল), যখন সাধারণ লিনিয়ার রিগ্রেশনটি পরিচয় লিঙ্কযুক্ত একটি গাউসিয়ান জিএলএম। এখানে, এটি সত্যই লগ লিঙ্ক ফাংশন যা ত্রুটি বিতরণের চেয়ে গুরুত্বপূর্ণ (পয়সন বা গাউসিয়ান) সবচেয়ে গুরুত্বপূর্ণ।

পরিবর্তনশীল "পেশেন্ট" একটি হল ব্যাপক পরিবর্তনশীল: দেখুন নিবিড় ও ব্যাপক বৈশিষ্ট্যনিবিড় পরিবর্তনশীলগুলির জন্য যেমন তাপমাত্রা, লিনিয়ার মডেলগুলি (পরিচয় লিঙ্ক সহ) প্রায়শই উপযুক্ত। তবে একটি বিস্তৃত ভেরিয়েবলের সাথে এটি আলাদা। আপনার ফার্মাসিউটিকাল সংস্থার মধ্যে একটি দুটি পৃথক সংস্থায় বিভক্ত হয়ে ভাবেন। তারপরে পেটেন্টগুলি দুটি নতুন সংস্থার মধ্যে বিভক্ত করতে হয়েছিল। আপনার প্রতিবেদনে -এর সহকারীগুলির সাথে কী ঘটে ? কর্মীদের সংখ্যা এবং আরডি বাজেটের মতো চলকগুলিকেও বিভক্ত করতে হবে।x

মূলত , এই প্রসঙ্গে, একটি নিবিড় পরিবর্তনশীল একটি পরিবর্তনশীল যা সংস্থার আকারের চেয়ে পৃথক, যখন একটি বিস্তৃত ভেরিয়েবল কোম্পানির আকারের উপর নির্ভর করে (সাধারণত, রৈখিকভাবে)। সুতরাং, এক অর্থে, আমাদের যদি রিগ্রেশন সমীকরণে বিভিন্ন বিস্তৃত পরিবর্তনশীল থাকে তবে আমরা বারবার আকারের প্রভাবগুলি পরিমাপ করছি । এটি অপ্রয়োজনীয় বলে মনে হচ্ছে, সুতরাং আমাদের যখন চেষ্টা করা উচিত, তখন সম্ভব, নিবিড় আকারে ভেরিয়েবলগুলি প্রকাশ করা উচিত , যেমন প্রতি কর্মচারী হিসাবে আরডি বাজেটের (বা মোট বাজেটের শতাংশ হিসাবে), একইভাবে রাজস্ব ইত্যাদি etc. ব্যাপক। এই বিস্তৃত / নিবিড় পরিবর্তনশীল ইস্যুটির আরও একটি আলোচনার জন্য সম্পর্কিত অনিশ্চিত রেজিস্ট্রারদের সাথে ডিল করার বিষয়ে @ অনেস্টপের উত্তর দেখুন ।

আসুন এই বীজগণিতভাবে দেখুন: হ'ল পেটেন্টস, বাজেট (প্রতি কর্মচারী), মূল সংস্থার কর্মচারী, যখন পি 1 , বি 1 , 1 এবং পি 2 , বি 2 , 2 এর পরে সম্পর্কিত ভেরিয়েবল বিভক্ত। উপরের মতো অনুমান করুন যে, শুধুমাত্র একমাত্র বৃহত পরিসরযোগ্য ( পি সহ অবশ্যই বিস্তৃত)।P,B,EP1,B1,E1P2,B2,E2EP

তারপর, বিভক্ত করার আগে, আমরা মডেল, পরিচয় লিংক, র্যান্ডম অংশ দিয়ে ফেলে রাখা আছে: বিভক্ত ভগ্নাংশে হতে দিন α , 1 - α তাই কোম্পানী 1 বিভক্ত আমরা পেতে পরে পি

P=μ+β1E+β2বি
α,1α থেকেপি1=αপি,1=αকিন্তুবি1=বি। একইভাবে দুটি সংস্থার জন্য। সুতরাং মডেলটি কোম্পানির আকারের উপর একটি জটিল পদ্ধতিতে নির্ভর করে, কেবলমাত্রই এরউপর রিগ্রেশন সহগ
αP=αμ+αβ1E+αβ2BP1=αμ+β1E1+αβ2B1
P1=αP,E1=αEB1=BEসংস্থার আকার থেকে আলাদা হওয়া, আকার অন্যান্য সমস্ত পরামিতিকে প্রভাবিত করে। এটি ফলাফলের ব্যাখ্যাটিকে কঠিন করে তোলে, বিশেষত, যদি আপনার ডেটাতে আপনার বিভিন্ন আকারের সংস্থাগুলি থাকে, তবে আপনি কীভাবে এই সহগগুলি ব্যাখ্যা করতে যাচ্ছেন? অন্যান্য ডেটা ইত্যাদির উপর ভিত্তি করে অন্যান্য অধ্যয়নের সাথে তুলনা করা বুনো জটিল হয়ে যায়।

এখন, আসুন দেখা যাক লগ লিঙ্ক ফাংশনটি সাহায্য করতে পারে কিনা। আবার, আমরা অশান্তির শর্ত ছাড়াই আদর্শ মডেলগুলি লিখি। ভেরিয়েবলগুলি উপরের হিসাবে রয়েছে।

প্রথমত, বিভক্ত হওয়ার আগে মডেল: বিভাজনের পরে, কোম্পানির জন্য, আমরা পাই: পি 1

P=exp(μ+β1E+β2B)
এটি প্রায় সঠিক দেখাচ্ছে, একটি সমস্যা বাদেএর উপর নির্ভরতার অংশটিবেশ কার্যকর হয় না। সুতরাং আমরা দেখতে পাচ্ছি যে কর্মীদের সংখ্যা, এক বিস্তৃত আকারে প্রবর্তনীয়, অবশ্যই লগ স্কেলে ব্যবহার করা উচিত। তারপরে, আবার চেষ্টা করে আমরা পাই:
P1=exp(logα)exp(μ+β1E+β2B)P1=exp(logα+μ+β1E+β2B1)
E

P=exp(μ+β1logE+β2B)
P1=exp(logα)exp(μ+β1logE+β2B)P1=exp(logα+μ+β1logE+β2B1)P1=exp((1β)logα+μ+β1logE1+β2B1)P1=exp(μ+β1logE1+β2B1)
where μ is a new intercept. Now, we have put the model in a form where all parameters (except the intercept) have an interpretation independent of company size.

That makes interpretations of results much easier, and also comparisons with studies using other data, trends with time, and so on. You cannot achieve this form with parameters with size-independent interpretations with an identity link.

Conclusion: Use a GLM with log link function, maybe a Poisson regression, or negative-binomial, or ... The link function is orders of magnitude more important!

To sum up, when constructing a regression model for a response variable which is extensive, like a count variable.

  1. Try to express covariables in intensive form.

  2. Covariables which must be left as extensive: log them (the algebra above depends on there being at most one extensive covariable).

  3. Use a log link function.

Then, other criteria, such as those based on fit, can be used for secondary decisions, such as the distribution of the disturbance term.


3
I thought a Poisson regression was a GLS regression with log link function?
Sideshow Bob

1
সাধারণত, হ্যাঁ, তবে আপনি পরিচয় (বা অন্যান্য যেমন বর্গমূল) লিঙ্ক সহ কোনও পায়সন রিগ্রেশনও বিবেচনা করতে পারেন। তবে এখানে আমার যুক্তি দেখায় যে সাধারণত, আপনি লগ লিঙ্কটি চান।
কেজেটিল বি হালওয়ারসন

@ কেজেটিল বি হালওয়ারসেন, কী (1-β) সংশোধন μশব্দটি?
গ্যারেজ
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.