একটি রিগ্রেশন মত ফিট কিভাবে


9

আমার কিছু সময় সিরিজের ডেটা রয়েছে যেখানে পরিমাপ করা ভেরিয়েবলটি পৃথক ধনাত্মক পূর্ণসংখ্যার (গণনা)। সময়ের সাথে সাথে upর্ধ্বমুখী প্রবণতা রয়েছে কিনা তা পরীক্ষা করতে চাই (বা না)। স্বতন্ত্র ভেরিয়েবল (x) 0-500 এর মধ্যে থাকে এবং নির্ভরশীল ভেরিয়েবল (y) 0-8 এর মধ্যে থাকে।

আমি ভেবেছিলাম যে y = floor(a*x + b)সাধারণ ন্যূনতম স্কোয়ারগুলি (ওএলএস) ব্যবহার করে ফর্মের একটি রিগ্রেশন ফিট করে আমি এই উত্তর দিয়েছি ।

আমি আর (বা পাইথন) ব্যবহার করে কীভাবে এটি করব? এটির জন্য কি কোনও বিদ্যমান প্যাকেজ রয়েছে, না আমি নিজের অ্যালগরিদম লেখার চেয়ে আরও ভাল?

পিএস: আমি জানি এটি আদর্শ কৌশল নয়, তবে আমার তুলনামূলকভাবে সহজ বিশ্লেষণ করা দরকার যা আমি বুঝতে পারি - আমার পটভূমিটি জীববিজ্ঞান গণিত নয় not আমি জানি আমি পরিমাপযোগ্য ভেরিয়েবলের ত্রুটি এবং সময়ের সাথে পরিমাপের স্বাধীনতা সম্পর্কে অনুমানগুলি লঙ্ঘন করছি।


5
যদিও এই ফর্মটির একটি রিগ্রেশন চেষ্টা করা গাণিতিকভাবে প্রাকৃতিক, এর পিছনে একটি পরিসংখ্যানগত ভুলকে lurks: ত্রুটি শব্দটি এখন পূর্বাভাসিত মানের সাথে দৃ strongly়ভাবে সম্পর্কিত হবে। এটি ওএলএস অনুমানের একটি দুর্দান্ত দৃ violation় লঙ্ঘন। পরিবর্তে, গ্রেগ তুষারের জবাব অনুসারে একটি কাউন্ট-ভিত্তিক কৌশল ব্যবহার করুন। (আমি সানন্দে, এই প্রশ্নের upvoted যদিও, কারণ এটি কিছু বাস্তব চিন্তা ও চতুরতা প্রতিফলিত তা এখানে জিজ্ঞাসা করার জন্য আপনাকে ধন্যবাদ।!)
whuber

উত্তর:


11

আপনি যে মডেলটি বলেছেন তার মধ্যে nls(অ-রৈখিক ন্যূনতম স্কোয়ারগুলি) ফাংশনটি ব্যবহার করে আপনি ফিট করতে পারেন তবে আপনি Rযেমন বলেছিলেন যে অনুমানগুলি অনেকগুলি লঙ্ঘন করবে এবং এখনও সম্ভবত কোনও তাত্পর্য বোধ করবে না (আপনি বলছেন যে পূর্বাভাসের ফলাফলটি একটি পদক্ষেপের চারপাশে এলোমেলোভাবে রয়েছে) ক্রমবর্ধমান সম্পর্কের চারপাশে পূর্ণসংখ্যার মান নয়)।

কাউন্ট ডেটা ফিট করার আরও সাধারণ উপায় glmফাংশনটি ব্যবহার করে পইসন রিগ্রেশন ব্যবহার করা হয় R, সহায়তা পৃষ্ঠায় প্রথম উদাহরণটি পয়সন রিগ্রেশন, যদিও আপনি পরিসংখ্যানের সাথে পরিচিত না হন তবে এটি নিশ্চিত করার জন্য কোনও পরিসংখ্যানবিদদের সাথে পরামর্শ করা ভাল would আপনি জিনিস সঠিকভাবে করছেন যে।

যদি 8 এর মানটি সর্বোচ্চ হয় (কখনও কখনও উচ্চতর গণনা দেখতে পাওয়া অসম্ভব, তবে এটিই আপনি দেখেছেন কেবল তাই নয়) তবে আপনি আনুপাতিক বৈষম্য লজিস্টিক রিগ্রেশন বিবেচনা করতে পারেন, প্যাকেজগুলির জন্য এটি করার জন্য বেশ কয়েকটি সরঞ্জাম রয়েছে Rতবে আপনি আপনি যদি এটি করতে চান তবে সত্যই কোনও পরিসংখ্যানবিদকে জড়িত করা উচিত।


"আপনি বলছেন যে ভবিষ্যদ্বাণী করা ফলাফলটি একটি ধাপে ফাংশনটির আশেপাশে এলোমেলো হয়, স্বচ্ছ বর্ধমান সম্পর্কের আশেপাশে পূর্ণসংখ্যার মান হয় না" --- এটি এমন একটি বিষয় যা আমি বিবেচনা করি নি। শেষ পর্যন্ত, আমি গ্ল্যাম দ্বারা পোইসন রিগ্রেশন নিয়ে গেলাম। এটি নিখুঁত পছন্দ নয়, তবে আমার যা প্রয়োজন তার জন্য "যথেষ্ট ভাল"।
আফআলকনব্রিজ

10

plain এটি সহজ যে গ্রেগের পরামর্শটি প্রথম চেষ্টা করার চেষ্টা করা হয়েছে: পয়েসন রিগ্রেশন অনেকগুলি কংক্রিটের মধ্যে প্রাকৃতিক মডেল is পরিস্থিতিতে।

তবে মডেল আপনি উদাহরণস্বরূপ ঘটতে পারে যখন আপনি বৃত্তাকার ডেটা পালন পরামর্শ করছেন যারা IID স্বাভাবিক ত্রুটিযুক্ত ।

Yi=axi+b+ϵi,
ϵi

আমি মনে করি এটির সাথে কী করা যায় তা একবার দেখে নেওয়া আকর্ষণীয়। আমি বোঝাতে আদর্শ স্বাভাবিক ভেরিয়েবলের সিডিএফ। যদি , তবে পরিচিত কম্পিউটার স্বরলিপি ব্যবহার করেFϵN(0,σ2)

P(ax+b+ϵ=k)=F(kb+1axσ)F(kbaxσ)=pnorm(k+1axb,sd=σ)pnorm(kaxb,sd=σ),

আপনি ডেটা পয়েন্টগুলি পর্যবেক্ষণ করুন । লগের সম্ভাবনা এটি সর্বনিম্ন স্কোয়ারের মতো নয়। আপনি একটি সংখ্যা পদ্ধতিতে এটি সর্বাধিক করার চেষ্টা করতে পারেন। এখানে আর এর একটি দৃষ্টান্ত রয়েছে:(xi,yi)

(a,b,σ)=ilog(F(yib+1axiσ)F(yibaxiσ)).
log_lik <- function(a,b,s,x,y)
  sum(log(pnorm(y+1-a*x-b, sd=s) - pnorm(y-a*x-b, sd=s)));

x <- 0:20
y <- floor(x+3+rnorm(length(x), sd=3))
plot(x,y, pch=19)
optim(c(1,1,1), function(p) -log_lik(p[1], p[2], p[3], x, y)) -> r
abline(r$par[2], r$par[1], lty=2, col="red")
t <- seq(0,20,by=0.01)
lines(t, floor( r$par[1]*t+r$par[2]), col="green")

lm(y~x) -> r1
abline(r1, lty=2, col="blue");

বৃত্তাকার লিনিয়ার মডেল

লাল এবং নীল রঙে, লাইনগুলি এই সম্ভাবনার সংখ্যাসূচক সর্বাধিকীকরণ এবং যথাক্রমে সর্বনিম্ন স্কোয়ারগুলি দ্বারা পাওয়া যায়। সবুজ সিঁড়ি হয় জন্য সর্বোচ্চ সম্ভাবনা থেকে পাওয়া ... এই পরামর্শ অনুযায়ী আপনি অনুবাদ আপ লিস্ট স্কোয়ার ব্যবহার করতে পারে, 0.5 দ্বারা, এবং মোটামুটিভাবে একই ফলাফল পান; বা, যে সর্বনিম্ন স্কোয়ারগুলি মডেলটি ভাল ফিট করে যেখানে নিকটতম পূর্ণসংখ্যা। গোলাকার তথ্যগুলি প্রায়শই দেখা হয় যে আমি নিশ্চিত যে এটি জানা ছিল এবং এটি ব্যাপকভাবে অধ্যয়ন করা হয়েছিল ...ax+bax+ba,bb

Yi=[axi+b+ϵi],
[x]=x+0.5

4
+1 আমি এই কৌশলটি পছন্দ করি এবং কয়েক বছর আগে এটির জন্য একটি ঝুঁকি বিশ্লেষণ জার্নালে সত্যিকার অর্থে একটি কাগজ জমা দিয়েছিলাম। (কিছু ঝুঁকি বিশ্লেষকরা অন্তর-মূল্যবান ডেটা সম্পর্কে যথেষ্ট আগ্রহী)) এটি তাদের দর্শকদের জন্য "খুব গাণিতিক" বলে প্রত্যাখ্যান করা হয়েছিল। । :-( এক টিপ:।। যখন সংখ্যাগত একটা পদ্ধতি ব্যবহার করে, এটা সবসময় সমাধান জন্য মান শুরু সরবরাহ ভাল করার জন্য একটি ভাল ধারণা, তারপর "পালিশ" সংখ্যাসূচক অপটিমাইজার যাদের মান প্রাপ্ত করার অশোধিত ডেটার OLS ঔজ্জ্বল্যের প্রেক্ষাপটে প্রয়োগ বিবেচনা তাদের
whuber

হ্যাঁ, এটি একটি ভাল পরামর্শ। আসলে, সেই ক্ষেত্রে আমি "এটি কাজ করে" জোর দেওয়ার জন্য দূরবর্তী মানগুলি বেছে নিয়েছি, তবে বাস্তবে আপনার পরামর্শটি উপাত্তের উপর নির্ভর করে খুব সমতল অঞ্চল থেকে শুরু করা এড়াতে কেবল সমাধান হবে ...
এলভিস
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.