ঠিক আছে, তাই আমি লিনিয়ার রিগ্রেশন বোঝার চেষ্টা করছি। আমি একটি ডেটা সেট পেয়েছি এবং এটি দেখতে বেশ ঠিক আছে, তবে আমি বিভ্রান্ত। এটি আমার লিনিয়ার মডেল-সারসংক্ষেপ:
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.2068621 0.0247002 8.375 4.13e-09 ***
temp 0.0031074 0.0004779 6.502 4.79e-07 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.04226 on 28 degrees of freedom
Multiple R-squared: 0.6016, Adjusted R-squared: 0.5874
F-statistic: 42.28 on 1 and 28 DF, p-value: 4.789e-07
সুতরাং, পি-মানটি সত্যিই কম, যার অর্থ x সুযোগের সাথে কেবল x, y এর মধ্যে পারস্পরিক সম্পর্ক পাওয়া খুব সম্ভব নয়। যদি আমি এটি ষড়যন্ত্র করি এবং তারপরে রিগ্রেশন লাইনটি এটিকে দেখায়: http://s14.directupload.net/images/120923/l83eellv.png (এটি ছবিতে থাকলেও আমি ছিলাম - নতুন ব্যবহারকারী হিসাবে - বর্তমানে নেই এটি পোস্ট করার অনুমতি দেওয়া হয়েছে) নীল লাইনগুলি = আত্মবিশ্বাসের ব্যবধান সবুজ রেখাগুলি = পূর্বাভাস অন্তর
এখন অনেক পয়েন্ট আত্মবিশ্বাসের ব্যবধানে পড়ে না, কেন এমন হবে? আমি মনে করি যে ডেটাপয়েন্টগুলির মধ্যে কোনওটিই রেগ্রেশন লাইনে পড়ে না খ / তারা একে অপর থেকে একেবারে দূরে, তবে আমি যে সম্পর্কে নিশ্চিত নই: এটি কি আসল সমস্যা? তারা এখনও রিগ্রেশন লাইনের চারপাশে রয়েছে এবং আপনি সম্পূর্ণরূপে একটি প্যাটার্ন দেখতে পারেন। তবে কি যথেষ্ট? আমি এটি বের করার চেষ্টা করছি, তবে আমি বারবার নিজেকে একই প্রশ্ন জিজ্ঞাসা করি।
আমি এতক্ষণ যা ভেবেছিলাম: আত্মবিশ্বাসের ব্যবধান বলে যে আপনি যদি সিআই এর বারবার গণনা করেন তবে 95% বারে সত্যিকার গড়টি সিআইয়ের মধ্যে পড়ে। সুতরাং: এটি কোনও সমস্যা নয় যে ডিপি এটির মধ্যে পড়ে না কারণ এগুলি সত্যই উপায় নয়। অন্যদিকে ভবিষ্যদ্বাণী ব্যবস্থায় বলা হয়েছে যে আপনি যদি পিআই এর বার বার গণনা করেন তবে 95% বারে সত্যিকারের ভ্যালু ব্যবধানের মধ্যে পড়ে। সুতরাং, এটিতে পয়েন্টগুলি থাকা (যা আমার কাছে রয়েছে) হওয়া বেশ গুরুত্বপূর্ণ। তারপরে আমি পড়েছি পিআই সর্বদা সিআই এর চেয়ে বিস্তৃত পরিসর থাকা উচিত। কেন এমন? এটি আমিই করেছি:
conf<-predict(fm, interval=c("confidence"))
prd<-predict(fm, interval=c("prediction"))
এবং তারপরে আমি এটির মাধ্যমে প্লট করেছি:
matlines(temp,conf[,c("lwr","upr")], col="red")
matlines(temp,prd[,c("lwr","upr")], col="red")
এখন, আমি যদি অতিরিক্ত ডেটার জন্য সিআই এবং পিআই গণনা করি তবে আমি পরিসরটি কতটা প্রশস্তভাবে বেছে নেব তা বিবেচ্য নয়, আমি উপরের মতো ঠিক একই লাইন পেয়েছি। আমি বুঝতে পারছি না. ওটার মানে কি? এটি তখন হবে:
conf<-predict(fm,newdata=data.frame(x=newx), interval=c("confidence"))
prd<-predict(fm,newdata=data.frame(x=newx), interval=c("prediction"))
নতুন এক্সের জন্য আমি বিভিন্ন সিকোয়েন্স বেছে নিয়েছি। যদি ক্রমটি আমার রিগ্রেশনের ভেরিয়েবলগুলির চেয়ে আলাদা # পর্যবেক্ষণ করে থাকে, আমি একটি সতর্কতা পাচ্ছি। কেন হবে?