আমার লিনিয়ার রিগ্রেশন একটি পরিচিত তাত্ত্বিক রেখা থেকে একটি পরিসংখ্যানগতভাবে গুরুত্বপূর্ণ পার্থক্য আছে কিনা তা আমি কীভাবে গণনা করব?


14

আমার কাছে কিছু তথ্য রয়েছে যা মোটামুটি রৈখিক লাইনের সাথে মানানসই:

এখানে চিত্র বর্ণনা লিখুন

আমি যখন এই মানগুলির একটি লিনিয়ার রিগ্রেশন করি, আমি একটি রৈখিক সমীকরণ পাই:

y=0.997x0.0136

একটি আদর্শ বিশ্বে সমীকরণ উচিত হবে ।y=এক্স

স্পষ্টত, আমার রৈখিক মান ঘনিষ্ঠ যে আদর্শ, কিন্তু ঠিক নয়। আমার প্রশ্ন, এই ফলাফলটি পরিসংখ্যানগতভাবে তাৎপর্যপূর্ণ কিনা তা আমি কীভাবে নির্ধারণ করতে পারি?

0.997 এর মান 1 থেকে উল্লেখযোগ্যভাবে আলাদা ? -0.01 0 থেকে উল্লেখযোগ্যভাবে পৃথক ? বা তারা কি পরিসংখ্যানগতভাবে একই এবং আমি কিছু যুক্তিসঙ্গত আত্মবিশ্বাসের স্তরের সাথে শেষ করতে পারি?y=এক্স

আমি ব্যবহার করতে পারি একটি ভাল পরিসংখ্যান পরীক্ষা কি?

ধন্যবাদ


1
আপনি একটি পরিসংখ্যানগতভাবে উল্লেখযোগ্য পার্থক্য আছে কি না তা গণনা করতে পারেন, তবে আপনার অবশ্যই লক্ষ্য করা উচিত যে এর অর্থ এই নয় যে কোনও পার্থক্য নেই কিনা। আপনি কেবল তখনই অর্থ সম্পর্কে নিশ্চিত হতে পারেন যখন আপনি নাল অনুমানকে মিথ্যা বলেন, তবে আপনি যখন নাল অনুমানকে মিথ্যা বলেন না তখন এটি (1) প্রকৃতপক্ষে নাল অনুমানটি সঠিক (2) আপনার পরীক্ষাটি কম সংখ্যার কারণে শক্তিশালী ছিল না নমুনাগুলির (3) আপনার বিকল্পটি ভুল বিকল্প হাইপোথিসিসের (3 বি) মডেলটির অ-সংজ্ঞাবহ অংশকে ভুলভাবে উপস্থাপনের কারণে পরিসংখ্যানগত তাত্পর্যপূর্ণ মিথ্যা পরিমাপের কারণে শক্তিশালী ছিল না।
সেক্সটাস এম্পেরিকাস

আমার কাছে আপনার ডেটা y = x + সাদা গোলমালের মতো দেখাচ্ছে না। আপনি এই সম্পর্কে আরও বলতে পারেন? (এই ধরণের শব্দ আপনি পেয়েছেন এমন অনুমানের জন্য একটি পরীক্ষা একটি উল্লেখযোগ্য পার্থক্য 'দেখতে' ব্যর্থ হতে পারে, নমুনা যত বড় হোক না কেন, যখনই আপনি ডাটা এবং y = x লাইনের মধ্যে বিশাল পার্থক্য রয়েছে তখনও কেবল অন্য রেখার সাথে তুলনা করুন y = a + bx, যা সঠিক এবং সবচেয়ে শক্তিশালী তুলনা নাও হতে পারে)
সেক্সটাস এম্পিরিকাস

এছাড়াও, তাৎপর্য নির্ধারণের লক্ষ্য কী। আমি দেখতে পাচ্ছি অনেক উত্তর 5% (95% আত্মবিশ্বাসের অন্তর) এর কিছু আলফা স্তর ব্যবহার করার পরামর্শ দেয়। তবে এটি খুব স্বেচ্ছাচারী। বাইনারি ভেরিয়েবল (উপস্থিত বা উপস্থিত নেই) হিসাবে পরিসংখ্যানগত তাত্পর্যটি দেখা খুব কঠিন। এটি স্ট্যান্ডার্ড আলফা স্তরের মতো নিয়ম দিয়ে করা হয় তবে এটি স্বেচ্ছাচারী এবং প্রায় অর্থহীন। আপনি যদি একটি প্রসঙ্গ তারপর সিদ্ধান্ত (একটি বাইনারি পরিবর্তনশীল) একটি তাত্পর্য স্তর (উপর ভিত্তি করে করার জন্য একটি নির্দিষ্ট কর্তক স্তর ব্যবহার দেবে না একটি বাইনারি পরিবর্তনশীল), তারপর একটা ধারণা যেমন একটি বাইনারি তাত্পর্য আরো ইন্দ্রিয় তোলে।
সেক্সটাস এম্পেরিকাস

1
আপনি কোন ধরণের "লিনিয়ার রিগ্রেশন" সম্পাদন করছেন? একটি সাধারণভাবে আপনাকে সাধারণ ন্যূনতম স্কোয়ার রিগ্রেশন (একটি ইন্টারসেপ্ট শব্দ সহ) নিয়ে আলোচনা করার কথা বিবেচনা করবে তবে সেই ক্ষেত্রে যেহেতু উভয় সংস্থার অবশিষ্টাংশের শূন্য অর্থ হবে (হুবহু), অবশিষ্টাংশগুলির মধ্যে রিগ্রেশনটির বিরতিও শূন্য হতে হবে (ঠিক একইভাবে) )। যেহেতু এটি না তাই এখানে অন্য কিছু চলছে। আপনি কী করছেন এবং কেন করছেন তার কোনও ব্যাকগ্রাউন্ড সরবরাহ করতে পারেন?
শুক্র

এটি দুটি সিস্টেম একই ফলাফল দেয় কিনা তা পরিমাপের সমস্যার সাথে একইরকম দেখায়। কিছু উপাদানের জন্য ব্লেড-ওলমান-প্লটটি দেখার চেষ্টা করুন ।
mdewey 23'19

উত্তর:


17

এই ধরণের পরিস্থিতি নেস্টেড মডেলগুলির জন্য একটি স্ট্যান্ডার্ড এফ-টেস্ট দ্বারা পরিচালনা করা যেতে পারে । যেহেতু আপনি নির্দিষ্ট পরামিতিগুলির সাথে নাল মডেলের বিপরীতে উভয় পরামিতি পরীক্ষা করতে চান, তাই আপনার অনুমানগুলি হ'ল:

এইচ0:β=[01]এইচএকজন:β[01]

এফ-পরীক্ষায় উভয় মডেলকে ফিট করা এবং তাদের অবশিষ্টাংশের স্কোয়ারের তুলনা করা জড়িত, যা হ'ল:

এসএস0=Σআমি=1এন(Yআমি-এক্সআমি)2এসএসএকজন=Σআমি=1এন(Yআমি-β^0-β^1এক্সআমি)2

পরীক্ষার পরিসংখ্যান হ'ল:

এফএফ(Y,এক্স)=এন-22এসএস0-এসএসএকজনএসএসএকজন

সংশ্লিষ্ট পি-মানটি হ'ল:

পিপি(Y,এক্স)=এফ(Y,এক্স)এফ জেলা(R|2,এন-2) R


দ বাস্তবায়ন: ধরুন আপনার ডেটা একটি ডাটা ফ্রেম নামক হয় DATAভেরিয়েবল নামক সঙ্গে yএবং x। এফ-টেস্টটি নিম্নলিখিত কোড সহ ম্যানুয়ালি সঞ্চালিত হতে পারে। আমি যে সিমুলেটেড মক ডেটা ব্যবহার করেছি তাতে আপনি দেখতে পাচ্ছেন যে অনুমানের সহগগুলি নাল অনুমানের মধ্যে খুব কাছাকাছি রয়েছে এবং পরীক্ষার পি-ভ্যালু নাল অনুমানকে মিথ্যা প্রমাণের জন্য কোনও উল্লেখযোগ্য প্রমাণ দেখায় না যে আসল রিগ্রেশন ফাংশনটি পরিচয় ফাংশন।

#Generate mock data (you can substitute your data if you prefer)
set.seed(12345);
n    <- 1000;
x    <- rnorm(n, mean = 0, sd = 5);
e    <- rnorm(n, mean = 0, sd = 2/sqrt(1+abs(x)));
y    <- x + e;
DATA <- data.frame(y = y, x = x);

#Fit initial regression model
MODEL <- lm(y ~ x, data = DATA);

#Calculate test statistic
SSE0   <- sum((DATA$y-DATA$x)^2);
SSEA   <- sum(MODEL$residuals^2);
F_STAT <- ((n-2)/2)*((SSE0 - SSEA)/SSEA);
P_VAL  <- pf(q = F_STAT, df1 = 2, df2 = n-2, lower.tail = FALSE);

#Plot the data and show test outcome
plot(DATA$x, DATA$y,
     main = 'All Residuals',
     sub  = paste0('(Test against identity function - F-Stat = ',
            sprintf("%.4f", F_STAT), ', p-value = ', sprintf("%.4f", P_VAL), ')'),
     xlab = 'Dataset #1 Normalized residuals',
     ylab = 'Dataset #2 Normalized residuals');
abline(lm(y ~ x, DATA), col = 'red', lty = 2, lwd = 2);

summaryআউটপুট এবং plotএই মত এই তথ্য চেহারার জন্য:

summary(MODEL);

Call:
lm(formula = y ~ x, data = DATA)

Residuals:
    Min      1Q  Median      3Q     Max 
-4.8276 -0.6742  0.0043  0.6703  5.1462 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept) -0.02784    0.03552  -0.784    0.433    
x            1.00507    0.00711 141.370   <2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 1.122 on 998 degrees of freedom
Multiple R-squared:  0.9524,    Adjusted R-squared:  0.9524 
F-statistic: 1.999e+04 on 1 and 998 DF,  p-value: < 2.2e-16

F_STAT;
[1] 0.5370824

P_VAL;
[1] 0.5846198

এখানে চিত্র বর্ণনা লিখুন


আপনি কীভাবে ডেটা তৈরি করেন এটি আকর্ষণীয়। আপনাকে একটি ত্রুটি যোগ হত পরিবর্তনশীল অতঃপর যা উত্তম লাইন মাপসই ডেটা হবে না Y = এক্স। এটি দেখায় যে হাইপোথিসিস পরীক্ষাটি কেবলমাত্র নির্বাহী অংশ y = x এর উপর নির্ভর করে না তবে অ-নিষেধাত্মক অংশের উপরও নির্ভর করে যা ত্রুটিগুলি কীভাবে বন্টিত হয় তা ব্যাখ্যা করে। এখানে নাল হাইপোথিসিস পরীক্ষাটি আরও নির্দিষ্ট অনুমান 'y = x + e' এর জন্য এবং 'y = x' এর জন্য নয় for এক্স
সেক্সটাস এম্পেরিকাস

1
হ্যাঁ, ভাল দাগযুক্ত। সিমুলেটেড ডেটা কোনও স্ট্যান্ডার্ড হোমসকেডাস্টিক লিনিয়ার রিগ্রেশন ব্যবহার করে না। আমি ওপি দ্বারা দেখানো প্লটটিতে ডেটা প্যাটার্নটি মোটামুটি নকল করার চেষ্টা করার জন্য সিমুলেশনে হিটারোসেসেস্টাস্টিটি ব্যবহার করেছি। (এবং আমি মনে করি আমি খুব সুন্দর একটি ভাল কাজ করেছি!) সুতরাং এটি এমন একটি ক্ষেত্রে যেখানে আমি সেই মডেল থেকে উত্পন্ন নয় এমন সিমুলেটেড ডেটার সাথে একটি আদর্শ হোমোস্কেস্টাস্টিক লিনিয়ার মডেলটি ফিট করছি। এটি এখনও বৈধ - যদিও একটি মডেল থেকে ডেটা সিমুলেট করা ঠিক আছে এবং তারপরে এটি অন্যের সাথে ফিট করে, কী ঘটেছিল তা দেখার জন্য।
মনিকা

1
sd = 2/sqrt(1+abs(x))Yএক্সY=এক্সএক্সY=এক্সY=এক্স+ +
সেক্সটাস এম্পেরিকাস

1
এটি সত্য, তবে এটি আপনাকে ত্রুটি-ইন-ভেরিয়েবল মডেলের অঞ্চলে নিয়ে যায়, যা এটি আরও জটিল করে তোলে। আমি মনে করি ওপি কেবল এই ক্ষেত্রে স্ট্যান্ডার্ড লিনিয়ার রিগ্রেশন ব্যবহার করতে চায়।
মনিকা

আমি সম্মত হই যে এটি একটি পক্ষ, তবে তবুও এটি একটি গুরুত্বপূর্ণ। প্রশ্নের সরলতা আমাকে ধাঁধা দেয় (বিভিন্ন পয়েন্টে), এবং এটি আমাকেও চিন্তিত করে কারণ এটি খুব সাধারণ উপস্থাপনা হতে পারে। অবশ্যই, এটি আসলে কী অর্জন করতে চাইছে তার উপর নির্ভর করে ('সমস্ত মডেলগুলি ভুল ...') তবে এই সাধারণ উপস্থাপনাটি একটি মান হয়ে উঠতে পারে এবং জটিল অতিরিক্ত প্রশ্নগুলি যেগুলি মনে রাখা উচিত তা ভুলে যেতে পারে বা একটিও হতে পারে কখনই এটি ভাবতে শুরু করে না (অন্যান্য উত্তরে 95% সিআই-কে উল্লেখ করা এমন একটি মানের উদাহরণ যা লোকেরা অন্ধভাবে অনুসরণ করে)।
সেক্সটাস এম্পেরিকাস

5

এখানে একটি দুর্দান্ত গ্রাফিকাল পদ্ধতি যা আমি জুলিয়ান ফারাওয়ের দুর্দান্ত বই "লিনিয়ার মডেল উইথ আর (দ্বিতীয় সংস্করণ)" থেকে পেয়েছি। এটি উপবৃত্ত হিসাবে ষড়যন্ত্র এবং opeালের জন্য একযোগে 95% আস্থা অন্তর v

উদাহরণস্বরূপ, আমি একটি ভেরিয়েবল "এক্স" দিয়ে এন (গড় = 10, এসডি = 5) বিতরণ এবং তারপরে একটি ভেরিয়েবল "y" যার ডিস্ট্রিবিউশন এন (অর্থ = x, এসডি = 2) সহ 500 টি পর্যবেক্ষণ তৈরি করেছি। এটি ০.৯ এর কিছুটা কমের সাথে একটি সম্পর্কিত সম্পর্ক অর্জন করে যা আপনার ডেটার তুলনায় ততটা শক্ত নাও হতে পারে।

বিন্দুটি (ইন্টারসেপ্ট = 0, opeাল = 1) সেই একযোগে আত্মবিশ্বাসের ব্যবধানের মধ্যে বা তার বাইরে পড়ে কিনা তা দেখতে আপনি উপবৃত্তটি পরীক্ষা করতে পারেন।

library(tidyverse)
library(ellipse)
#> 
#> Attaching package: 'ellipse'
#> The following object is masked from 'package:graphics':
#> 
#>     pairs

set.seed(50)
dat <- data.frame(x=rnorm(500,10,5)) %>% mutate(y=rnorm(n(),x,2))

lmod1 <- lm(y~x,data=dat)
summary(lmod1)
#> 
#> Call:
#> lm(formula = y ~ x, data = dat)
#> 
#> Residuals:
#>     Min      1Q  Median      3Q     Max 
#> -6.9652 -1.1796 -0.0576  1.2802  6.0212 
#> 
#> Coefficients:
#>             Estimate Std. Error t value Pr(>|t|)    
#> (Intercept)  0.24171    0.20074   1.204    0.229    
#> x            0.97753    0.01802  54.246   <2e-16 ***
#> ---
#> Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
#> 
#> Residual standard error: 2.057 on 498 degrees of freedom
#> Multiple R-squared:  0.8553, Adjusted R-squared:  0.855 
#> F-statistic:  2943 on 1 and 498 DF,  p-value: < 2.2e-16

cor(dat$y,dat$x)
#> [1] 0.9248032

plot(y~x,dat)
abline(0,1)


confint(lmod1)
#>                  2.5 %    97.5 %
#> (Intercept) -0.1526848 0.6361047
#> x            0.9421270 1.0129370

plot(ellipse(lmod1,c("(Intercept)","x")),type="l")
points(coef(lmod1)["(Intercept)"],coef(lmod1)["x"],pch=19)

abline(v=confint(lmod1)["(Intercept)",],lty=2)
abline(h=confint(lmod1)["x",],lty=2)

points(0,1,pch=1,size=3)
#> Warning in plot.xy(xy.coords(x, y), type = type, ...): "size" is not a
#> graphical parameter

abline(v=0,lty=10)
abline(h=0,lty=10)

2019-01-21 তারিখে ডিপেক্স প্যাকেজ (v0.2.1) দ্বারা তৈরি


1

আপনি n বুটস্ট্র্যাপযুক্ত নমুনাগুলির সহিত সহগগুলি গণনা করতে পারেন। এটি সম্ভবত সাধারণ বিতরণযোগ্য সহগ মানগুলির (কেন্দ্রীয় সীমাবদ্ধ উপপাদ্য) ফলাফল করবে। তারপরে আপনি গড়ের চারপাশে টি-মান (স্বাধীনতার এন -1 ডিগ্রি) সহ একটি (উদাঃ 95%) আত্মবিশ্বাসের ব্যবধান তৈরি করতে পারেন। যদি আপনার সিআইতে 1 (0) অন্তর্ভুক্ত না থাকে তবে এটি পরিসংখ্যানগতভাবে উল্লেখযোগ্য ভিন্ন, বা আরও সুনির্দিষ্ট: আপনি সমান anালের নাল অনুমানটি বাতিল করতে পারেন।


আপনি যেমন এটি এখানে সূচনা করেছেন, এটি পৃথকভাবে দুটি অনুমানকে আলাদাভাবে পরীক্ষা করে, তবে আপনার যা দরকার তা একটি যৌথ পরীক্ষা।
কেজেটিল বি হালওয়ারসেন

0

β0=0β1=1


1
তবে যা প্রয়োজন তা হ'ল অন্যান্য উত্তরের মতো একটি যৌথ পরীক্ষা।
কেজেটিল বি হালওয়ারসেন

@ কেজেটিভালভর্সেন আমি বুঝতে পেরেছি যে আজ সকালে অন্য উত্তরগুলি পড়ে আমার ভুল ছিল। আমি এটি মুছে ফেলব।
আরএসক্র্ল্লি

0

আপনার একটি লিনিয়ার রিগ্রেশন ফিট করতে হবে এবং দুটি পরামিতিগুলির জন্য 95% আত্মবিশ্বাসের ব্যবধানগুলি পরীক্ষা করা উচিত। যদি opeালের সিআইতে 1 টি এবং অফসেটের সিআই 0 টি অন্তর্ভুক্ত থাকে তবে উভয় পক্ষের পরীক্ষাটি তুচ্ছ প্রায়। (95%) ^ 2 স্তরে - যেহেতু আমরা দুটি পৃথক পরীক্ষা ব্যবহার করি টাইপ -1 ঝুঁকি বাড়বে।

আর ব্যবহার করে:

fit = lm(Y ~ X)
confint(fit)

বা আপনি ব্যবহার

summary(fit)

এবং 2 সিগমা অন্তর নিজের দ্বারা গণনা করুন।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.