নাল অনুমানের অধীনে রৈখিক প্রতিরোধে


26

শূন্য অনুমানের এইচ 0 : β = 0 এর অধীনে রৈখিক অবিচ্ছিন্ন একাধিক রিগ্রেশন মধ্যে সংকল্পের সহগ বা আর স্কোয়ার, এর বিতরণ কী ?R2H0:β=0

কিভাবে এটি ভবিষ্যতবক্তা সংখ্যার উপর নির্ভর করে k এবং নমুনার সংখ্যা n>k ? এই বিতরণের মোডের জন্য কি কোনও বদ্ধ-রূপের অভিব্যক্তি রয়েছে?

বিশেষত আমার একটি অনুভূতি রয়েছে যে সাধারণ রিগ্রেশন (এক প্রেডিকটর x ) এর জন্য এই বন্টনটির শূন্য রয়েছে, তবে একাধিক প্রতিরোধের জন্য মোডটি একটি শূন্য-ইতিবাচক মানের উপর। এটি যদি সত্যই সত্য হয় তবে এই "পর্বত রূপান্তর" সম্পর্কে কোনও স্বজ্ঞাত ব্যাখ্যা আছে?


হালনাগাদ

@ অ্যালোকোস যেমন নীচে দেখিয়েছে, বন্টনটি সত্যিকার অর্থে শূন্যে শীর্ষে যখন k=2 এবং k=3 এবং শূন্যে নয় যখন k>3 । আমি অনুভব করি যে এই পর্বের স্থানান্তর সম্পর্কে জ্যামিতিক দৃষ্টিভঙ্গি হওয়া উচিত। ওএলএসের জ্যামিতিক দৃষ্টিভঙ্গি বিবেচনা করুন: আর এন-তেy একটি ভেক্টর , এক্স সেখানে একটি কে- মাত্রিক উপ-স্থানকে সংজ্ঞায়িত করে । OLS ঔজ্জ্বল্যের প্রেক্ষাপটে জরিপ পরিমাণ Y এই subspace সম্মুখের এবং আর 2 মধ্যে কোণের স্কোয়ারড কোসাইন হয় Y এবং তার অভিক্ষেপ YRnXkyR2yy^

এখন, @ Alecos এর উত্তর থেকে এটা অনুসরণ করে যে সব ভেক্টর র্যান্ডম হয়, তাহলে এই কোণের সম্ভাব্যতা বিতরণের এ পিক হবে 90 জন্য k=2 এবং k=3 , কিন্তু কিছু অন্যান্য মান এ একটি মোড থাকবে <90 জন্য k>3 । কেন ?!


আপডেট 2: আমি @ অ্যালোকোসিজের উত্তরটি গ্রহণ করছি, তবে এখনও একটি অনুভূতি রয়েছে যে আমি এখানে কিছু গুরুত্বপূর্ণ অন্তর্দৃষ্টি অনুপস্থিত। যদি কেউ কখনও এই ঘটনাকে অন্যরকম (জ্যামিতিক বা না) দৃষ্টিভঙ্গির পরামর্শ দেয় যা এটি "সুস্পষ্ট" করে তুলবে তবে আমি অনুগ্রহের প্রস্তাব দিয়ে খুশি হব।


1
আপনি কি ত্রুটির স্বাভাবিকতা ধরে নিতে রাজি?
দিমিত্রি ভি। মাস্টারভ

1
হ্যাঁ, আমি অনুমান করি যে এই প্রশ্নের উত্তর (?) দেওয়ার জন্য এটির একটি ধারণা নেওয়া উচিত।
অ্যামিবা বলেছেন


1
@ খাসা: আসলে, আমাকে স্বীকার করতে হবে যে আমার প্রশ্ন এখানে পোস্ট করার আগে আমি সেই ব্লগস্পট পৃষ্ঠাটি পেয়েছি। সত্য, আমি এখনও আমাদের ফোরামে এই ঘটনাটি নিয়ে একটি আলোচনা করতে চেয়েছিলাম, তাই ভান করে আমি তা দেখিনি।
অ্যামিবা বলেছেন

উত্তর:


33

নির্দিষ্ট অনুমানের জন্য (যে সমস্ত রেজিস্ট্রার সহগগুলি শূন্য, ধ্রুবক শব্দটি সহ নয় , যা এই পরীক্ষায় পরীক্ষা করা হয় না) এবং সাধারণতার অধীনে, আমরা জানি (উদাহরণস্বরূপ মাদ্দালা 2001, পৃষ্ঠা 155 দেখুন, তবে মনে রাখবেন যে সেখানে গণনা করে ধ্রুবক পদ ব্যতীত রেজিস্ট্রারগণ, সুতরাং প্রকাশটি কিছুটা আলাদা দেখায়) যা পরিসংখ্যানk

সেন্ট্রালএফ(কে-1,এন-কে)এলোমেলো পরিবর্তনশীলহিসাবে বিতরণ করাহয়।

F=nkk1R21R2
F(k1,nk)

মনে রাখবেন যে আমরা ধ্রুবক শব্দটি পরীক্ষা না করে, এটি গণনা করে।k

জিনিসগুলি চারপাশে সরানো,

(k1)F(k1)FR2=(nk)R2(k1)F=R2[(nk)+(k1)F]

R2=(k1)F(nk)+(k1)F

তবে ডান হাতটি বিটা বিতরণ হিসাবে বিশেষত বিতরণ করা হয়

R2Beta(k12,nk2)

এই বিতরণের মোড

modeR2=k121k12+nk22=k3n5

সুনির্দিষ্ট এবং অনন্য মোড
উপরের সম্পর্ক থেকে আমরা অনুমান করতে পারি যে বিতরণের জন্য একটি অনন্য এবং সসীম মোড থাকতে হবে

k3,n>5

এটি একটি বিটা বিতরণের সাধারণ প্রয়োজনের সাথে সামঞ্জস্যপূর্ণ, যা

{α>1,β1},OR{α1,β>1}

যেহেতু কেউ এই সিভি থ্রেড থেকে অনুমান করতে পারে বা এখানে পড়তে পারে ।
মনে রাখবেন যে যদি , আমরা অভিন্ন বিতরণ পাই, সুতরাং সমস্ত ঘনত্ব পয়েন্টগুলি মোড (সীমাবদ্ধ তবে অনন্য নয়)। যা প্রশ্ন তৈরি করে: কেন, যদি কে = 3 , এন = 5 , আর 2 কে ইউ ( 0 , 1 ) হিসাবে বিতরণ করা হয় ?{α=1,β=1}k=3,n=5R2U(0,1)

অনুমানগুলি
ধরে নিন যে আপনার কাছে রেজিস্ট্রার রয়েছে (ধ্রুবক সহ) এবং n = 99 টি পর্যবেক্ষণ। খুব সুন্দর রিগ্রেশন, খুব বেশি কিছু নেই। তারপরk=5n=99

R2|β=0Beta(2,47),modeR2=1470.021

এবং ঘনত্বের প্লট

enter image description here

অনুগ্রহ করে অনুগ্রহ করে: অনুমানের অধীনে এটি এর বিতরণ যা কোনও রেজিস্ট্রার আসলে রিগ্রেশনের অন্তর্ভুক্ত নয়। সুতরাং ক) বিতরণটি রেজিস্ট্রারদের থেকে স্বতন্ত্র, খ) নমুনার আকার বৃদ্ধির সাথে সাথে এর বন্টন শূন্যের দিকে কেন্দ্রীভূত হওয়ায় বর্ধিত তথ্যগুলি ছোট-নমুনার পরিবর্তনশীলতা জলাবদ্ধ করে যা কিছু "ফিট" তৈরি করতে পারে তবে গ) অপ্রাসঙ্গিক রেজিস্ট্রার সংখ্যা হিসাবে প্রদত্ত নমুনা আকারের জন্য বৃদ্ধি পায়, বিতরণ 1 এর দিকে মনোনিবেশ করে এবং আমাদের কাছে "উত্সাহী ফিট" ঘটনাটি রয়েছে। R21

তবে এটিও নোট অনুমানকে প্রত্যাখ্যান করা কতটা "সহজ" তা লক্ষ্য করুন: বিশেষত উদাহরণস্বরূপ, ক্রমবর্ধমান সম্ভাবনা ইতিমধ্যে 0.99 এ পৌঁছেছে , সুতরাং প্রাপ্ত প্রাপ্ত আর 2 > 0.13 "নগণ্য রিগ্রেশন" এর নালকে প্রত্যাখ্যান করবে তাত্পর্য স্তর 1 %।R2=0.130.99R2>0.131

যোগ
করুন বিতরণের মোড সম্পর্কিত নতুন ইস্যুটির প্রতিক্রিয়া জানাতে , আমি নীচের চিন্তার রেখাটি (জ্যামিতিক নয়) অফার করতে পারি, এটি এটি "স্পিউরিয়াস ফিট" প্রপঞ্চের সাথে যুক্ত করে: যখন আমরা কোনও ডেটা সেটে সর্বনিম্ন-স্কোয়ার চালাই when , আমরা মূলত কে অজানাগুলির সাথে n লিনিয়ার সমীকরণের একটি সিস্টেমটি সমাধান করি (উচ্চ-বিদ্যালয়ের গণিতের একমাত্র পার্থক্যটি তখনই আমরা "জ্ঞাত সহগ" বলেছিলাম যা লিনিয়ার রিগ্রেশনকে আমরা "ভেরিয়েবল / রেজিস্ট্রার", "অজানা এক্স" বলে থাকি আমরা কী এখন "অজানা সহগ", এবং "ধ্রুবক পদ" যা আমরা জানি "নির্ভরশীল পরিবর্তনশীল" কল করুন)। যতক্ষণ না কে < এনR2nkk<nসিস্টেমটি অত্যধিক চিহ্নিত এবং সঠিক কোনও সমাধান নেই, কেবলমাত্র আনুমানিক-এবং পার্থক্যটি "নির্ভরশীল ভেরিয়েবলের অব্যক্ত বিবর্তন" হিসাবে আবির্ভূত হয়, যা দ্বারা বন্দী হয় । যদি কে = এন সিস্টেমে একটি সঠিক সমাধান থাকে (লিনিয়ার স্বাধীনতা অনুমান করে)। মাঝে, যেমন আমরা সংখ্যা বাড়িয়ে , আমরা একক সঠিক সমাধান "প্রতি পদক্ষেপ" সিস্টেম এবং আমরা এর "overidentification ডিগ্রী" কমানো। এই দৃশ্য অধীনে, এটা তোলে ইন্দ্রিয় কেন আর 2 অপ্রাসঙ্গিক রিগ্রেশন যোগে সঙ্গে বাড়ে spuriously, এবং এর ফলে, কেন তার মোড প্যাচসমূহ ধীরে ধীরে প্রতি 1 , যেমন বৃদ্ধির দেওয়া1R2k=nkR21kn


1
এর গাণিতিক। জন্য বিটা বন্টন ( "এর প্রথম প্যারামিটার α " মান স্বরলিপি) ঐক্য চেয়ে ছোট হয়ে যায়। সেক্ষেত্রে বিটা বিতরণের কোনও সীমাবদ্ধ মোড নেই, আকারগুলি কীভাবে পরিবর্তন হয় তা দেখতে keisan.casio.com/exec/system/1180573226 নিয়ে ঘুরে দেখুন। k=2α
অ্যালেকোস পাপাদোপল্লোস

1
@Alecos Excellent answer! (+1) Can I strongly suggest that you add to your answer the requirement for the mode to exist? This is usually stated as α>1 and β>1 but more subtly, it's ok if equality holds in one of the two ... I think for our purposes this becomes k3 and nk+2 and at least one of these inequalities is strict.
Silverfish

2
@Khashaa Except if theory demands it, I never exclude the intercept from the regression -it is the average level of the dependent variable, regressors or no regressors (and this level is usually positive, so it would be a foolishly self-created misspecification to omit it). But I always exclude it from the F-test of the regression, since what I care about is not whether the dependent variable has a non-zero unconditional mean, but whether the regressors have any explanatory power as regards deviations from this mean.
Alecos Papadopoulos

1
+1! Are there results for the distribution of R2 for nonzero βj?
Christoph Hanck


18

I won't rederive the Beta(k12,nk2) distribution in @Alecos's excellent answer (it's a standard result, see here for another nice discussion) but I want to fill in more details about the consequences! Firstly, what does the null distribution of R2 look like for a range of values of n and k? The graph in @Alecos's answer is quite representative of what occurs in practical multiple regressions, but sometimes insight is gleaned more easily from smaller cases. I've included the mean, mode (where it exists) and standard deviation. The graph/table deserves a good eyeball: best viewed at full-size. I could have included less facets but the pattern would have been less clear; I have appended R code so that readers can experiment with different subsets of n and k.

Distribution of R2 for small sample sizes

Values of shape parameters

The graph's colour scheme indicates whether each shape parameter is less than one (red), equal to one (blue), or more than one (green). The left-hand side shows the value of α while β is on the right. Since α=k12, its value increases in arithmetic progression by a common difference of 12 as we move right from column to column (add a regressor to our model) whereas, for fixed n, β=nk2 decreases by 12. The total α+β=n12 is fixed for each row (for a given sample size). If instead we fix k and move down the column (increase sample size by 1), then α stays constant and β increases by 12. In regression terms, α is half the number of regressors included in the model, and β is half the residual degrees of freedom. To determine the shape of the distribution we are particularly interested in where α or β equal one.

αk12=1k=3α<1k<3k=2α>1k>3 (from the k=4 column onwards, the left side is green).

For β=1 we have nk2=1 hence k=n2. Note how these cases (marked with a blue right-hand side) cut a diagonal line across the facet plot. For β>1 we obtain k<n2 (the graphs with a green left side lie to the left of the diagonal line). For β<1 we need k>n2, which involves only the right-most cases on my graph: at n=k we have β=0 and the distribution is degenerate, but n=k1 where β=12 is plotted (right side in red).

Since the PDF is f(x;α,β)xα1(1x)β1, it is clear that if (and only if) α<1 then f(x) as x0. We can see this in the graph: when the left side is shaded red, observe the behaviour at 0. Similarly when β<1 then f(x) as x1. Look where the right side is red!

Symmetries

One of the most eye-catching features of the graph is the level of symmetry, but when the Beta distribution is involved, this shouldn't be surprising!

The Beta distribution itself is symmetric if α=β. For us this occurs if n=2k1 which correctly identifies the panels (k=2,n=3), (k=3,n=5), (k=4,n=7) and (k=5,n=9). The extent to which the distribution is symmetric across R2=0.5 depends on how many regressor variables we include in the model for that sample size. If k=n+12 the distribution of R2 is perfectly symmetric about 0.5; if we include fewer variables than that it becomes increasingly asymmetric and the bulk of the probability mass shifts closer to R2=0; if we include more variables then it shifts closer to R2=1. Remember that k includes the intercept in its count, and that we are working under the null, so the regressor variables should have coefficient zero in the correctly specified model.

There is also an obviously symmetry between distributions for any given n, i.e. any row in the facet grid. For example, compare (k=3,n=9) with (k=7,n=9). What's causing this? Recall that the distribution of Beta(α,β) is the mirror image of Beta(β,α) across x=0.5. Now we had αk,n=k12 and βk,n=nk2. Consider k=nk+1 and we find:

αk,n=(nk+1)12=nk2=βk,n
βk,n=n(nk+1)2=k12=αk,n

So this explains the symmetry as we vary the number of regressors in the model for a fixed sample size. It also explains the distributions that are themselves symmetric as a special case: for them, k=k so they are obliged to be symmetric with themselves!

This tells us something we might not have guessed about multiple regression: for a given sample size n, and assuming no regressors have a genuine relationship with Y, the R2 for a model using k1 regressors plus an intercept has the same distribution as 1R2 does for a model with k1 residual degrees of freedom remaining.

Special distributions

When k=n we have β=0, which isn't a valid parameter. However, as β0 the distribution becomes degenerate with a spike such that P(R2=1)=1. This is consistent with what we know about a model with as many parameters as data points - it achieves perfect fit. I haven't drawn the degenerate distribution on my graph but did include the mean, mode and standard deviation.

When k=2 and n=3 we obtain Beta(12,12) which is the arcsine distribution. This is symmetric (since α=β) and bimodal (0 and 1). Since this is the only case where both α<1 and β<1 (marked red on both sides), it is our only distribution which goes to infinity at both ends of the support.

The Beta(1,1) distribution is the only Beta distribution to be rectangular (uniform). All values of R2 from 0 to 1 are equally likely. The only combination of k and n for which α=β=1 occurs is k=3 and n=5 (marked blue on both sides).

The previous special cases are of limited applicability but the case α>1 and β=1 (green on left, blue on right) is important. Now f(x;α,β)xα1(1x)β1=xα1 so we have a power-law distribution on [0, 1]. Of course it's unlikely we'd perform a regression with k=n2 and k>3, which is when this situation occurs. But by the previous symmetry argument, or some trivial algebra on the PDF, when k=3 and n>5, which is the frequent procedure of multiple regression with two regressors and an intercept on a non-trivial sample size, R2 will follow a reflected power law distribution on [0, 1] under H0. This corresponds to α=1 and β>1 so is marked blue on left, green on right.

You may also have noticed the triangular distributions at (k=5,n=7) and its reflection (k=3,n=7). We can recognise from their α and β that these are just special cases of the power-law and reflected power-law distributions where the power is 21=1.

Mode

If α>1 and β>1, all green in the plot, f(x;α,β) is concave with f(0)=f(1)=0, and the Beta distribution has a unique mode α1α+β2. Putting these in terms of k and n, the condition becomes k>3 and n>k+2 while the mode is k3n5.

All other cases have been dealt with above. If we relax the inequality to allow β=1, then we include the (green-blue) power-law distributions with k=n2 and k>3 (equivalently, n>5). These cases clearly have mode 1, which actually agrees with the previous formula since (n2)3n5=1. If instead we allowed α=1 but still demanded β>1, we'd find the (blue-green) reflected power-law distributions with k=3 and n>5. Their mode is 0, which agrees with 33n5=0. However, if we relaxed both inequalities simultaneously to allow α=β=1, we'd find the (all blue) uniform distribution with k=3 and n=5, which does not have a unique mode. Moreover the previous formula can't be applied in this case, since it would return the indeterminate form 3355=00.

When n=k we get a degenerate distribution with mode 1. When β<1 (in regression terms, n=k1 so there is only one residual degree of freedom) then f(x) as x1, and when α<1 (in regression terms, k=2 so a simple linear model with intercept and one regressor) then f(x) as x0. These would be unique modes except in the unusual case where k=2 and n=3 (fitting a simple linear model to three points) which is bimodal at 0 and 1.

Mean

The question asked about the mode, but the mean of R2 under the null is also interesting - it has the remarkably simple form k1n1. For a fixed sample size it increases in arithmetic progression as more regressors are added to the model, until the mean value is 1 when k=n. The mean of a Beta distribution is αα+β so such an arithmetic progression was inevitable from our earlier observation that, for fixed n, the sum α+β is constant but α increases by 0.5 for each regressor added to the model.

αα+β=(k1)/2(k1)/2+(nk)/2=k1n1

Code for plots

require(grid)
require(dplyr)

nlist <- 3:9 #change here which n to plot
klist <- 2:8 #change here which k to plot

totaln <- length(nlist)
totalk <- length(klist)

df <- data.frame(
    x = rep(seq(0, 1, length.out = 100), times = totaln * totalk),
    k = rep(klist, times = totaln, each = 100),
    n = rep(nlist, each = totalk * 100)
)

df <- mutate(df,
    kname = paste("k =", k),
    nname = paste("n =", n),
    a = (k-1)/2,
    b = (n-k)/2,
    density = dbeta(x, (k-1)/2, (n-k)/2),
    groupcol = ifelse(x < 0.5, 
        ifelse(a < 1, "below 1", ifelse(a ==1, "equals 1", "more than 1")),
        ifelse(b < 1, "below 1", ifelse(b ==1, "equals 1", "more than 1")))
)

g <- ggplot(df, aes(x, density)) +
    geom_line(size=0.8) + geom_area(aes(group=groupcol, fill=groupcol)) +
    scale_fill_brewer(palette="Set1") +
    facet_grid(nname ~ kname)  + 
    ylab("probability density") + theme_bw() + 
    labs(x = expression(R^{2}), fill = expression(alpha~(left)~beta~(right))) +
    theme(panel.margin = unit(0.6, "lines"), 
        legend.title=element_text(size=20),
        legend.text=element_text(size=20), 
        legend.background = element_rect(colour = "black"),
        legend.position = c(1, 1), legend.justification = c(1, 1))


df2 <- data.frame(
    k = rep(klist, times = totaln),
    n = rep(nlist, each = totalk),
    x = 0.5,
    ymean = 7.5,
    ymode = 5,
    ysd = 2.5
)

df2 <- mutate(df2,
    kname = paste("k =", k),
    nname = paste("n =", n),
    a = (k-1)/2,
    b = (n-k)/2,
    meanR2 = ifelse(k > n, NaN, a/(a+b)),
    modeR2 = ifelse((a>1 & b>=1) | (a>=1 & b>1), (a-1)/(a+b-2), 
        ifelse(a<1 & b>=1 & n>=k, 0, ifelse(a>=1 & b<1 & n>=k, 1, NaN))),
    sdR2 = ifelse(k > n, NaN, sqrt(a*b/((a+b)^2 * (a+b+1)))),
    meantext = ifelse(is.nan(meanR2), "", paste("Mean =", round(meanR2,3))),
    modetext = ifelse(is.nan(modeR2), "", paste("Mode =", round(modeR2,3))),
    sdtext = ifelse(is.nan(sdR2), "", paste("SD =", round(sdR2,3)))
)

g <- g + geom_text(data=df2, aes(x, ymean, label=meantext)) +
    geom_text(data=df2, aes(x, ymode, label=modetext)) +
    geom_text(data=df2, aes(x, ysd, label=sdtext))
print(g)

1
Really illuminating visualization. +1
Khashaa

Great addition, +1, thanks. I noticed that you call 0 a mode when the distribution goes to + when x0 (and nowhere else) -- something @Alecos above (in the comments) did not want to do. I agree with you: it is convenient.
amoeba says Reinstate Monica

1
@amoeba from the graphs we'd like to say "values around 0 are most likely" (or 1). But the answer of Alecos is also both self-consistent and consistent with many authorities (people differ on what to do about the 0 and 1 full stop, let alone whether they can count as a mode!). My approach to the mode differs from Alecos mostly because I use conditions on alpha and beta to determine where the formula is applicable, rather than taking my starting point as the formula and seeing which k and n give sensible answers.
Silverfish

1
(+1), this is a very meaty answer. By keeping k too close to n and both small, the question studies in detail, and so decisively, the case of really small samples with relatively too many and irrelevant regressors.
Alecos Papadopoulos

@amoeba You probably noticed that this answer furnishes an algebraic answer for why, for sufficiently large n, the mode of the distribution is 0 for k=3 but positive for k>3. Since f(x)x(k3)/2(1x)(nk2)/2 then for k=3 we have f(x)(1x)(n5)/2 which will clearly have mode at 0 for n>5, whereas for k=4 we have f(x)x1/2(1x)(n6)/2 whose maximum can be found by calculus to be the quoted mode formula. As k increases, the power of x rises by 0.5 each time. It's this xα1 factor which makes f(0)=0 so kills the mode at 0
Silverfish
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.