"সীমাবদ্ধতা" বলতে কী বোঝাতে চাইছেন সে সম্পর্কে আপনাকে ভাবতে হবে। সীমাবদ্ধতা রয়েছে যেমন যেমন আপনি যখন কেসগুলির চেয়ে বেশি পূর্বাভাসক হন তখন আপনি প্যারামিটার অনুমানের ক্ষেত্রে বিষয়গুলিতে চলে যান (এই উত্তরের নীচে সামান্য আর সিমুলেশনটি দেখুন)।
তবে আমি কল্পনা করি আপনি পরিসংখ্যান শক্তি এবং ভাল পরিসংখ্যান চর্চা সম্পর্কিত নরম সীমা সম্পর্কে আরও কথা বলছেন। এক্ষেত্রে "সীমাবদ্ধতার" ভাষাটি যথাযথভাবে উপযুক্ত নয়। বরং, বৃহত্তর নমুনা আকারগুলি আরও ভবিষ্যদ্বাণীকারীদেরকে আরও যুক্তিসঙ্গত করে তোলে এবং কতটা ভবিষ্যদ্বাণী যুক্তিযুক্তভাবে যুক্তিসঙ্গত হয় তার প্রান্তিকতা যুক্তিযুক্ততার ধারাবাহিকতায় পড়ে। আপনি একাধিক রিগ্রেশন প্রাসঙ্গিক ক্ষেত্রে নমুনা আকারের জন্য থাম্বের বিধিগুলির আলোচনাটি প্রাসঙ্গিক হিসাবে দেখতে পারেন, যেমন থাম্বের অনেকগুলি নিয়মই ভবিষ্যদ্বাণীকারীদের সংখ্যার উল্লেখ করে make
কয়েকটি পয়েন্ট
- যদি আপনি পৃথক ভবিষ্যদ্বাণীকারীদের পরিসংখ্যানগত তাত্পর্য বাদে সামগ্রিক পূর্বাভাসের সাথে আরও উদ্বিগ্ন হন তবে আপনি পৃথক ভবিষ্যদ্বাণীকারীদের পরিসংখ্যানগত তাত্পর্য নিয়ে উদ্বিগ্ন হয়ে যদি বেশি অনুমানকারীদের অন্তর্ভুক্ত করা যুক্তিসঙ্গত হয়।
- আপনার গবেষণার প্রশ্নের সাথে সম্পর্কিত কোনও নির্দিষ্ট পরিসংখ্যানের মডেল পরীক্ষা করার বিষয়ে আপনি যদি উদ্বিগ্ন হন (যেমন, অনেকগুলি সামাজিক বিজ্ঞানের প্রয়োগে যেমন প্রচলিত) তবে সম্ভবত আপনার কাছে নির্দিষ্ট ভবিষ্যদ্বাণীকারীদের অন্তর্ভুক্ত করার কারণ রয়েছে। তবে, আপনি নির্বাচক হওয়ার সুযোগও পেতে পারেন যার মধ্যে আপনি ভবিষ্যদ্বাণীকারীদের অন্তর্ভুক্ত করেছেন (উদাহরণস্বরূপ, যদি আপনার একাধিক ভেরিয়েবল থাকে যা অনুরূপ নির্মাণকে পরিমাপ করে তবে আপনি কেবল তার মধ্যে একটি অন্তর্ভুক্ত করতে পারেন)। তত্ত্ব ভিত্তিক মডেল টেস্টিং করার সময়, অনেক পছন্দ আছে এবং ভবিষ্যদ্বাণীকারীদেরকে অন্তর্ভুক্ত করার বিষয়ে সিদ্ধান্তে আপনার তত্ত্ব এবং গবেষণা প্রশ্নের মধ্যে ঘনিষ্ঠ যোগাযোগ জড়িত।
- আমি প্রায়শই দেখি না যে গবেষকরা রিফ্রেশন সহগের তাত্পর্যপূর্ণ পরীক্ষার জন্য বনফেরোনি সংশোধন ব্যবহার করছেন। এর একটি যুক্তিসঙ্গত কারণ হতে পারে যে গবেষকরা মডেলের সামগ্রিক বৈশিষ্ট্য মূল্যায়নে আগ্রহী।
- আপনি যদি ভবিষ্যদ্বাণীকারীদের আপেক্ষিক গুরুত্ব মূল্যায়ন করতে আগ্রহী হন, তবে ভবিষ্যদ্বাণীকারী এবং ফলাফলের মধ্যে উভয় দ্বিপক্ষীয় সম্পর্ক এবং সেইসাথে ভবিষ্যদ্বাণীকারী এবং ফলাফল ভবিষ্যদ্বাণীকারীদের জন্য ফলাফল নিয়ন্ত্রণের মধ্যে সম্পর্ক উভয়ই পরীক্ষা করা আমার পক্ষে দরকারী। আপনি যদি অনেক পূর্বাভাসককে অন্তর্ভুক্ত করেন তবে প্রায়শই সম্ভবত আপনি এমন ভবিষ্যদ্বাণীকারীদের অন্তর্ভুক্ত হন যা অত্যন্ত আন্তঃসংযোগযুক্ত। এই ধরনের ক্ষেত্রে, দ্বিবিভক্ত এবং মডেল ভিত্তিক গুরুত্ব উভয় সূচকের ব্যাখ্যাই কার্যকর হতে পারে, যেমন একটি দ্বিবিভক্ত দৃষ্টিভঙ্গিতে একটি পরিবর্তনশীল গুরুত্বপূর্ণ অন্যান্য সম্পর্কিত তদন্তকারী ভবিষ্যদ্বাণী দ্বারা কোনও মডেলটিতে লুকিয়ে থাকতে পারে ( আমি এখানে লিঙ্কগুলির সাথে আরও বিস্তারিতভাবে বর্ণনা করি )।
একটু আর সিমুলেশন
আমি একাধিক রিগ্রেশন মধ্যে নমুনা আকার এবং পরামিতি অনুমান মধ্যে সম্পর্ক হাইলাইট করতে এই সামান্য সিমুলেশন লিখেছিলাম।
set.seed(1)
fitmodel <- function(n, k) {
# n: sample size
# k: number of predictors
# return linear model fit for given sample size and k predictors
x <- data.frame(matrix( rnorm(n*k), nrow=n))
names(x) <- paste("x", seq(k), sep="")
x$y <- rnorm(n)
lm(y~., data=x)
}
fitmodel
ফাংশন দুটি আর্গুমেন্ট লাগে n
নমুনা আকার জন্য এবং k
ভবিষ্যতবক্তা সংখ্যার জন্য। আমি ভবিষ্যদ্বাণী হিসাবে ধ্রুবক গণনা করছি না, তবে এটি অনুমান করা হয়। আমি তখন এলোমেলো ডেটা উত্পন্ন করি এবং ভবিষ্যদ্বাণীকারী ভেরিয়েবলগুলি থেকে k
অ্যারে ভেরিয়েবলের পূর্বাভাস দেওয়ার জন্য একটি রিগ্রেশন মডেল ফিট করি এবং ফিটটি ফিরিয়ে আনি।
প্রদত্ত যে আপনি আপনার প্রশ্নে উল্লেখ করেছেন যে আপনি 10 টি ভবিষ্যদ্বাণীকারী খুব বেশি কিনা তা সম্পর্কে আগ্রহী ছিলেন, নীচের ফাংশন কলগুলি যখন নমুনার আকার যথাক্রমে 9, 10, 11 এবং 12 হয় তখন কী ঘটে তা দেখায়। অর্থাৎ, নমুনা আকারটি ভবিষ্যদ্বাণীকারীদের সংখ্যার চেয়ে এক থেকে কম এবং ভবিষ্যদ্বাণীকের সংখ্যার চেয়ে দু'টি বেশি
summary(fitmodel(n=9, k=10))
summary(fitmodel(n=10, k=10))
summary(fitmodel(n=11, k=10))
summary(fitmodel(n=12, k=10))
> সংক্ষিপ্তসার (ফিট মডেল (n = 9, কে = 10))
Call:
lm(formula = y ~ ., data = x)
Residuals:
ALL 9 residuals are 0: no residual degrees of freedom!
Coefficients: (2 not defined because of singularities)
Estimate Std. Error t value Pr(>|t|)
(Intercept) -0.31455 NA NA NA
x1 0.34139 NA NA NA
x2 -0.45924 NA NA NA
x3 0.42474 NA NA NA
x4 -0.87727 NA NA NA
x5 -0.07884 NA NA NA
x6 -0.03900 NA NA NA
x7 1.08482 NA NA NA
x8 0.62890 NA NA NA
x9 NA NA NA NA
x10 NA NA NA NA
Residual standard error: NaN on 0 degrees of freedom
Multiple R-squared: 1, Adjusted R-squared: NaN
F-statistic: NaN on 8 and 0 DF, p-value: NA
পূর্বাভাসকারীদের সংখ্যার তুলনায় নমুনা আকার একটি কম। 9 টি পরামিতি অনুমান করা সম্ভব, যার মধ্যে একটি ধ্রুবক।
> সংক্ষিপ্তসার (ফিট মডেল (এন = 10, কে = 10))
Call:
lm(formula = y ~ ., data = x)
Residuals:
ALL 10 residuals are 0: no residual degrees of freedom!
Coefficients: (1 not defined because of singularities)
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.1724 NA NA NA
x1 -0.3615 NA NA NA
x2 -0.4670 NA NA NA
x3 -0.6883 NA NA NA
x4 -0.1744 NA NA NA
x5 -1.0331 NA NA NA
x6 0.3886 NA NA NA
x7 -0.9886 NA NA NA
x8 0.2778 NA NA NA
x9 0.4616 NA NA NA
x10 NA NA NA NA
Residual standard error: NaN on 0 degrees of freedom
Multiple R-squared: 1, Adjusted R-squared: NaN
F-statistic: NaN on 9 and 0 DF, p-value: NA
নমুনা আকার ভবিষ্যদ্বাণীকারীদের সংখ্যার সমান। কেবলমাত্র 10 টি পরামিতি অনুমান করা সম্ভব, যার মধ্যে একটি ধ্রুবক।
> সংক্ষিপ্তসার (ফিট মডেল (এন = 11, কে = 10))
Call:
lm(formula = y ~ ., data = x)
Residuals:
ALL 11 residuals are 0: no residual degrees of freedom!
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -0.9638 NA NA NA
x1 -0.8393 NA NA NA
x2 -1.5061 NA NA NA
x3 -0.4917 NA NA NA
x4 0.3251 NA NA NA
x5 4.4212 NA NA NA
x6 0.7614 NA NA NA
x7 -0.4195 NA NA NA
x8 0.2142 NA NA NA
x9 -0.9264 NA NA NA
x10 -1.2286 NA NA NA
Residual standard error: NaN on 0 degrees of freedom
Multiple R-squared: 1, Adjusted R-squared: NaN
F-statistic: NaN on 10 and 0 DF, p-value: NA
পূর্বাভাসকারীদের সংখ্যার চেয়ে নমুনা আকার আরও একটি। ধ্রুবক সহ সমস্ত পরামিতি অনুমান করা হয়।
> সংক্ষিপ্তসার (ফিট মডেল (n = 12, কে = 10))
Call:
lm(formula = y ~ ., data = x)
Residuals:
1 2 3 4 5 6 7 8 9 10 11
0.036530 -0.042154 -0.009044 -0.117590 0.171923 -0.007976 0.050542 -0.011462 0.010270 0.000914 -0.083533
12
0.001581
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.14680 0.11180 1.313 0.4144
x1 0.02498 0.09832 0.254 0.8416
x2 1.01950 0.13602 7.495 0.0844 .
x3 -1.76290 0.26094 -6.756 0.0936 .
x4 0.44832 0.16283 2.753 0.2218
x5 -0.76818 0.15651 -4.908 0.1280
x6 -0.33209 0.18554 -1.790 0.3244
x7 1.62276 0.21562 7.526 0.0841 .
x8 -0.47561 0.18468 -2.575 0.2358
x9 1.70578 0.31547 5.407 0.1164
x10 3.25415 0.46447 7.006 0.0903 .
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.2375 on 1 degrees of freedom
Multiple R-squared: 0.995, Adjusted R-squared: 0.9452
F-statistic: 19.96 on 10 and 1 DF, p-value: 0.1726
নমুনা আকারটি ভবিষ্যদ্বাণীকারীদের সংখ্যার চেয়ে দু'টি বেশি এবং অবশেষে সামগ্রিক মডেলের ফিটের অনুমান করা সম্ভব।