সর্বাধিক সংখ্যক স্বতন্ত্র ভেরিয়েবল যা একাধিক রিগ্রেশন সমীকরণে প্রবেশ করতে পারে


19

একাধিক রিগ্রেশন সমীকরণে যে কোনও স্বতন্ত্র ভেরিয়েবল প্রবেশ করতে পারে তার সীমা কত? আমার কাছে 10 ভবিষ্যদ্বাণী রয়েছে যে আমি ফলাফলের পরিবর্তনশীলটিতে তাদের আপেক্ষিক অবদানের ক্ষেত্রে পরীক্ষা করতে চাই। একাধিক বিশ্লেষণের জন্য সামঞ্জস্য করার জন্য আমাকে কি কোনও বোনিফেরনি সংশোধন ব্যবহার করা উচিত?

উত্তর:


25

"সীমাবদ্ধতা" বলতে কী বোঝাতে চাইছেন সে সম্পর্কে আপনাকে ভাবতে হবে। সীমাবদ্ধতা রয়েছে যেমন যেমন আপনি যখন কেসগুলির চেয়ে বেশি পূর্বাভাসক হন তখন আপনি প্যারামিটার অনুমানের ক্ষেত্রে বিষয়গুলিতে চলে যান (এই উত্তরের নীচে সামান্য আর সিমুলেশনটি দেখুন)।

তবে আমি কল্পনা করি আপনি পরিসংখ্যান শক্তি এবং ভাল পরিসংখ্যান চর্চা সম্পর্কিত নরম সীমা সম্পর্কে আরও কথা বলছেন। এক্ষেত্রে "সীমাবদ্ধতার" ভাষাটি যথাযথভাবে উপযুক্ত নয়। বরং, বৃহত্তর নমুনা আকারগুলি আরও ভবিষ্যদ্বাণীকারীদেরকে আরও যুক্তিসঙ্গত করে তোলে এবং কতটা ভবিষ্যদ্বাণী যুক্তিযুক্তভাবে যুক্তিসঙ্গত হয় তার প্রান্তিকতা যুক্তিযুক্ততার ধারাবাহিকতায় পড়ে। আপনি একাধিক রিগ্রেশন প্রাসঙ্গিক ক্ষেত্রে নমুনা আকারের জন্য থাম্বের বিধিগুলির আলোচনাটি প্রাসঙ্গিক হিসাবে দেখতে পারেন, যেমন থাম্বের অনেকগুলি নিয়মই ভবিষ্যদ্বাণীকারীদের সংখ্যার উল্লেখ করে make

কয়েকটি পয়েন্ট

  • যদি আপনি পৃথক ভবিষ্যদ্বাণীকারীদের পরিসংখ্যানগত তাত্পর্য বাদে সামগ্রিক পূর্বাভাসের সাথে আরও উদ্বিগ্ন হন তবে আপনি পৃথক ভবিষ্যদ্বাণীকারীদের পরিসংখ্যানগত তাত্পর্য নিয়ে উদ্বিগ্ন হয়ে যদি বেশি অনুমানকারীদের অন্তর্ভুক্ত করা যুক্তিসঙ্গত হয়।
  • আপনার গবেষণার প্রশ্নের সাথে সম্পর্কিত কোনও নির্দিষ্ট পরিসংখ্যানের মডেল পরীক্ষা করার বিষয়ে আপনি যদি উদ্বিগ্ন হন (যেমন, অনেকগুলি সামাজিক বিজ্ঞানের প্রয়োগে যেমন প্রচলিত) তবে সম্ভবত আপনার কাছে নির্দিষ্ট ভবিষ্যদ্বাণীকারীদের অন্তর্ভুক্ত করার কারণ রয়েছে। তবে, আপনি নির্বাচক হওয়ার সুযোগও পেতে পারেন যার মধ্যে আপনি ভবিষ্যদ্বাণীকারীদের অন্তর্ভুক্ত করেছেন (উদাহরণস্বরূপ, যদি আপনার একাধিক ভেরিয়েবল থাকে যা অনুরূপ নির্মাণকে পরিমাপ করে তবে আপনি কেবল তার মধ্যে একটি অন্তর্ভুক্ত করতে পারেন)। তত্ত্ব ভিত্তিক মডেল টেস্টিং করার সময়, অনেক পছন্দ আছে এবং ভবিষ্যদ্বাণীকারীদেরকে অন্তর্ভুক্ত করার বিষয়ে সিদ্ধান্তে আপনার তত্ত্ব এবং গবেষণা প্রশ্নের মধ্যে ঘনিষ্ঠ যোগাযোগ জড়িত।
  • আমি প্রায়শই দেখি না যে গবেষকরা রিফ্রেশন সহগের তাত্পর্যপূর্ণ পরীক্ষার জন্য বনফেরোনি সংশোধন ব্যবহার করছেন। এর একটি যুক্তিসঙ্গত কারণ হতে পারে যে গবেষকরা মডেলের সামগ্রিক বৈশিষ্ট্য মূল্যায়নে আগ্রহী।
  • আপনি যদি ভবিষ্যদ্বাণীকারীদের আপেক্ষিক গুরুত্ব মূল্যায়ন করতে আগ্রহী হন, তবে ভবিষ্যদ্বাণীকারী এবং ফলাফলের মধ্যে উভয় দ্বিপক্ষীয় সম্পর্ক এবং সেইসাথে ভবিষ্যদ্বাণীকারী এবং ফলাফল ভবিষ্যদ্বাণীকারীদের জন্য ফলাফল নিয়ন্ত্রণের মধ্যে সম্পর্ক উভয়ই পরীক্ষা করা আমার পক্ষে দরকারী। আপনি যদি অনেক পূর্বাভাসককে অন্তর্ভুক্ত করেন তবে প্রায়শই সম্ভবত আপনি এমন ভবিষ্যদ্বাণীকারীদের অন্তর্ভুক্ত হন যা অত্যন্ত আন্তঃসংযোগযুক্ত। এই ধরনের ক্ষেত্রে, দ্বিবিভক্ত এবং মডেল ভিত্তিক গুরুত্ব উভয় সূচকের ব্যাখ্যাই কার্যকর হতে পারে, যেমন একটি দ্বিবিভক্ত দৃষ্টিভঙ্গিতে একটি পরিবর্তনশীল গুরুত্বপূর্ণ অন্যান্য সম্পর্কিত তদন্তকারী ভবিষ্যদ্বাণী দ্বারা কোনও মডেলটিতে লুকিয়ে থাকতে পারে ( আমি এখানে লিঙ্কগুলির সাথে আরও বিস্তারিতভাবে বর্ণনা করি )।


একটু আর সিমুলেশন

আমি একাধিক রিগ্রেশন মধ্যে নমুনা আকার এবং পরামিতি অনুমান মধ্যে সম্পর্ক হাইলাইট করতে এই সামান্য সিমুলেশন লিখেছিলাম।

set.seed(1)

fitmodel <- function(n, k) {
  # n: sample size
  # k: number of predictors
  # return linear model fit for given sample size and k predictors
  x <- data.frame(matrix( rnorm(n*k), nrow=n))
  names(x) <- paste("x", seq(k), sep="")
  x$y <- rnorm(n)  
  lm(y~., data=x)
}

fitmodelফাংশন দুটি আর্গুমেন্ট লাগে nনমুনা আকার জন্য এবং kভবিষ্যতবক্তা সংখ্যার জন্য। আমি ভবিষ্যদ্বাণী হিসাবে ধ্রুবক গণনা করছি না, তবে এটি অনুমান করা হয়। আমি তখন এলোমেলো ডেটা উত্পন্ন করি এবং ভবিষ্যদ্বাণীকারী ভেরিয়েবলগুলি থেকে kঅ্যারে ভেরিয়েবলের পূর্বাভাস দেওয়ার জন্য একটি রিগ্রেশন মডেল ফিট করি এবং ফিটটি ফিরিয়ে আনি।

প্রদত্ত যে আপনি আপনার প্রশ্নে উল্লেখ করেছেন যে আপনি 10 টি ভবিষ্যদ্বাণীকারী খুব বেশি কিনা তা সম্পর্কে আগ্রহী ছিলেন, নীচের ফাংশন কলগুলি যখন নমুনার আকার যথাক্রমে 9, 10, 11 এবং 12 হয় তখন কী ঘটে তা দেখায়। অর্থাৎ, নমুনা আকারটি ভবিষ্যদ্বাণীকারীদের সংখ্যার চেয়ে এক থেকে কম এবং ভবিষ্যদ্বাণীকের সংখ্যার চেয়ে দু'টি বেশি

summary(fitmodel(n=9, k=10))
summary(fitmodel(n=10, k=10))
summary(fitmodel(n=11, k=10))
summary(fitmodel(n=12, k=10))

> সংক্ষিপ্তসার (ফিট মডেল (n = 9, কে = 10))

Call:
lm(formula = y ~ ., data = x)

Residuals:
ALL 9 residuals are 0: no residual degrees of freedom!

Coefficients: (2 not defined because of singularities)
            Estimate Std. Error t value Pr(>|t|)
(Intercept) -0.31455         NA      NA       NA
x1           0.34139         NA      NA       NA
x2          -0.45924         NA      NA       NA
x3           0.42474         NA      NA       NA
x4          -0.87727         NA      NA       NA
x5          -0.07884         NA      NA       NA
x6          -0.03900         NA      NA       NA
x7           1.08482         NA      NA       NA
x8           0.62890         NA      NA       NA
x9                NA         NA      NA       NA
x10               NA         NA      NA       NA

Residual standard error: NaN on 0 degrees of freedom
Multiple R-squared:     1,  Adjusted R-squared:   NaN 
F-statistic:   NaN on 8 and 0 DF,  p-value: NA 

পূর্বাভাসকারীদের সংখ্যার তুলনায় নমুনা আকার একটি কম। 9 টি পরামিতি অনুমান করা সম্ভব, যার মধ্যে একটি ধ্রুবক।

> সংক্ষিপ্তসার (ফিট মডেল (এন = 10, কে = 10))

Call:
lm(formula = y ~ ., data = x)

Residuals:
ALL 10 residuals are 0: no residual degrees of freedom!

Coefficients: (1 not defined because of singularities)
            Estimate Std. Error t value Pr(>|t|)
(Intercept)   0.1724         NA      NA       NA
x1           -0.3615         NA      NA       NA
x2           -0.4670         NA      NA       NA
x3           -0.6883         NA      NA       NA
x4           -0.1744         NA      NA       NA
x5           -1.0331         NA      NA       NA
x6            0.3886         NA      NA       NA
x7           -0.9886         NA      NA       NA
x8            0.2778         NA      NA       NA
x9            0.4616         NA      NA       NA
x10               NA         NA      NA       NA

Residual standard error: NaN on 0 degrees of freedom
Multiple R-squared:     1,  Adjusted R-squared:   NaN 
F-statistic:   NaN on 9 and 0 DF,  p-value: NA 

নমুনা আকার ভবিষ্যদ্বাণীকারীদের সংখ্যার সমান। কেবলমাত্র 10 টি পরামিতি অনুমান করা সম্ভব, যার মধ্যে একটি ধ্রুবক।

> সংক্ষিপ্তসার (ফিট মডেল (এন = 11, কে = 10))

Call:
lm(formula = y ~ ., data = x)

Residuals:
ALL 11 residuals are 0: no residual degrees of freedom!

Coefficients:
            Estimate Std. Error t value Pr(>|t|)
(Intercept)  -0.9638         NA      NA       NA
x1           -0.8393         NA      NA       NA
x2           -1.5061         NA      NA       NA
x3           -0.4917         NA      NA       NA
x4            0.3251         NA      NA       NA
x5            4.4212         NA      NA       NA
x6            0.7614         NA      NA       NA
x7           -0.4195         NA      NA       NA
x8            0.2142         NA      NA       NA
x9           -0.9264         NA      NA       NA
x10          -1.2286         NA      NA       NA

Residual standard error: NaN on 0 degrees of freedom
Multiple R-squared:     1,  Adjusted R-squared:   NaN 
F-statistic:   NaN on 10 and 0 DF,  p-value: NA 

পূর্বাভাসকারীদের সংখ্যার চেয়ে নমুনা আকার আরও একটি। ধ্রুবক সহ সমস্ত পরামিতি অনুমান করা হয়।

> সংক্ষিপ্তসার (ফিট মডেল (n = 12, কে = 10))

Call:
lm(formula = y ~ ., data = x)

Residuals:
        1         2         3         4         5         6         7         8         9        10        11 
 0.036530 -0.042154 -0.009044 -0.117590  0.171923 -0.007976  0.050542 -0.011462  0.010270  0.000914 -0.083533 
       12 
 0.001581 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)  
(Intercept)  0.14680    0.11180   1.313   0.4144  
x1           0.02498    0.09832   0.254   0.8416  
x2           1.01950    0.13602   7.495   0.0844 .
x3          -1.76290    0.26094  -6.756   0.0936 .
x4           0.44832    0.16283   2.753   0.2218  
x5          -0.76818    0.15651  -4.908   0.1280  
x6          -0.33209    0.18554  -1.790   0.3244  
x7           1.62276    0.21562   7.526   0.0841 .
x8          -0.47561    0.18468  -2.575   0.2358  
x9           1.70578    0.31547   5.407   0.1164  
x10          3.25415    0.46447   7.006   0.0903 .
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 0.2375 on 1 degrees of freedom
Multiple R-squared: 0.995,  Adjusted R-squared: 0.9452 
F-statistic: 19.96 on 10 and 1 DF,  p-value: 0.1726 

নমুনা আকারটি ভবিষ্যদ্বাণীকারীদের সংখ্যার চেয়ে দু'টি বেশি এবং অবশেষে সামগ্রিক মডেলের ফিটের অনুমান করা সম্ভব।


কেউ দয়া করে ব্যাখ্যা করতে পারেন কেন প্রথম দৃশ্যে স্ট্যান্ডার্ড ত্রুটিগুলি (এন = 9, কে = 10) এন এ? আমার কাছে স্ট্যান্ডার্ড ত্রুটির সূত্র রয়েছে, তবে আমাদের এনএর জন্য ডিনোমিনেটর 0 হবে তা দেখুন না।
matsuo_basho

12

আমি প্রায়শই এটির নির্দিষ্ট দৃষ্টিকোণ থেকে লক্ষ্য করি যে নির্দিষ্ট সংখ্যক পরামিতিগুলির সাথে সজ্জিত কোনও মডেল আউট-অফ-স্যাম্পল পূর্বাভাস প্রদান করতে পারে যা মূল মডেল বিকাশের নমুনায় করা ভবিষ্যদ্বাণীগুলির মতোই নির্ভুল। ক্যালিগ্রেশন কার্ভস, এক্স * বিটার অর্থের স্কোয়ার ত্রুটি এবং ভবিষ্যদ্বাণীমূলক বৈষম্যের সূচকগুলি সাধারণত ব্যবহৃত ব্যবস্থাগুলি। এখানেই থাম্বের কিছু বিধি আসে যেমন 15: 1 বিধি (পরীক্ষামূলক বা অনুমান অনুসারে 15 টির একটি কার্যকর নমুনা আকার)।

গুণটির বিষয়ে, মডেল ধরে রাখার এবং বন্টনমূলক অনুমানগুলি পূরণ হয়েছে বলে ধরে নিয়ে বহুবৃত্তির জন্য একটি নিখুঁত সমন্বয় হ'ল বিশ্বব্যাপী পরীক্ষাটি হ'ল সমস্ত বিটা (ইন্টারসেপ্ট ব্যতীত) শূন্য। এটি সাধারণত সম্ভাবনা অনুপাত বা একটি এফ পরীক্ষা ব্যবহার করে পরীক্ষা করা হয়।

মডেল বিকাশের জন্য দুটি সামগ্রিক পন্থা রয়েছে যা ভালভাবে কাজ করার প্রবণতা রয়েছে। (১) পর্যাপ্ত নমুনার আকার থাকতে হবে এবং পুরো পূর্বনির্ধারিত মডেলটিকে ফিট করে এবং (২) বর্তমান স্যাম্পেল আকারটি সমর্থন করবে বলে রিগ্রেশনটিতে কেবলমাত্র স্বাধীনতার কার্যকর ডিগ্রিগুলিকে অনুমতি দেওয়ার জন্য শাস্তিযুক্ত সর্বোচ্চ সম্ভাবনার অনুমান ব্যবহার করা হয়েছে used [জরিমানা ছাড়াই ধাপে ধাপে পরিবর্তনশীল নির্বাচনের কোনও ভূমিকা রাখা উচিত নয়, কারণ এটি কাজ করে না বলে জানা যায়।]


সত্যিকারের রিগ্রেশন সহগের আকার এবং ত্রুটির প্রকরণের আকার সম্পর্কে অনুমানের উপর ভিত্তি করে কি থাম্বগুলির সেই নিয়মগুলি রয়েছে? আমি কি এই ভেবে সঠিক হতে পারি যে যদি ত্রুটির বৈকল্পিকতা খুব কম হিসাবে পরিচিত হত তবে প্যারামিটারগুলিতে ডেটা পয়েন্টের একটি খুব ছোট অনুপাত গ্রহণযোগ্য হবে?
999

1
এটি একটি দুর্দান্ত বিষয় যা আমি উল্লেখ করতে অবহেলা করেছি। 15: 1 নিয়মটি সংকেতগুলির প্রকারের জন্য: বায়োমেডিকাল এবং সামাজিক বিজ্ঞানে দেখা যায় শব্দ অনুপাত। আপনার যখন কম অবশিষ্টাংশ রয়েছে, আপনি আরও অনেকগুলি পরামিতি নির্ভুলভাবে অনুমান করতে পারেন।
ফ্রাঙ্ক হ্যারেল

10

এনপিমিপিমিমিএনপি

1মিকেপিσ1/লগ(পি)σ1এক্সσ1পি


6

নীতিগতভাবে, আপনি কত ভবিষ্যদ্বাণী করতে পারেন তার কোনও সীমা নেই। আপনি নীতিগতভাবে 2 বিলিয়ন "বিটা" অনুমান করতে পারেন। তবে বাস্তবে যা ঘটে তা হ'ল পর্যাপ্ত তথ্য বা পর্যাপ্ত পূর্বের তথ্য ব্যতীত, এটি খুব ফলপ্রসূ অনুশীলন প্রমাণিত করবে না। কোনও নির্দিষ্ট পরামিতি খুব ভাল নির্ধারণ করা হবে না, এবং বিশ্লেষণ থেকে আপনি খুব বেশি শিখবেন না।

এখন আপনার কাছে যদি আপনার মডেল (মডেল স্ট্রাকচার, প্যারামিটার মান, গোলমাল ইত্যাদি) সম্পর্কে প্রচুর পূর্বের তথ্য না থাকে তবে আপনার এই তথ্য সরবরাহ করার জন্য ডেটা প্রয়োজন। এটি সাধারণত সর্বাধিক সাধারণ পরিস্থিতি, যার অর্থ উপলব্ধি হয়, কারণ আপনি ইতিমধ্যে বেশ ভালভাবে জানেন এমন কিছু সম্পর্কে আপনার সাধারণত তথ্য সংগ্রহের (এবং spend ব্যয় করা) বেশ ভাল কারণের প্রয়োজন হয়। যদি এটি আপনার পরিস্থিতি হয় তবে প্যারামিটারে একটি সংখ্যক পর্যবেক্ষণ থাকা যুক্তিসঙ্গত সীমা। আপনার কাছে 12 টি প্যারামিটার রয়েছে (10 টি slাল বিটা, 1 টি ইন্টারসেপ্ট এবং একটি শব্দ প্যারামিটার), সুতরাং 100 টিরও বেশি পর্যবেক্ষণ আপনার প্যারামিটারগুলি ভালভাবে নির্ধারণ করতে সক্ষম হবে যাতে কিছু সিদ্ধান্তে নেওয়ার পক্ষে সক্ষম হয়।

তবে কোনও "কঠোর এবং দ্রুত" নিয়ম নেই। শুধুমাত্র 10 ভবিষ্যদ্বাণী নিয়ে আপনার গণনার সময় নিয়ে কোনও সমস্যা হওয়া উচিত নয় (আপনি যদি করেন তবে আরও ভাল কম্পিউটার পান)। এর অর্থ প্রধানত কেবল আরও কাজ করা, কারণ আপনার কাছে 11 টি মাত্রা ডেটা শোষণ করার জন্য রয়েছে - যা ডেটা ভিজ্যুয়ালাইজ করা কঠিন করে তোলে। কেবলমাত্র 1 নির্ভরশীল ভেরিয়েবলের সাথে পেনশন থেকে প্রাপ্ত মূল নীতিগুলি সত্যই আলাদা নয়।

বনফেরোনি সংশোধনের সমস্যাটি হ'ল অতিরিক্ত শক্তি ত্যাগ না করে আপনার তাত্পর্য স্তরটি সামঞ্জস্য করার যুক্তিসঙ্গত উপায় হওয়ার জন্য, আপনাকে স্বাধীন হওয়ার জন্য যে হাইপোথিসিসটি সংশোধন করছেন তা আপনার প্রয়োজন (অর্থাত একটি হাইপোথিসিসটি সত্য যেটি শিখার ফলে আপনাকে কিছুই বলা যায় না) অন্য অনুমানটি সত্য)। এটি সহ-দক্ষতার শূন্যের জন্য একাধিক রিগ্রেশন স্ট্যান্ডার্ড "টি-টেস্ট" এর ক্ষেত্রে সত্য নয় for পরীক্ষার পরিসংখ্যান মডেলটিতে আরও কিসের উপর নির্ভর করে - যা অনুমান নির্ভর বলে নির্ভর করার একটি চক্রাকার উপায়। অথবা, এটি বলার আরও ঘন ঘন উপায় এটি হ'ল আইথ প্রেডিক্টর টি-মান শর্তযুক্তের নমুনা বিতরণ শূন্য হওয়ার সাথে সাথে অন্যান্য পরামিতিগুলি শূন্যের উপর নির্ভর করে। সুতরাং এখানে বনফেরনি সংশোধন ব্যবহার করা আসলে আপনাকে একটি "সামগ্রিক" কম দিচ্ছে

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.