এমন কোনও পরিস্থিতি রয়েছে যেখানে ধাপে ধাপে রিগ্রেশন ব্যবহার করা উচিত?


13

অতীতে বহু বায়োমেডিকাল কাগজপত্রে স্টেপওয়াইজ রিগ্রেশনকে অতিরিক্ত ব্যবহার করা হয়েছিল তবে এটি এর বিভিন্ন বিষয়গুলির আরও ভাল শিক্ষার সাথে উন্নত হবে বলে মনে হয়। অনেক পুরানো পর্যালোচক অবশ্য এখনও এটি চেয়েছেন। পদক্ষেপের প্রতিরোধের একটি ভূমিকা আছে এবং যদি তা ব্যবহার করা উচিত তবে কী কী পরিস্থিতিতে আছে ?


6
আমি প্রায়শই ক্লাসগুলি পড়ানোর সময় এটি ব্যবহার করি না এমন ধারণাটি চিত্রিত করার জন্য এটি ব্যবহার করি।
গুং - মনিকা পুনরায়

1
(+1) ধন্যবাদ @ গ্যাং আমি কোনও পরিসংখ্যানবিদ নই এবং এটি সঠিক বলে আমি জানলেও এটিকে রক্ষা করতে অসুবিধা হয়েছে। আমি এটি বিশেষত কঠিন বলে মনে করি কারণ 1) এটি খুব ভাল এবং প্রায়শই উদ্ধৃত পোস্টটি খুব কেবল বিশদ বিবরণে যায় না এবং .... (সিটিডি)
ববমকপপ

2
(সিটিডি) এবং ২) পদক্ষেপের সমালোচকরা প্রায়শই বিপুল সংখ্যক ভেরিয়েবল বা ডেটা মাইনিং থেকে বাছাই করার জন্য এমনটি মনে করেন। বায়োমেডিকাল বিশ্বে, নমুনা আকারের গণনাগুলি প্রায়শই প্রত্যাশিত কোভারিয়েটগুলির সংখ্যা বিবেচনা করে, যাতে সম্পূর্ণ মডেলগুলি কখনই শুরু হয় না যে বড় হয় এবং প্রতিটি ভ্যারামের ইতিমধ্যে কিছু পূর্ববর্তী "জৈবিক" কারণ অন্তর্ভুক্ত থাকে। আপনি কি মনে করেন যে এই পরিস্থিতিতে পদক্ষেপটি সমানভাবে ব্যবহার করা উচিত নয়?
bobmcpop

3
বায়োমেডিকাল গবেষণার জন্য আমি পরিসংখ্যান সংক্রান্ত পরামর্শ করি। আমি ধাপে ধাপে ব্যবহার করি না। আমার কাছে অনেক লোক জিজ্ঞাসা করেনি (তারা ধরে নিতে পারে যে এটি কেবল তাদের প্রকল্পে সহায়তা করবে যদি আমি এটি ব্যবহার করব) তবে লোকেরা জিজ্ঞাসা করলে আমি তাদের বলি যে এটি অবৈধ এবং কেন এটি সম্পর্কে কথা বলুন।
গুং - মনিকা পুনরায়

উত্তর:


11

আমি পরিস্থিতি সম্পর্কে অবগত নই, যার পদক্ষেপে প্রতিরোধই পছন্দসই পদ্ধতি হবে। সাথে অত্যন্ত বড় ডেটাসেটগুলিতে পুরো স্টেপওয়াইজ প্রক্রিয়াটির বুটস্ট্র্যাপিং সহ এটি ঠিকঠাক (বিশেষত এর স্টেপ-ডাউন সংস্করণে পুরো মডেল থেকে শুরু হওয়া) হতে পারে । এখানে একটি অবিচ্ছিন্ন ফলাফলে পর্যবেক্ষণের সংখ্যা (বা বেঁচে থাকার বিশ্লেষণে কোনও ইভেন্ট সহ রেকর্ডের সংখ্যা) হ'ল সমস্ত বিবেচিত ইন্টারঅ্যাকশন সহ প্রার্থী পূর্বাভাসীর সংখ্যা - অর্থাত্ যখন কোনও ছোট প্রভাবও খুব স্পষ্ট হয়ে যায় এবং এটি এতটা গুরুত্বপূর্ণ হয় না অনেক আপনার কি কিভাবে আপনার মডেল ভবন (যে অর্থ দাঁড়ায় এই যে চেয়ে অনেক বড় হবে অনেক বেশি 20 কখনও কখনও উদ্ধৃত ফ্যাক্টর চেয়ে তুলনায়)।এন পি এন পিn>>pnpnp

অবশ্যই বেশিরভাগ লোকেরা ধাপে ধাপে রিগ্রেশন জাতীয় কিছু করার প্রলোভন দেখানোর কারণ,

  1. কারণ এটি গণনাগতভাবে নিবিড় নয় (যদি আপনি সঠিক বুটস্ট্র্যাপিং না করেন তবে আপনার ফলাফলগুলি বেশ বিশ্বাসযোগ্য নয়),
  2. কারণ এটি ক্লিয়ার কাট সরবরাহ করে "মডেলটিতে" বনাম "মডেলটিতে নেই" স্টেটমেন্টগুলি (যা স্ট্যান্ডওয়াইজ স্ট্যান্ডওয়াইজ রিগ্রেশনে খুব বিশ্বাসযোগ্য নয়; এমন কিছু যা যথাযথ বুটস্ট্র্যাপিং সাধারণত পরিষ্কার করে দেয় যাতে এই বিবৃতিগুলি সাধারণত এত পরিষ্কার হয় না) এবং
  3. কারণ প্রায়শই ছোট হয়, কাছাকাছি বা চেয়ে কিছুটা বড় ।পিnp

যেমন স্টেপওয়াইজ রিগ্রেশন জাতীয় পদ্ধতি (যদি এটিতে ভাল অপারেটিং বৈশিষ্ট্য থাকে) সেই পরিস্থিতিতে বিশেষত আকর্ষণীয় হতে পারে, যখন এটিতে ভাল অপারেটিং বৈশিষ্ট্য নেই।


3
(+1) এছাড়াও ধাপে ধাপে সম্পর্কিত এবং সম্পর্কিত পদ্ধতিগুলি সুই-ইন-এ-হাইস্ট্যাক পরিস্থিতিতে ভবিষ্যদ্বাণীপূর্ণ মডেলগুলির জন্য উপযুক্ত হতে পারে, যখন প্রচুর সহগ খুব তুচ্ছ হয় এবং ত্রুটির বৈকল্পের তুলনায় কয়েকটি বড় আপেক্ষিক। তিবশিরানী (১৯৯ 1996) এর উদাহরণ See দেখুন , লাসো , জেআরএসএস বি , ৫৮ , ১ এর মাধ্যমে রিগ্রেশন সংকোচন এবং নির্বাচন - যদিও এখানে নন-নেগেটিভ গারোট জেতা।
স্কর্চচি - মনিকা পুনরায় ইনস্টল করুন

3
আমি শেষ অনুচ্ছেদে বেশ বুঝতে পারি না। সম্ভবত এটি পুনরায় সংশোধন করা যেতে পারে? এছাড়াও, 3 সম্পর্কে কি: আমি একটি সরাসরি যুক্তি দেখতে পাচ্ছি না, সম্ভবত কিছু অনুমান করা সহজ হতে পারে বলে মনে করা হচ্ছে?
রিচার্ড হার্ডি

1
শেষ অনুচ্ছেদে এবং (3) স্পষ্ট করার জন্য: লোকেরা (3) এর কারণে পদক্ষেপের ব্যবহার করে (যেমন এমন পরিস্থিতি এড়ানোর জন্য যেখানে পুরো মডেলটি ফিট করা কঠিন বা দিকে নিয়ে যায় ) তবে ঠিক যখন এটি একটি ভয়ানক পদ্ধতি হতে চলেছে that's । তারা এটি ব্যবহার করে, কারণ এটি গণনাগতভাবে নিবিড় নয়, তবে কার্যকর কিছু পাওয়ার জন্য আপনাকে বিস্তৃত বুটস্ট্র্যাপিং করতে হবে (যাতে এটি সত্যিই কোনও সুবিধাও নয়)। এবং তারা এটি ব্যবহার করে, কারণ এটি স্পষ্ট ব্যাখ্যা দেবে বলে মনে হয়, তবে যদি সঠিকভাবে করা হয় তবে এটি এতটা পরিষ্কার নয় এবং আপনি দেখতে পাচ্ছেন যে সেখানে কতটা মডেল অনিশ্চয়তা রয়েছে (স্পষ্ট ব্যাখ্যা - একটি বিভ্রম)। pn
Björn

11

পদক্ষেপের ভিত্তিতে রিগ্রেশন দেখার ক্ষেত্রে আমি দুটি আপত্তি জানব না

  1. অনুসন্ধানের তথ্য বিশ্লেষণ
  2. ভবিষ্যদ্বাণীপূর্ণ মডেল

এই উভয় অত্যন্ত গুরুত্বপূর্ণ ব্যবহারের ক্ষেত্রে, আপনি traditionalতিহ্যগত পরিসংখ্যানগত অনুক্রম সম্পর্কে এতটা উদ্বিগ্ন নন, সুতরাং পি-মান ইত্যাদির পক্ষে আর বৈধ হওয়ার বিষয়টি খুব চিন্তার বিষয় নয়।

উদাহরণস্বরূপ, যদি কোনও গবেষণা পত্র বলেছিল "আমাদের পরীক্ষামূলক গবেষণায় আমরা 1000 টির মধ্যে 3 টি আকর্ষণীয় ভেরিয়েবল সন্ধানের জন্য পদক্ষেপ অনুসারে রিগ্রেশন ব্যবহার করেছি। নতুন ডেটা সহ একটি ফলো-আপ সমীক্ষায় আমরা দেখিয়েছি যে এই 3 টি আকর্ষণীয় ভেরিয়েবলগুলি দৃ with়তার সাথে সম্পর্কযুক্ত ছিল আগ্রহের ফলাফল ", পদক্ষেপ অনুসারে রিগ্রেশন ব্যবহারে আমার কোনও সমস্যা হবে না। একইভাবে, "আমরা ভবিষ্যদ্বাণীমূলক মডেল তৈরি করতে পদক্ষেপ অনুসারে রিগ্রেশন ব্যবহার করেছি। এমএসই সম্পর্কিত আমাদের হোল্ড-আউট ডেটাতে এই আউট-প্রিফর্মড বিকল্প মডেল এক্স" আমার কাছেও পুরোপুরি ঠিক আছে।

স্পষ্টতই, আমি বলছি না যে এই সমস্যাগুলির কাছে যাওয়ার জন্য ধাপে ধাপে রিগ্রেশনই সেরা উপায়। তবে এটি সহজ এবং আপনাকে সন্তোষজনক সমাধান দিতে পারে।

সম্পাদনা করুন:

মন্তব্যে, পদক্ষেপের এআইসি আসলে ভবিষ্যদ্বাণী করার জন্য কার্যকর হতে পারে কিনা তা নিয়ে একটি প্রশ্ন রয়েছে। এখানে এমন একটি সিমুলেশন রয়েছে যা দেখায় যে এটি সমস্ত কোভারিয়েটগুলির সাথে লিনিয়ার রিগ্রেশন, এবং ক্রস-বৈধকরণের দ্বারা নির্বাচিত জরিমানার সাথে প্রায় স্থিতিস্থাপক জালের তুলনায় অনেক ভাল করছে।

আমি এই সিমুলেশনটিকে আলোচনার শেষ হিসাবে গ্রহণ করব না; ধাপে ধাপে ধাপে ধাপে এআইসি আরও খারাপ হতে পারে এমন একটি দৃশ্য নিয়ে আসা খুব কঠিন নয়। তবে এটি সত্যিই অযৌক্তিক পরিস্থিতি নয়, এবং ঠিক সেই ধরণের পরিস্থিতি যেমন ইলাস্টিক নেটগুলি তৈরি করা হয়েছে (খুব কম বড় প্রভাব সহ কোভারিয়েটের উচ্চ সম্পর্কের)!

library(leaps)
library(glmnet)
nRows <- 1000
nCols <- 500

# Seed set For reproducibility. 
# Try changing for investigation of reliability of results
set.seed(1)

# Creating heavily correlated covariates
x_firstHalf  <- matrix(rnorm(nRows * nCols / 2), nrow = nRows)
x_secondHalf <- x_firstHalf + 0.5 * 
                matrix(rnorm(nRows * nCols / 2), nrow = nRows) 
x_mat        <- cbind(x_firstHalf, x_secondHalf) + rnorm(nRows)

# Creating beta's. Most will be of very small magnitude
p_large = 0.01
betas <- rnorm(nCols, sd = 0.01) + 
         rnorm(nCols, sd = 4) * rbinom(nCols, size = 1, prob = p_large)
y     <- x_mat %*% betas + rnorm(nRows, sd = 4)

all_data           <- data.frame(y, x_mat)
colnames(all_data) <- c('y', paste('x', 1:nCols, sep = '_'))

# Holding out 25% of data for validation
holdout_index <- 1:(nRows * .25) 
train_data    <- all_data[-holdout_index, ]
validate_data <- all_data[holdout_index, ]

mean_fit <- lm(y ~ 0, data = train_data)
full_fit <- lm(y ~ ., data = train_data)
step_fit <- step(mean_fit, 
                 scope = list(lower = mean_fit, upper = full_fit), 
                 direction = "forward", steps = 20, trace = 0)

glmnet_cvRes <- cv.glmnet(x = as.matrix(train_data[,-1]), 
                          y = as.numeric(train_data$y)   )

full_pred   <- predict(full_fit, validate_data)
step_pred   <- predict(step_fit, validate_data)
glmnet_pred <- predict(glmnet_cvRes, as.matrix(validate_data[,-1]), s='lambda.min')

sd(full_pred - validate_data$y)    # [1] 6.426117
sd(step_pred - validate_data$y)    # [1] 4.233672
sd(glmnet_pred - validate_data$y)  # [1] 4.127171
# Note that stepwise AIC does considerably better than using all covariates 
# in linear regression, and not that much worse than penalized methods
# with cross validation!!

সাইড নোট:

আমি অনেক, বহু কারণে ধাপে ধাপে ধাপে ধাপের ভক্ত নই, সুতরাং এর প্রতিরক্ষায় এই অবস্থান নিয়ে আমি কিছুটা বিশ্রী বোধ করি। তবে আমি কেবল এটি সম্পর্কে আমার ঠিক কী পছন্দ নয় তা সম্পর্কে সুনির্দিষ্ট হওয়া গুরুত্বপূর্ণ বলে মনে করি।


2
এ দুটি ইঙ্গিত ব্যতীত (বায়োমেড সাহিত্যে) অন্যান্য কোন দৃশ্যে সাধারণত ব্যবহৃত হয়? আমি কেবল ভবিষ্যদ্বাণীপূর্ণ মডেলগুলির জন্য এর ব্যবহার জুড়ে এসেছি, তবুও এটি উদাহরণস্বরূপ বলা হয় না ।
ববমকপপ

5
@ ববমকপপ: বড় সমস্যা হ'ল পি-ভ্যালু, আত্মবিশ্বাসের ব্যবধানগুলি ধাপে ধাপে ধাপে ধাপে ধাপে ধাপে ধাপে ধাপে ধাপে ধাপে ধাপে ধাপে ধাপে ধাপে ধাপে ধাপে ধাপে ধাপে ধাপে ধাপে নামানোর পরে এবং আপনি যে কাগজে উদ্ধৃত করেছেন তাতে উল্লেখ করা হয়েছে। কেবলমাত্র পূর্বাভাসের জন্য ব্যবহৃত মডেলগুলি (কেবলমাত্র ভবিষ্যদ্বাণীকারীদের সাথে মডেলগুলি নয়) সাধারণত পি-মানগুলির বিষয়ে চিন্তা করে না, বরং কেবলমাত্র নমুনার বাইরে থাকা ত্রুটিটি কীভাবে হ্রাস পায় তা ঠিক নয়।
ক্লিফ এ বি

1
@ জর্জান: ঠিক আছে, যেমনটি আমি শেষে বলেছি, আমি মনে করি না যে এটি সাধারণত কোনওভাবেই করার জন্য সেরা পদ্ধতি method কিন্তু এটা অবৈধ নয়, আর আপনি পারে যুক্তিসংগত ফলাফল দিয়ে শেষ। যেমনটি, এটির শক্তিটি এটি ব্যবহার করা সত্যিই কত সহজ: আপনার যদি এমন কোনও মডেল থাকে যা কোভারিয়েট নেয় এবং সম্ভাবনা ফেরত দেয় তবে আপনি পদক্ষেপ অনুসারে এআইসি করতে পারেন। লাসোর মতো কিছু দিয়ে আপনি আরও ভাল করতে সক্ষম হতে পারেন ... তবে এটি কোনও অভিনব মডেল বা আপনি এক্সেল ব্যবহার করছেন তা নাও পারেন।
ক্লিফ এবি

4
(+1) আমি বলেছি যে গ্ল্যামনেটটি এই ধরণের পরিস্থিতিটি অন্যদের মধ্যে নিয়ে যাওয়ার জন্য তৈরি করা হয়েছিল (যা মনে হয়); সংকোচন ছাড়াই পূর্বাভাসকারী নির্বাচনের পদ্ধতিগুলি বিশেষত এটির সাথে সংযুক্ত। কয়েকটি বড় এবং অনেক ক্ষুদ্রের চেয়ে "টেপারিং এফেক্টস" থাকলে পদ্ধতির তুলনা করা আকর্ষণীয় হতে পারে।
স্কোর্টচি - মনিকা পুনরায় ইনস্টল করুন

2
আমি আপনার কোডটি সহজেই পড়তে ও কোনও কোড ফাইল বা কনসোলে অনুলিপি-আটকানো সহজ করার জন্য সম্পাদনা করেছি। আশা করি তুমি পছন্দ করেছ. আপনি যদি তা না করেন তবে ডাব্লু / আমার ক্ষমা প্রার্থনা করুন back
গুং - মনিকা পুনরায়
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.