অবশিষ্টাংশের আকার দ্বারা সেট করা কোনও ডেটা স্ট্র্যাটিফাই করা এবং দ্বি-নমুনা তুলনা করা কি আদৌ Defensable?


16

এটি এমন একটি বিষয় যা আমি অ্যাড-হক পদ্ধতি অনুসারে সম্পন্ন করে দেখছি এবং এটি আমার কাছে খুব মশলাদার মনে হলেও সম্ভবত আমি কিছু মিস করছি। আমি একাধিক প্রতিরোধের মধ্যে এটি দেখেছি কিন্তু আসুন এটি সহজ রাখি:

yi=β0+β1xi+εi

এখন লাগানো মডেল থেকে বাকী অংশ নিন

ei=yi(β^0+β^1xi)

এবং অবশিষ্টাংশের আকারের উপর ভিত্তি করে নমুনাটি সরীকরণ করুন। উদাহরণ হিসেবে বলা যায়, বলে প্রথম নমুনা অবশিষ্টাংশ নীচে 90% এবং দ্বিতীয় নমুনা শীর্ষ 10% হয়, তাহলে দুই নমুনা তুলনা করতে এগিয়ে - আমি এই মডেল, predictor উভয়েই কাজ দেখা করেছি , এবং মডেল নয় ভেরিয়েবল উপর। ব্যবহৃত অনানুষ্ঠানিক যুক্তিটি হ'ল সম্ভবত যে পয়েন্টগুলির মানগুলি মডেলের অধীনে আপনি আশা করতে চান তার চেয়ে অনেক বেশি (অর্থাত্ একটি বৃহত্তর অবশিষ্টাংশ) কোনওভাবে ভিন্ন, এবং এই পার্থক্যটি এইভাবে তদন্ত করা হয়।x

বিষয় সম্পর্কে আমার মতামতগুলি হ'ল:

  • আপনি যদি মডেলটিতে কোনও ভবিষ্যদ্বাণীকারীর উপর 2-নমুনা পার্থক্য দেখতে পান, তবে তার বর্তমান অবস্থায় মডেলটির দ্বারা দায়বদ্ধ না হওয়া এর প্রভাবগুলি রয়েছে (যেমন নন-লিনিয়ার প্রভাব)।
  • আপনি যদি মডেলটিতে না হয়ে একটি চলকটিতে 2-নমুনা পার্থক্য দেখেন, তবে সম্ভবত এটি প্রথম স্থানে মডেলটিতে থাকা উচিত ছিল।

একটি জিনিস যা আমি অভিজ্ঞতার সাথে খুঁজে পেয়েছি (সিমুলেশনগুলির মাধ্যমে) তা হ'ল, আপনি যদি মডেল পূর্বাভাসকারী এর গড়ের সাথে তুলনা করেন এবং এইভাবে দুটি নমুনা অর্থ উত্পাদন করতে, ti x 1 এবং ¯ x 2 , তারা হ'ল ইতিবাচক একে অপরের সাথে সম্পর্কযুক্ত। এই জ্ঞান করে তোলে যেহেতু উভয় নমুনা উপর নির্ভর করে ¯ Y , ¯ এক্স , σ এক্স , σ Y এবং ρ এক্স Yxx¯1x¯2y¯,x¯,σ^x,σ^yρ^xy। আপনি কাটাওফটিকে নীচে নামানোর সাথে সাথে এই পারস্পরিক সম্পর্ক বৃদ্ধি পেয়েছে (যেমন আপনি যে নমুনাটি ভাগ করার জন্য ব্যবহার করছেন%)। সুতরাং খুব কমপক্ষে, আপনি যদি দুটি-নমুনা তুলনা করতে যাচ্ছেন স্ট্যাটাস্টিকের ডিনোমিনেটরে স্ট্যান্ডার্ড ত্রুটিটিকে পারস্পরিক সম্পর্কের জন্য অ্যাকাউন্টের সাথে সামঞ্জস্য করা দরকার (যদিও আমি এর জন্য একটি সুস্পষ্ট সূত্র তৈরি করি নি) সহভেদাংক)।t

যাইহোক, আমার মূল প্রশ্নটি: এটি করার কোনও যুক্তি আছে কি? যদি তা হয় তবে কোন পরিস্থিতিতে এটি দরকারী জিনিস হতে পারে? স্পষ্টতই আমি মনে করি না যে আছে তবে এমন কিছু আছে যা আমি সঠিক উপায়ে ভাবছি না।


দুটি নমুনা তুলনা কি একই ব্যবহার করে IV? যদি তা হয় তবে আমি এর বিন্দুটি দেখতে পাচ্ছি না কারণ অবশিষ্টাংশগুলি ইতিমধ্যে সেই তথ্যটি ব্যবহার করছে। আপনি যেখানে এটি দেখেছেন তার উদাহরণ দিতে পারেন, এটি আমার কাছে নতুন?
মিশেল

1
হ্যাঁ, সম্ভবত একটি এটি হ'ল এটি আপনার ডায়ালগনস্টিক হিসাবে ব্যবহার করা যেতে পারে যা আপনার কাছে মডেল ভুল বানান রয়েছে কিনা তা দেখার জন্য - আপনি কী মনে করেন?
ম্যাক্রো

3
উপরের মন্তব্যগুলির পরামর্শ অনুসারে সমস্যাযুক্ত পয়েন্টগুলি সনাক্তকরণ বা অ-লিনিয়ার প্রভাবগুলি অনুপস্থিত সনাক্তকরণের জন্য ডায়াগনস্টিক সরঞ্জাম হিসাবে এটি করার ব্যতীত আমি আর কিছুই দেখতে পাচ্ছি না। আমি মনে করি ওপিতে দুটি বিন্দু ("বিষয় সম্পর্কে চিন্তা ...") বেশ সুন্দর sound
পিটার এলিস

1
এই কৌশলটি লোহ এবং তার সহ-লেখকরা তার গাছের অ্যালগোরিদমস সাপোর্টে বিভক্ত পরিবর্তনগুলি নির্ধারণের জন্য ব্যবহার করেন এবং, আমি মনে করি, গাইড। যেহেতু ডেটা সেটটি সেভাবে বিভাজন হয়ে যায়, তাই এটি একটি ননলাইনার প্রভাব (একটি ধাপে ধাপে ফাংশন দ্বারা প্রক্সিত) সন্ধান করার জন্য এবং কোনও ভেরিয়েবলটি সত্যই ভুলে গিয়েছিল কিনা তা নির্ধারণের জন্য ভাবা যেতে পারে। আমি ভাবছিলাম যে এগুলিও চতুর কিনা, সম্ভবত আপনি তাদের কাগজপত্রগুলিতে আরও ব্যাখ্যা পেতে পারেন (আমি মনে করি না)।
মোমো

1
অবশ্যই, কোনো সমস্যা নেই. এখানে চৌধুরী চৌধুরী এবং অন্যান্য। www3.stat.sinica.edu.tw/statistica/j4n1/j4n18/j4n18.htm www3.stat.sinica.edu.tw/statistica/j5n2/j5n217/j5n217.htm রেফারেন্স জিইউইডিই-র স্ট্যাটাসের জন্য । wisc.edu/~loh/guide.html
মোমো

উত্তর:


8

উপায়গুলির তুলনা করা খুব দুর্বল: পরিবর্তে, বিতরণগুলির সাথে তুলনা করুন।

আকারগুলি তুলনা করা আরও আকাঙ্ক্ষিত কিনা তা নিয়েও একটি প্রশ্ন রয়েছেঅবশিষ্টাংশের (যেমন বলা হয়েছে) বা নিজেরাই অবশিষ্টাংশের তুলনা । অতএব, আমি উভয় মূল্যায়ন।

কী বোঝানো হচ্ছে সে সম্পর্কে সুনির্দিষ্ট হওয়ার জন্য, এখানে কিছু Rতুলনা করার কোড রয়েছে(এক্স,Y)তথ্য (সমান্তরাল অ্যারে দেওয়া xএবং y) পুনরায় চাপিয়ে byY চালু এক্স, কোয়ান্টাইলের নীচে কেটে অবশিষ্টাংশগুলিকে তিনটি গ্রুপে ভাগ করাকুই0 কোয়ান্টাইলের উপরে এবং কুই1>কুই0, এবং (একটি কিউকি প্লটের মাধ্যমে) এর বিতরণগুলির সাথে তুলনা করে এক্স এই দুটি গ্রুপের সাথে সম্পর্কিত মানগুলি।

test <- function(y, x, q0, q1, abs0=abs, ...) {
  y.res <- abs0(residuals(lm(y~x)))
  y.groups <- cut(y.res, quantile(y.res, c(0,q0,q1,1)))
  x.groups <- split(x, y.groups)
  xy <- qqplot(x.groups[[1]], x.groups[[3]], plot.it=FALSE)
  lines(xy, xlab="Low residual", ylab="High residual", ...)
}

এই ফাংশনটির পঞ্চম যুক্তি abs0, ডিফল্টরূপে গ্রুপগুলি গঠনের জন্য অবশিষ্টাংশের আকার (পরম মান) ব্যবহার করে। পরে আমরা এটিকে কোনও ফাংশন দ্বারা প্রতিস্থাপন করতে পারি যা অবশিষ্টাংশগুলি নিজেরাই ব্যবহার করে।

অবশিষ্টাংশগুলি অনেকগুলি জিনিস সনাক্ত করতে ব্যবহৃত হয়: বহিরাগত, বহির্মুখী ভেরিয়েবলগুলির সাথে সম্ভাব্য পারস্পরিক সম্পর্ক, ফিটের সুদৃ .়তা এবং সমকামিতা। আউটলিয়ার্স, তাদের প্রকৃতি অনুসারে, কয়েক এবং বিচ্ছিন্ন হওয়া উচিত এবং সুতরাং এখানে অর্থবহ ভূমিকা নিতে চলেছে না। এই বিশ্লেষণটিকে সহজ রাখতে, আসুন শেষ দুটিটি ঘুরে দেখি: ফিটনের ভালতা (এটি, এর লিনিয়ারিটি ityএক্স-Yসম্পর্ক) এবং সমকামিতা (যা, অবশিষ্টাংশের আকারের স্থায়িত্ব) আমরা সিমুলেশনের মাধ্যমে এটি করতে পারি:

simulate <- function(n, beta0=0, beta1=1, beta2=0, sd=1, q0=1/3, q1=2/3, abs0=abs,
                     n.trials=99, ...) {
  x <- 1:n - (n+1)/2
  y <- beta0 + beta1 * x + beta2 * x^2 + rnorm(n, sd=sd)
  plot(x,y, ylab="y", cex=0.8, pch=19, ...)
  plot(x, res <- residuals(lm(y ~ x)), cex=0.8, col="Gray", ylab="", main="Residuals")
  res.abs <- abs0(res)
  r0 <- quantile(res.abs, q0); r1 <- quantile(res.abs, q1)
  points(x[res.abs < r0], res[res.abs < r0], col="Blue")
  points(x[res.abs > r1], res[res.abs > r1], col="Red")
  plot(x,x, main="QQ Plot of X",
       xlab="Low residual", ylab="High residual",
       type="n")
  abline(0,1, col="Red", lwd=2)
  temp <- replicate(n.trials, test(beta0 + beta1 * x + beta2 * x^2 + rnorm(n, sd=sd), 
                             x, q0=q0, q1=q1, abs0=abs0, lwd=1.25, lty=3, col="Gray"))
  test(y, x, q0=q0, q1=q1, abs0=abs0, lwd=2, col="Black")
}

এই কোডটি রৈখিক মডেলটি নির্ধারণ করে: তার সহগ Y~β0+ +β1এক্স+ +β2এক্স2, ত্রুটির শর্তগুলির মানক বিচ্যুতি sd, কোয়ান্টাইলগুলিকুই0 এবং কুই1, আকার ফাংশন abs0, এবং সিমুলেশনে স্বতন্ত্র পরীক্ষার সংখ্যা n.trials,। প্রথম যুক্তি nহ'ল প্রতিটি পরীক্ষায় অনুকরণ করার জন্য ডেটার পরিমাণ। এটি প্লটের একটি সেট তৈরি করে - এর(এক্স,Y)ডেটা, তাদের অবশিষ্টাংশ এবং একাধিক পরীক্ষার কিউকি প্লট - প্রদত্ত মডেলগুলির জন্য প্রস্তাবিত পরীক্ষাগুলি কীভাবে কাজ করে তা বুঝতে আমাদের সহায়তা করতে ( nবিটা, এস এবং দ্বারা নির্ধারিত sd)। এই প্লটগুলির উদাহরণ নীচে প্রদর্শিত হবে।

আসুন এখন অবকাশগুলির নিরঙ্কুশ মানগুলি ব্যবহার করে অরৈখিকতা এবং ভিন্ন ভিন্ন ভিন্ন কিছু বাস্তবসম্মত সমন্বয় ঘুরে দেখার জন্য এই সরঞ্জামগুলি ব্যবহার করুন:

n <- 100
beta0 <- 1
beta1 <- -1/n
sigma <- 1/n

size <- function(x) abs(x)
set.seed(17)
par(mfcol=c(3,4))
simulate(n, beta0, beta1, 0, sigma*sqrt(n), abs0=size, main="Linear Homoscedastic")
simulate(n, beta0, beta1, 0, 0.5*sigma*(n:1), abs0=size, main="Linear Heteroscedastic")
simulate(n, beta0, beta1, 1/n^2, sigma*sqrt(n), abs0=size, main="Quadratic Homoscedastic")
simulate(n, beta0, beta1, 1/n^2, 5*sigma*sqrt(1:n), abs0=size, main="Quadratic Heteroscedastic")

আউটপুট প্লটের একটি সেট। উপরের সারিতে একটি সিমুলেটেড ডেটাসেট দেখানো হয় , দ্বিতীয় সারিতে এর অবশিষ্টাংশের বিপরীতে একটি স্ক্রেরপ্লট দেখায়এক্স(কোয়ান্টাইল দ্বারা রঙ-কোডিং: বৃহত্তর মানগুলির জন্য লাল, ছোট মানগুলির জন্য নীল, কোনও মধ্যবর্তী মানগুলির জন্য ধূসর) আর ব্যবহার করা হয় না এবং তৃতীয় সারিতে দেখানো এক সিমুলেটেড ডেটাসেটের কিউকিউ প্লট সহ সমস্ত পরীক্ষার জন্য কিউকি প্লট দেখায় কালো। একটি পৃথক কিউকি প্লট তুলনা করেএক্স উচ্চ অবশিষ্টাংশের সাথে সম্পর্কিত মানগুলি এক্সনিম্ন অবশিষ্টাংশের সাথে সম্পর্কিত মানগুলি; অনেকগুলি পরীক্ষার পরে, সম্ভবত কিউকিউ প্লটের একটি ধূসর খাম উদ্ভূত হয়। বেসিক লিনিয়ার মডেল থেকে প্রস্থানগুলির সাথে এই খামগুলি কীভাবে এবং কীভাবে দৃ ,়তার সাথে আগ্রহী তা সম্পর্কে আমরা আগ্রহী: দৃ strong় প্রকরণটি ভাল বৈষম্যকে বোঝায়।

Absolute values

সর্বশেষ তিনটি এবং প্রথম কলামগুলির মধ্যে পার্থক্যগুলি এটিকে পরিষ্কার করে যে এই পদ্ধতিটি ভিন্ন ভিন্নতা সনাক্ত করতে সক্ষম, তবে এটি একটি মাঝারি অরৈখিকতা সনাক্তকরণের ক্ষেত্রে এত কার্যকর নাও হতে পারে। এটি অনিয়ন্ত্রিততার সাথে সহজেই ভিন্নতার সাথে বিভ্রান্ত করতে পারে। কারণ হিটরোসসিডাস্টিকটির রূপটি এখানে সিমুলেটেড (যা প্রচলিত) এমন এক যেখানে অবশিষ্টাংশগুলির প্রত্যাশিত আকারের প্রবণতা রয়েছেএক্স। সেই প্রবণতাটি সনাক্ত করা সহজ। অন্যদিকে চতুর্ভুজ অরৈখিকতা উভয় প্রান্তে এবং এর পরিসরের মাঝখানে বৃহত অবশিষ্টগুলি তৈরি করবেএক্সমান। এটি কেবল ক্ষতিগ্রস্থদের বিতরণ দেখে আলাদা করা শক্তএক্স মান।

আসুন একই জিনিসটি হুবহু একই ডেটা ব্যবহার করে , কিন্তু অবশিষ্টাংশগুলিকে নিজেরাই বিশ্লেষণ করি। এটি করতে, পূর্ববর্তী কোডের ব্লকটি এই পরিবর্তনটি করার পরে পুনরায় চালিত হয়েছিল:

size <- function(x) x

Residuals

এই প্রকরণটি ভিন্ন ভিন্নরূপটি ভালভাবে সনাক্ত করে না: দেখুন প্রথম দুটি কলামে কিউকিউ প্লটগুলি একই রকম। তবে এটি অরৈখিকতা সনাক্তকরণের জন্য একটি ভাল কাজ করে। এর কারণ, অবশিষ্টাংশগুলি পৃথক করেএক্সএর মাঝের অংশ এবং একটি বাইরের অংশে চলে যা মোটামুটি আলাদা হবে be ডানদিকের কলামে দেখানো হয়েছে, তবে, হেটেরোসেসটেস্টিটি ননলাইনারিটি মাস্ক করতে পারে।

সম্ভবত এই উভয় কৌশল একত্রিত কাজ করবে। এই অনুকরণগুলি (এবং তাদের বিভিন্নতা, যা আগ্রহী পাঠক অবসর সময়ে চালাতে পারে) প্রমাণ করে যে এই কৌশলগুলি যোগ্যতা ছাড়াই নয়।

তবে, সাধারণভাবে, স্ট্যান্ডার্ড উপায়ে অবশিষ্টাংশগুলি পরীক্ষা করে আরও ভাল পরিবেশিত হয়। স্বয়ংক্রিয় কাজের জন্য, অবশিষ্ট প্লটগুলিতে আমরা যে ধরণের জিনিস দেখি তা সনাক্ত করতে আনুষ্ঠানিক পরীক্ষাগুলি তৈরি করা হয়েছে। উদাহরণস্বরূপ, ব্রুশ-পৌত্তলিক পরীক্ষা স্কোয়ারের অবশিষ্টাংশগুলিকে (তাদের নিখুঁত মানগুলির চেয়ে বরং) পুনরুদ্ধার করেএক্স। এই প্রশ্নে প্রস্তাবিত পরীক্ষাগুলি একই চেতনায় বোঝা যায়। তবে, মাত্র দুটি গ্রুপে ডেটা বেন করে এবং এর দ্বারা সরবরাহিত দ্বিবিভক্ত তথ্যগুলির বেশিরভাগটিকে অবহেলা করে(এক্স,Y^-এক্স)জোড়া আমরা প্রস্তাবিত পরীক্ষা Breusch-পৌত্তলিক মত রিগ্রেশন ভিত্তিক পরীক্ষার তুলনায় কম শক্তিশালী হতে আশা করতে পারেন


2

আমি আপনার উভয় দফার সাথে একমত মডেলটি অপর্যাপ্ত হলে অবশিষ্টাংশগুলি প্রায় স্বতন্ত্র এবং অভিন্নভাবে বিতরণ করা যায় না। গুরুত্বপূর্ণ ভেরিয়েবলগুলি বাদ দেওয়া যেতে পারে বা রেজিস্ট্রার ভেরিয়েবলের কার্যকরী ফর্মটি ভুল হতে পারে। যদি এটি হয় তবে আমি সমস্যাটির পরিবর্তে মান চিহ্নিত করার জন্য স্ট্যান্ডার্ড রিগ্রেশন ডায়াগোনস্টিকগুলি ব্যবহার করব। এছাড়াও সঠিক ফাংশনাল ফর্মের সাথে আপনার মডেলটিতে সঠিক ভেরিয়েবল থাকতে পারে তবে তারপরেও একটি নন-কনস্ট্যান্ট বৈকল্পিক রয়েছে। এটি কেবল ষড়যন্ত্রের মাধ্যমেই স্পষ্ট হতে পারেআমি বিরুদ্ধে এক্সআমি। আমি একটি বিন্যাস দেখতে পাচ্ছি মডেলটিতে আউটলেটকারীদের কিছু অংশের অবশেষের মাধ্যমে খুঁজে বের করতে চাই তবে আমি তাদের সনাক্তকরণের জন্য একটি প্রভাব ফাংশন পদ্ধতির সুপারিশ করব। এই পদ্ধতিটি কী সম্পাদন করে তা আমি দেখতে পাচ্ছি না।

অন্যরা মন্তব্য করেছেন যে এটি দুটি অনুসন্ধান সেট আলাদাভাবে মডেল করা উচিত কিনা তা দেখার জন্য এটি কেবল একটি অনুসন্ধানের সরঞ্জাম হতে পারে। যদি এটি হয় তবে এটি এবং সম্ভবত অন্যান্য অনুসন্ধানের পদ্ধতিগুলি ঠিক আছে। কিন্তু প্রশ্নটি হয়ে যায় তখন আপনি কী করবেন? আপনি যদি তখন দুটি পৃথক রেগ্রেশন করতে চলেছেন এবং নমুনাগুলি সম্পর্কে অনুমান আঁকেন আমি মনে করি যে আপনি কীভাবে নমুনা বিভক্ত করেছেন সে সম্পর্কে অ্যাকাউন্ট নেওয়া উচিত।


0

আমি অনুমান করি এটি করার জন্য বেশ কয়েকটি অনুপ্রেরণা থাকতে পারে যেমন ধরে নেওয়া যে অবশিষ্টাংশগুলি সামঞ্জস্যপূর্ণ তবে আপনি যে পদ্ধতিটি উল্লেখ করেছেন তা বহির্মুখী পর্যবেক্ষণগুলি সনাক্ত করতে সহায়তা করতে পারে, সুতরাং দ্বিতীয় ধাপটি "সংশোধন" অনুমানকারী সরবরাহ করে। তবে, আরও কঠোর কৌশল রয়েছে যা বহিরাগতদের সনাক্তকরণ সম্পাদন করে বা এমন পরিসংখ্যান সরবরাহ করে যা এই জাতীয় পর্যবেক্ষণের উপস্থিতিতে শক্তিশালী, যেমন কোয়ান্টাইল রিগ্রেশন, এলএমএস (স্কোয়ারগুলির সর্বনিম্ন মাঝারি) বা এম-অনুমানক ইত্যাদি যেখানে এই সমস্ত পদ্ধতি ভালভাবে সংজ্ঞায়িত করেছে এবং পরিচিত পরিসংখ্যানগত বৈশিষ্ট্য। (এটি @ মিশেল চেরনিক দ্বারা যুক্ত করা হয়েছে)

অন্যান্য অনুপ্রেরণা ক্লাস্টার সনাক্তকরণ হতে পারে তবে ক্লাস্টার সনাক্তকরণের জন্য উপলব্ধ প্রযুক্তিগুলির সাথে তুলনা করা যখন এটি বেশ সংজ্ঞায়িত এবং ব্যাপকভাবে প্রয়োগ করা হয়েছে তখন এটি প্রাথমিক itive

উভয় ক্ষেত্রেই, অবশিষ্টাংশগুলি ব্যবহার করা অনানুষ্ঠানিক এবং আদিম বলে মনে হয় তবে এটি অনুসন্ধানের সরঞ্জাম হিসাবে এখনও সহ্য করা যেতে পারে। এটি পাঠকদের ডোমেনের উপরও নির্ভর করে। আমি এটি এমন কিছু সামাজিক বিজ্ঞানের জন্য গ্রহণযোগ্য মনে করব যেখানে পরিমাণগত সরঞ্জামগুলি কম জনপ্রিয় হতে পারে।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.