পুনরায় মডেল করা ডেটাসেটগুলিতে হাইপোথিসিস টেস্টগুলি নালকে প্রায়শই প্রত্যাখ্যান করে কেন?


10

tl; dr: শূন্যের নীচে উত্পন্ন ডেটাসেট দিয়ে শুরু করে আমি প্রতিস্থাপনের সাথে কেসগুলি পুনরায় প্রতিস্থাপন করেছি এবং প্রতিটি পুনরায় মডেল করা ডেটাসেটের জন্য হাইপোথিসিস পরীক্ষা চালিয়েছি। এই অনুমান পরীক্ষাগুলি নালটিকে সময়ের 5% এরও বেশি প্রত্যাখ্যান করে।

নীচে, খুব সাধারণ সিমুলেশনটিতে, আমি দিয়ে ডেটাসেট তৈরি করি এবং আমি প্রত্যেকের কাছে একটি সাধারণ ওএলএস মডেল ফিট করি। তারপরে, প্রতিটি ডেটাসেটের জন্য, আমি প্রতিস্থাপনের সাথে মূল ডেটাসেটের সারিগুলিকে পুনরায় মডেল করে 1000 টি নতুন ডেটাসেট তৈরি করি (ল্যাভিনির্ভরতার জন্য উপযুক্ত হিসাবে ডেভিসন এবং হিঙ্কলির ক্লাসিক পাঠ্যে বিশেষত বর্ণিত একটি অ্যালগরিদম)। তাদের প্রত্যেকের জন্য, আমি একই ওএলএস মডেল ফিট করি। শেষ পর্যন্ত, বুটস্ট্র্যাপের নমুনাগুলির মধ্যে প্রায় 16% হাইপোথিসিস পরীক্ষাগুলি নালটিকে প্রত্যাখ্যান করে , যেখানে আমাদের 5% পাওয়া উচিত (যেমন আমরা মূল ডেটাসেটগুলিতে করি)।XN(0,1)⨿YN(0,1)

আমার সন্দেহ হয়েছিল যে এটি বারবার পর্যবেক্ষণগুলির সাথে স্ফীত সংঘবদ্ধতাগুলির সাথে কিছু করার আছে, তাই তুলনা করার জন্য, আমি নীচের কোডটিতে অন্য দুটি পদ্ধতির চেষ্টা করেছি (মন্তব্য করেছেন)। পদ্ধতি 2, আমি ঠিক , তারপর প্রতিস্থাপন মূল ডেটা সেটটি উপর OLS ঔজ্জ্বল্যের প্রেক্ষাপটে মডেল থেকে resampled অবশিষ্টাংশ সঙ্গে। পদ্ধতি 3 এ, আমি প্রতিস্থাপন ছাড়াই একটি এলোমেলো সাবমেল আঁকছি। এই দুটি বিকল্পই কাজ করে, অর্থাত্ তাদের অনুমান পরীক্ষাগুলি নাল 5% সময়কে প্রত্যাখ্যান করে।ওয়াইXY

আমার প্রশ্ন: আমি কি ঠিক বলেছি যে বারবার পর্যবেক্ষণগুলি অপরাধী? যদি তাই হয় তবে বুটস্ট্র্যাপিংয়ের ক্ষেত্রে এটি একটি স্ট্যান্ডার্ড পদ্ধতি, আমরা যেখানে স্ট্যান্ডার্ড বুটস্ট্র্যাপ তত্ত্বটি লঙ্ঘন করছি?

আপডেট # 1: আরও সিমুলেশন

আমি আরও সহজ দৃশ্যের চেষ্টা করেছি, জন্য একটি ইন্টারসেপ্ট-কেবলমাত্র রিগ্রেশন মডেল । একই সমস্যা দেখা দেয়।Y

# note: simulation takes 5-10 min on my laptop; can reduce boot.reps
#  and n.sims.run if wanted
# set the number of cores: can change this to match your machine
library(doParallel)
registerDoParallel(cores=8)
boot.reps = 1000
n.sims.run = 1000

for ( j in 1:n.sims.run ) {

  # make initial dataset from which to bootstrap
  # generate under null
  d = data.frame( X1 = rnorm( n = 1000 ), Y1 = rnorm( n = 1000 ) )

  # fit OLS to original data
  mod.orig = lm( Y1 ~ X1, data = d )
  bhat = coef( mod.orig )[["X1"]]
  se = coef(summary(mod.orig))["X1",2]
  rej = coef(summary(mod.orig))["X1",4] < 0.05

  # run all bootstrap iterates
  parallel.time = system.time( {
    r = foreach( icount( boot.reps ), .combine=rbind ) %dopar% {

      # Algorithm 6.2: Resample entire cases - FAILS
      # residuals of this model are repeated, so not normal?
      ids = sample( 1:nrow(d), replace=TRUE )
      b = d[ ids, ]

      # # Method 2: Resample just the residuals themselves - WORKS
      # b = data.frame( X1 = d$X1, Y1 = sample(mod.orig$residuals, replace = TRUE) )

      # # Method 3: Subsampling without replacement - WORKS
      # ids = sample( 1:nrow(d), size = 500, replace=FALSE )
      # b = d[ ids, ]

      # save stats from bootstrap sample
      mod = lm( Y1 ~ X1, data = b ) 
      data.frame( bhat = coef( mod )[["X1"]],
                  se = coef(summary(mod))["X1",2],
                  rej = coef(summary(mod))["X1",4] < 0.05 )

    }
  } )[3]


  ###### Results for This Simulation Rep #####
  r = data.frame(r)
  names(r) = c( "bhat.bt", "se.bt", "rej.bt" )

  # return results of each bootstrap iterate
  new.rows = data.frame( bt.iterate = 1:boot.reps,
                         bhat.bt = r$bhat.bt,
                         se.bt = r$se.bt,
                         rej.bt = r$rej.bt )
  # along with results from original sample
  new.rows$bhat = bhat
  new.rows$se = se
  new.rows$rej = rej

  # add row to output file
  if ( j == 1 ) res = new.rows
  else res = rbind( res, new.rows )
  # res should have boot.reps rows per "j" in the for-loop

  # simulation rep counter
  d$sim.rep = j

}  # end loop over j simulation reps



##### Analyze results #####

# dataset with only one row per simulation
s = res[ res$bt.iterate == 1, ]

# prob of rejecting within each resample
# should be 0.05
mean(res$rej.bt); mean(s$rej)

আপডেট # 2: উত্তর

মন্তব্য এবং উত্তরগুলিতে বেশ কয়েকটি সম্ভাবনার প্রস্তাব দেওয়া হয়েছিল এবং আমি সেগুলি পরীক্ষামূলকভাবে পরীক্ষা করার জন্য আরও সিমুলেশন করেছি। দেখা যাচ্ছে যে জেওয়ালকার সঠিক যে সমস্যাটি হ'ল অধীনে সঠিক নমুনা বিতরণ পেতে আমাদের মূল ডেটা অনুমানের মাধ্যমে বুটস্ট্র্যাপের পরিসংখ্যানকে কেন্দ্র করে নেওয়া । তবে আমি এটিও মনে করি যে প্যারামেট্রিক পরীক্ষার অনুমান লঙ্ঘন সম্পর্কে ভুবার মন্তব্যটিও সঠিক, যদিও জেওয়ালকারের সমস্যাটি সমাধান করার পরে আমরা বাস্তবে নামমাত্র ভ্রান্ত ধনাত্মকতা পাই।H0


1
স্ট্যান্ডার্ড বুটস্ট্র্যাপে আপনি কেবল এক্স 1 এর সহগের বুটস্ট্র্যাপ বিতরণ বিবেচনা করবেন, এর সাথে সম্পর্কিত পি মানগুলি নয়। সুতরাং এটি বুটস্ট্র্যাপের কোনও সমস্যা নয়। তবুও আপনার পর্যবেক্ষণটি আকর্ষণীয় এবং অনাদায়ী।
মাইকেল এম

1
@ মিশেলএম, এটি সত্য। তবে যেহেতু রেসামগুলিতে ডেটাগুলির যৌথ সিডিএফটি n এ রূপান্তরিত হওয়া উচিত এবং বুটস্ট্র্যাপের সংখ্যাটি আসল সিডিএফ থেকে পুনরাবৃত্তি করে যা মূল ডেটা উত্পন্ন করে, তাই আমি পি-মানগুলি পৃথক হওয়ার আশা করবো না।
অর্ধ-পাস

ঠিক। আমি যথেষ্ট নিশ্চিত যে প্রভাবগুলি পর্যবেক্ষণ অ-স্বতন্ত্র হওয়া (যেমন আপনি বলেছেন) থেকে আসে, এটি খুব আশাবাদী মানক ত্রুটিগুলি দেয়। আপনার সিমুলেশনটিতে এটি সাধারণ লিনিয়ার মডেলের একমাত্র লঙ্ঘিত অনুমান বলে মনে হয়। হতে পারে আমরা এমনকি সম্পর্কিত বৈসাদৃশ্য ডিফল্টিং ফ্যাক্টর অর্জন করতে পারি।
মাইকেল এম

2
একটি জিনিস যা পদ্ধতি 1 এ স্পষ্ট তা আইড ত্রুটি অনুমানের লঙ্ঘন: প্রতিস্থাপনের সাথে পুনঃনির্মাণের সময়, কোনও প্রদত্ত মানের অবশিষ্টাংশগুলি স্বাধীনের চেয়ে পুরোপুরি সম্পর্কযুক্ত হয়! সুতরাং আপনি সঠিকভাবে বুটস্ট্র্যাপিং করছেন না, এগুলিই। একটি প্রদর্শন হিসাবে, কম্পিউটিংয়ের পরে এগুলি প্রতিস্থাপন করুন তবে ঠিক আগের মতো এগিয়ে যান। এটি সঠিকভাবে সদৃশগুলি পরিচালনা করে (যদিও এটি একটি ছোট নমুনা তৈরি করে)। আপনি পি-মানগুলির অভিন্ন বিতরণ পাবেন। xidsids <- unique(ids)
হোবার

2
@whuber। আমি দেখি. এবং এটি ব্যাখ্যা করবে যে বারবার পর্যবেক্ষণ সত্ত্বেও কেন প্রতিস্থাপনের সাথে অবশিষ্টাংশগুলি পুনর্নির্মাণের কাজ করে: সেই মডেলের অবশিষ্টাংশগুলি এক্স এর থেকে আবার স্বাধীন। আপনি যদি এটির উত্তর দিতে চান তবে আমি মেনে নিতে পেরে খুশি হব।
অর্ধ-পাস

উত্তর:


5

আপনি নালটিকে পুনরায় নমুনা দেওয়ার সময়, রিগ্রেশন সহগের প্রত্যাশিত মানটি শূন্য। আপনি যখন কিছু পর্যবেক্ষণ করা ডেটাসেট পুনরায় নমুনা করেন, প্রত্যাশিত মানটি সেই ডেটার জন্য পর্যবেক্ষণ সহগ হয়। আপনি পর্যবেক্ষণ করা ডেটা পুনরায় নমুনার সময় পি <= 0.05 হলে এটি কোনও ধরণের আই ত্রুটি নয়। আসলে, যদি আপনার পি> 0.05 থাকে তবে এটি দ্বিতীয় ধরণের ত্রুটি।

আপনি অ্যাবস (বি) এবং গড় (পি) এর মধ্যে পারস্পরিক সম্পর্ককে গণনা করে কিছু স্বজ্ঞাত অর্জন করতে পারেন। আপনি যা করেছেন তার প্রতিলিপি তৈরির জন্য এখানে সহজ কোডটি রয়েছে এবং সিমুলেশনগুলির সেটটির সাথে খ এবং "টাইপ আই" ত্রুটির মধ্যে পারস্পরিক সম্পর্ককে গণনা করা হচ্ছে

boot.reps = 1000
n.sims.run = 10
n <- 1000
b <- matrix(NA, nrow=boot.reps, ncol=n.sims.run)
p <- matrix(NA, nrow=boot.reps, ncol=n.sims.run)
for(sim_j in 1:n.sims.run){
  x <- rnorm(n)
  y <- rnorm(n)
  inc <- 1:n
  for(boot_i in 1:boot.reps){
    fit <- lm(y[inc] ~ x[inc])
    b[boot_i, sim_j] <- abs(coefficients(summary(fit))['x[inc]', 'Estimate'])
    p[boot_i, sim_j] <- coefficients(summary(fit))['x[inc]', 'Pr(>|t|)']
    inc <- sample(1:n, replace=TRUE)
  }
}
# note this is not really a type I error but whatever
type1 <- apply(p, 2, function(x) sum(x <= 0.05))/boot.reps
# correlation between b and "type I"
cor(b[1, ], type1)

উত্তরটি গ্র্যান্ড_চ্যাট দ্বারা আপডেট করুন পি <= 0.05 এর> 0.03 এর ফ্রিকোয়েন্সি কারণ নয়। উত্তরটি খুব সহজ এবং আমি উপরে যা বলেছি - প্রতিটি রেজাল্টের গড়ের প্রত্যাশিত মানটি মূল, পর্যবেক্ষণের গড়। এটি বুটস্ট্র্যাপের পুরো ভিত্তি, যা অনুমানের পরীক্ষা হিসাবে নয়, পর্যবেক্ষণের মাধ্যম হিসাবে মানক ত্রুটি / আত্মবিশ্বাসের সীমা তৈরি করতে বিকশিত হয়েছিল। প্রত্যাশা যেহেতু শূন্য নয়, অবশ্যই "টাইপ আই ত্রুটি" আলফার চেয়ে বেশি হবে। এবং এই কারণেই এখানে সহগের (শূন্য থেকে কত দূরে) এবং আলফা থেকে "টাইপ আই ত্রুটি" এর বিচ্যুতির परिमाणের মধ্যে একটি সম্পর্ক থাকবে lation


হুমম। সুতরাং আমাদের দিয়ে অনুমানের পরীক্ষা করা উচিত , মূল । এটি উপলব্ধি করে এবং বিদ্যমান সাহিত্যের সাথে সঙ্গতিপূর্ণ। আমি এটি চেষ্টা করতে হবে। এইচ 0 : β = 0H0:β=β^H0:β=0
অর্ধ-পাস

H0:β=βˆ সমতার জন্য পরীক্ষাগুলির জন্য আলাদা স্টাডি ডিজাইনের পদ্ধতির প্রয়োজন। ব্যবহার করা হয় যখন গুরুত্বপূর্ণ বিষয়টি নিশ্চিত করা হয় যে আপনার পর্যবেক্ষণের পার্থক্যগুলি ফ্লুক হয়েছে না, সমতা যখন আপনার ভবিষ্যদ্বাণীটি সঠিক কিনা তা নিশ্চিত করতে চান। দুর্ভাগ্যক্রমে এটি প্রায়শই এক আকারের সাথে সবথেকে দেখা যায় তবে এটি আপনার পরিস্থিতির ঝুঁকির উপর নির্ভর করে। প্রাথমিক পর্যায়ের গবেষণায় ব্যবহার করা সাধারণত ফ্লুক আউট ফিল্টার করার জন্য যখন আপনি বিকল্প হাইপোথিসিস সংজ্ঞায়িত করার পক্ষে যথেষ্ট জানেন না তখন যখন আরও জানা থাকে তখন আপনার জ্ঞানের যথার্থতা পরীক্ষা করার জন্য এটি পরিবর্তন করা বুদ্ধিমান হতে পারে। H0:β=0H0:β=0
নবীনবরণ

2

আপনি যদি আপনার আসল স্বাভাবিক নমুনা থেকে প্রতিস্থাপনের সাথে নমুনা করেন, তবে বুটস্ট্র্যাপের ফলে প্রাপ্ত নমুনাটি স্বাভাবিক নয় । বুটস্ট্র্যাপ নমুনার যৌথ বন্টন একটি জাঁকজমকপূর্ণ মিশ্রণ বিতরণ অনুসরণ করে যা সদৃশ রেকর্ড ধারণ করে এমন খুব সম্ভবত, যখন আপনি একটি সাধারণ বিতরণ থেকে আইড নমুনা নেওয়ার সময় সদৃশ মানগুলির সম্ভাবনা শূন্য থাকে।

একটি সাধারণ উদাহরণ হিসাবে, যদি আপনার মূল নমুনা অবিচ্ছিন্ন স্বাভাবিক বিতরণ থেকে দুটি পর্যবেক্ষণ হয়, তবে প্রতিস্থাপন সহ বুটস্ট্র্যাপের নমুনায় অর্ধেক সময় আসল নমুনা থাকে এবং অর্ধেক সময় মূল মানগুলির মধ্যে একটি থাকে যা সদৃশ হয়। এটি স্পষ্ট যে বুটস্ট্র্যাপের নমুনার ভেরিয়েন্টটি গড়ের তুলনায় গড়ে কম হবে - বাস্তবে এটি অর্ধিক আসল হবে।

এর প্রধান ফলস্বরূপ হ'ল বুটস্ট্র্যাপের নমুনায় প্রয়োগ করার সময় আপনি সাধারণ তত্ত্বের উপর ভিত্তি করে যে অনুমানটি করছেন সেটি ভুল মূল্যগুলি প্রদান করে। বিশেষত সাধারণ তত্ত্বটি অ্যান্টিকনজারভেটিভ সিদ্ধান্তের নিয়ম দেয়, কারণ আপনার বুটস্ট্র্যাপের নমুনা এমন পরিসংখ্যান তৈরি করবে যার ডুপ্লিকেট উপস্থিতির কারণে ডিনোমিনেটরগুলি সাধারণ তত্ত্বের অধীনে প্রত্যাশার চেয়ে ছোট। ফলস্বরূপ, সাধারণ তত্ত্ব অনুমান পরীক্ষাটি প্রত্যাশার চেয়ে নাল হাইপোথিসিসকে প্রত্যাখ্যান করে শেষ করে।pt


তবে যদি এটি হয়, তবে প্রতিস্থাপনের সাথে অবশিষ্টাংশগুলি পুনঃনির্মাণের সময় আমরা কী ঠিক একই সমস্যাটি করব না? তবুও বাস্তবে, এই পদ্ধতির নামমাত্র সম্ভাব্যতা প্রত্যাখ্যান।
অর্ধ-পাস

এছাড়াও, এন = 1000 সহ একটি টি-টেস্টে অ-নরমাল ডেটা নিয়ে কোনও সমস্যা হওয়া উচিত নয়।
অর্ধ-পাস

0

আমি @ জেওয়ালকারের উত্তরের সাথে সম্পূর্ণ একমত

এই সমস্যার আরেকটি দিক রয়েছে। এটি আপনার পুনর্নির্মাণ প্রক্রিয়াতে রয়েছে। আপনি প্রত্যাশা সহগকে শূন্যের কাছাকাছি কেন্দ্রিক বলে আশা করছেন কারণ আপনি ধরে নিয়েছেন Xএবং Yস্বতন্ত্র। তবে, আপনার পুনর্নির্মাণের কাজটি আপনি করেন

ids = sample( 1:nrow(d), replace=TRUE )
  b = d[ ids, ]

যা পারস্পরিক সম্পর্ক তৈরি করে কারণ আপনি নমুনা নিচ্ছেন Xএবং Yএকসাথে। উদাহরণ হিসেবে বলা যায়, বলে ডেটাসেটের প্রথম সারিতে dরয়েছে (x1, y1), resampled ডেটাসেটে, P(Y = y1|X = x1) = 1যখন যদি Xএবং Yস্বাধীন হয়, P(Y|X = x1)একটি স্বাভাবিক বন্টন অনুসরণ করে।

সুতরাং এটি ঠিক করার আরেকটি উপায় হ'ল ব্যবহার করা

b = data.frame( X1 = rnorm( n = 1000 ), Y1 = rnorm( n = 1000 ) )

dএক্স এবং ওয়াই একে অপরকে স্বাধীন করার জন্য আপনি একই কোডটি উত্পন্ন করতে ব্যবহার করেন।

একই কারণ ব্যাখ্যা করে যে কেন এটি অবশিষ্টাংশ পুনরায় মডেলিংয়ের সাথে কাজ করে (কারণ Xনতুন থেকে স্বতন্ত্র Y)।


কিছুক্ষণের জন্য, আমি এটিও ভেবেছিলাম যে পুনরায় মডেল করা পর্যবেক্ষণগুলি নিরপেক্ষ হতে পারে তবে এটি সম্পর্কে আরও অনেক বেশি চিন্তাভাবনা করার পরে, আমি আসলে এই ঘটনাটি
অর্ধেক -পাস

উপরে আমি যে সমস্যাটি বর্ণনা করছি তা আপনার পোস্ট থেকে আলাদা। আপনি যা উল্লেখ করেছেন তা হ'ল স্বাধীনতা x's। আমি যা উল্লেখ করেছি তা হ'ল Xএস এবং Yএস এর মধ্যে পারস্পরিক সম্পর্ক ।
তিয়ানজিয়া চাউ

-1

এখানে সবচেয়ে বড় সমস্যাটি হ'ল মডেলের ফলাফলগুলি উত্সাহযুক্ত এবং অতএব অত্যন্ত অস্থির, কারণ মডেলটি কেবল শোনাচ্ছে। খুব আক্ষরিক অর্থে। নমুনা ডেটা কীভাবে তৈরি হয়েছিল তার কারণে ওয়াই 1 কোনও নির্ভরশীল পরিবর্তনশীল নয়।


মন্তব্যগুলির প্রতিক্রিয়া হিসাবে সম্পাদনা করুন L আমাকে আমার চিন্তাভাবনা ব্যাখ্যা করার জন্য আরও একবার চেষ্টা করুন।

কোনও ওএলএসের সাথে সাধারণ অভিপ্রায় হ'ল ডেটাতে অন্তর্নিহিত সম্পর্কগুলি আবিষ্কার করা এবং তাদের পরিমাণ নির্ধারণ করা। বাস্তব-বিশ্বের ডেটা সহ, আমরা সাধারণত সেগুলি ঠিক জানি না।

তবে এটি একটি কৃত্রিম পরীক্ষার পরিস্থিতি। আমরা ঠিক তথ্য উত্পন্ন করার প্রক্রিয়া জানি, এটি ঠিক ওটি এটি পোস্ট করে কোডে রয়েছে

এক্স 1 = রনরম (এন = 1000), ওয়াই 1 = রনরম (এন = 1000)

যদি আমরা এটি কোনও ওএলএস রিগ্রেশনটির পরিচিত আকারে প্রকাশ করি, যেমন

Y1 = ইন্টারসেপ্ট + বিটা 1 * এক্স 1 + ত্রুটি
যা ওয়াই 1
= গড় (এক্স 1) + 0 (এক্স 1) + ত্রুটি

সুতরাং আমার মনে, এটি লিনিয়ার ফরমে প্রকাশিত একটি মডেল, তবে এটি আসলে একটি রৈখিক সম্পর্ক / মডেল নয়, কারণ কোনও opeালু নেই। Beta1 = 0,000000।

যখন আমরা 1000 এলোমেলো ডেটা পয়েন্ট উত্পন্ন করি তখন স্ক্যাটারপ্লট ক্লাসিক শটগান সার্কুলার স্প্রেটির মতো দেখতে চলেছে। উত্পাদিত হয়েছিল এমন 1000 এলোমেলো পয়েন্টের নির্দিষ্ট নমুনায় X1 এবং Y1 এর মধ্যে কিছু সম্পর্ক থাকতে পারে, তবে যদি তা হয় তবে এটি এলোমেলো ঘটনা। যদি ওএলএস কোনও পারস্পরিক সম্পর্ক খুঁজে পায়, অর্থাত, নাল অনুমানকে প্রত্যাখ্যান করে যে কোনও opeালু নেই, যেহেতু আমরা নিশ্চিতভাবেই জানি যে এই দুটি ভেরিয়েবলের মধ্যে সত্যই কোনও সম্পর্ক নেই, তবে ওএলএস আক্ষরিক অর্থে ত্রুটির অংশে একটি প্যাটার্ন খুঁজে পেয়েছে। আমি এটি "গোলমাল ফিট" এবং "উদ্দীপনা" হিসাবে চিহ্নিত করেছি।

এছাড়াও, ওএলএসের একটি স্ট্যান্ড অনুমান / প্রয়োজনীয়তা হ'ল (+/-) "লিনিয়ার রিগ্রেশন মডেল হ'ল" প্যারামিটারগুলিতে রৈখিক। " ডেটা দেওয়া হল, আমার গ্রহণযোগ্যতাটি হ'ল আমরা সেই অনুমানটি পূরণ করি না Hence সুতরাং তাত্পর্যপূর্ণ অন্তর্নিহিত পরীক্ষার পরিসংখ্যানগুলি সঠিক নয় urate আমার বিশ্বাস লিনিয়ারিটি অনুমানের লঙ্ঘনটি বুটস্ট্র্যাপের স্বজ্ঞাত ফলাফলের প্রত্যক্ষ কারণ।

আমি যখন প্রথম এই সমস্যাটি পড়ি তখন এটি ডুবে যায় নি যে ওপি শূন্যের [হাইপোথিসিস] এর অধীনে পরীক্ষা করার ইচ্ছা করছে।

তবে ডেটাসেট হিসাবে তৈরি করা হলে একই অ-স্বজ্ঞাত ফলাফল ঘটবে

এক্স 1 = রনরম (এন = 1000), ওয়াই 1 = এক্স 1 * .4 + রনরম (এন = 1000)?


4
আমি মনে করি এই উত্তরটি প্রতিটি ক্ষেত্রেই ভুল। ফলাফলগুলি "উত্সাহী" নয় - যদি না আপনি ओএলএসকে একটি খারাপ পদ্ধতি বলে মনে করেন - না ত্রুটি বৈকল্পের দ্বারা পূর্বাভাস দেওয়ার চেয়ে এগুলি আর কোনও "অস্থির" হয় না। অবশ্যই একটি নির্ভরশীল পরিবর্তনশীল: তত্ত্বের কোথাও এর কোনও প্রয়োজন নেই, অন্য ভেরিয়েবলের সাথে কিছু কার্যকারণীয় সম্পর্ক রয়েছে। প্রকৃতপক্ষে, সমস্ত রিগ্রেশন সফ্টওয়্যার দ্বারা নাল হাইপোথগুলি প্রচলিতভাবে পরীক্ষা করা হয় যে কোনও নির্ভরতা নেই - এখানে যথাযথভাবে সিমুলেটেড। Y 1Y1Y1
হুবুহু

(-1) একই কারণে @ হুবুবার দিয়েছেন।
অর্ধ-পাস

1
আপনার সম্পাদনায় চূড়ান্ত প্রশ্নের প্রতিক্রিয়া: হ্যাঁ, অবশ্যই। এটি নিজেই একটি সিমুলেশন দিয়ে চেষ্টা করুন। (কিন্তু ব্যাখ্যা সম্পর্কে সতর্কতা অবলম্বন করা আবশ্যক, কারণ আপনি বিবেচনা করতে হবে তা নাল এবং বিষয়ক বাস্তব রাষ্ট্র কি আছে।)
whuber
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.