একটি পরীক্ষামূলক নকশায় একটি সম্ভাব্য বিভ্রান্তি

প্রশ্নের ওভারভিউ

সতর্কতা: এই প্রশ্নের জন্য অনেকগুলি সেট আপ দরকার। আমার সাথে সহ্য করুন।

আমার এবং আমার এক সহকর্মী একটি পরীক্ষামূলক ডিজাইনে কাজ করছি। নকশাটি অবশ্যই বিপুল সংখ্যক বাধা ঘিরে কাজ করবে, যা আমি নীচে তালিকাবদ্ধ করব। আমি এমন একটি নকশা তৈরি করেছি যা সীমাবদ্ধতাগুলি পূরণ করে এবং এটি আমাদের আগ্রহের প্রভাবগুলির নিরপেক্ষ অনুমান দেয়। তবে, আমার সহকর্মী মনে করেন যে ডিজাইনের একটি বিভ্রান্তি রয়েছে। আমরা কোনও সমাধানে না এসে এই পয়েন্টের বিজ্ঞাপনের বিতর্কটি যুক্তিযুক্ত করেছি, সুতরাং এই মুহুর্তে আমি বাইরের কিছু মতামত চাই।

আমি অধ্যয়নের লক্ষ্য, আমাদের প্রতিবন্ধকতা, সম্ভাব্য বিভ্রান্তি এবং কেন আমি বিশ্বাস করি যে এই "বিভ্রান্তি" নীচে কোনও সমস্যা নয়। আপনি প্রতিটি বিভাগ পড়ার সাথে সাথে আমার সামগ্রিক প্রশ্নটি মনে রাখবেন:

আমি বর্ণিত ডিজাইনে কি কোনও বিভ্রান্তি রয়েছে?

[এই পরীক্ষার বিশদটি সংশোধন করা হয়েছে, তবে আমার প্রশ্ন জিজ্ঞাসা করার জন্য প্রয়োজনীয় উপাদানগুলি একই রয়ে গেছে]

পরীক্ষার লক্ষ্যগুলি

আমরা নির্ধারণ করতে চাই যে হোয়াইট পুরুষদের দ্বারা রচিত প্রবন্ধগুলি হোয়াইট মহিলা, কৃষ্ণ পুরুষ বা কৃষ্ণ মহিলা ( রচনা লেখকের পরিবর্তনশীল) রচিত প্রবন্ধগুলির চেয়ে আরও অনুকূলভাবে মূল্যায়ন করা হয় কিনা । আমরা যে পক্ষপাত খুঁজে পাই তা উচ্চ বা নিম্নমানের অনুদানগুলিতে ( মানের পরিবর্তনশীল) আরও প্রদর্শিত হয় কিনা তাও আমরা নির্ধারণ করতে চাই wish পরিশেষে, আমরা 12 বিভিন্ন বিষয়ের (প্রায় লিখিত প্রবন্ধ অন্তর্ভুক্ত করতে চান বিষয় পরিবর্তনশীল)। তবে, শুধুমাত্র প্রথম দুটি পরিবর্তনশীল যথেষ্ট আগ্রহী; যদিও প্রবন্ধগুলি জুড়ে বিষয় অবশ্যই পৃথক হতে পারে, তবুও মূল্যায়ন কীভাবে বিষয়গুলিতে আলাদা হয় সে বিষয়ে আমরা যথেষ্ট আগ্রহী নই।

সীমাবদ্ধতাসমূহ

অংশগ্রহণকারীদের সংখ্যা এবং আমরা সংগ্রহ করতে পারি এমন প্রবন্ধগুলির উভয়ের সীমাবদ্ধতা রয়েছে। ফলাফলটি হ'ল লেখকতাকে পুরোপুরি অংশগ্রহণকারীদের মধ্যে হেরফের করা যায় না, বা এটি প্রবন্ধের মধ্যে পুরোপুরি ম্যানিপুলেট করা যায় না (অর্থাত প্রতিটি স্বীকৃত নিবন্ধটি একাধিক শর্তে নির্ধারিত হতে হবে)।
যদিও প্রতিটি প্রবন্ধে সাদা পুরুষ, সাদা মহিলা, কালো পুরুষ এবং কালো মহিলা সংস্করণ থাকতে পারে, প্রতিটি প্রবন্ধটি কেবলমাত্র উচ্চ এবং নিম্নমানের একটি হতে পারে এবং কেবল একটি বিষয় হতে পারে। অথবা, এই বাধাটিকে অন্যরকমভাবে বলার জন্য, নিবন্ধের মধ্যে গুণমান বা বিষয় উভয়ই হেরফের করা যায় না, কারণ এগুলি কোনও প্রদত্ত রচনার অন্তর্নিহিত বৈশিষ্ট্য।
ক্লান্তির কারণে, প্রদত্ত অংশগ্রহনকারী মূল্যায়ন করতে পারে এমন প্রবন্ধের সংখ্যার সীমা রয়েছে।
কোনও প্রদত্ত ব্যক্তি যে সমস্ত রচনা পড়ে সেগুলির সবগুলিই একটি বিষয় সম্পর্কিত। অন্য কথায়, নিবন্ধগুলি পুরোপুরি অংশগ্রহণকারীদের এলোমেলোভাবে নির্ধারিত করা যায় না, যেহেতু আমাদের নিশ্চিত হওয়া দরকার যে প্রতিটি প্রতিযোগী কেবল একটি অনুরূপ বিষয়ের রচনাগুলি পড়েন।
প্রতিটি অংশগ্রহীতা কেবলমাত্র একটি অ-হোয়াইট পুরুষ লেখক দ্বারা রচিত একটি প্রবন্ধই দেখতে পাবে, যেহেতু আমরা চাই না যে অংশগ্রহণকারীরা পরীক্ষার উদ্দেশ্য সম্পর্কে সন্দেহজনক হয়ে উঠুক কারণ তাদের অনেকগুলি প্রবন্ধই কালো বা মহিলা লেখক দ্বারা রচিত।

প্রস্তাবিত নকশা

আমার প্রস্তাবিত নকশা প্রথমে প্রতিটি রচনাটি 4 টি বিভিন্ন লেখক সংস্করণে (সাদা পুরুষ, সাদা মহিলা ইত্যাদি) ম্যানিপুলেট করে। একটি অনুরূপ বিষয়ের চারটি প্রবন্ধগুলি তারপরে একটি "সেট" সংজ্ঞায়িত করতে ব্যবহৃত হয়, যার প্রতিটি দুটি উচ্চ এবং দুটি নিম্নমানের রচনা সমন্বিত। প্রতিটি অংশগ্রহণকারী নীচে দেওয়া চিত্রে নীচে প্রদত্ত সেট থেকে তিনটি প্রবন্ধ পান receives প্রতিটি অংশগ্রহণকারী তারপরে নির্ধারিত তিনটি প্রবন্ধের প্রত্যেককে একটি করে রেটিং প্রদান করে।

পরীক্ষার নকশা

সম্ভাব্য বিভ্রান্তি

আমার সহকর্মী বিশ্বাস করেন যে উপরের ডিজাইনে একটি বিভ্রান্তি রয়েছে। তিনি বলেন, সমস্যাটি হ'ল, যখন কোনও উচ্চমানের রচনাটি কোনও সাদা-সাদা পুরুষ লেখককে লেখার জন্য নির্ধারিত করা হয়, তখন এটি সর্বদা একটি উচ্চমানের প্রবন্ধ এবং একটি নিম্নমানের রচনাটি যুক্ত হয় (প্রবন্ধ 1 এর জন্য, অংশগ্রহণকারীদের 1-3 চিত্রে)। অন্যদিকে, যখন সেই একই প্রবন্ধটি হোয়াইট পুরুষ লেখকদের দ্বারা রচনা করার জন্য বরাদ্দ করা হয়, তখন এটি একটি উচ্চ মানের রচনা এবং একটি নিম্নমানের প্রবন্ধটি তিনবার (প্রবন্ধ 1, অংশগ্রহণকারীদের 4-6) এবং দুটি নিম্নমানের রচনা যুক্ত হয় বার (প্রবন্ধ 1 এর জন্য, অংশগ্রহণকারীদের 7-9)।

নিম্ন মানের রচনাগুলির জন্য একটি অনুরূপ সমস্যা বিদ্যমান। যখন নিম্ন মানের রচনাটিতে একটি সাদা সাদা পুরুষ লেখক থাকে, তখন সর্বদা এটি একটি নিম্নমানের রচনা এবং একটি উচ্চমানের প্রবন্ধের সাথে দেখা হয় (প্রবন্ধ 3 এর জন্য, অংশগ্রহণকারীদের 7-9 দেখুন)। যাইহোক, যখন একই প্রবন্ধটিতে একটি সাদা পুরুষ লেখক থাকে, তখন এটি একটি উচ্চ মানের রচনা এবং একটি নিম্নমানের রচনাটি তিনবার (প্রবন্ধ 3, অংশগ্রহণকারীদের 10-12) এবং দুটি উচ্চ মানের রচনা তিনবার (প্রবন্ধ 3 এর জন্য, সহ দেখা যায়) অংশগ্রহণকারীরা ২-৩)।

উপরের নিদর্শনগুলির সমস্যা হওয়ার কারণটি যদি আমরা "বিপরীত প্রভাবগুলি" এর অস্তিত্ব ধরে নিই। বিশেষত, উচ্চ মানের রচনাগুলি যখন একটি নিম্নমানের রচনা এবং একটি উচ্চ মানের রচনা (যুক্তিসঙ্গত অনুমান) এর সাথে জুটিবদ্ধ হয় তার চেয়ে কম নিম্ন মানের দুটি প্রবন্ধের সাথে গড় তৈরির ক্ষেত্রে যদি গড়ের তুলনায় গড়ের তুলনায় আরও বেশি মূল্যায়ন করা হয়, তবে সাদা পুরুষ রচনাগুলি তুলনায় উচ্চতর রেটিং পেতে পারে সাদা মহিলা, কালো পুরুষ এবং কালো মহিলা প্রবন্ধগুলি লেখকতা ব্যতীত অন্য কোনও কারণে।

উচ্চ মানের রচনাগুলির জন্য একটি বিপরীতে প্রভাব নিম্ন মানের রচনাগুলির জন্য একটি বিপরীতে প্রভাব দ্বারা সুষম হতে পারে বা নাও হতে পারে; এটি হ'ল বা এটি এমনটি হতে পারে যে দুটি উচ্চমানের প্রবন্ধের সাথে যুক্ত নিম্ন মানের রচনাগুলি বিশেষত প্রতিকূলভাবে মূল্যায়ন করা হয়। আমার সহযোগী দাবি না করেই, যে কোনও ধরণের বৈপরীত্যের প্রভাবের সম্ভাবনা এই নকশাটিকে সমস্যাযুক্ত করে তোলে যা নির্ধারণের উদ্দেশ্যে হোয়াইট পুরুষদের দ্বারা রচিত রচনাগুলি অন্যান্য লেখকের প্রবন্ধগুলির চেয়ে আরও অনুকূলভাবে মূল্যায়ন করা হয় কিনা।

আমি কেন বিশ্বাস করি যে সম্ভাব্য সংঘাতটি কোনও সমস্যা নয়

আমার জন্য গুরুত্বপূর্ণ বিষয়গুলি হ'ল হোয়াইট পুরুষ প্রবন্ধগুলি অন্যান্য প্রবন্ধগুলির তুলনায় (যেমন, আমরা আমাদের আগ্রহের প্রভাবগুলি অনুমান করতে পারি কিনা) এমনকি কন্ট্রাস্ট এফেক্টগুলির উপস্থিতিতেও আমরা ডিগ্রিটি অনুমান করতে সক্ষম কিনা। আমি তাই একটি সিমুলেশন পরিচালনা করেছিলাম যেখানে আমি 50 টি ডেটাসেট সিমুলেটেড করেছি যাতে বিপরীত প্রভাব রয়েছে এবং এমন একটি মডেল ফিট করে যা আমাদের আগ্রহের প্রভাবগুলির জন্য পরীক্ষা করে।

নির্দিষ্ট মডেলটি প্রবন্ধের জন্য র্যান্ডম ইন্টারসেপ্ট সহ একটি মিশ্র প্রভাবগুলির মডেল (প্রতিটি প্রবন্ধটি একাধিক অংশগ্রহণকারী দ্বারা মূল্যায়ন করা হয়) এবং অংশগ্রহণকারী (প্রতিটি অংশগ্রহণকারী একাধিক প্রবন্ধের মূল্যায়ন করেন)। প্রবন্ধ স্তরে জাতি, লিঙ্গ এবং তাদের মিথস্ক্রিয়াগুলির জন্য এলোমেলো slালু রয়েছে (উভয় পরিবর্তনশীল প্রবন্ধের মধ্যে ম্যানিপুলেট করা হয়) এবং অংশগ্রহণকারী স্তরের মানের জন্য একটি এলোমেলো slাল রয়েছে (অংশগ্রহণকারীদের মধ্যে গুণগতভাবে হেরফের করা হয়)। আগ্রহের প্রভাবগুলি হ'ল জাতি, লিঙ্গ, জাতি এবং লিঙ্গের মধ্যে মিথস্ক্রিয়া এবং এই প্রতিটি ভেরিয়েবল এবং মানের মধ্যে উচ্চতর ক্রম প্রতিক্রিয়া। এই সিমুলেশনটির লক্ষ্য নির্ধারণ করা হয়েছিল যে উপাত্তগুলিতে বৈপরীত্যের প্রভাবগুলি প্রবর্তন করা জাতি, লিঙ্গ, জাতি এবং লিঙ্গের মধ্যে মিথস্ক্রিয়তার উত্সাহজনক প্রভাব তৈরি করে কিনা, এবং এই ভেরিয়েবল এবং মানের মধ্যে উচ্চতর অর্ডার ইন্টারঅ্যাকশন। আরও তথ্যের জন্য নীচের কোড অংশটি দেখুন।

সিমুলেশন অনুসারে, বিপরীত প্রভাবগুলির উপস্থিতি আমাদের আগ্রহের কোনও প্রভাবের অনুমানকে পক্ষপাতিত্ব করে না। এছাড়াও, বিপরীতে প্রভাবের আকারটি একই পরিসংখ্যানের মডেলটিতে ডিজাইনের অন্যান্য প্রভাবগুলির হিসাবে অনুমান করা যায়; আমার কাছে এটি ইতিমধ্যে পরামর্শ দেয় যে আমার সহকর্মী দ্বারা চিহ্নিত "বিপরীত প্রভাবগুলি" বিভ্রান্ত নয়। আমার সহকর্মী অবশ্য সন্দেহবাদী রয়েছেন।

require(lme4)
require(plyr)

participant <- rep(1:12, 3)
essay <- c(rep(1, 9), rep(2, 9), rep(3, 9), rep(4, 9))
quality <- ifelse(essay == 1 | essay == 2, "high", "low")
race <- c("white", "black", "black", "white", "white", "white", "white", "white", "white",
          "white", "white", "white", "white", "white", "white", "white", "black", "black",
          "white", "black", "black", "white", "white", "white", "white", "white", "white",
          "white", "white", "white", "white", "white", "white", "white", "black", "black")
gender <- c("female", "male", "female", "male", "male", "male", "male", "male", "male",
            "male", "male", "male", "male", "male", "male", "female", "male", "female",
            "female", "male", "female", "male", "male", "male", "male", "male", "male",
            "male", "male", "male", "male", "male", "male", "female", "male", "female")

d <- data.frame(participant, essay, quality, race, gender)

for(i in 1:35)
{
  participant <- participant + 12
  essay <- essay + 4
  newdat <- data.frame(participant, essay, quality, race, gender)

  d <- rbind(d, newdat)
}

check_var <- function(var)
{
  tab <- table(var)
  newvar <- character()

  for(i in var)
  {
    if(i == names(tab[tab == 1]))
    {
      newvar <- c(newvar, "different")
    } else
    {
      newvar <- c(newvar, "same")
    }
  }

  return(newvar)
}

# Mark, for a given participant, which essay is "different"
d <- ddply(d, "participant", mutate, different = check_var(quality))

# Make each variable numeric for the purposes of the simulation
d$quality <- ifelse(d$quality == "low", -.5, .5)
d$race <- ifelse(d$race == "black", -.5, .5)
d$gender <- ifelse(d$gender == "female", -.5, .5)
d$different <- ifelse(d$different == "same", -.5, .5)

# Random seed
set.seed(2352)

# Number of simulations
reps <- 50
# Create a storage space for the effects
effs <- matrix(NA, ncol = 10, nrow = reps)

# For each simulation
for(i in 1:reps)
{
  # Fixed effects.  A quality effect and a contrast effect for quality
  d$score <- .5 * d$quality + 1 * d$different * d$quality

  # Random effects at the participant level
  d <- ddply(d, "participant", mutate, r_int = rnorm(1, sd = .5),
             r_q = rnorm(1, sd = .5),
             score = score + r_int + r_q * quality)

  # Random effects at the essay level
  d <- ddply(d, "essay", mutate, g_int = rnorm(1, sd = .5),
             g_r = rnorm(1, sd = .5),
             g_g = rnorm(1, sd = .5),
             g_r_g = rnorm(1, sd = .5),
             score = score + g_int + g_r * race + g_g * gender + g_r_g * race * gender)

  # Observation-level error
  d$score <- d$score + rnorm(dim(d)[1], sd = 1)

  # Fit the model
  mod <- lmer(score ~ race * gender * quality + different * quality + (race * gender | essay) + (quality | participant), data = d)

  # Store the coefficients
  colnames(effs) <- names(fixef(mod))
  effs[i, ] <- fixef(mod)

  # Print the current simulation
  print(i)
}

# Results
round(colMeans(effs), digits = 2)

        (Intercept)                race              gender             quality 
               0.00               -0.03                0.02                0.50 
          different         race:gender        race:quality      gender:quality 
               0.01               -0.03                0.00                0.03 
  quality:different race:gender:quality 
               0.97               -0.02

আবার আমার সামগ্রিক প্রশ্নটি হল, আমি বর্ণিত ডিজাইনে কোনও বিভ্রান্তি রয়েছে? যদি কোনও বিভ্রান্তি উপস্থিত না থাকে তবে আমি কেন "কন্ট্রাস্ট ইফেক্ট" এর সম্ভাব্য কারণগুলিতে বিভ্রান্ত হচ্ছি না তার বিবরণে আগ্রহী যাতে আমি আমার সহকর্মীর কাছে এটি ব্যাখ্যা করতে পারি।

— প্যাট্রিক এস
সূত্র

কেবল একটি মন্তব্য: প্রবন্ধগুলি কীভাবে রেট হবে? আমি জিজ্ঞাসা করি কারণ যদি একাধিক রেটার নিয়োগ করা হয় তবে আপনাকে মনে রাখতে হবে যে বিভিন্ন রেটারের রেটিং খুব সামঞ্জস্যপূর্ণ নয় তাই আপনাকেও রেটারগুলির মধ্যে পরিবর্তনশীলতার কথা মনে রাখা উচিত।

— টিম

প্রতিটি অংশগ্রহণকারী তাকে নির্ধারিত তিনটি প্রবন্ধের প্রত্যেককে একটি করে রেটিং প্রদান করে।

— প্যাট্রিক এস ফোরসচার

আমি প্রশ্নের শরীরে রেটিং পদ্ধতি সম্পর্কে বিস্তারিত যুক্ত করেছি।

— প্যাট্রিক এস ফোরসচার

আমরা যারা Lmer () এর সাথে অপরিচিত তাদের জন্য আপনি কীভাবে বিশ্লেষণ এবং "আগ্রহের প্রভাবগুলি" সংক্ষেপে ব্যাখ্যা করতে পারেন?

— অ্যান্টনি

সমস্যা নেই, অ্যান্টনি। আমি সেই বিবরণটি প্রশ্নের সাথে যুক্ত করেছি।

— প্যাট্রিক এস ফোরসচার

আমি সম্পর্কিত বিভ্রান্তির বিষয়ে উদ্বিগ্ন হব - 'প্রতিটি অংশগ্রহীতা কেবলমাত্র একটি অ-হোয়াইট পুরুষ লেখক দ্বারা রচিত একটি রচনা দেখতে পাবে, যেহেতু আমরা চাই না যে অংশগ্রহণকারীরা পরীক্ষার উদ্দেশ্য সম্পর্কে সন্দেহজনক হন কারণ তাদের অনেকগুলি প্রবন্ধই কালো বা মহিলা লেখক দ্বারা রচিত। '

এর অর্থ যে ফলাফল যাই হোক না কেন, আপনি এটি নির্ধারণ করতে পারবেন না যে এটি সাদা পুরুষ লেখকত্ব এবং অন্যান্য লেখকতার মধ্যে পার্থক্য বা কেবল 'সংখ্যাগরিষ্ঠ লেখক' এবং 'সংখ্যালঘু লেখক' এর মধ্যে।

যদি প্রদর্শিত নকশাটি উপস্থাপনা ক্রমকেও প্রতিবিম্বিত করে (আমি ধরে নিলাম এটি এটি নয় তবে এটি পরীক্ষা করা ভাল) তবে এটি অন্য একটি সমস্যা বলে মনে হয়।

— রাতের পাহারাদার
সূত্র

চিত্রটি উপস্থাপনা ক্রম প্রতিফলিত করে না।

— প্যাট্রিক এস ফার্সচার

আমি "সংখ্যাগরিষ্ঠ" এবং "সংখ্যালঘু" রচয়িতা দ্বারা ধরে নিয়েছি, আপনি বোঝাচ্ছেন নিবন্ধগুলির অনুপাত যা প্রদত্ত জাতি / লিঙ্গ সংমিশ্রণ (যেমন, 2/3 সাদা পুরুষ, 1/3 অন্যান্য)? এটি সত্য যে প্রতিটি অংশগ্রহণকারীর জন্য, সাদা পুরুষ প্রবন্ধগুলি অন্যের তুলনায় উপস্থিত প্রবন্ধগুলির একটি বৃহত্তর অনুপাত রচনা করে। তবে, আমরা পড়াশোনা করতে চাই নিবন্ধ লেখকদের জনসংখ্যার একটি বৃহত্তর অংশ হোয়াইট পুরুষরা রচনা করেন। আমরা সিদ্ধান্ত নিয়েছি যে এই "বিভ্রান্তি" (যা আসলে সমস্যার অংশ হতে পারে) কোনও কৃত্রিম পরিস্থিতি তৈরির চেয়ে কম সমস্যাযুক্ত যেখানে সাদা পুরুষ এবং সংখ্যালঘু-লিখিত প্রবন্ধের ঠিক অর্ধেক রয়েছে।

— প্যাট্রিক এস ফার্সচার

প্রতিটি অংশগ্রহণকারী কেবলমাত্র দুটি প্রবন্ধ (একটি সাদা পুরুষ এবং অন্য একজন) রেট দিলে নকশাটি কি সহজ হবে না? তাই, অংশগ্রহণকারীদের দুটি রচনা রেট করুন তবে তাদের বিশ্বাস রয়েছে যে স্তূপটি বেশিরভাগ পুরুষ রচনাগুলিতে রয়েছে। তারা ঘটনাক্রমে এই দুজনকে পেয়েছে। কার্ড যাদুকররা এটিকে "জোর করে" বলে ডাকে। যদি এর জন্য অনেক বেশি অংশগ্রহণকারী প্রয়োজন হয় তবে 12 টিরও কম বিষয়ের উপর পরীক্ষা করুন। বারোটা অনেক।

— dragice
সূত্র

এই নমুনা আকারের সাথে আপনি কীভাবে কোনও সিদ্ধান্তে পৌঁছতে পারেন? যদি আপনি এই পরীক্ষাটি বহুবার পুনরাবৃত্তি করেন তবে চারটি চিহ্নিতকারী যারা একটি সাদা পুরুষ এবং একটি কালো পুরুষ উভয়ই পেয়ে থাকেন তারা 16 এর মধ্যে একটি পরীক্ষায় সাদা পুরুষদের আরও ভাল নম্বর দিয়েছিলেন।

— হিউ মরিস
সূত্র

এটি এই অধ্যয়নের একটি খুব ছোট সংস্করণ। সম্পূর্ণ গবেষণায় প্রবন্ধগুলি মূল্যায়ন করছে 432 জন।

— প্যাট্রিক এস ফার্সচার