রিগ্রেশনে নির্ভরশীল পরিবর্তনশীল হিসাবে শতাংশের অনুমান


13

আমার গবেষণায় নির্ভরশীল পরিবর্তনশীল হিসাবে 38 টি পরীক্ষায় আমার র‌্যাঙ্ক শতকরা হার রয়েছে। একটি র‌্যাঙ্ক শতাংশ শতাংশ দ্বারা গণনা করা হয় (একজন শিক্ষার্থীর র‌্যাঙ্ক / একটি পরীক্ষায় শিক্ষার্থীর সংখ্যা)। এই নির্ভরশীল চলকটির প্রায় সমান বিতরণ রয়েছে এবং আমি নির্ভরশীল ভেরিয়েবলের উপর কিছু ভেরিয়েবলের প্রভাব অনুমান করতে চাই want

আমি কোন রিগ্রেশন পদ্ধতির ব্যবহার করব?


2
নিয়মিত (ওএলএস) রিগ্রেশন নির্ভরশীল ভেরিয়েবলের বিতরণ সম্পর্কে ধারনা তৈরি করে না, এটি একটি মডেল থেকে ত্রুটির বিতরণ সম্পর্কে (অনুমান অনুসারে) অনুমানগুলি তৈরি করে। যদি পরীক্ষায় প্রতি শিক্ষার্থীর সংখ্যা পরিবর্তিত হয়, আপনি সম্ভবত ওএলএস রিগ্রেশন দিয়ে শুরু করতে পারেন এবং অনুমানগুলি পরীক্ষা করতে পারেন।
পিটার ফ্লুম - মনিকা পুনরায়

2
এটি একটি ভাল পরামর্শ, @ পিটার, তবে আমি ওএলএস অনুমানের সূক্ষ্ম হলেও গুরুত্বপূর্ণ লঙ্ঘনের বিষয়ে উদ্বিগ্ন। কোনও পরীক্ষায় একজন শিক্ষার্থীর পদমর্যাদা অন্যান্য সকল শিক্ষার্থী পরীক্ষা দেওয়ার গুণাবলীর উপর নির্ভর করবে। এই আন্তঃনির্ভরতা ওএলএস-এর কোনও (রুটিন) অ্যাপ্লিকেশন দ্বারা ক্যাপচার করা হয় না।
শুক্রবার

এখানে কী চলছে তা বোঝার আরেকটি উপায় হ'ল এই সমস্যার সহজতম উদাহরণটি বিবেচনা করা, যেখানে প্রতিটি "পরীক্ষা" শিক্ষার্থীর মধ্যে দু'জনকেই অন্তর্ভুক্ত করে। নির্ভরশীল চলকটি নির্দেশ করে যে কোন শিক্ষার্থী আরও ভাল করেছে। আমরা যদি প্রতিটি পরীক্ষাকে প্রতিযোগিতা হিসাবে ভাবি তবে এটি একটি টুর্নামেন্টের সমতুল্য। প্রশ্ন, বাস্তবে, কিছু ব্যাখ্যামূলক ভেরিয়েবলের ক্ষেত্রে প্রতিটি খেলোয়াড়ের "শক্তি" জন্য একটি সূত্র নিয়ে আসতে চায়।
whuber

আপনি ঠিক আছেন এটিকে কীভাবে সম্বোধন করবেন? আমি মনে করি একটি আইআরটি মডেল এটি করবে, তবে আমি সেগুলি পড়াশুনা করে অনেক দিন হয়ে গেল।
পিটার ফ্লুম - মনিকা পুনরায়

@ যাকে আমি মনে করি যে আইআরটি একটি সম্ভাবনা হতে পারে, উদাহরণস্বরূপ একটি আদেশযুক্ত প্রবিট (বা লগিট) হতে পারে। তবে বাউন্ডেড ক্রমাগত পরিবর্তনশীল হিসাবে শতাংশের অবস্থান বিবেচনা করাও সম্ভব (মাইকের প্রস্তাবিত লজিস্টিক রিগ্রেশনের মতো), এটি হবে বৈধ আনুমানিকতা হবে , যেখানে অর্ডার করা প্রবিট সমস্যার জন্য একটি সোজা মডেল হবে। যৌক্তিকতার সুবিধাটি পার্সিমনি; শিক্ষার্থীদের পারস্পরিক সম্পর্কের জন্য অ্যাকাউন্টে, একটি সাদা বা স্যান্ডউইচ ভেরিয়েন্স অনুমানক প্রয়োগ করা যেতে পারে। আমি বুঝেছি যে বেশিরভাগ শিক্ষার্থীর (অনুদৈর্ঘ্য) জন্য নমুনায় 38 টি পরীক্ষা রয়েছে তাই এটি সম্ভব হওয়া উচিত।
জেডিভ

উত্তর:


3

আপনি যদি স্টাটার সাথে কাজ করছেন তবে নীচের উদাহরণটি দেখুন: http://www.ats.ucla.edu/stat/stata/faq/proportion.htm

এই ওয়েবপৃষ্ঠা থেকে একটি উদ্ধৃতি এখানে:

"যখন নির্ভরশীল চলক একটি অনুপাত হয় তখন কেউ কীভাবে রিগ্রেশন করতে পারে?

অনুপাতের ডেটাতে মানগুলি শূন্য এবং একের মধ্যে পড়ে। স্বাভাবিকভাবেই, পূর্বাভাসকৃত মানগুলিও শূন্য এবং একের মধ্যে পড়লে ভাল লাগবে। এটি সম্পাদনের এক উপায় হ'ল লগিট লিঙ্ক এবং দ্বিপদী পরিবার সহ একটি সাধারণীকরণীয় লিনিয়ার মডেল (গ্ল্যাম) ব্যবহার করা। আমরা শক্তিশালী স্ট্যান্ডার্ড ত্রুটিগুলি অর্জনের জন্য গ্লোম মডেলটিতে শক্তিশালী বিকল্পটি অন্তর্ভুক্ত করব যা আমরা বিতরণ পরিবারকে ভুলভাবে চিহ্নিত করলে বিশেষত কার্যকর হবে ""


2
এটি দুর্দান্ত, এবং অন্যান্য প্রেক্ষাপটে দুর্দান্ত পরামর্শ হবে তবে একটি উত্তেজনা ব্যবহার করা আমার উত্তরে চিহ্নিত সমস্যাগুলি সমাধান করবে না।
হোবার


9

সংক্ষিপ্তসার

যত্ন সহকারে ব্যাখ্যা করার সময় রিগ্রেশন ফলাফলগুলির কিছু সীমিত মান থাকতে পারে। অপরিবর্তনীয় অপরিবর্তনীয় ফর্মগুলি সহগের অনুমানগুলি যথেষ্ট পরিমাণে শূন্যের দিকে সঙ্কুচিত করবে। আরও উপযুক্ত মডেলের প্রয়োজন যা আরও উপযুক্ত উপায়ে প্রকরণকে পরিচালনা করে।

(সর্বাধিক সম্ভাবনার মডেলটি তৈরি করা যেতে পারে তবে প্রয়োজনীয় গণনার কারণে অবর্ণনীয় হতে পারে, যার মধ্যে বহুমাত্রিক ইন্টিগ্রালের সংখ্যাসমূহের মূল্যায়ন জড়িত dimen মাত্রার সংখ্যা ক্লাসে ভর্তিচ্ছু শিক্ষার্থীর সংখ্যার সমান))

ভূমিকা

আমাদের অন্তর্দৃষ্টিকে অবহিত করার জন্য আখ্যান হিসাবে, কল্পনা করুন যে এই 38 টি পরীক্ষাগুলি 200 কলেজের ছাত্রদের ভর্তির সাথে একটি ছোট স্কুলে একটি সেমিস্টারের সময় 38 টি পৃথক কোর্সে দেওয়া হয়েছিল। বাস্তবসম্মত পরিস্থিতিতে সেই শিক্ষার্থীদের বিভিন্ন ক্ষমতা এবং অভিজ্ঞতা থাকবে। এই দক্ষতা এবং অভিজ্ঞতাগুলির সারোগেট ব্যবস্থা হিসাবে আমরা নিতে পারি, বলুন, স্যাট গণিত এবং মৌখিক পরীক্ষা এবং কলেজে বছরের স্কোর (1 থেকে 4)।

সাধারণত, শিক্ষার্থীরা তাদের দক্ষতা এবং আগ্রহ অনুসারে কোর্সে ভর্তি হবে। ফ্রেশম্যানগণ প্রারম্ভিক কোর্স গ্রহণ করেন এবং প্রাথমিক পাঠ্যক্রমগুলি প্রাথমিকভাবে নতুনদের দ্বারা জনবহুল হয়। বড় শিল্পী এবং মেধাবী নবীন এবং সোফমোরস উন্নত এবং স্নাতক স্তরের কোর্স গ্রহণ করে। এই বাছাইটি আংশিকভাবে শিক্ষার্থীদের স্তরবিন্যাস করে যাতে কোনও শ্রেণির মধ্যে শিক্ষার্থীদের সহজাত দক্ষতা সাধারণত পুরো স্কুল জুড়ে সক্ষমতা ছড়িয়ে দেওয়ার চেয়ে আরও বেশি একজাতীয় হয়।

সুতরাং, সর্বাধিক সক্ষম শিক্ষার্থীরা তারা যে কঠিন, উন্নত শ্রেণিতে ভর্তি হন তার নীচের অংশে নিজেকে স্কোর করতে পারে, এবং কমপক্ষে সক্ষম শিক্ষার্থীরা তাদের নেওয়া সহজ সূচনা ক্লাসগুলির শীর্ষের কাছে স্কোর করতে পারে। এটি সরাসরি পরীক্ষার সাথে সম্পর্কিত শিক্ষার্থীদের এবং ক্লাসের বৈশিষ্ট্যের সাথে সরাসরি সম্পর্কিত প্রচেষ্টাকে বিভ্রান্ত করতে পারে।

বিশ্লেষণ

সঙ্গে ইনডেক্স ছাত্র দিন ছাত্র গুণাবলীর আমি ভেক্টর দ্বারা দেওয়া x আমিজে সহ ক্লাসগুলি সূচী করুন এবং শ্রেণি এর বৈশিষ্ট্যগুলি ভেক্টর জেড জে দ্বারা দেওয়া হোক । ক্লাস জে ভর্তিচ্ছু শিক্ষার্থীদের সেট হ'ল জেiixijjzjjAj

"শক্তি" ধরে প্রতিটি ছাত্র তাদের গুণাবলীর একটি ফাংশন প্লাস কিছু র্যান্ডম মান, যা পাশাপাশি শূন্য গড় থাকতে পারে হল:si

si=f(xi,β)+εi.

আমরা ক্লাস পরীক্ষার মডেল করি ক্লাসে ভর্তি হওয়া প্রতিটি শিক্ষার্থীর শক্তিতে স্বতন্ত্র এলোমেলো মান যুক্ত করে এবং তাদেরকে র‌্যাঙ্কে রূপান্তর করে। যেহেতু, আমি যদি শিক্ষার্থী i ক্লাস জে ভর্তি হই , তবে তাদের আপেক্ষিক র‌্যাঙ্ক r i , j তাদের মান অনুসারে নির্ধারিত হয়jijri,j

(sk+δk,j,kAj).

নির্ভরযোগ্য ভেরিয়েবল, শতাংশের র‌্যাঙ্ক দেওয়ার জন্য মোট অবস্থানের তালিকাভুক্তির চেয়ে এই অবস্থানটি ভাগ করে নেওয়া হয়েছে:ri,j

pi,j=ri,j1+|Aj|.

আমি দাবি করি যে রিগ্রেশন ফলাফলগুলি এলোমেলো (অরক্ষিত) মানের এবং δ i , j এর আকার এবং কাঠামোর উপর নির্ভর করে (বেশ কিছুটা) । εiδi,j ফলাফল ক্লাসে শিক্ষার্থীরা কীভাবে নিবন্ধিত হয় তার উপরও নির্ভর করে। এটি স্বজ্ঞাতভাবে সুস্পষ্ট হওয়া উচিত, তবে যা এতটা সুস্পষ্ট নয় - এবং তাত্ত্বিকভাবে বিশ্লেষণ করা কঠিন বলে মনে হচ্ছে - তা কীভাবে এবং কতটা অলক্ষিত মূল্যবোধ ও শ্রেণী কাঠামো রিগ্রেশন প্রভাবিত।

ব্যাজ

অত্যধিক প্রচেষ্টা ছাড়াই আমরা কিছু নমুনা ডেটা তৈরি এবং বিশ্লেষণের জন্য এই পরিস্থিতিটি অনুকরণ করতে পারি। সিমুলেশনটির একটি সুবিধা হ'ল এটি শিক্ষার্থীদের আসল শক্তিগুলি অন্তর্ভুক্ত করতে পারে যা বাস্তবে পর্যবেক্ষণযোগ্য নয়। আরেকটি হ'ল আমরা অনাবদ্ধ মানগুলির সাধারণ আকারের পাশাপাশি শ্রেণীর অ্যাসাইনমেন্টগুলি পৃথক করতে পারি। এটি প্রতিরোধের মতো প্রস্তাবিত বিশ্লেষণ পদ্ধতিগুলি মূল্যায়নের জন্য একটি "স্যান্ডবক্স" সরবরাহ করে।

শুরু করতে, আসুন পুনরুত্পাদনযোগ্য ফলাফলের জন্য এলোমেলো সংখ্যা জেনারেটর সেট করুন এবং সমস্যার আকার নির্দিষ্ট করুন। আমি Rএটি ব্যবহার করি কারণ এটি কারও কাছে উপলব্ধ।

set.seed(17)
n.pop <- 200      # Number of students
n.classes <- 38   # Number of classes
courseload <- 4.5 # Expected number of classes per student

বাস্তবতা প্রদানের জন্য, n.classesদুটি স্কেলের (গাণিতিক এবং মৌখিক, একটি নেতিবাচক পারস্পরিক সম্পর্কযুক্ত) উপর বিভিন্ন ধরণের অসুবিধাগুলির শ্রেণি তৈরি করুন (1 = পরিচিতি থেকে 7 = গবেষণা পর্যন্ত) এবং পরিবর্তনশীল স্বাচ্ছন্দ্যের সাথে। (একটি "সহজ" শ্রেণিতে, শিক্ষার্থীদের শেখার পরিমাণের মধ্যে পার্থক্য বড় হতে পারে এবং / অথবা পরীক্ষা শিক্ষার্থীদের মধ্যে সামান্য বৈষম্য সরবরাহ করতে পারে This এটি এলোমেলো পদ দ্বারা মডেল করা হয়েছে যে, ক্লাস জে জন্য বড় হতে থাকে পরীক্ষার ফলাফলগুলি তখন শিক্ষার্থীর শক্তির ডেটা থেকে প্রায় অনাকাঙ্ক্ষিত হবে the যখন ক্লাসটি "সহজ" হয় না, তখন এই র্যান্ডম শর্তগুলি তুচ্ছভাবে ছোট হয় এবং শিক্ষার্থীদের শক্তি পরীক্ষার স্থান নির্ধারণ করতে পারে।)δi,jj

classes <- data.frame(cbind(
  math <- runif(n.classes), 
  rbeta(n.classes, shape1=(verbal <- (1-math)*5), shape2=5-verbal),
  runif(n.classes, min=0, max=7),
  rgamma(n.classes, 10, 10)))
rm(math, verbal)
colnames(classes) <- c("math.dif", "verbal.dif", "level", "ease")
classes <- classes[order(classes$math.dif + classes$verbal.dif + classes$level), ]
row.names(classes) <- 1:n.classes
plot(classes, main="Classes")

শিক্ষার্থীরা চার বছরের মধ্যে ছড়িয়ে পড়ে এবং তাদের গুণাবলীর এলোমেলো মূল্যবোধ দ্বারা সজ্জিত। এই বৈশিষ্ট্যগুলির মধ্যে কোনওটির সাথে কোনও সম্পর্ক নেই:

students <- data.frame(cbind(
  as.factor(ceiling(runif(n.pop, max=4))),
  sapply(rnorm(n.pop, mean=60, sd=10), function(x) 10*median(c(20, 80, floor(x)))),
  sapply(rnorm(n.pop, mean=55, sd=10), function(x) 10*median(c(00, 80, floor(x)))),
  rnorm(n.pop)
  ))
colnames(students) <- c("year", "math", "verbal", "ability")
plot(students, main="Students")

εibetabeta

beta <- list(year.1=0, year.2=1, year.3=3, year.4=4, math=1/100, verbal=1/100, ability=2, sigma=0.01)
students$strength <- (students$year==1)*beta$year.1 + 
  (students$year==2)*beta$year.2 +
  (students$year==3)*beta$year.3 +
  (students$year==4)*beta$year.4 +
  students$math*beta$math + 
  students$verbal*beta$verbal + 
  students$ability*beta$ability
students <- students[order(students$strength), ]
row.names(students) <- 1:n.pop

students$abilitybeta$abilitybeta$sigmaeaseδi,j.01.2 বা আমার তাই যুক্তিযুক্ত বলে মনে হয়।)

classesspreadassignments <-...0

pick.classes <- function(i, k, spread) {
  # i is student strength rank
  # k is number to pick
  p <- pmin(0.05, diff(pbeta(0:n.classes/n.classes, i/spread, (1+n.pop-i)/spread)))
  sample(1:n.classes, k, prob=p)
}
students$n.classes <- floor(1/2 + 2 * rbeta(n.pop,10,10) * courseload)
assignments <- lapply(1:n.pop, function(i) pick.classes(i, students$n.classes[i], spread=1))
enrolment <- function(k) length(seq(1, n.pop)[sapply(assignments, function(x) !is.na(match(k, x)))])
classes$size <- sapply(1:n.classes, enrolment)
classes$variation <- by(data, data$Class, function(x) diff(range(x$strength)))

(এই পদক্ষেপটি কী সম্পাদন করেছে তার উদাহরণ হিসাবে, নীচের চিত্রটি আরও দেখুন))

n1/(n+1)n/(n+1)1/(n+1) । এটি পরে লজিস্টিক ফাংশন (যা এর মানগুলিতে প্রয়োগ করা হয় যখন অপরিজ্ঞাত হয়) এর মতো রূপান্তরগুলি প্রয়োগ করা সম্ভব করে তোলে01

exam.do <- function(k) {
  s <- seq(1, n.pop)[sapply(assignments, function(x) !is.na(match(k, x)))]
  e <- classes$ease[k]
  rv <- cbind(rep(k, length(s)), s, order(rnorm(length(s), students$strength[s], sd=e*beta$sigma*classes$variation[k])))
  rv <- cbind(rv, rv[,3] / (length(s)+1))
  dimnames(rv) <- list(NULL, c("Class", "Student", "Rank", "Prank"))
  rv
}
data.raw <- do.call(rbind, sapply(1:n.classes, exam.do))

এই কাঁচা তথ্যের সাথে আমরা বিশ্লেষণের জন্য উপযুক্ত একটি ডেটাसेट তৈরি করতে শিক্ষার্থী এবং শ্রেণীর বৈশিষ্ট্যগুলি সংযুক্ত করি:

data <- merge(data.raw, classes, by.x="Class", by.y="row.names")
data <- merge(data, students, by.x="Student", by.y="row.names")

আসুন আমরা তথ্যের একটি এলোমেলো নমুনা পরিদর্শন করে নিজেকে আলোকিত করি:

> data[sort(sample(1:dim(data)[1], 5)),]

Row Student Class Rank Prank math.dif verbal.dif  level  ease Size year math verbal ability strength n.classes
118      28     1   22 0.957  0.77997   6.95e-02 0.0523 1.032   22    2  590    380   0.576     16.9         4
248      55     5   24 0.889  0.96838   1.32e-07 0.5217 0.956   26    3  460    520  -2.163     19.0         5
278      62     6   22 0.917  0.15505   9.54e-01 0.4112 0.497   23    2  640    510  -0.673     19.7         4
400      89    10   16 0.800  0.00227   1.00e+00 1.3880 0.579   19    1  800    350   0.598     21.6         5
806     182    35   18 0.692  0.88116   5.44e-02 6.1747 0.800   25    4  610    580   0.776     30.7         4

রেকর্ড 118, উদাহরণস্বরূপ, শিক্ষার্থী # 28 ক্লাস # 1 এ ভর্তি হয়েছে এবং 0.957 শতাংশ শতাংশের জন্য পরীক্ষায় 22 তম (নীচ থেকে) স্কোর করেছে says এই শ্রেণীর সামগ্রিক সমস্যা ছিল 0.0523 (খুব সহজ)। মোট 22 জন শিক্ষার্থী ভর্তি হয়েছিল। এই ছাত্রটি 560 গণিত, 380 মৌখিক এসএটি স্কোর সহ একটি সফফোর (বছর 2)। তাদের সামগ্রিক সহজাত একাডেমিক শক্তি 16.9। এ সময় তারা চারটি ক্লাসে ভর্তি হয়েছিল।

এই ডেটাসেটটি প্রশ্নের বর্ণনার সাথে মিশ্রণ করে। উদাহরণস্বরূপ, শতাংশের র‌্যাঙ্কগুলি প্রকৃতপক্ষে প্রায় অভিন্ন (যেমন এটি কোনও সম্পূর্ণ ডেটাসেটের জন্য হওয়া আবশ্যক, কারণ একক শ্রেণির জন্য শতকরা শতাংশের আলাদা আলাদা ডিস্ট্রিবিউশন রয়েছে)।

মনে রাখবেন, সহগের গুণাবলী অনুসারে betaএই মডেল পরীক্ষার স্কোর এবং এই ডেটাসেটে প্রদর্শিত ভেরিয়েবলের মধ্যে একটি শক্তিশালী সংযোগ গ্রহণ করেছে । তবে রিগ্রেশন কী দেখায়? আসুন পর্যবেক্ষণযোগ্য শিক্ষার্থীর সমস্ত বৈশিষ্ট্যের তুলনায় শতাংশের র‌্যাঙ্কের যৌক্তিকতা আবার ফিরিয়ে আনুন যা তাদের দক্ষতার সাথে সম্পর্কিত হতে পারে, পাশাপাশি শ্রেণিবদ্ধের অসুবিধার সূচক:

logistic <- function(p) log(p / (1-p))
fit <- lm(logistic(Prank) ~ as.factor(year) + math + verbal + level, data=data)
summary(fit)

Coefficients:
                  Estimate Std. Error t value Pr(>|t|)    
(Intercept)      -2.577788   0.421579   -6.11  1.5e-09 ***
as.factor(year)2  0.467846   0.150670    3.11   0.0020 ** 
as.factor(year)3  0.984671   0.164614    5.98  3.2e-09 ***
as.factor(year)4  1.109897   0.171704    6.46  1.7e-10 ***
math              0.002599   0.000538    4.83  1.6e-06 ***
verbal            0.002130   0.000514    4.14  3.8e-05 ***
level            -0.208495   0.036365   -5.73  1.4e-08 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 1.48 on 883 degrees of freedom
Multiple R-squared: 0.0661, Adjusted R-squared: 0.0598 
F-statistic: 10.4 on 6 and 883 DF,  p-value: 3.51e-11 

ডায়াগনস্টিক প্লট (plot(fit) ) দ্রুত দেখায়: অবশিষ্টাংশগুলি সমকামী এবং সুন্দরভাবে স্বাভাবিক (কিছুটা ছোট লেজযুক্ত হলেও এটি কোনও সমস্যা নয়); কোন বিদেশী না; এবং কোনও পর্যবেক্ষণে কোনও অপ্রীতিকর প্রভাব নেই।

3.5(9,1.6,3.4,3.9,0.009,0.007,0.7)(,1,3,4,0.010,0.010,) এর জন্য এমন একটি সহগ রয়েছে যা স্পষ্টভাবে নির্দিষ্ট করা হয়নি)।

level07level

(যাইহোক, শতাংশে রেগ্রেশন অপ্রত্যাশিত র‌্যাঙ্কগুলি ব্যবহার করা নীচে বর্ণিত ফলাফলগুলি গুণগতভাবে পরিবর্তন করে না))

spread138

Coefficients:
                  Estimate Std. Error t value Pr(>|t|)    
(Intercept)      -4.902006   0.349924  -14.01  < 2e-16 ***
as.factor(year)2  0.605444   0.130355    4.64  3.9e-06 ***
as.factor(year)3  1.707590   0.134649   12.68  < 2e-16 ***
as.factor(year)4  1.926272   0.136595   14.10  < 2e-16 ***
math              0.004667   0.000448   10.41  < 2e-16 ***
verbal            0.004019   0.000434    9.25  < 2e-16 ***
level            -0.299475   0.026415  -11.34  < 2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 1.3 on 883 degrees of freedom
Multiple R-squared: 0.282,  Adjusted R-squared: 0.277 
F-statistic: 57.9 on 6 and 883 DF,  p-value: <2e-16

ক্লাস অ্যাসাইনমেন্ট প্লট

spread38spread1

এবার আর-স্কোয়ারটি অনেক উন্নত হয়েছে (যদিও এখনও দুর্দান্ত নয়)। যাইহোক, সমস্ত সহগুণ 20 - 100% বৃদ্ধি পেয়েছে। এই টেবিলটি কিছু অতিরিক্ত সিমুলেশনগুলির সাথে তাদের তুলনা করে:

Simulation Intercept Year.2 Year.3 Year.4 Math Verbal Level R^2
Beta               *    1.0    3.0    4.0 .010   .010     *   *
Spread=1        -2.6    0.5    1.0    1.1 .003   .002 -0.21  7%
Spread=38       -4.9    0.6    1.7    1.9 .005   .004 -0.30 25%
Ability=1       -8.3    0.9    2.6    3.3 .008   .008 -0.63 58%
No error       -11.2    1.1    3.3    4.4 .011   .011 -0.09 88%

spread38ability21abilitysigma0εiδi,jlevel

এই দ্রুত বিশ্লেষণটি দেখায় যে কমপক্ষে এখানে সম্পাদিত হিসাবে রিগ্রেশন, সহগের সাথে বৈচিত্র্যের অপরিবর্তনীয় রূপগুলিকে বিভ্রান্ত করতে চলেছে। তদ্ব্যতীত, সহগগুলিও কীভাবে শিক্ষার্থীদের ক্লাসগুলির মধ্যে বিতরণ করা হয় তার উপর (কিছু পরিমাণে) নির্ভর করে। এখানে যেমন হয়েছে তেমন রিগ্রেশন-এ স্বতন্ত্র ভেরিয়েবলের মধ্যে শ্রেণি বৈশিষ্ট্যগুলি অন্তর্ভুক্ত করে আংশিকভাবে সমন্বিত করা যেতে পারে, তবুও ছাত্র বিতরণের প্রভাবটি অদৃশ্য হয় না।

সত্যিকারের শিক্ষার্থীর পারফরম্যান্সের পূর্বাভাসের অভাব, এবং শিক্ষার্থীদের শেখার ক্ষেত্রে কোনও পার্থক্য এবং পরীক্ষাগুলিতে প্রকৃত পারফরম্যান্স, স্পষ্টতই সহগের অনুমানগুলি শূন্যের দিকে সঙ্কুচিত করে দেয়। তারা এতটা অভিন্নভাবে উপস্থিত বলে মনে হয় যে আপেক্ষিক সহগগুলি এখনও অর্থবহ হতে পারে।


εivipijyijyij

যদি আপনার সিমুলেশনটি অরক্ষিত ক্ষমতা এবং স্যাট এবং অন্যান্য স্কোরগুলির মধ্যে ইতিবাচক পারস্পরিক সম্পর্ক সংরক্ষণ করে তবে ওএলএস প্যারামিটারগুলি wardর্ধ্বমুখী পক্ষপাতী অধিকার হতে পারে? শূন্যের দিকে আকৃষ্ট?
জেডিভ

+1, আমি পরিসংখ্যানগত ধারণাগুলির মাধ্যমে কাজ করতে সহায়তা করার জন্য সিমুলেশনগুলি ব্যবহার করার একটি বড় অনুরাগী।
গুং - মনিকা পুনরায়

3

yij

μij

ln(yij/(1yij))=μij+eij+vi

vieijeijμij

(এটি আমার পক্ষপাতদুষ্ট অভিজ্ঞতা থেকে একটি ধারণা, মন্তব্য এবং সমালোচকদের স্বাগত চেয়ে বেশি।)

μijvi


1
লজিস্টিক ট্রান্সফর্মেশন ব্যবহারের ধারণাটি একটি ভাল, তবে এই ধরণের রিগ্রেশন মডেলটিতে সমস্যা রয়েছে (আমার উত্তরে ব্যাখ্যা করা হয়েছে)।
whuber

μij

2

ln(p1p)


লজিস্টিক রিগ্রেশন কেবল বাইনারি প্রতিক্রিয়া ভেরিয়েবলের ক্ষেত্রে প্রযোজ্য , যা এখানে ক্ষেত্রে দেখা যায় না। আপনি সম্ভবত র‌্যাঙ্ক শতাংশের লগিটের সাধারণ রিগ্রেশনটির পরামর্শ দিচ্ছেন ?
হোবার

1
লজিস্টিক রিগ্রেশন বা সাধারণ লিনিয়ার রিগ্রেশন উভয়ই হুবুহু দানের কারণে উপযুক্ত নয়। এছাড়াও যদি মডেলটিতে গাউসিয়ান অবশিষ্টাংশ থাকে তবে আমি দেখতে পাচ্ছি না যে এটি প্রতিক্রিয়াটির জন্য কীভাবে একটি অভিন্ন বিতরণে অনুবাদ করতে চলেছে। র‌্যাঙ্কিংয়ে পৃথক শিক্ষার্থীদের মধ্যে নির্ভরতা হ'ল যা আমি বিশ্লেষণকে সবচেয়ে গুরুত্বপূর্ণ বলে মনে করি।
মাইকেল আর চেরনিক

ln(p/1p)=βxi+uipi

@ জনাব ডেভ আমি আপনার বর্ণনার অর্থে "লজিস্টিক রিগ্রেশন" ব্যবহার করে এমন কোনও রেফারেন্স সন্ধান করতে অক্ষম।
হোবার

1
আমি মনে করি তিনি একটি সাধারণীকরণীয় লিনিয়ার মডেলটি করতে চান, শর্তসাপেক্ষে গাউসীয় বিতরণ দিয়ে, এর সাথে লজিট-লিংক দিয়ে। (কমপক্ষে আমি অনুমান করতে যাচ্ছি যা তার বোঝাতে চেয়েছিল))
শেয়া পার্কস

0

এক্ষেত্রে একটি নিখুঁত মডেল আউটপুটগুলিতে (ক্লাসে শিক্ষার্থীর পদমর্যাদায়) যা ইনপুটগুলি (আপনার কাছে যা কিছু আছে সেগুলি) ম্যাপ করবে। এটি ভাবার আর একটি উপায় হ'ল প্রথমে স্কোরগুলিতে ম্যাপিং করা এবং তারপরে সেই স্কোরগুলিকে র‌্যাঙ্কে ম্যাপ করা। আমি আপাতত ত্রুটি উপেক্ষা করতে যাচ্ছি।

y=βx

r=R(y)

RRyR(y)

এটি সাধারণীভূত রৈখিক মডেলের কার্যকরী ফর্মের সাথে বেশ মিল রয়েছে বলে মনে হয়। আমি মনে করি এই কারণেই @ মাইক অ্যান্ডারসন দ্বারা লজিস্টিক রিগ্রেশন পদ্ধতির প্রস্তাব দেওয়া হয়েছিল। যদি আপনার পরীক্ষার স্কোরগুলি লজিস্টিকভাবে বিতরণ করা হয়, তবে ব্যবহার করার জন্য লিঙ্ক ফাংশনটি লজিট হবে (এর বিপরীতটি আমরা যত্নশীল ক্রমযুক্ত ঘনত্ব ফাংশন)। একইভাবে, যদি স্কোরগুলি সাধারণত বিতরণ করা হয় তবে প্রোবাইট ফাংশনটি হবে লিঙ্ক ফাংশন।

আপনার প্রতিরোধের জন্য, র‌্যাঙ্কগুলি অনুমান করার একমাত্র উপায় হ'ল "আমার ডেটা এক্স হিসাবে বিতরণ করা হয়, এই বিন্দুটি 34 তম শতকে" in অন্যথায়, আপনি কীভাবে জানবেন যে আপনার পরীক্ষার স্কোরের দুটি পয়েন্ট বৃদ্ধি র‌্যাঙ্কের দিক থেকে কী অনুবাদ করে? সাবধানবাণীটি হ'ল আপনার লিঙ্ক ফাংশনটি বেছে নেওয়ার জন্য আপনাকে সেই বিতরণটি অনুমান করতে হবে (নির্দিষ্ট কার্যকরী ফর্মগুলি আপনার জীবনকে অনেক সহজ করে তুলবে)। তদ্ব্যতীত, এই মডেলটি "38 টি শ্রেণির মধ্যে আপনি 6 তম সেরা" বলতে যাচ্ছেন না, বরং "যদি পরীক্ষার স্কোরগুলি বিতরণ করা হয় তবে তারা কীভাবে আমাদের মনে করে, আপনার স্কোর আপনাকে 15 তম পার্সেন্টাইলে ফেলে দেবে" "

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.