সংক্ষিপ্তসার
যত্ন সহকারে ব্যাখ্যা করার সময় রিগ্রেশন ফলাফলগুলির কিছু সীমিত মান থাকতে পারে। অপরিবর্তনীয় অপরিবর্তনীয় ফর্মগুলি সহগের অনুমানগুলি যথেষ্ট পরিমাণে শূন্যের দিকে সঙ্কুচিত করবে। আরও উপযুক্ত মডেলের প্রয়োজন যা আরও উপযুক্ত উপায়ে প্রকরণকে পরিচালনা করে।
(সর্বাধিক সম্ভাবনার মডেলটি তৈরি করা যেতে পারে তবে প্রয়োজনীয় গণনার কারণে অবর্ণনীয় হতে পারে, যার মধ্যে বহুমাত্রিক ইন্টিগ্রালের সংখ্যাসমূহের মূল্যায়ন জড়িত dimen মাত্রার সংখ্যা ক্লাসে ভর্তিচ্ছু শিক্ষার্থীর সংখ্যার সমান))
ভূমিকা
আমাদের অন্তর্দৃষ্টিকে অবহিত করার জন্য আখ্যান হিসাবে, কল্পনা করুন যে এই 38 টি পরীক্ষাগুলি 200 কলেজের ছাত্রদের ভর্তির সাথে একটি ছোট স্কুলে একটি সেমিস্টারের সময় 38 টি পৃথক কোর্সে দেওয়া হয়েছিল। বাস্তবসম্মত পরিস্থিতিতে সেই শিক্ষার্থীদের বিভিন্ন ক্ষমতা এবং অভিজ্ঞতা থাকবে। এই দক্ষতা এবং অভিজ্ঞতাগুলির সারোগেট ব্যবস্থা হিসাবে আমরা নিতে পারি, বলুন, স্যাট গণিত এবং মৌখিক পরীক্ষা এবং কলেজে বছরের স্কোর (1 থেকে 4)।
সাধারণত, শিক্ষার্থীরা তাদের দক্ষতা এবং আগ্রহ অনুসারে কোর্সে ভর্তি হবে। ফ্রেশম্যানগণ প্রারম্ভিক কোর্স গ্রহণ করেন এবং প্রাথমিক পাঠ্যক্রমগুলি প্রাথমিকভাবে নতুনদের দ্বারা জনবহুল হয়। বড় শিল্পী এবং মেধাবী নবীন এবং সোফমোরস উন্নত এবং স্নাতক স্তরের কোর্স গ্রহণ করে। এই বাছাইটি আংশিকভাবে শিক্ষার্থীদের স্তরবিন্যাস করে যাতে কোনও শ্রেণির মধ্যে শিক্ষার্থীদের সহজাত দক্ষতা সাধারণত পুরো স্কুল জুড়ে সক্ষমতা ছড়িয়ে দেওয়ার চেয়ে আরও বেশি একজাতীয় হয়।
সুতরাং, সর্বাধিক সক্ষম শিক্ষার্থীরা তারা যে কঠিন, উন্নত শ্রেণিতে ভর্তি হন তার নীচের অংশে নিজেকে স্কোর করতে পারে, এবং কমপক্ষে সক্ষম শিক্ষার্থীরা তাদের নেওয়া সহজ সূচনা ক্লাসগুলির শীর্ষের কাছে স্কোর করতে পারে। এটি সরাসরি পরীক্ষার সাথে সম্পর্কিত শিক্ষার্থীদের এবং ক্লাসের বৈশিষ্ট্যের সাথে সরাসরি সম্পর্কিত প্রচেষ্টাকে বিভ্রান্ত করতে পারে।
বিশ্লেষণ
সঙ্গে ইনডেক্স ছাত্র দিন ছাত্র গুণাবলীর আমি ভেক্টর দ্বারা দেওয়া x আমি । জে সহ ক্লাসগুলি সূচী করুন এবং শ্রেণি জ এর বৈশিষ্ট্যগুলি ভেক্টর জেড জে দ্বারা দেওয়া হোক । ক্লাস জে ভর্তিচ্ছু শিক্ষার্থীদের সেট হ'ল এ জেআমিআমিএক্সআমিঞঞz- রঞঞএকজনঞ ।
"শক্তি" ধরে প্রতিটি ছাত্র তাদের গুণাবলীর একটি ফাংশন প্লাস কিছু র্যান্ডম মান, যা পাশাপাশি শূন্য গড় থাকতে পারে হল:গুলিআমি
গুলিআমি= চ( এক্সআমি, β) + + Εআমি।
আমরা ক্লাস পরীক্ষার মডেল করি ক্লাসে ভর্তি হওয়া প্রতিটি শিক্ষার্থীর শক্তিতে স্বতন্ত্র এলোমেলো মান যুক্ত করে এবং তাদেরকে র্যাঙ্কে রূপান্তর করে। যেহেতু, আমি যদি শিক্ষার্থী i ক্লাস জে ভর্তি হই , তবে তাদের আপেক্ষিক র্যাঙ্ক r i , j তাদের মান অনুসারে নির্ধারিত হয়ঞআমিঞRi , j
( গুলি)ট+ + δকে , জে, কে ∈ এঞ) ।
নির্ভরযোগ্য ভেরিয়েবল, শতাংশের র্যাঙ্ক দেওয়ার জন্য মোট অবস্থানের তালিকাভুক্তির চেয়ে এই অবস্থানটি ভাগ করে নেওয়া হয়েছে:Ri , j
পিi , j= আরi , j1 + | একজনঞ|।
আমি দাবি করি যে রিগ্রেশন ফলাফলগুলি এলোমেলো (অরক্ষিত) মানের এবং δ i , j এর আকার এবং কাঠামোর উপর নির্ভর করে (বেশ কিছুটা) । εআমিδi , j ফলাফল ক্লাসে শিক্ষার্থীরা কীভাবে নিবন্ধিত হয় তার উপরও নির্ভর করে। এটি স্বজ্ঞাতভাবে সুস্পষ্ট হওয়া উচিত, তবে যা এতটা সুস্পষ্ট নয় - এবং তাত্ত্বিকভাবে বিশ্লেষণ করা কঠিন বলে মনে হচ্ছে - তা কীভাবে এবং কতটা অলক্ষিত মূল্যবোধ ও শ্রেণী কাঠামো রিগ্রেশন প্রভাবিত।
ব্যাজ
অত্যধিক প্রচেষ্টা ছাড়াই আমরা কিছু নমুনা ডেটা তৈরি এবং বিশ্লেষণের জন্য এই পরিস্থিতিটি অনুকরণ করতে পারি। সিমুলেশনটির একটি সুবিধা হ'ল এটি শিক্ষার্থীদের আসল শক্তিগুলি অন্তর্ভুক্ত করতে পারে যা বাস্তবে পর্যবেক্ষণযোগ্য নয়। আরেকটি হ'ল আমরা অনাবদ্ধ মানগুলির সাধারণ আকারের পাশাপাশি শ্রেণীর অ্যাসাইনমেন্টগুলি পৃথক করতে পারি। এটি প্রতিরোধের মতো প্রস্তাবিত বিশ্লেষণ পদ্ধতিগুলি মূল্যায়নের জন্য একটি "স্যান্ডবক্স" সরবরাহ করে।
শুরু করতে, আসুন পুনরুত্পাদনযোগ্য ফলাফলের জন্য এলোমেলো সংখ্যা জেনারেটর সেট করুন এবং সমস্যার আকার নির্দিষ্ট করুন। আমি R
এটি ব্যবহার করি কারণ এটি কারও কাছে উপলব্ধ।
set.seed(17)
n.pop <- 200 # Number of students
n.classes <- 38 # Number of classes
courseload <- 4.5 # Expected number of classes per student
বাস্তবতা প্রদানের জন্য, n.classes
দুটি স্কেলের (গাণিতিক এবং মৌখিক, একটি নেতিবাচক পারস্পরিক সম্পর্কযুক্ত) উপর বিভিন্ন ধরণের অসুবিধাগুলির শ্রেণি তৈরি করুন (1 = পরিচিতি থেকে 7 = গবেষণা পর্যন্ত) এবং পরিবর্তনশীল স্বাচ্ছন্দ্যের সাথে। (একটি "সহজ" শ্রেণিতে, শিক্ষার্থীদের শেখার পরিমাণের মধ্যে পার্থক্য বড় হতে পারে এবং / অথবা পরীক্ষা শিক্ষার্থীদের মধ্যে সামান্য বৈষম্য সরবরাহ করতে পারে This এটি এলোমেলো পদ দ্বারা মডেল করা হয়েছে যে, ক্লাস জে জন্য বড় হতে থাকে পরীক্ষার ফলাফলগুলি তখন শিক্ষার্থীর শক্তির ডেটা থেকে প্রায় অনাকাঙ্ক্ষিত হবে the যখন ক্লাসটি "সহজ" হয় না, তখন এই র্যান্ডম শর্তগুলি তুচ্ছভাবে ছোট হয় এবং শিক্ষার্থীদের শক্তি পরীক্ষার স্থান নির্ধারণ করতে পারে।)δi , jঞ
classes <- data.frame(cbind(
math <- runif(n.classes),
rbeta(n.classes, shape1=(verbal <- (1-math)*5), shape2=5-verbal),
runif(n.classes, min=0, max=7),
rgamma(n.classes, 10, 10)))
rm(math, verbal)
colnames(classes) <- c("math.dif", "verbal.dif", "level", "ease")
classes <- classes[order(classes$math.dif + classes$verbal.dif + classes$level), ]
row.names(classes) <- 1:n.classes
plot(classes, main="Classes")
শিক্ষার্থীরা চার বছরের মধ্যে ছড়িয়ে পড়ে এবং তাদের গুণাবলীর এলোমেলো মূল্যবোধ দ্বারা সজ্জিত। এই বৈশিষ্ট্যগুলির মধ্যে কোনওটির সাথে কোনও সম্পর্ক নেই:
students <- data.frame(cbind(
as.factor(ceiling(runif(n.pop, max=4))),
sapply(rnorm(n.pop, mean=60, sd=10), function(x) 10*median(c(20, 80, floor(x)))),
sapply(rnorm(n.pop, mean=55, sd=10), function(x) 10*median(c(00, 80, floor(x)))),
rnorm(n.pop)
))
colnames(students) <- c("year", "math", "verbal", "ability")
plot(students, main="Students")
εআমিbeta
beta
beta <- list(year.1=0, year.2=1, year.3=3, year.4=4, math=1/100, verbal=1/100, ability=2, sigma=0.01)
students$strength <- (students$year==1)*beta$year.1 +
(students$year==2)*beta$year.2 +
(students$year==3)*beta$year.3 +
(students$year==4)*beta$year.4 +
students$math*beta$math +
students$verbal*beta$verbal +
students$ability*beta$ability
students <- students[order(students$strength), ]
row.names(students) <- 1:n.pop
students$ability
beta$ability
beta$sigma
ease
δi , j.01.2 বা আমার তাই যুক্তিযুক্ত বলে মনে হয়।)
classes
spread
assignments <-...
0
pick.classes <- function(i, k, spread) {
# i is student strength rank
# k is number to pick
p <- pmin(0.05, diff(pbeta(0:n.classes/n.classes, i/spread, (1+n.pop-i)/spread)))
sample(1:n.classes, k, prob=p)
}
students$n.classes <- floor(1/2 + 2 * rbeta(n.pop,10,10) * courseload)
assignments <- lapply(1:n.pop, function(i) pick.classes(i, students$n.classes[i], spread=1))
enrolment <- function(k) length(seq(1, n.pop)[sapply(assignments, function(x) !is.na(match(k, x)))])
classes$size <- sapply(1:n.classes, enrolment)
classes$variation <- by(data, data$Class, function(x) diff(range(x$strength)))
(এই পদক্ষেপটি কী সম্পাদন করেছে তার উদাহরণ হিসাবে, নীচের চিত্রটি আরও দেখুন))
এন1 / ( এন + 1 )এন / ( এন + 1 )1 / ( এন + 1 ) । এটি পরে লজিস্টিক ফাংশন (যা এর মানগুলিতে প্রয়োগ করা হয় যখন অপরিজ্ঞাত হয়) এর মতো রূপান্তরগুলি প্রয়োগ করা সম্ভব করে তোলে01
exam.do <- function(k) {
s <- seq(1, n.pop)[sapply(assignments, function(x) !is.na(match(k, x)))]
e <- classes$ease[k]
rv <- cbind(rep(k, length(s)), s, order(rnorm(length(s), students$strength[s], sd=e*beta$sigma*classes$variation[k])))
rv <- cbind(rv, rv[,3] / (length(s)+1))
dimnames(rv) <- list(NULL, c("Class", "Student", "Rank", "Prank"))
rv
}
data.raw <- do.call(rbind, sapply(1:n.classes, exam.do))
এই কাঁচা তথ্যের সাথে আমরা বিশ্লেষণের জন্য উপযুক্ত একটি ডেটাसेट তৈরি করতে শিক্ষার্থী এবং শ্রেণীর বৈশিষ্ট্যগুলি সংযুক্ত করি:
data <- merge(data.raw, classes, by.x="Class", by.y="row.names")
data <- merge(data, students, by.x="Student", by.y="row.names")
আসুন আমরা তথ্যের একটি এলোমেলো নমুনা পরিদর্শন করে নিজেকে আলোকিত করি:
> data[sort(sample(1:dim(data)[1], 5)),]
Row Student Class Rank Prank math.dif verbal.dif level ease Size year math verbal ability strength n.classes
118 28 1 22 0.957 0.77997 6.95e-02 0.0523 1.032 22 2 590 380 0.576 16.9 4
248 55 5 24 0.889 0.96838 1.32e-07 0.5217 0.956 26 3 460 520 -2.163 19.0 5
278 62 6 22 0.917 0.15505 9.54e-01 0.4112 0.497 23 2 640 510 -0.673 19.7 4
400 89 10 16 0.800 0.00227 1.00e+00 1.3880 0.579 19 1 800 350 0.598 21.6 5
806 182 35 18 0.692 0.88116 5.44e-02 6.1747 0.800 25 4 610 580 0.776 30.7 4
রেকর্ড 118, উদাহরণস্বরূপ, শিক্ষার্থী # 28 ক্লাস # 1 এ ভর্তি হয়েছে এবং 0.957 শতাংশ শতাংশের জন্য পরীক্ষায় 22 তম (নীচ থেকে) স্কোর করেছে says এই শ্রেণীর সামগ্রিক সমস্যা ছিল 0.0523 (খুব সহজ)। মোট 22 জন শিক্ষার্থী ভর্তি হয়েছিল। এই ছাত্রটি 560 গণিত, 380 মৌখিক এসএটি স্কোর সহ একটি সফফোর (বছর 2)। তাদের সামগ্রিক সহজাত একাডেমিক শক্তি 16.9। এ সময় তারা চারটি ক্লাসে ভর্তি হয়েছিল।
এই ডেটাসেটটি প্রশ্নের বর্ণনার সাথে মিশ্রণ করে। উদাহরণস্বরূপ, শতাংশের র্যাঙ্কগুলি প্রকৃতপক্ষে প্রায় অভিন্ন (যেমন এটি কোনও সম্পূর্ণ ডেটাসেটের জন্য হওয়া আবশ্যক, কারণ একক শ্রেণির জন্য শতকরা শতাংশের আলাদা আলাদা ডিস্ট্রিবিউশন রয়েছে)।
মনে রাখবেন, সহগের গুণাবলী অনুসারে beta
এই মডেল পরীক্ষার স্কোর এবং এই ডেটাসেটে প্রদর্শিত ভেরিয়েবলের মধ্যে একটি শক্তিশালী সংযোগ গ্রহণ করেছে । তবে রিগ্রেশন কী দেখায়? আসুন পর্যবেক্ষণযোগ্য শিক্ষার্থীর সমস্ত বৈশিষ্ট্যের তুলনায় শতাংশের র্যাঙ্কের যৌক্তিকতা আবার ফিরিয়ে আনুন যা তাদের দক্ষতার সাথে সম্পর্কিত হতে পারে, পাশাপাশি শ্রেণিবদ্ধের অসুবিধার সূচক:
logistic <- function(p) log(p / (1-p))
fit <- lm(logistic(Prank) ~ as.factor(year) + math + verbal + level, data=data)
summary(fit)
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -2.577788 0.421579 -6.11 1.5e-09 ***
as.factor(year)2 0.467846 0.150670 3.11 0.0020 **
as.factor(year)3 0.984671 0.164614 5.98 3.2e-09 ***
as.factor(year)4 1.109897 0.171704 6.46 1.7e-10 ***
math 0.002599 0.000538 4.83 1.6e-06 ***
verbal 0.002130 0.000514 4.14 3.8e-05 ***
level -0.208495 0.036365 -5.73 1.4e-08 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 1.48 on 883 degrees of freedom
Multiple R-squared: 0.0661, Adjusted R-squared: 0.0598
F-statistic: 10.4 on 6 and 883 DF, p-value: 3.51e-11
ডায়াগনস্টিক প্লট (plot(fit)
) দ্রুত দেখায়: অবশিষ্টাংশগুলি সমকামী এবং সুন্দরভাবে স্বাভাবিক (কিছুটা ছোট লেজযুক্ত হলেও এটি কোনও সমস্যা নয়); কোন বিদেশী না; এবং কোনও পর্যবেক্ষণে কোনও অপ্রীতিকর প্রভাব নেই।
3.5( - 9 , 1.6 , 3.4 , 3.9 , 0.009 , 0.007 , - 0.7 )( ∗) , 1 , 3 , 4 , 0.010 , 0.010 , ∗ )* এর জন্য এমন একটি সহগ রয়েছে যা স্পষ্টভাবে নির্দিষ্ট করা হয়নি)।
level
07level
(যাইহোক, শতাংশে রেগ্রেশন অপ্রত্যাশিত র্যাঙ্কগুলি ব্যবহার করা নীচে বর্ণিত ফলাফলগুলি গুণগতভাবে পরিবর্তন করে না))
spread
138
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -4.902006 0.349924 -14.01 < 2e-16 ***
as.factor(year)2 0.605444 0.130355 4.64 3.9e-06 ***
as.factor(year)3 1.707590 0.134649 12.68 < 2e-16 ***
as.factor(year)4 1.926272 0.136595 14.10 < 2e-16 ***
math 0.004667 0.000448 10.41 < 2e-16 ***
verbal 0.004019 0.000434 9.25 < 2e-16 ***
level -0.299475 0.026415 -11.34 < 2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 1.3 on 883 degrees of freedom
Multiple R-squared: 0.282, Adjusted R-squared: 0.277
F-statistic: 57.9 on 6 and 883 DF, p-value: <2e-16
spread
38spread
1
এবার আর-স্কোয়ারটি অনেক উন্নত হয়েছে (যদিও এখনও দুর্দান্ত নয়)। যাইহোক, সমস্ত সহগুণ 20 - 100% বৃদ্ধি পেয়েছে। এই টেবিলটি কিছু অতিরিক্ত সিমুলেশনগুলির সাথে তাদের তুলনা করে:
Simulation Intercept Year.2 Year.3 Year.4 Math Verbal Level R^2
Beta * 1.0 3.0 4.0 .010 .010 * *
Spread=1 -2.6 0.5 1.0 1.1 .003 .002 -0.21 7%
Spread=38 -4.9 0.6 1.7 1.9 .005 .004 -0.30 25%
Ability=1 -8.3 0.9 2.6 3.3 .008 .008 -0.63 58%
No error -11.2 1.1 3.3 4.4 .011 .011 -0.09 88%
spread
38ability
21ability
sigma
0εআমিδi , jlevel
এই দ্রুত বিশ্লেষণটি দেখায় যে কমপক্ষে এখানে সম্পাদিত হিসাবে রিগ্রেশন, সহগের সাথে বৈচিত্র্যের অপরিবর্তনীয় রূপগুলিকে বিভ্রান্ত করতে চলেছে। তদ্ব্যতীত, সহগগুলিও কীভাবে শিক্ষার্থীদের ক্লাসগুলির মধ্যে বিতরণ করা হয় তার উপর (কিছু পরিমাণে) নির্ভর করে। এখানে যেমন হয়েছে তেমন রিগ্রেশন-এ স্বতন্ত্র ভেরিয়েবলের মধ্যে শ্রেণি বৈশিষ্ট্যগুলি অন্তর্ভুক্ত করে আংশিকভাবে সমন্বিত করা যেতে পারে, তবুও ছাত্র বিতরণের প্রভাবটি অদৃশ্য হয় না।
সত্যিকারের শিক্ষার্থীর পারফরম্যান্সের পূর্বাভাসের অভাব, এবং শিক্ষার্থীদের শেখার ক্ষেত্রে কোনও পার্থক্য এবং পরীক্ষাগুলিতে প্রকৃত পারফরম্যান্স, স্পষ্টতই সহগের অনুমানগুলি শূন্যের দিকে সঙ্কুচিত করে দেয়। তারা এতটা অভিন্নভাবে উপস্থিত বলে মনে হয় যে আপেক্ষিক সহগগুলি এখনও অর্থবহ হতে পারে।