সাধারণ (বা অন্যান্য) বিতরণে কীভাবে আনুষ্ঠানিকভাবে একটি "বিরতি" পরীক্ষা করা যায়


10

এটি প্রায়শই সামাজিক বিজ্ঞানে আসে যা ভেরিয়েবলগুলি যে কোনও উপায়ে বিতরণ করা উচিত , সাধারণভাবে বলুন, নির্দিষ্ট পয়েন্টগুলির চারপাশে তাদের বিতরণে বিরতি থাকা উচিত।

উদাহরণস্বরূপ, যদি "পাসিং / ব্যর্থ হওয়া" এর মতো নির্দিষ্ট কাটঅফ থাকে এবং যদি এই ব্যবস্থাগুলি বিকৃতি সাপেক্ষে হয় তবে সেই মুহুর্তে বিরতি থাকতে পারে।

একটি বিশিষ্ট উদাহরণ (নীচে উদ্ধৃত) আসে শিক্ষার্থীদের মানকৃত পরীক্ষার স্কোরগুলি সাধারণত 60% ব্যতীত যেখানেই 50-60% থেকে খুব কম ভর এবং 60-65% এর চেয়ে বেশি পরিমাণে ভর থাকে সেখানে বাদ দেওয়া হয় everywhere এটি এমন ক্ষেত্রে ঘটে যখন শিক্ষকরা তাদের নিজস্ব শিক্ষার্থীদের পরীক্ষাকে গ্রেড করেন। শিক্ষকরা সত্যই শিক্ষার্থীদের পরীক্ষায় উত্তীর্ণ হতে সহায়তা করছে কিনা তা লেখকরা তদন্ত করেন।

কোনও সন্দেহ ছাড়াই সবচেয়ে দৃinc়প্রত্যয়ী প্রমাণ হ'ল বিভিন্ন পরীক্ষার জন্য বিভিন্ন কাট অফের চারপাশে একটি বড় বিরতির সাথে বেল বক্রের গ্রাফগুলি দেখানো। তবে, আপনি কীভাবে একটি পরিসংখ্যানগত পরীক্ষা বিকাশ করবেন? তারা বিরতি চেষ্টা করেছিল এবং তারপরে এবং নীচে ভগ্নাংশের তুলনা করে এবং কাট অফের উপরে এবং নীচে ভগ্নাংশের 5 টি পয়েন্টের জন্য একটি টি-পরীক্ষাও করে। বোধগম্য হলেও এগুলি অ্যাড-হক। কেউ কি আরও ভাল কিছু ভাবতে পারেন?

লিঙ্ক: বিধি ও বিচক্ষণতা ছাত্র এবং স্কুলের এর মূল্যায়নে: নিউ ইয়র্ক িরেজ n পরীক্ষা কেস http://www.econ.berkeley.edu/~jmccrary/nys_regents_djmr_feb_23_2011.pdf

পরীক্ষার স্কোরগুলি বিতরণ করুন, ম্যানিপুলেটেবলগুলি কালো


কেবল স্পষ্ট করে বলার জন্য - আপনি কি জেনেরিক অভাবের জন্য পরীক্ষা করছেন, উদাহরণস্বরূপ, স্বাভাবিকতা, বা পূর্বনির্ধারিত স্থানে বিরতি উপস্থিতির জন্য? আপনার উদাহরণটি পরবর্তীকালের, তবে অবশ্যই নরমালটির জন্য যেকোন ধার্মিকতা-ফিট-টেস্ট পরীক্ষা করা হবে, যেমন, অ্যান্ডারসন-ডার্লিং বা শাপিরো-উইলক পরিবেশন করবেন, যদিও একটি সুনির্দিষ্ট বিকল্পের সাহায্যে আপনি আরও শক্তিশালী পরীক্ষাগুলি তৈরি করতে পারেন। এছাড়াও উপরের গ্রাফটিতে আপনার স্পষ্টতই কয়েক হাজারের নমুনা রয়েছে; এটি কি সাধারণ হবে?
jboman

উত্তর:


6

প্রশ্নটি সঠিকভাবে ফ্রেম করা এবং স্কোরগুলির একটি দরকারী ধারণামূলক মডেল গ্রহণ করা গুরুত্বপূর্ণ।

প্রশ্নটি

55, 65 এবং 85 এর মতো সম্ভাব্য প্রতারণার থ্রেশহোল্ডগুলি স্বাধীনভাবে ডেটাগুলির একটি অগ্রাধিকার হিসাবে পরিচিত : এটি ডেটা থেকে নির্ধারণ করতে হবে না। (অতএব এটি বাহ্যিক সনাক্তকরণ সমস্যা বা বিতরণ উপযুক্তকরণের সমস্যা নয়।) পরীক্ষায় প্রমাণের মূল্যায়ন করা উচিত যে এই থ্রেশহোল্ডগুলির তুলনায় কিছু (সমস্ত নয়) স্কোরগুলি সেই থ্রেশহোল্ডগুলিতে স্থানান্তরিত হয়েছিল (বা, সম্ভবত, কেবলমাত্র এই প্রান্তিকের উপরে)।

ধারণাগত আদর্শ

ধারণাগত মডেলের জন্য, এটি বুঝতে গুরুত্বপূর্ণ যে স্কোরগুলির একটি সাধারণ বিতরণ (অন্য কোনও সহজেই প্যারামিটারাইজড বিতরণ) হওয়ার সম্ভাবনা নেই। এটি পোস্টের উদাহরণে এবং মূল প্রতিবেদন থেকে প্রতিটি অন্যান্য উদাহরণে প্রচুর পরিমাণে পরিষ্কার । এই স্কোরগুলি স্কুলের মিশ্রণের প্রতিনিধিত্ব করে; এমনকি যদি কোনও বিদ্যালয়ের মধ্যে বিতরণগুলি স্বাভাবিক ছিল (তারা নয়) তবে মিশ্রণটি স্বাভাবিক হওয়ার সম্ভাবনা নেই।

একটি সহজ পদ্ধতির গ্রহণযোগ্যতা রয়েছে যে সত্যিকারের স্কোর বিতরণ রয়েছে: প্রতারণার এই নির্দিষ্ট ফর্মটি ব্যতীত যে প্রতিবেদন করা হবে এটি অতএব একটি প্যারামিমেট্রিক সেটিং। এটি খুব বিস্তৃত বলে মনে হচ্ছে তবে স্কোর বিতরণের কিছু বৈশিষ্ট্য রয়েছে যা আসল তথ্যটিতে প্রত্যাশিত বা পর্যবেক্ষণ করা যেতে পারে:

  1. i1ii+11i99

  2. স্কোর বিতরণের কিছু আদর্শ মসৃণ সংস্করণে এই গণনাগুলির মধ্যে বিভিন্নতা থাকতে পারে। এই প্রকরণগুলি সাধারণত গণনাটির বর্গমূলের সমান আকারের হবে।

  3. একটি থ্রেশহোল্ড আপেক্ষিক প্রতারনা কোনো স্কোর জন্য গন্য প্রভাবিত করবে না । এর প্রভাব প্রতিটি স্কোরের গণনার সমানুপাতিক (প্রতারণার দ্বারা প্রভাবিত হওয়ার জন্য "ঝুঁকিতে থাকা শিক্ষার্থীদের সংখ্যা)"। এই প্রান্তিকের নীচের স্কোরগুলির জন্য , গণনাটি কিছু ভগ্নাংশ দ্বারা হ্রাস পাবে এবং এই পরিমাণটি ।titic(i)δ(ti)c(i)t(i)

  4. স্কোর এবং প্রান্তিকের মধ্যবর্তী দূরত্বের সাথে পরিবর্তনের পরিমাণ হ্রাস পায়: এর একটি হ্রাসকারী ফাংশন ।δ(i)i=1,2,

একটি থ্রেশহোল্ড , নাল অনুমান (কোনও প্রতারণা নয়) হ'ল , বোঝানো দ্বীপটি একই রকম । বিকল্পটি হ'ল ।tδ(1)=0δ0δ(1)>0

একটি পরীক্ষা নির্মাণ

কোন পরীক্ষার পরিসংখ্যান ব্যবহার করতে হবে? এই অনুমান অনুসারে, (ক) প্রভাব গণনাগুলিতে সংযোজনযোগ্য এবং (খ) সর্বাধিক প্রভাবটি প্রান্তিকের কাছাকাছি সময়ে ঘটে। এটি গণনাগুলির প্রথম পার্থক্যগুলি দেখার জন্য ইঙ্গিত করে, । আরও বিবেচনা আরও এক ধাপ যাচ্ছে প্রস্তাব দেওয়া: বিকল্প হাইপোথিসিস অধীনে, আমরা ধীরে ধীরে বিষণ্ণ গন্য একটা ক্রম স্কোর হিসেবে দেখতে আশা থ্রেশহোল্ড পন্থা নীচের থেকে, তারপর (ঝ) একটি বৃহৎ ইতিবাচক পরিবর্তন দ্বারা (আ) অনুসৃত এ বড় নেতিবাচক পরিবর্তন । পরীক্ষার শক্তি সর্বাধিক করতে, এর পরে দ্বিতীয় পার্থক্যগুলি দেখুন,c(i)=c(i+1)c(i)ittt+1

c(i)=c(i+1)c(i)=c(i+2)2c(i+1)+c(i),

because at i=t1 this will combine a largish negative decline c(t+1)c(t) with the negative of a large positive increase c(t)c(t1), thereby magnifying the cheating effect.

I am going to hypothesize--and this can be checked--that the serial correlation of the counts near the threshold is fairly small. (Serial correlation elsewhere is irrelevant.) This implies that the variance of c(t1)=c(t+1)2c(t)+c(t1) is approximately

var(c(t1))var(c(t+1))+(2)2var(c(t))+var(c(t1)).

I previously suggested that var(c(i))c(i) for all i (something that also can be checked). Whence

z=c(t1)/c(t+1)+4c(t)+c(t1)

should approximately have unit variance. For large score populations (the posted one looks to be around 20,000) we can expect an approximately Normal distribution of c(t1), too. Since we expect a highly negative value to indicate a cheating pattern, we easily obtain a test of size α: writing Φ for the cdf of the standard Normal distribution, reject the hypothesis of no cheating at threshold t when Φ(z)<α.

Example

For example, consider this set of true test scores, drawn iid from a mixture of three Normal distributions:

Histogram of true scores

To this I applied a cheating schedule at the threshold t=65 defined by δ(i)=exp(2i). This focuses almost all cheating on the one or two scores immediately below 65:

Histogram of scores after cheating

To get a sense of what the test does, I computed z for every score, not just t, and plotted it against the score:

Plot of Z

(Actually, to avoid troubles with small counts, I first added 1 to every count from 0 through 100 in order to calculate the denominator of z.)

The fluctuation near 65 is apparent, as is the tendency for all other fluctuations to be about 1 in size, consistent with the assumptions of this test. The test statistic is z=4.19 with a corresponding p-value of Φ(z)=0.0000136, an extremely significant result. Visual comparison with the figure in the question itself suggests this test would return a p-value at least as small.

(Please note, though, that the test itself does not use this plot, which is shown to illustrate the ideas. The test looks only at the plotted value at the threshold, nowhere else. It would nevertheless be good practice to make such a plot to confirm that the test statistic really does single out the expected thresholds as loci of cheating and that all other scores are not subject to such changes. Here, we see that at all other scores there is fluctuation between about -2 and 2, but rarely greater. Note, too, that one need not actually compute the standard deviation of the values in this plot in order to compute z, thereby avoiding problems associated with cheating effects inflating the fluctuations at multiple locations.)

When applying this test to multiple thresholds, a Bonferroni adjustment of the test size would be wise. Additional adjustment when applied to multiple tests at the same time would also be a good idea.

Evaluation

This procedure cannot seriously be proposed for use until it is tested on actual data. A good way would be to take scores for one test and use a non-critical score for the test as threshold. Presumably such a threshold has not been subject to this form of cheating. Simulate cheating according to this conceptual model and study the simulated distribution of z. This will indicate (a) whether the p-values are accurate and (b) the power of the test to indicate the simulated form of cheating. Indeed, one could employ such a simulation study on the very data one is evaluating, providing an extremely effective way of testing whether the test is appropriate and what its actual power is. Because the test statistic z is so simple, simulations will be practicable to do and fast to execute.


This test needs to be adjusted slightly because the expectation of z is (approximately) proportional to the second derivative of the distribution. In the example, where the threshold is near a mode, that second derivative is near zero so there's no problem, but for a threshold in an area of high curvature (around 70 or 90 in the simulated data) the adjustment could be material. If I get a chance I'll edit this answer accordingly.
whuber

1

I suggest fitting a model which explicitly predicts the dips and then showing that it significantly better fits the data than a naive one.

You need two components:

  • initial distribution of scores,
  • procedure of rechecking (honest or not) of scores when one fits below a threshold.

One possible model for a single threshold (of value t) is the following:

pfinal(s)=pinitial(s)pinitial(s)m(st)+δ(s=t)s=0t1pinitial(s)m(st),
where
  • pfinal(s) - the probability distribution of the final score,
  • pinitial(s) - the probability distribution if there were not thresholds,
  • m(st) - the probability of manipulation score s into passing score t,
  • δ(s=t) is the Kronecker delta, i.e. 1 if s=t and 0 otherwise.

Typically you cannot rise scores much. I would suspect exponential decay m(st)aqts, where a is the proportion of rechecked (manipulated) scores.

As the initial distribution you can try to use Poisson or Gaussian distribution. Of course it would be ideally to have the same test but for one group of teachers provide thresholds and for the other - no thresholds.

If there are more thresholds then one can apply the same formula but with corrections for each ti. Perhaps ai would be different as well (e.g. as the difference between fail-pass can be more important that between two passing grades).

Notes:

  • Sometimes there are procedures of rechecking tests if there are just below passing grade. Then it is more difficult to say which instances were honest and which - not.
  • m(st) will surely depend on the type of test. For example if there are open questions, then some answers may be ambiguous and number of them depends on s (so for low-scoring it may be easier to rise the score). Whereas for closed-choice test there should be little to no difference on the number of the correct and incorrect answers.
  • Sometimes the 'corrected' scores may be above t - the instead of idealized δ(s=t) one may plug sth different.

I'm not sure that answers my exact question. In this case, we don't have the ability to re-check any exams. All that is observed is a distribution of final scores. The distribution is mostly normal. Except, around a certain cutoff point where we suspect manipulation, there is a break in the normal curve. If the null is that the curve would be "smooth" at that point, how can we test it against an alternative hypothesis where it is "bumpy"
d_a_c321

I think I understate the question. My point was to: fit Gaussian (2 parameters) and calculate X2, then fit pfinal (2 parameters for Gaussian + (t+1) parameters for the thresholds) and calculate its X2. Calculating smoothness (e.g. in the form of s=099|p(s+1)p(s)|2) may be interesting but then it is important to check underlying assumptions and etc (e.g. for tests with a lot of question of for 2 points there may be fairly high "initial" jaggedness). If one has access to raw data (i.e. all answers, not only total scores) then there is even more room for testing...
Piotr Migdal

1

I would split this problem into two subproblems:

  • Estimate the parameters of a distribution to fit the data
  • Perform outlier detection using the fitted distribution

There are various ways of tackling either of the subproblems.

It seems to me that a Poisson distribution would fit the data, if it were independently and identically distributed (iid), which of course we think it isn't. If we naively try to estimate the parameters of the distribution we will be skewed by the outliers. Two possible ways to overcome this are to use Robust Regression techniques, or a heuristic method such as cross-validation.

For the outlier detection there are again numerous approaches. The simplest is to use the confidence intervals from the distribution we fitted in stage 1. Other methods include bootstrap methods and Monte-Carlo approaches.

Although this won't tell you that there is a "jump" in the distribution, it will tell you whether there are more outliers than expected for the sample size.

A more complex approach would be to construct various models for the data, such as compound distributions, and use some kind of model comparison method (AIC/BIC) to determine which of the models is the best fit for the data. However if you are simply looking for "deviation from an expected distribution" then this seems like overkill.

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.