গড়ের সাথে আউটলিয়ারদের প্রতিস্থাপন করা


31

এই প্রশ্নটি আমার বন্ধু জিজ্ঞাসা করেছিলেন যিনি ইন্টারনেট সম্পর্কে জ্ঞান নন। আমার কোনও পরিসংখ্যানের পটভূমি নেই এবং আমি এই প্রশ্নের জন্য ইন্টারনেট ঘুরে দেখছি।

প্রশ্নটি হল: আউটলিয়ারদের কি গড় মূল্য দিয়ে প্রতিস্থাপন করা সম্ভব? যদি এটি সম্ভব হয় তবে এই বিবৃতিটি ব্যাকআপ করার জন্য কোনও বইয়ের রেফারেন্স / জার্নাল রয়েছে কি?


25
এটি করা অবশ্যই সম্ভব , তবে এমন পরিস্থিতিটি কল্পনা করা শক্ত যেখানে এটি অনুধাবন করে।
পিটার ফ্লুম - মনিকা পুনরায়

2
ইতিমধ্যে বেশ কয়েকটি দীর্ঘ উত্তর, তবে @ পিটার ফ্লমের একটি বাক্য সংক্ষিপ্তসার সংক্ষিপ্তসার হিসাবে মিলবে না।
নিক কক্স

4
কোনও উত্তর এখনও ঘরে হাতিটিকে চিহ্নিত করতে পারেনি: যদিও "আউটলিয়ার" এর পরিবর্তে ডেটাসেটের গড় সংরক্ষণ করা হয়, তবে এটি প্রায় অন্য কোনও পরিসংখ্যানকে পরিবর্তন করে। এমনকি এটি গড় মানের স্ট্যান্ডার্ড ত্রুটির অনুমানও পরিবর্তন করে। তদনুসারে - @ পিটার ফ্লমের মন্তব্যের সমর্থনে - ফলস্বরূপ ডেটাসেট কোনও নির্ভরযোগ্য ফর্ম অনুমানের জন্য কার্যকর বলে মনে হয় না। (অনুমানযোগ্যভাবে এটি
নিজস্বভাবে নয় তবে বহিরাগতদের

1
স্পষ্টত একটি মূল বিষয়। আমি এটিকে অন্য জবাব দিয়েছি, যাতে এই থ্রেডটি খুব দ্রুত কেউ পড়তে না পারে। এই ডিভাইস দ্বারা প্ররোচিত লোকেদের এবং অবশ্যই কিছু লোক রয়েছে তাদের বুঝতে হবে যে এটি (ক) একটি ভাল ধারণা নয় (খ) একটি খারাপ ধারণা।
নিক কক্স

1
@ ব্যবহারকারী 2357112 এর অর্থ নিহিত হ'ল ব্যবহৃত মানটি অন্যান্য মানগুলির গড়। আউটরিয়াল মান, অবিশ্বাস্য হিসাবে বিবেচিত, গণনায় অন্তর্ভুক্ত করা উচিত নয়।
নিক কক্স

উত্তর:


41

স্পষ্টতই এটি সম্ভব, তবে এটি কখনই ভাল ধারণা হতে পারে তা পরিষ্কার নয়।

আসুন এমন কয়েকটি উপায়ে বানান যা এটি একটি সীমিত বা ঘাটতি সমাধান:

  • বাস্তবে আপনি বলছেন যে আউটলারের মানটি সম্পূর্ণরূপে অবিশ্বাস্য, আপনার একমাত্র সম্ভাব্য অনুমান যে মূল্যটি গড় হওয়া উচিত। যদি আপনি যা মনে করেন এটি যদি হয় তবে সম্ভবত প্রশ্নে থাকা পর্যবেক্ষণ বাদ দেওয়ার পক্ষে আরও সৎ হতে পারে, সম্ভবত স্পষ্টতই আরও ভাল অনুমান করার মতো পর্যাপ্ত তথ্য আপনার কাছে নেই।

  • অন্য কিছু না বলে, আপনার প্রথমে আউটলিয়ারদের সনাক্ত করার জন্য একটি মানদণ্ড বা মানদণ্ডের প্রয়োজন (যেমন @ ফ্র্যাঙ্ক হ্যারেল দ্বারা সূচিত)। অন্যথায় এটি একটি স্বেচ্ছাসেবী এবং বিষয়গত পদ্ধতি, এমনকি যদি এটি রায় হিসাবে বিবেচিত হয়। কিছু মানদণ্ডের সাথে এটি সম্ভব যে এইভাবে আউটলিয়ারগুলি অপসারণ করা পার্শ্ব-প্রতিক্রিয়া হিসাবে আরও বেশি বিদেশী তৈরি করে। একটি উদাহরণ হতে পারে যে outliers গড় থেকে দূরে অনেক স্ট্যান্ডার্ড বিচ্যুতির চেয়ে বেশি। একজন আউটলেটর সরানো স্ট্যান্ডার্ড বিচ্যুতি পরিবর্তন করে এবং নতুন ডেটা পয়েন্টগুলি এখন যোগ্যতা অর্জন করতে পারে এবং আরও অনেক কিছু।

  • সম্ভবত এখানে অর্থের অর্থ অন্য সমস্ত মানের অর্থ, যা ডেভিড মার্কস দ্বারা স্পষ্ট করে দেওয়া একটি বিন্দু। এই শর্ত ছাড়াই ধারণাটি অস্পষ্ট।

  • মাধ্যমটি ব্যবহার করা নিরাপদ বা রক্ষণশীল পদ্ধতি বলে মনে হতে পারে তবে মানটির পরিবর্তনের ফলে স্তর, স্কেল এবং আকারের ব্যবস্থাসমূহ এবং তাদের অনিশ্চয়তার সূচক সহ অন্যান্য প্রতিটি পরিসংখ্যানই বদলে যাবে, এমন একটি বিষয় যা @ হোবার দ্বারা জোর দিয়েছিল।

  • গড়টি এমনকি একটি কার্যকর মানও নাও হতে পারে: সাধারণ উদাহরণগুলি যখন মানগুলি পূর্ণসংখ্যা হয়, তবে সাধারণত গড়টি কোনও পূর্ণসংখ্যা হয় না।

  • এমনকি এই ধারণাটি সহ যে সংক্ষিপ্ত পরিমাপটি ব্যবহার করা একটি সতর্ক জিনিস, মিডিয়ান বা অন্য কোনও পরিমাপের চেয়ে গড়টি ব্যবহার করা কিছু ন্যায্যতা প্রয়োজন।

  • অন্য ভেরিয়েবলগুলি যখনই রয়েছে, অন্যের উল্লেখ ছাড়াই একটি ভেরিয়েবলের মান পরিবর্তন করতে অন্য ইন্দ্রিয়গুলিতে ডেটা পয়েন্টকে অসাধারণ করে তুলতে পারে।

আউটলিয়ারদের সাথে কী করবেন তা একটি উন্মুক্ত এবং খুব কঠিন প্রশ্ন। আলগাভাবে, বিভিন্ন সমাধান এবং কৌশলগুলি বিভিন্ন আবেদন করে। সম্ভাবনার একটি আংশিক তালিকা এখানে। আদেশটি স্বেচ্ছাসেবী এবং প্রয়োগযোগ্যতা, গুরুত্ব বা অন্য কোনও মানদণ্ডের দিক থেকে কোনও অর্ডার পৌঁছে দেওয়ার উদ্দেশ্যে নয়। বা এই পদ্ধতির পারস্পরিক একচেটিয়া হয় না।

  • একটি (আমার দৃষ্টিতে ভাল) সংজ্ঞাটি হ'ল "[ও] উটলিয়াররা হ'ল নমুনা মান যা নমুনার সিংহভাগের সাথে বিস্মিত হয়" (ডব্লিউএন ভেনেবলস এবং বিডি রিপ্লে। 2002) এস সহ আধুনিক প্রয়োগিত পরিসংখ্যান statistics ) নিউ ইয়র্ক : স্প্রিংগার, p.119)। যাইহোক, অবাক করা দর্শকের মনে এবং ডেটার কিছু স্বচ্ছ বা স্পষ্ট মডেলের উপর নির্ভরশীল। আরও একটি মডেল থাকতে পারে যার অধীনে আউটলেট মোটেও অবাক হয় না, তাই ডেটা সত্যই (বলুন) স্বাভাবিকের চেয়ে লগনরমাল বা গামা হয়। সংক্ষেপে, আপনার মডেলটি (পুনরায়) বিবেচনা করার জন্য প্রস্তুত থাকুন।

  • পরীক্ষাগার বা ক্ষেত্রের মধ্যে যান এবং আবার পরিমাপ করুন। প্রায়শই এটি অনুশীলনযোগ্য নয় তবে এটি বেশ কয়েকটি বিজ্ঞানে মানক বলে মনে হয়।

  • আউটলিয়াররা আসল কিনা তা পরীক্ষা করুন। বেশিরভাগ পরীক্ষাগুলি আমার কাছে বেশ সাবলীল দেখায় তবে আপনি এমন একটিটিকে খুঁজে পেতে পারেন যা আপনি বিশ্বাস করতে পারেন যে আপনার পরিস্থিতি ফিট করে। অযৌক্তিক বিশ্বাস যে একটি পরীক্ষা যথাযথ হয় সর্বদা একটি পরীক্ষা প্রয়োগ করা প্রয়োজন যা তত্ক্ষণাত যুক্তিযুক্ত হিসাবে উপস্থাপিত হয়।

  • বিচারের বিষয় হিসাবে তাদের ফেলে দিন।

  • কিছু বেশি বা কম স্বতঃযুক্ত (সাধারণত "উদ্দেশ্য" নয়) নিয়ম ব্যবহার করে এগুলিকে ফেলে দিন।

  • আংশিক বা সম্পূর্ণভাবে এগুলি উপেক্ষা করুন। এটি আনুষ্ঠানিক (উদাহরণস্বরূপ ট্রিমিং) হতে পারে বা এগুলি ডেটাসেটে রেখে দেওয়ার মতো বিষয়, তবে এগুলি হ্যান্ডেল করার পক্ষে বিশ্লেষণ থেকে বাদ দেওয়া from

  • এগুলি কোনও ধরণের সমন্বয় যেমন উইনসরাইজিং ব্যবহার করে টানুন।

  • অন্যান্য শক্তিশালী অনুমানের পদ্ধতি ব্যবহার করে এগুলি ডাউনপ্লে করুন।

  • পরিবর্তিত স্কেলে কাজ করে তাদের ডাউনপ্লে করুন।

  • একটি অ-পরিচয় লিঙ্ক ফাংশন ব্যবহার করে তাদের ডাউনপ্লে করে।

  • ভবিষ্যদ্বাণীকারী ছাড়াই বা তাদের সাথে কিছু উপযুক্ত ফ্যাট-, দীর্ঘ- বা ভারী-লেজযুক্ত বিতরণ ফিট করে তাদের একত্রীকরণ করুন।

  • কোনও মডেলটিতে অতিরিক্ত ভবিষ্যদ্বাণী হিসাবে একটি সূচক বা ডামি ভেরিয়েবল ব্যবহার করে সংযুক্ত করুন।

  • কিছু নন-প্যারামিমেট্রিক (উদাহরণস্বরূপ র‌্যাঙ্ক-ভিত্তিক) পদ্ধতি ব্যবহার করে সমস্যার দিকনির্দেশ করুন।

  • বুটস্ট্র্যাপিং, জ্যাকনিফাইং বা ক্রমশক্তি-ভিত্তিক পদ্ধতি ব্যবহার করে নিহিত অনিশ্চয়তার উপর একটি হ্যান্ডেল পান।

  • নির্ধারিত যুক্তির উপর ভিত্তি করে আরও কিছু সম্ভাব্য মান সহ একটি আউটলেট প্রতিস্থাপন সম্পাদনা করুন। "একটি 18-বছরের বৃদ্ধা ননীর সম্ভাবনা কম, তবে প্রশ্নে ব্যক্তি 1932 সালে জন্মগ্রহণ করেছিলেন, সম্ভবত সম্ভবত 81 বছর বয়সী।"

  • একটি অসম্ভব বা অবর্ণনীয় আউটলেট প্রতিস্থাপনের জন্য কিছু অনুবর্তন পদ্ধতি ব্যবহার করুন যা বর্তমানে গ্রহণযোগ্য নয়-বেশ সাদা-যাদু।

  • সংস্থাগুলি, বৈজ্ঞানিকভাবে বা ব্যবহারিকভাবে বহিরাগত (গুলি) কতগুলি তফাৎ করে সেগুলি এবং এর বাইরে বিশ্লেষণ করুন।

  • Something Bayesian. My prior ignorance of quite what forbids from giving any details.

EDIT This second edition benefits from other answers and comments. I've tried to flag my sources of inspiration.


1
(+1) nice answer. On the Bayesian side, one might do many things, but in effect you're trying to build some model for how you came to have such values (the process that led to the outlier). For example, it may be something simple like "each data value has some small unknown probability of being from a distribution that's a lot wilder than the bulk of the data" and then putting a prior distribution on that probability and formalizing some choice for that wilder distribution and priors for its parameters. The effect is to down-weight the impact of points that don't fit the model.
Glen_b -Reinstate Monica

16

There are several problems implied by your question.

  1. What is an "outlier"?
  2. Should an "outlier" be replaced?
  3. What is special about the mean as opposed to some other estimate?
  4. How would you compensate to increase the apparent variance upon replacement by a single value that causes the variance too small?
  5. Why not use robust estimators that are resistant to outliers?
  6. Is this an independent or a dependent variable?

None of 1-5 have an obvious answer. If you really feel that these "outliers" are wrong and you don't want to use a robust statistical method, you can make them missing and use multiple imputation as one possible solution. If the variable is a dependent variable, one robust choice is ordinal regression.


1
+1, good points. I'm intrigued by the OLR suggestion; is there a reason you prefer that to using a robust loss function such as Tukey's bisquare?
gung - Reinstate Monica

2
Ordinal regression is probably a bit more robust than that, and allows for estimation of well-defined quantities: means, quantiles, and probabilities. In addition you have all the power of likelihood ratio, Wald, and score tests and confidence intervals. Estimates of median Y and mean Y in ordinal regression are not redundant, i.e., they are not trivially connected but are allowed to "float" because of fewer distributional assumptions.
Frank Harrell

9

The proposal has numerous flaws in it. Here is perhaps the biggest.

Suppose you are gathering data, and you see these values:

2,3,1

The mean, so far is 6/3=2.

Then comes an outlier:

2,3,1,1000

So you replace it with the mean:

2,3,1,2

The next number is good:

2,3,1,2,7

Now the mean is 3. Wait a minute, the mean is now 3, but we replaced 1000 with a mean of 2, just because it occurred as the fourth value. What if we change the order of the samples?

2,3,1,7,1000

Now the mean prior to the 1000 is (2+3+1+7)/4=13/4. So should we replace 1000 with that mean?

The problem is that the false datum we are substituting in place of 1000 is dependent on the other data. That's an epistemological problem if the samples are supposed to represent independent measurements.

Then you have the obvious problem that you not merely withholding data that doesn't fit your assumptions, but you're falsifying it. When some unwanted result occurs, you increment n, and substitute a fake value. This is wrong because n is supposed to be the count of samples. Now n represents the number of samples, plus the number of fudge values added to the data. It basically destroys the validity of all calculations involving n: even those which do not use the fudge values. Your n is a fudge value too!

Basically, trimming away results that don't fit is one thing (and can be justified if it is done consistently according to an algorithm, rather than according to changing mood swings of the experimenter).

Outright falsifying results is objectionable on philosophical, epistemological and ethical grounds.

There may be some extenuating circumstances, which have to do with how the results are used. Like for instance, say that this substitution of outliers by the current mean is part of some embedded computer's algorithm, which enables it to implement a closed-loop control system. (It samples some system outputs, then adjusts inputs in order to achieve control.) Everything is real time, and so something must be supplied for a given time period in the place of missing data. If this fudging helps to overcome glitches, and ensures smooth operation, then all is good.

Here is another example, from digital telephony: PLC (packet loss concealment). Crap happens, and packets get lost, yet communication is real time. PLC synthesizes fake pieces of voice based on recent pitch information from correctly received packets. So if a speaker was saying the vowel "aaa" and then a packet was lost, PLC can pad the missing packet by extrapolating the "aaa" for the frame duration (say 5 or 10 milliseconds or whatever). The "aaa" is such that it resembles the speaker's voice. This is analogous to using a "mean" to substitute for values regarded as bad. It's a good thing; it's better than the sound cutting in and out, and helps intelligibility.

If the fudging of data is part of a program of lying to people to cover up failing work, that's something else.

So, we cannot think about it independently of the application: how is the statistics being used? Will substitutions lead to invalid conclusions? Are there ethical implications?


The telephony story is very interesting, but it seems a matter of defensible interpolation to replace missing values. The connection with outlier replacement is tenuous, as only purely local operations are needed and local changes are secondary to the "analysis" of the entire dataset.
Nick Cox

2
Plenty of interesting ideas here (+1). Note, though, that the replacement procedure is not necessarily sequential. One can identify all "outliers" at once and replace all of them with the mean of the remainder. This is a consistent procedure not unlike Winsorizing.
whuber

6

This article by Cousineau and Chartier discusses replacing outliers with the mean

http://www.redalyc.org/pdf/2990/299023509004.pdf

They write:

Tabachnick and Fidell (2007) suggested replacing the missing data with the mean of the remaining data in the corresponding cell. However, this procedure will tend to reduce the spread of the population, make the observed distribution more leptokurtic, and possibly increase the likelihood of a type-I error. A more elaborate technique, multiple imputations, involves replacing outliers (or missing data) with possible values (Elliott & Stettler, 2007; Serfling & Dang, 2009).

There is also an R package "outliers" that has a function to replace outliers with the mean. I also saw a number of hits in my Google search that implies that SPSS also has such a function, but I am not familiar with that program. Perhaps if you follow the threads you can discover the technical basis for the practice.

References

  • Cousineau, D., & Chartier, S. (2010). Outliers detection and treatment: a review. International Journal of Psychological Research, 3(1), 58-67.

I searched your reference for all occurrences of the word "mean" and could find no place where it discusses replacing outliers with the mean. If I missed something, could you indicate more precisely where this discussion occurs?
whuber

1
I changed the link because I could not get it to work. On page 9 of the document the author says "Outliers that are clearly the result of a spurious activity should be removed. However, in multivariate designs, doing so may result in removing too many participants to the point that the analysis can no longer be performed. Tabachnick and Fidell (2007) suggested replacing the missing data with the mean of the remaining data in the corresponding cell."
Thomas

2
Thanks: I see it now. However, describing this as a "discussion"--which suggests there may be some balancing of pros and cons--may be somewhat misleading, because this passage mentions the mean-substitution procedure (a) only for multivariate applications and (b) solely to point out its defects, winding up with a suggestion to consider multiple imputation instead. (Interestingly, the paper's reference for this procedure does not even appear in its bibliography.)
whuber

5
Yes it is odd that the cited reference is not in the bib. It appears to be the book "Experimental Designs Using ANOVA." I was trying to respond to the original request and provide references for the practice of substituting the mean for outliers. That paper was all I could find in a quick search and I hoped it could provide leads so that the OP could find a more complete answer.
Thomas

4

The main thing to bear in mind when dealing with outliers is whether they're providing useful information. If you expect them to occur on a regular basis then stripping them out of the data will guarantee that your model will never predict them. Of course, it depends what you want the model to do but it's worth bearing in mind that you shouldn't necessarily drop them. If they contain important information you may want to consider a model that can account for them. One, simple way to do that is to take logs of the variables, which can account for power law relationships. Alternatively, you could use a model that accounts for them with a fat-tailed distribution of errors.

If you do want to cut them out then the usual ways are to either drop them or Winsorise them to remove the extreme values. I don't have a textbook to hand but the Wiki links there do refer to some if you want to read further. Most texts on applied statistics should have a section on outliers.


3

I'm aware of two related similar approaches in statistics.

  • Trimmed means: when computing the mean, you drop the smallest and largest observations of your data (e.g. the top and bottom 1 each; you should do this symmetrically!)
  • Winsorization: similar to the trimmed mean, you only modify extreme observations. However, instead of dropping them, you replace them with the largest/smallest non-extreme observation. This often works slightly better than trimming.

For more detailed examples, see Wikipedia:

https://en.wikipedia.org/wiki/Trimmed_estimator

https://en.wikipedia.org/wiki/Winsorising

Note that this works good for some statistics such as when computing the mean. The trimmed / winsorized mean is often a better estimate of the true mean than the artihmetic average. In other cases, it may ruin your statistics. For example when computing variance, trimming will always underestimate your true variance. Winsorization, assuming that indeed some of the extreme observations are faulty, will work a bit better then (it will probably still underestimate, but not by as much).

I don't see how replacing the extreme values with the mean would fit in here.

However, there is another practice that is related: missing value imputation. Assuming that your outlier is flawed, worthless data, so your remove it. When you then perform imputation, a typical substitute value would be the mean or mode:

https://en.wikipedia.org/wiki/Imputation_%28statistics%29


1
Trimming asymmetrically is a known and defensible tactic.
Nick Cox

2

The traditional approach for handling outliers is to simply remove them such that your model is trained only on "good" data.

Keep in mind that the mean value is affected by the presence of those outliers. If you replace outliers with the mean calculated after the outliers were removed from your dataset, it will make no difference since the regression line (from simple linear regression) will pass through the mean of your training data anyway (this will reduce the variance of your estimates though, which is probably the opposite of what you want given that you know there are outliers).

The effect your approach will have on the model depends on the influence (leverage) of the outlier. I'd recommend against the approach you suggest in lieu of just removing the point entirely.


4
Removal of data will cause a bias unless the procedure for removal is objective and that same procedure will be applied to all future data for which predictions are obtained.
Frank Harrell

0

yes the outliers can be replaced in may forms, for example, let's take a data-set of the size of Human heights, let's say we have some outliers like 500 cm and 400 cm then, we can just replace those data points that appear in the dataset because of some error that was caused during the recording of the data. so the options you can try is 1. replace it with the Median of the Whole color of the data (not the mean, as it is prone to outliers). 2. replace with the most Occurring data point in the Column. 3. If Categorial values then you can try Response coding.(wherein you Record the Probability of the word or the values occurring by the total number of words )

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.