আমরা একটি প্রয়োগ পরিসংখ্যান কোর্সে কুরটোসিস শিখিয়ে দেওয়া উচিত? যদি তাই হয়, কিভাবে?


17

কেন্দ্রীয় প্রবণতা, ছড়িয়ে পড়া এবং skewness সবই কমপক্ষে স্বজ্ঞাত ভিত্তিতে তুলনামূলকভাবে ভাল সংজ্ঞা দেওয়া যেতে পারে; এই জিনিসগুলির স্ট্যান্ডার্ড গাণিতিক ব্যবস্থাগুলিও আমাদের স্বজ্ঞাত ধারণার সাথে তুলনামূলকভাবে সুসংগত। তবে কুর্তোসিস আলাদা বলে মনে হচ্ছে। এটি খুব বিভ্রান্তিকর এবং এটি বিতরণের আকার সম্পর্কে কোনও অন্তর্দৃষ্টি দিয়ে ভাল মেলে না।

একটি প্রয়োগকৃত সেটিং-এ কুর্তোসিসের একটি সাধারণ ব্যাখ্যা হ'ল মাইক্রোসফ্ট এক্সেল ব্যবহার করে ব্যবসায় এবং পরিচালনার জন্য প্রয়োগকৃত পরিসংখ্যানগুলি থেকে এই নিষ্কাশন [ 1 ] :[1]

কুরটোসিস বলতে বোঝায় যে কোনও বিতরণ কীভাবে শীর্ষে রয়েছে বা বিপরীতভাবে এটি কতটা সমতল। যদি কোনও সাধারণ বিতরণ থেকে আপনি যা আশা করেন তার চেয়ে যদি লেজগুলিতে আরও ডেটা মান থাকে তবে কুর্তোসিসটি ইতিবাচক। বিপরীতে যদি লেজগুলিতে কম ডাটা মান থাকে তবে আপনি সাধারণ বিতরণে যেমন আশা করেন, কুরটোসিসটি নেতিবাচক। আপনার কাছে কমপক্ষে চারটি ডেটা মান না থাকলে এক্সেল এই পরিসংখ্যানটি গণনা করতে পারে না।

"কুর্তোসিস" এবং "অতিরিক্ত কুর্তোসিস" এর মধ্যে বিভ্রান্তি বাদ দিয়ে (এই বইয়ের মতো, অন্য লেখক যাকে পরবর্তীকালে ডাকে তা বোঝাতে পূর্বের শব্দটি ব্যবহার করা প্রচলিত), "শিখরতা" বা "নির্লিপ্ততা" এর পরিভাষায় ব্যাখ্যা তারপরে লেজগুলিতে কতগুলি ডেটা আইটেম রয়েছে সেদিকে মনোযোগের স্যুইচিংয়ের ফলে গলগল হয়। "শীর্ষ" এবং "লেজ" উভয় বিবেচনা করা প্রয়োজনীয় - কাপ্লানস্কি[2]১৯৪45 সালে অভিযোগ করেছিলেন যে কুর্তোসিসের সময়কার অনেকগুলি পাঠ্যপুস্তকে ভুলভাবে বলা হয়েছিল যে, লেজগুলি বিবেচনা না করে বিতরণের শীর্ষটি একটি সাধারণ বিতরণের তুলনায় কতটা উচ্চতর তুলনা করা হয়। তবে স্পষ্টতই শিখরে এবং লেজগুলিতে উভয় আকারটি বিবেচনা করা স্বজ্ঞাকে উপলব্ধি করা আরও শক্ত করে তোলে, শীর্ষে উদ্ধৃত হওয়া একটি বিন্দুটি শীর্ষে থেকে লেজগুলির ভারাক্রান্তি থেকে পৃথক করে যেমন এই ধারণাগুলি একই the

তদুপরি কুর্তোসিসের এই ধ্রুপদী "পিক এবং লেজ" ব্যাখ্যাটি কেবলমাত্র প্রতিসম এবং ইউনিমোডাল বিতরণের জন্য ভাল কাজ করে (প্রকৃতপক্ষে, এই পাঠ্যের চিত্রিত উদাহরণগুলি সমস্ত প্রতিসাম্য)। তবুও "শিখর", "লেজ" বা "কাঁধ" হিসাবে কুর্তোসিসকে ব্যাখ্যা করার "সঠিক" সাধারণ উপায় কয়েক দশক ধরেই বিতর্কিত[2][3][4][5][6]

প্রয়োগযোগ্য সেটিংয়ে কুর্তোসিস শেখানোর এমন কোন স্বজ্ঞাত উপায় আছে যা আরও কঠোর পদ্ধতির ক্ষেত্রে গ্রহণ করার পরে দ্বন্দ্ব বা প্রতিবিম্বকে আঘাত করবে না? গাণিতিক পরিসংখ্যান শ্রেণীর বিপরীতে এই জাতীয় প্রয়োগিত ডেটা বিশ্লেষণ কোর্সের প্রসঙ্গে কুর্তোসিস কি কার্যকর উপকারী ধারণা? যদি কোনও বিতরণের "পিকেসনেস" কোনও স্বজ্ঞাতভাবে কার্যকর ধারণা হয়, তবে আমরা কি পরিবর্তে এল-মুহুর্তগুলি teach ? দিয়ে শিখিয়েছি ?[7]

[1] হার্কেনহফ, এল। এবং ফোগলি, জে (2013)। মাইক্রোসফ্ট এক্সেল ব্যবহার করে ব্যবসায় এবং পরিচালনার জন্য প্রয়োগের পরিসংখ্যান । নিউ ইয়র্ক, এনওয়াই: স্প্রিংগার।

[2] কাপ্লানস্কি, আই। (1945)। "কুরটোসিস সম্পর্কিত একটি সাধারণ ত্রুটি"। আমেরিকান স্ট্যাটিস্টিকাল অ্যাসোসিয়েশনের জার্নাল , 40 (230): 259।

[3] ডার্লিংটন, রিচার্ড বি (1970)। "কুর্তোসিস কি আসলেই 'পিকেসনেস'?"। আমেরিকান পরিসংখ্যানবিদ 24 (2): 19-22

[4] দরজা, জেজেএ। (1986) "কুর্তোসিসের অর্থ: ডার্লিংটন পুনরায় পরীক্ষা করেছেন"। আমেরিকান পরিসংখ্যানবিদ 40 (4): 283-284

[5] Balanda, Kevin P. and MacGillivray, H.L. (1988). "Kurtosis: A Critical Review". The American Statistician 42(2): 111–119

[6] DeCarlo, L. T. (1997). "On the meaning and use of kurtosis". Psychological methods, 2(3), 292. Chicago

[7] Hosking, J.R.M. (1992). "Moments or L moments? An example comparing two measures of distributional shape". The American Statistician 46(3): 186–189


2
What do you mean by the usual curricula? I.e. what level of education.
Gumeo

5
What exactly are you teaching about kurtosis? This question is pretty vague as it is. Please fill out how it fits into your curricula now and perhaps some intuitive examples from the standard measures you agree with that are contradicted in kurtosis.
John

3
I don't think the moment measure of kurtosis is actually much different than moment skewness in that respect. In both cases they don't really reflect what people think they do, and they're both less intuitive than the stories people tell themselves about them. For every surprising counterexample I have about kurtosis, I have another one about skewness. I wouldn't remove either of them, but I'd reduce the emphasis on the moment measures, I'd move them later and change the way they're taught, so that we don't conflate different concepts and we don't make claims that don't hold up.
Glen_b -Reinstate Monica

3
Higher skewness doesn't imply a heavier tail in the direction of skewness. Zero skewness doesn't mean symmetry (all odd moments zero doesn't even imply symmetry). Symmetry doesn't even imply zero skewness. What intuitions are left?
Glen_b -Reinstate Monica

3
Here's another answer with some discussion that has an interesting class of examples. There's some others but I don't see them right now. Some of whuber's posts are also useful.
Glen_b -Reinstate Monica

উত্তর:


18

কুরটোসিস সত্যিই বেশ সহজ ... এবং দরকারী। এটি কেবল বহিরাগতদের বা পুচ্ছদের একটি পরিমাপ। এর শীর্ষে যা কিছু আছে তার কোনও যোগসূত্র নেই - এই সংজ্ঞাটি অবশ্যই ত্যাগ করতে হবে।

এখানে একটি ডেটা সেট করা হয়েছে:
0, 3, 4, 1, 2, 3, 0, 2, 1, 3, 2, 0, 2, 2, 3, 2, 5, 2, 3, 999

লক্ষ্য করুন যে '999' একটি আউটলেটর।

এখানে z- র4 ডেটা সেট থেকে মানগুলি:

0.00, 0.00, 0.00, 0.00, 0.00, 0.00, 0.00, 0.00,0.00, 0.00, 0.00, 0.00, 0.00, 0.00, 0.00, 0.00, 0.00, 0.00, 0.00, 360.98

লক্ষ্য করুন যে কেবলমাত্র আউটলেটর একটি দেয় z- র4 এটি 0 থেকে লক্ষণীয়ভাবে পৃথক।

এগুলির গড় z- র4 মানগুলি বোধগম্য বিতরণের কুর্তোসিস (যদি আপনি চান তবে 3টি বিয়োগ করুন, আমি যে পয়েন্টটি করছি তার পক্ষে কিছু আসে যায় না): 18.05

এই গণনা থেকে এটা স্পষ্ট হওয়া উচিত যে "শিখর" (অ-বহির্মুখী ডেটা) এর নিকটবর্তী ডেটা কার্টোসিসের পরিসংখ্যানগুলিতে প্রায় কিছুই অবদান রাখে না।

কুর্তোসিস বহিরাগতদের একটি পরিমাপ হিসাবে দরকারী। আউটলিয়াররা প্রাথমিক শিক্ষার্থীদের কাছে গুরুত্বপূর্ণ এবং তাই কুরটোসিস শেখানো উচিত। তবে কুর্তোসিসের শিখর সাথে কার্যত কিছুই করার নেই, তা পয়েন্টি, ফ্ল্যাট, বিমোডাল বা অসীম হোক। উপরের সমস্ত ছোট কুর্তোসিস এবং উপরের সমস্তগুলি বড় কুরটোসিসের সাথে থাকতে পারে। সুতরাং এটি শীর্ষের সাথে কিছু করার মতো হিসাবে উপস্থাপন করা উচিত নয় , কারণ এটি ভুল তথ্য শেখানো হবে। এটি উপাদান অহেতুক বিভ্রান্তিকর এবং আপাতদৃষ্টিতে কম দরকারী হিসাবে তোলে।

সারসংক্ষেপ:

  1. কুরটোসিস লেজ (আউটলিয়ার) এর ব্যবস্থা হিসাবে কার্যকর।
  2. কুর্তোসিসের শিখর কোনও সম্পর্ক নেই।
  3. কুর্তোসিস ব্যবহারিকভাবে কার্যকর এবং এটি শেখানো উচিত, তবে কেবল বিদেশিদের একটি পরিমাপ হিসাবে। কুরটোসিস পড়ানোর সময় শিখার কথা উল্লেখ করবেন না।

এই নিবন্ধটি স্পষ্টভাবে ব্যাখ্যা করেছে যে "পিকেসনেস" সংজ্ঞাটি এখন সরকারীভাবে মারা গেছে কেন।

ওয়েস্টফল, PH (2014)। " কুর্তোসিস অ্যা পিকনেস, 1905 - 2014. আরআইপি " দ্য আমেরিকান স্ট্যাটিস্টিশিয়ান , 68 (3), 191–195।


4
Welcome to CV, I hope you stick around and contribute more in future! I have edited your post to include a link to the paper and reformatted some of the math notation, I hope you don't mind. (By placing math in a $ e.g. $z^4$ it's possible to use LATEX.)
সিলভারফিশ

6

While the question is somewhat vague, it is interesting. At what levels is kurtosis taught? I remember it being mentioned in a (master's level) course in linear models (long time ago, based on first edition of Seber's book). It was not an important topic, but it enters in topics like studying the (lack of) robustness of the Likelihood ratio test (F-test) of equality of variances, where (from memory) correct level asymptotically depends on having same kurtosis as the normal distribution, which is too much to assume! We saw a paper (but I never read it with details) http://www.jstor.org/stable/4615828?seq=1#page_scan_tab_contents by Oja, which tries to find out what skewness, kurtosis and such really measures.

Why do I find this interesting? Because I have been teaching in latin america, where it seems that skewness & kurtosis are taught by many as important topics, and trying to tell post-graduate students (many from economy) that kurtosis is a bad measure of form of a distribution (mainly because sampling variability of fourth powers simply is to large), was difficult. I was trying getting them to use QQplots instead. So, to some of the commenters, yes, this is taught someplaces, probably to much!

By the way, this is not only my opinion. The following blog post https://www.spcforexcel.com/knowledge/basic-statistics/are-skewness-and-kurtosis-useful-statistics contains this citation (attributed to Dr. Wheeler):

In short, skewness and kurtosis are practically worthless. Shewhart made this observation in his first book. The statistics for skewness and kurtosis simply do not provide any useful information beyond that already given by the measures of location and dispersion.

We should teach better techniques to study forms of distributions! such as QQplots (or relative distribution plots). And, if somebody still needs numerical measures, measures based on L-moments are better. I will quote one passage from the paper J R Statist Soc B (1990) 52, No 1, pp 105--124 by J R M Hosking: "L-moments: Analysis and Estimation of Distribution using Linear Combination of Order Statistics", page 109:

An alternative justification of these interpretations of L-moments may be based on the work of Oja (1981), Oja defined intuitively reasonable criteria for one probability distribution on the real line to be located further to the right (more dispersed, more skew, more kurtotic) than another. A real-valued functional of a distribution that preserves the partial ordering of distributions implied by these criteria may then reasonably be called a 'measure of location (dispersion, skewness, kurtosis)'. It follows immediately from Oja's work that λ1 and λ2 , in Oja's notation, μ(F) and 12σ1(F), are measures of location and scale respectively. Hosking (1989) shows that τ3 and τ4 are, by Oja's criteria, measures of skewness and kurtosis respectively.

(For the moment, I refer to the paper for the definitions of these measures, they are all based on L-moments.) The interesting thing is that, the traditional measure of kurtosis, based on fourth moments, is not a measure of kurtosis in the sense of Oja! (I will edit in references for that claim when I can find it).


1
No problem with use of graphical and other techniques to understand distributional properties, but the statement that "skewness and kurtosis are practically worthless" is hyperbole. Both have great effects on all kinds of statistical inference.
Peter Westfall

@ পিটার এটি সম্ভবত এই বিবৃতিতে "অভিজ্ঞতামূলক কুর্তোসিস" বোঝানো হয়েছিল।
কেজেটিল বি হলওয়ার্সন

1
Even so, empirical kurtosis tells you when you have an outlier problem in your data. So I still think the comment "skewness and kurtosis are practically worthless" is hyperbole. Sure, they might not be great estimates of the "population" parameters, especially with smaller sample sizes, but "practically worthless" is a stretch. Even if they do not estimate the population parameters particularly well, they still provide useful descriptive information about the existing data set. Information that, of course, should be supplemented by graphical views such as qq plots.
Peter Westfall

@Peter Westfall: The real Q is maybe if empirical kurtosis is the best measure there is to detect outlier problems, or if there is something better?
কেজিটিল বি হলওয়ার্সেন

Empirical kurtosis measures the outlier character of a data set, not individual outliers. I would not go so far as to say that kurtosis = 3 (like normal) means "no outliers," but I would say that such a case means that the outlier character (as measured by average z-value, each taken to the fourth power) is similar to that of a normal distribution. On the other hand, a huge kurtosis most certainly indicates an outlier problem. Yes, normal q-q plots are better for more refined diagnosis. BTW, the normal q-q plot and the excess kurtosis have a firm mathematical connection.
Peter Westfall

3

আমি আমার মতামত, skewness সহগ শর্তাবলী উত্সাহিত করতে দরকারী: ইতিবাচক skew এবং নেতিবাচক skew। আপনার লক্ষ্যটি যদি স্বাভাবিকতা নির্ধারণ করা হয় তবে এটি থেমে যায়। স্কিউনেস এবং কুর্তোসিসের ধ্রুপদী ব্যবস্থাগুলি প্রায়শই স্বাভাবিকতা থেকে দূরে বিভিন্ন ধরণের বিচ্যুতি গ্রহণ করতে ব্যর্থ হয়। আমি সাধারনত আমার শিক্ষার্থীদের গ্রাফিকাল কৌশলগুলি ব্যবহার করার পরামর্শ দিই যা স্বাভাবিকতা নির্ধারণ করা যুক্তিসঙ্গত, যেমন কিউকিউ প্লট বা একটি সাধারণ সম্ভাবনার প্লট। পর্যাপ্ত আকারের নমুনা সহ, একটি হিস্টগ্রামও ব্যবহার করা যেতে পারে। বক্সপ্লটগুলি বহিরাগতদের বা এমনকি ভারী লেজ সনাক্ত করতেও কার্যকর।

এটি এপিএর একটি 1999 টাস্ক ফোর্সের সাথে সুপারিশগুলির সাথে অন্তর্নিহিত:

" অনুমান। বিশ্লেষণের জন্য প্রয়োজনীয় অন্তর্নিহিত অনুমানগুলি ডেটা অনুসারে যুক্তিসঙ্গত কিনা তা নিশ্চিত করার জন্য আপনার প্রচেষ্টা করা উচিত। অবশিষ্টাংশগুলি সাবধানে পরীক্ষা করুন। আপনার অবশিষ্টাংশের গ্রাফিকভাবে পরীক্ষা করার বিকল্প হিসাবে বন্টনমূলক পরীক্ষা এবং আকারের পরিসংখ্যান সূচকগুলি (যেমন, স্কিউনেস, কুর্তোসিস) ব্যবহার করবেন না। মডেল ফিটিংয়ের সমস্যাগুলি নির্ণয়ের জন্য একটি পরিসংখ্যানমূলক পরীক্ষা ব্যবহার করে বেশ কয়েকটি ত্রুটি রয়েছে। প্রথমত, সংক্ষিপ্ত পরিসংখ্যানের উপর ভিত্তি করে ডায়াগনস্টিক তাত্পর্য পরীক্ষা (যেমন বৈচিত্রের একজাতীয়তার জন্য পরীক্ষা) প্রায়শই ব্যবহারিকভাবে সংবেদনশীল হয় না; আমাদের মডেলগুলির পরিসংখ্যানগত পরীক্ষাগুলি অনুমানের আমাদের পরিসংখ্যানগত পরীক্ষার চেয়ে প্রায়শই শক্তিশালী। দ্বিতীয়ত, স্কিউনেস এবং কুর্তোসিসের মতো পরিসংখ্যানগুলি প্রায়শই অবশিষ্টাংশগুলিতে বিতরণমূলক অনিয়মগুলি সনাক্ত করতে ব্যর্থ হয়। তৃতীয়ত, পরিসংখ্যান পরীক্ষাগুলি নমুনার আকারের উপর নির্ভর করে এবং যেমন নমুনার আকার বৃদ্ধি পায়, পরীক্ষাগুলি প্রায়শই নিরীহ অনুমানকে প্রত্যাখ্যান করে। সাধারণত, অনুমানের গ্রাফিকাল বিশ্লেষণের বিকল্প নেই is"

তথ্যসূত্র: উইলকিনসন, এল। (1999)। মনোবিজ্ঞানের জার্নালগুলিতে পরিসংখ্যান পদ্ধতি: নির্দেশিকা এবং ব্যাখ্যা expla আমেরিকান সাইকোলজিস্ট, 54, 594-604।


1

Depending on how applied the course is, the question of accuracy of estimates might come up. The accuracy of the variance estimate depends strongly on kurtosis. The reason this happens is that with high kurtosis, the distribution allows rare, extreme potentially observable data. Thus the data-generating process will produce very extreme values in some samples, and not so extreme values in others. In the former case, you get a very large variance estimate, and in the latter, a small variance estimate.

If the outdated and incorrect "peakedness" interpretation were eliminated, and the focus given entirely to outliers (i.e., rare, extreme observables) instead, then it would be easier to teach kurtosis in introductory courses. But people twist themselves into knots trying to justify "peakedness" because it is (incorrectly) stated that way in their textbooks, and they miss the real applications of kurtosis. These applications mostly relate to outliers, and of course outliers are important in applied statistics courses.


1
Are you the same Peter Westfall as the author of the most upvoted answer in this thread? If so, you could have your profiles merged together and then directly edit your old answer instead of posting another answer.
অ্যামিবা বলেছেন মনিকাকে রিইনস্টেট করুন

1
Yes, sorry for missing the netiquette.
Peter Westfall

-1

Frankly, I don't understand why people want to complicate simple things. Why not just show the definition (stolen from Wikipedia):

Kurt[X]=E[(Xμσ)4]=μ4σ4=E[(Xμ)4](E[(Xμ)2])2,

You can replace the expectation operator with sum based estimators 1ni=1n, of course. It helps to discuss the units of measure of μ,σ2,μ4, and show why the fourth moment should be scaled by the square of the variance to make kurtosis the dimensionless measure, i.e. a shape parameter. So, we have now location μ, scale σ2 and any number of parameters to describe the shape such as skew and kurtosis. I'd always start with equations. Supposedly easy to understand explanations in plain English only make everything more confusing. Verbosity clarity.


1
সমস্যাটি হ'ল, একবার আপনি কুর্তোসিসটি পেয়ে গেলে এটির অর্থ (যদি কিছু থাকে) এর অর্থ কি খুব তাড়াতাড়ি। এটি বিতরণের দরকারী গুণগুলির সাথে মেলে না।
পিটার ফ্লুম - মনিকা পুনরায়

Yes, kurtosis does match with a very useful quality of a distribution - it is a measure of tailweight (outliers). Supporting mathematical theorems, for which there is no counterexample: (i) kurtosis is between E(Z^4 *I(|Z| >1)) and E(Z^4 *I(|Z| >1)) + 1, for all distributions having finite 4th moment. (ii) for the subclass of continuous distributions where the density of Z^2 is decreasing on (0,1), kurtosis is between E(Z^4 *I(|Z| >1)) and E(Z^4 *I(|Z| >1)) + .5, and (iii) for any sequence of distributions with kurtosis tending to infinity, E(Z^4 *I(|Z| >b))/kurtosis ->1, for every real b.
Peter Westfall
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.