উপলব্ধি করা সবচেয়ে কঠিন পরিসংখ্যান ধারণা কি?


32

এই এক একটি অনুরূপ প্রশ্ন হল এখানে , কিন্তু বিভিন্ন যথেষ্ট আমি উপযুক্ত জিজ্ঞেস আবশ্যক মনে করি।

আমি ভেবেছিলাম আমি একটি স্টার্টার হিসাবে রাখব, যা আমি মনে করি সবচেয়ে শক্ত একটি।

খনি সম্ভাবনা এবং ফ্রিকোয়েন্সি মধ্যে পার্থক্য । একটি হ'ল "বাস্তবতার জ্ঞান" (সম্ভাবনা) এর স্তরে, অন্যটি "বাস্তবতা নিজেই" (ফ্রিকোয়েন্সি) স্তরে। এটি সম্পর্কে আমি যদি খুব বেশি চিন্তা করি তবে এটি প্রায়শই আমাকে বিভ্রান্ত করে তোলে।

এডউইন জয়েস এই শব্দগুলিকে মিশ্রিত করার বর্ণনা দেওয়ার জন্য "মাইন্ড প্রোজেকশন ফ্যালাসেসি" নামে একটি শব্দ তৈরি করেছিলেন।

উপলব্ধি করার জন্য যে কোনও শক্ত ধারণা সম্পর্কে কোনও ধারণা?


(আমি এটিকে উত্তর হিসাবে রাখার পক্ষে যথেষ্ট পরিমাণে জানি না, সুতরাং একটি মন্তব্য যুক্ত করছি)) আমি সবসময়ই ভাবতাম অবাক করা যে পিআই পরিসংখ্যানগত সমীকরণে ফসল কাটাচ্ছেন। আমার অর্থ - পরিসংখ্যানগুলির সাথে পিআই কী করবে? :)
মনিকা পুনরায় ইনস্টল করুন - বিদায় SE

2
আমি সম্মত চাই (আমার surprisal) - আমি মনে করি তার যে অনেক গাণিতিক বিশ্লেষণে পপ আপ। শুধু একটি নোট আপনি লিখতে পারেন π দ্বারা তরুক্ষীর যেমন কমান্ড দিয়ে \ Pi $ লক্ষণ মধ্যে ঘিরা। En.wikibooks.org/wiki/LaTeX/ গণিতের সিনট্যাক্স পেতে আমি উইকি পৃষ্ঠাটি ব্যবহার করি । আরেকটি কৌশলটি হ'ল এই সাইটে আপনি যে সমীকরণটি দেখছেন সেটিতে "ডান ক্লিক করুন" এবং ব্যবহৃত আদেশগুলি পাওয়ার জন্য "উত্স দেখান" নির্বাচন করুন। ππ\pi
সম্ভাব্যতাব্লোগিক

@Wiki আপনি গ্রহণ যে যদি শস্য তোলা যখন আপনি বৃত্ত এক টুকরা দৈর্ঘ্য লাইন একটি straigh টুকরা দৈর্ঘ্য পরিমাপ থেকে যান, আমি দেখতে পাই না অধ: পতিত হত্তয়া করার জন্য একটি সম্ভাব্যতা পরিমাপ থেকে যাচ্ছে যখন কেন এটি প্রদর্শিত হবে না বৃত্তের এক টুকরোতে পড়ে যাওয়ার সম্ভাবনা পরিমাপ করার একটি বিভাগে? π
রবিন গিরার্ড

@Wiki যখনই আপনি ত্রিকোণমিতিক funcions (সাইনের কোসাইন, স্পর্শক ইত্যাদি) আছে আপনার যে সমস্যা হচ্ছে ঝুঁকি পপ আপ। এবং মনে রাখবেন যে যখনই আপনি কোনও ফাংশন পাবেন তখন আপনি আসলে একটি স্পর্শক খুঁজে পেয়েছেন। কি বিস্ময়কর যে π বলে মনে হচ্ছে না আরো প্রায়ই। ππ
কার্লোস অ্যাকলিওলি

@Carlos আমি প্রকোপ সন্দেহ ব্যবহার করার কারণে বেশিরভাগই হয় 2 মেট্রিক, এন-গোলকের সৃষ্টি করে। একই শিরাতে, আমি এটি আশা করব যার বিশ্লেষণের কারণে এর প্রসার ঘটে। 2π2e
sesqu

উত্তর:


31

কোনও কারণে, পি-ভ্যালু আসলে কী তা লোকেদের বুঝতে সমস্যা হয়।


3
@ শ্যাববিচেফ: বেশিরভাগ লোক এটিকে সবচেয়ে খারাপ পদ্ধতিতে ধরেন অর্থাৎ প্রথম ধরণের ত্রুটি করার সম্ভাবনা।
সানকুলসু

2
আমি মনে করি এটি বেশিরভাগই ক্লাসগুলিতে পি-মানগুলি কীভাবে ব্যাখ্যা করা হয় তার সাথে সম্পর্কিত (যেমন: কেবলমাত্র একটি দ্রুত সংজ্ঞা দিয়ে এবং পি-মানগুলি কী তা উল্লেখ না করে)
নিকো

আমি মনে করি এটি মূলত এটি কীভাবে প্রবর্তিত হয় তা করা। আমার জন্য এটি শাস্ত্রীয় অনুমানের পরীক্ষায় একটি "অ্যাড-অন" ছিল - সুতরাং এটি প্রতীয়মান হয় যে এটি অনুমানের পরীক্ষাটি করার আরও একটি উপায়। অন্যান্য সমস্যা হল এটি সাধারণত শুধুমাত্র একটি স্বাভাবিক বন্টন, যেখানে সবকিছু "চমৎকার কাজ করে" থেকে সম্মান সঙ্গে শেখানো হয় (যেমন P-মান হয় একটি স্বাভাবিক গড় পরীক্ষা করতে প্রমাণ একটি পরিমাপ)। পি-ভ্যালু জেনারেলাইজিং সহজ নয় কারণ জেনারালাইজেশন গাইড করার জন্য কোনও নির্দিষ্ট নীতি নেই (যেমন, নমুনার আকার এবং একাধিক তুলনার সাথে পি-ভ্যালু কীভাবে পৃথক হওয়া উচিত সে সম্পর্কে কোনও সাধারণ চুক্তি নেই)
সম্ভাব্যতা

@ শ্যাববিচেফ +1 যদিও শিক্ষার্থীদের প্রায়শই পি-মানগুলি নিয়ে সমস্যা হয় (মোটামুটি কারণ পরীক্ষার ধারণাটি বাইনারি সিদ্ধান্ত প্রক্রিয়ার চেয়ে কিছুটা সূক্ষ্ম এবং কারণ "একটি ফাংশন উল্টানো" কারণ সহজ হওয়া সহজ নয়)। আপনি যখন "কোনও কারণে" বলছেন তখন আপনার অর্থ কি এটি আপনার পক্ষে অস্পষ্ট যে কেন লোকেরা অসুবিধা হয়? পিএস: আমি যদি পারতাম তবে আমি "শীর্ষস্থানীয় উত্তর হওয়া" এবং "পি-ভ্যালু সম্পর্কে কথা বলার" মধ্যে সম্পর্ক সম্পর্কে এই সাইটে পরিসংখ্যান তৈরি করার চেষ্টা করব :) এমনকি আমি নিজেকে জিজ্ঞাসাও করি যে কঠিন স্ট্যাটিসটিকাল ধারণাটি ধরার পক্ষে সবচেয়ে বেশি অগ্রগতি হতে পারে (যদি বুঝতে খুব কঠিন হয় ... :))
রবিন জিরাড

1
@ এডুয়ার্ডো - হ্যাঁ নাল অনুমানের উপর সন্দেহ পোড়ানোর জন্য যথেষ্ট পরিমাণে পি-মানই যথেষ্ট: তবে এটি একটি বিকল্পের সম্পূর্ণ বিচ্ছিন্নভাবে গণনা করা হয় । একা পি-মানগুলি ব্যবহার করে আপনি কখনও আনুষ্ঠানিকভাবে "প্রত্যাখ্যান" করতে পারবেন না কারণ কোনও বিকল্প নির্দিষ্ট করা হয়নি । আপনি যদি আনুষ্ঠানিকভাবে এইচ 0 প্রত্যাখ্যান করেন তবে আপনার অবশ্যই গণনাগুলিও প্রত্যাখ্যান করতে হবে যা এইচ 0 এর সত্য হিসাবে অনুমানের উপর ভিত্তি করে ছিল , যার অর্থ আপনাকে এই অনুমানের অধীনে প্রাপ্ত পি-মানটির গণনাটি বাতিল করতে হবে (এটি আপনার মাথা দিয়ে মিশে যায়) , তবে এটি নিয়মিত যুক্তির একমাত্র উপায় )। H0H0H0
সম্ভাব্যতা

23

শাব্বিচেফের উত্তরের অনুরূপ, ঘনত্ববাদী পরিসংখ্যানগুলিতে আস্থার ব্যবধানের অর্থ বুঝতে অসুবিধা হয়। আমি মনে করি সবচেয়ে বড় বাধা হ'ল আত্মবিশ্বাসের ব্যবধানটি আমরা যে প্রশ্নের উত্তর দিতে চাই তার উত্তর দেয় না। আমরা জানতে চাই, "এই বিশেষ ব্যবধানের মধ্যে আসল মান হওয়ার কী সুযোগ আছে?" পরিবর্তে, আমরা কেবল উত্তর দিতে পারি, "এ জাতীয়ভাবে এলোমেলোভাবে নির্বাচিত ব্যবধানে সত্য পরামিতি থাকার সুযোগ কী?" পরেরটি সম্ভবত কম সন্তুষ্ট হয়।


1
The more I think about confidence intervals, the harder it is for me to think of what kind of question they can answer at a conceptual level that cannot be answered by asking for "the chance a true value is within an interval, given one's state of knowledge". If I were to ask "what is the chance (conditional on my information) that the average income in 2010 was between 10,000 and 50,000?" I don't think the theory of confidence intervals can give an answer to this question.
probabilityislogic


13

Conditional probability probably leads to most mistakes in everyday experience. There are many harder concepts to grasp, of course, but people usually don't have to worry about them--this one they can't get away from & is a source of rampant misadventure.


+1; could you add an example or two, favourite or current ?
denis

1
For starters: P(you have the disease|test is positive) != P(test is positive|you have the disease).
xmjx

9

I think that very few scientists understand this basic point: It is only possible to interpret results of statistical analyses at face value, if every step was planned in advance. Specifically:

  • Sample size has to be picked in advance. It is not ok to keep analyzing the data as more subjects are added, stopping when the results looks good.
  • Any methods used to normalize the data or exclude outliers must also be decided in advance. It isn't ok to analyze various subsets of the data until you find results you like.
  • And finally, of course, the statistical methods must be decided in advance. Is it not ok to analyze the data via parametric and nonparametric methods, and pick the results you like.

Exploratory methods can be useful to, well, explore. But then you can't turn around and run regular statistical tests and interpret the results in the usual way.


5
I think John Tukey might disagree en.wikipedia.org/wiki/Exploratory_data_analysis ;o)
Dikran Marsupial

3
I would partially disagree here. I think the caveat that people miss is that the appropriate conditioning operations are easy to ignore for these kinds of issues. Each of these operations change the conditions of the inference, and hence, they change the conditions of it applicability (and therefore to its generality). These is definitely only applicable to "confirmatory analysis", where a well defined model and question have been constructed. In exploratory phase, not looking to answer definite questions - more looking to build a model and come up with hypothesis for the data.
probabilityislogic

I edited my answer a bit to take into account the comments of Dikran and probabilityislogic. Thanks.
Harvey Motulsky

1
For me, the "excluding outliers" is not as clearly wrong as your answer implies. For example, you may only be interested in the relationships at a certain range of responses, and excluding outliers actually helps this kind of analysis. For example, if you want to model "middle class" income, then excluding the super rich and impoverished outliers is a good idea. It is only the outliers within your frame of inference (e.g. "strange" middle class observations) were your comments apply
probabilityislogic

2
Ultimately the real problem with the issues raised in the initial answer is that they (at least partially) invalidate p-values. If you are interested in quantifying an observed effect, one should be able to do any and all of the above with impunity.
russellpierce

9

Tongue firmly in cheek: For frequentists, the Bayesian concept of probability; for Bayesians, the frequentist concept of probability. ;o)

Both have merit of course, but it can be very difficult to understand why one framework is interesting/useful/valid if your grasp of the other is too firm. Cross-validated is a good remedy as asking questions and listening to answers is a good way to learn.


2
I rule I use to remember: Use probabilities to predict frequencies. Once the frequencies have been observed, use them to evaluate the probabilities you assigned. The unfortunately confusing thing is that, often the probability you assign is equal to a frequency you have observed. One thing I have always found odd is why do frequentists even use the word probability? wouldn't it make their concepts easier to understand if the phrase "the frequency of an event" was used instead of "the probability of an event"?
probabilityislogic

Interestingly, cross validation can be seen as a Monte Carlo approximation to the integral of a loss function in Decision Theory. You have an integral p(x)L(xn,x)dx and you approximate it by i=1i=nL(x[ni],xi) Where xn is data vector, and x[ni] is the data vector with the ith observation xi removed
probabilityislogic

8

From my personal experience the concept of likelihood can also cause quite a lot of stir, especially for non-statisticians. As wikipedia says, it is very often mixed up with the concept of probability, which is not exactly correct.



6

What do the different distributions really represent, besides than how they are used.


3
This was the question I found most distracting after statistics 101. I would encounter many distributions with no motivation for them beyond "properties" that were relevant to topics at hand. It took unacceptably long to find out what any represented.
sesqu

1
Maximum entropy "thinking" is one method which helps understand what a distribution is, namely a state of knowledge (or a description of uncertainty about something). This is the only definition that has made sense to me in all situations
probabilityislogic

Ben Bolker provides a good overview of this in the 'beastiary of distributions' section of Ecological Models and Data in R
David LeBauer

5

I think the question is interpretable in two ways, which will give very different answers:

1) For people studying statistics, particularly at a relatively advanced level, what is the hardest concept to grasp?

2) Which statistical concept is misunderstood by the most people?

For 1) I don't know the answer at all. Something from measure theory, maybe? Some type of integration? I don't know.

For 2) p-value, hands down.


Measure theory is neither a field of statistics nor hard. Some types of integration are hard, but, once again, that isn't statistics.
pyon


5

I think people miss the boat on pretty much everything the first time around. I think what most students don't understand is that they're usually estimating parameters based on samples. They don't know the difference between a sample statistic and a population parameter. If you beat these ideas into their head, the other stuff should follow a little bit easier. I'm sure most students don't understand the crux of the CLT either.

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.