একটি পরিসংখ্যানের উদাহরণ যা নমুনা বিতরণের স্বতন্ত্র নয়?


14

এটি উইকিপিডিয়ায় পরিসংখ্যানগুলির সংজ্ঞা

আরও আনুষ্ঠানিকভাবে, পরিসংখ্যানগত তত্ত্ব একটি পরিসংখ্যানকে একটি নমুনার ফাংশন হিসাবে সংজ্ঞায়িত করে যেখানে ফাংশনটি নিজেই নমুনার বন্টন থেকে স্বতন্ত্র; অর্থাত, তথ্য উপলব্ধির আগে ফাংশনটি বলা যেতে পারে। পরিসংখ্যান শব্দটি ফাংশন এবং প্রদত্ত নমুনায় ফাংশনের মান উভয়ের জন্য ব্যবহৃত হয়।

আমি মনে করি আমি এই সংজ্ঞাটির বেশিরভাগটি বুঝতে পারি, তবে সেই অংশটি - যেখানে ফাংশনটি নমুনার বিতরণ থেকে স্বতন্ত্র যেখানে আমি বাছাই করতে পারিনি।

আমার এখন পর্যন্ত পরিসংখ্যান সম্পর্কে বোঝা

একটি নমুনা হ'ল কিছু সংখ্যক স্বতন্ত্র, অভিন্নরূপে বিতরণকৃত (আইআইডি) র্যান্ডম ভেরিয়েবলের সাথে বিতরণ এফ (20 পার্শ্বযুক্ত ফর্সা ডাইসের রোলের 10 উপলব্ধি, 6-পার্শ্বযুক্ত ফেয়ার ডাইসের 5 রোলের 100 উপলব্ধি, জনসংখ্যার এলোমেলোভাবে 100 জনকে আঁকুন)।

একটি ফাংশন, যার ডোমেন সেই সেট, এবং যার পরিসীমা হ'ল সংখ্যার (বা সম্ভবত এটি অন্যান্য জিনিস উত্পাদন করতে পারে যেমন ভেক্টর বা অন্যান্য গাণিতিক বস্তু ...) একটি পরিসংখ্যান হিসাবে বিবেচিত হবে ।

যখন আমি উদাহরণগুলি, গড়, মধ্যম, বিবর্তনগুলি মনে করি তখন সমস্ত প্রসঙ্গটি এই প্রসঙ্গে উপলব্ধি করে। এগুলি উপলব্ধির সেটগুলির একটি ক্রিয়াকলাপ (একটি এলোমেলো নমুনা থেকে রক্তচাপ পরিমাপ)। আমি আরও দেখতে পারি যে লিনিয়ার রিগ্রেশন মডেলটি কীভাবে একটি পরিসংখ্যান yi=α+βxi হিসাবে বিবেচিত হতে পারে i = α + β x i - এটি কি উপলব্ধির সেটগুলিতে কেবল একটি ফাংশন নয়?

যেখানে আমি বিভ্রান্ত

ধরে নিচ্ছি যে উপর থেকে আমার বোঝাটি সঠিক, আমি বুঝতে পারি না যেখানে কোনও ফাংশন নমুনার বিতরণ থেকে স্বতন্ত্র হতে পারে না। আমি এটি অনুধাবন করার জন্য একটি উদাহরণ চিন্তা করার চেষ্টা করেছি, তবে ভাগ্য নেই। যে কোনও অন্তর্দৃষ্টি প্রশংসিত হবে!

উত্তর:


45

এটিকে সংজ্ঞায়িত করার জন্য সংজ্ঞাটি কিছুটা বিশ্রী পথ। একটি "পরিসংখ্যান" পর্যবেক্ষণযোগ্য মানগুলির কোনও ফাংশন। সমস্ত সংজ্ঞা বলতে বোঝায় যে একটি পরিসংখ্যান কেবল পর্যবেক্ষণযোগ্য মানগুলির একটি ফাংশন, বিতরণ বা এর কোনও পরামিতিগুলির কোনও ক্রিয়া নয়। উদাহরণস্বরূপ, যদি X1,X2,...,XnN(μ,1) তারপর একটি পরিসংখ্যাত কোনো ফাংশন হবে T(X1,...,Xn) যেহেতু একটি ফাংশন H(X1,....,Xn,μ) , একটি পরিসংখ্যাত হবে না যেহেতু এটা নির্ভর করেμ । এখানে আরও কয়েকটি উদাহরণ দেওয়া হল:

StatisticX¯n=1ni=1nXi,StatisticSn2=1ni=1n(XiX¯n)2,Not a statisticDn=X¯nμ,Not a statisticpi=N(xi|μ,1),Not a statisticQ=10μ.

প্রতিটি পরিসংখ্যান কেবল পর্যবেক্ষণযোগ্য মানগুলির একটি ফাংশন, না তাদের বিতরণ বা এর পরামিতিগুলির not সুতরাং কোনও পরিসংখ্যানের কোনও উদাহরণ নেই যা বিতরণ বা এর পরামিতিগুলির ফাংশন (এই জাতীয় কোনও ক্রিয়াকলাপ কোনও পরিসংখ্যান হবে না)। তবে এটি লক্ষণীয় গুরুত্বপূর্ণ যে একটি পরিসংখ্যানের বিতরণ ( পরিসংখ্যানের বিপরীতে) সাধারণত মূল্যবোধের অন্তর্নিহিত বিতরণের উপর নির্ভর করে। ( আনুষঙ্গিক পরিসংখ্যান ব্যতীত অন্য সমস্ত পরিসংখ্যানের ক্ষেত্রে এটি সত্য ))


এমন কোনও ফাংশন সম্পর্কে যেখানে পরামিতিগুলি জানা থাকে? নীচের মন্তব্যে, আলেকোস একটি দুর্দান্ত ফলো-আপ প্রশ্ন জিজ্ঞাসা করেছেন। এমন কোনও ফাংশন সম্পর্কে কী যা প্যারামিটারের একটি নির্দিষ্ট অনুমানযুক্ত মান ব্যবহার করে? উদাহরণস্বরূপ, পরিসংখ্যান সম্পর্কে কি n(x¯μ)যেখানেμ=μ0একটি জ্ঞান অনুমানিত মানμ0Rসমান হতে নেওয়া হয়। এখানে ফাংশনটি প্রকৃতপক্ষে একটি পরিসংখ্যান, যতক্ষণ এটি যথাযথভাবে সীমাবদ্ধ ডোমেনে সংজ্ঞায়িত হয়। সুতরাং ফাংশনH0:RnRসঙ্গেH0(x1,...,xn)=n(x¯μ0)H:Rn+1RH(x1,...,xn,μ)=n(x¯μ)


1
Very helpful answer, considering the underlying statistical parameter as part of the non-statistic was particularly helpful.
Jake Kirsch

4
@CarlWitthoft I don't get your point. If it's a function of the observable values, then it's a statistic. It may be a function of a smaller subset of the values; that can still be a useful thing to consider. If you want to estimate the mean and you have 1010 observations, you might still look at (X1+X2++X1000)/1000 if the cost of processing data is high and the cost of error is small. Or for some reason you might want to consider two independent estimates of the mean, and could consider (X1++Xn/2)/(n/2) and (Xn/2+1++Xn)/(n/2). These are still statistics.
James Martin

4
Those examples seem entirely valid to me. Are you saying the idea of dividing data into a training set and a validation set is not valid?
James Martin

2
I'm a little confused by that as well. Let me attempt to describe @CarlWitthoft point. It would still be a statistic in terms of mathematical definition, but I could see a case where a consultant takes a 'statistic' of observations, but arbitrarily decides to remove a few results (consultants do this all the time right?). This would be 'valid' in the sense it's still a function on observations, however the way that statistic may be presented and interpreted likely wouldn't be valid.
Jake Kirsch

2
@Carl Withhoft: With respect to the point you are making, it is important to distinguish between a statistic (which need not include all the data, and may not encompass all the information in the sample) and a sufficient statistic (which will encompass all the information with respect to some parameter). Statistical theory already has well-developed concepts like sufficiency that capture the idea that a statistic includes all relevant information in the sample. It is not necessary, or desirable, to try to build that requirement into the definition of a "statistic".
Reinstate Monica

4

I interpret that as saying that you should decide before you see the data what statistic you are going to calculate. So, for instance, if you're going to take out outliers, you should decide before you see the data what constitutes an "outlier". If you decide after you see the data, then your function is dependent on the data.


this is also helpful! So making a decision on which observations to include in the function after knowing what observations are available, which is more or less what I was describing in my comment on the previous answer.
Jake Kirsch

2
(+1) It might be worth noting that this important because if you define a rule a prior about what constitutes a data point that will be dropped, it is (relatively) easy to derive a distribution for statistic (i.e., truncated mean, etc.). It's really hard to derive a distribution for a measure that involves dropping data points for reasons that are not cleanly defined before hand.
Cliff AB
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.