পর্যাপ্ত পরিসংখ্যানগুলিতে প্যারামিটারের কোনও অনুমান গণনা করার জন্য প্রয়োজনীয় সমস্ত তথ্য কেন থাকে?


16

আমি সবেমাত্র পরিসংখ্যান অধ্যয়ন শুরু করেছি এবং আমি পর্যাপ্ততার একটি স্বজ্ঞাত উপলব্ধি করতে পারি না। আরও সুনির্দিষ্ট হওয়ার জন্য আমি বুঝতে পারি না যে কীভাবে দেখানো যায় যে নীচের দুটি অনুচ্ছেদ সমতুল্য:

মোটামুটিভাবে, অজানা প্যারামিটারে কন্ডিশনারযুক্ত স্বতন্ত্রভাবে বিতরণ করা ডেটার একটি সেট এক্স দেওয়া, একটি পর্যাপ্ত পরিসংখ্যান হ'ল একটি ফাংশন টি (এক্স) যার মানটিতে প্যারামিটারের কোনও অনুমান গণনা করার জন্য প্রয়োজনীয় সমস্ত তথ্য থাকে।

অন্তর্নিহিত প্যারামিটারের জন্য একটি পরিসংখ্যান টি (এক্স) যথেষ্ট θ স্পষ্টভাবে যদি স্টাটিস্টিক টি (এক্স) প্রদত্ত ডেটা এক্সের শর্তসাপেক্ষ সম্ভাবনা বিতরণ প্যারামিটার θ এর উপর নির্ভর করে না θ

(আমি পর্যাপ্ত পরিসংখ্যান থেকে উদ্ধৃতি নিয়েছি )

যদিও আমি দ্বিতীয় বিবৃতিটি বুঝতে পেরেছি, এবং প্রদত্ত পরিসংখ্যান যথেষ্ট কিনা তা দেখানোর জন্য আমি অনুষঙ্গ তত্ত্বটি ব্যবহার করতে পারি, তবে আমি বুঝতে পারি না যে এই জাতীয় সংখ্যার কোনও পরিসংখ্যানেরও যে সম্পত্তি রয়েছে সেটিতে "কোনও গণনা করার জন্য প্রয়োজনীয় সমস্ত তথ্য রয়েছে প্যারামিটারের অনুমান "। আমি কোনও আনুষ্ঠানিক প্রমাণ খুঁজছি না, যা যাইহোক আমার বোঝার সংশোধন করতে সহায়তা করবে, আমি কেন দুটি বিবৃতি সমতুল্য তার একটি অন্তর্জ্ঞাত ব্যাখ্যা পেতে চাই।

পুনরুদ্ধার করার জন্য, আমার প্রশ্নগুলি: দুটি বিবৃতি কেন সমান? কেউ কি তার সমতার জন্য একটি স্বজ্ঞাত ব্যাখ্যা দিতে পারে?


1
মূল স্বজ্ঞাত ধারণাটি হ'ল আপনাকে কখনও কখনও পুরো নমুনাটি দেখার প্রয়োজন হয় না কারণ আপনি একটি পরিসংখ্যান খুঁজে পেতে পারেন যা নমুনা থেকে প্রয়োজনীয় সমস্ত তথ্যের সংক্ষিপ্তসার করে। উদাহরণস্বরূপ, দ্বিপদী বিতরণ নিন: আপনার মডেলটির জন্য আপনার যা জানা দরকার তা হ'ল সাফল্যের যোগফল। যদি আমি শুধুমাত্র তোমাদের সত্যি বলছি, মান কিছু হারান না inxi=c এর পরিবর্তে আপনি নমুনা মূল্যবোধের সম্পূর্ণ সেট দেখানো, x={1,0,0,1,0,1,...}
মুগেন

আমি বুঝতে পারি কেন আমার পর্যাপ্ত পরিসংখ্যান দরকার এবং কীভাবে দেখানো যায় যে সাফল্যের যোগফল বার্নোল্লি প্রক্রিয়াতে পি এর জন্য যথেষ্ট পরিসংখ্যান। আমি যা বুঝতে পারি না তা কেন দ্বিতীয় অনুচ্ছেদে বর্ণিত সেই জাতীয় পরিসংখ্যানগুলিতে প্যারামিটারের কোনও অনুমান গণনা করার জন্য প্রয়োজনীয় সমস্ত তথ্য রয়েছে।
gcoll

3
কঠোরভাবে বলতে গেলে, প্রথম উদ্ধৃতিটি কেবল সাধারণ ভুল। প্রচুর পরিমাণে অনুমানকারী রয়েছে যা পুরো ডেটাসেট থেকে গণনা করা যায় যা কেবলমাত্র পর্যাপ্ত পরিসংখ্যান থেকে গণনা করা যায় না। এ কারণেই উদ্ধৃতিটি "মোটামুটিভাবে" শুরু হয়। অন্য কারণ হ'ল এটি "তথ্য" এর পরিমাণগত বা কঠোর সংজ্ঞা সরবরাহ করে না। পূর্ববর্তী অনুচ্ছেদে যেহেতু আরও বেশি নির্ভুল (তবে এখনও স্বজ্ঞাত) বৈশিষ্ট্য দেওয়া হয়েছিল, যদিও সঠিক প্রসঙ্গে
শুক্র

1
এটির সর্বাধিক সম্ভাবনার সাথে সংযোগ রয়েছে এবং এটি মূলত সর্বাধিক সম্ভাবনার জন্য প্রয়োজনীয় তথ্য
কামস্টার

1
হোবার এবং @ কামস্টার এর মন্তব্যের পরে, আমি সম্ভবত আরও ভাল বোঝা পেয়েছি। যখন আমরা বলি যে পর্যাপ্ত পরিসংখ্যানগুলিতে প্যারামিটারের কোনও অনুমান গণনা করার জন্য প্রয়োজনীয় সমস্ত তথ্য রয়েছে, তখন আমরা কি আসলেই বোঝাতে পারি যে এটি সর্বোচ্চ সম্ভাবনা হিসাবরক্ষক (যা যথেষ্ট পরিমাণ পরিসংখ্যানের ফাংশন) গণনা করার জন্য যথেষ্ট? এটি সত্য, সমস্যাটি সমস্তই "তথ্য" -র (অ-) সংজ্ঞার সাথে সম্পর্কিত ছিল, যেমনটি হুবুহু বলেছিল এবং আমার প্রশ্নের উত্তর দেওয়া হয়েছে।
gcoll

উত্তর:


3

@ হুবার এবং @ কামস্টার এর মন্তব্যের পরে, আমি সম্ভবত আরও ভাল বোঝা পেয়েছি। যখন আমরা বলি যে পর্যাপ্ত পরিসংখ্যানগুলিতে প্যারামিটারের কোনও অনুমান গণনা করার জন্য প্রয়োজনীয় সমস্ত তথ্য রয়েছে, তবে আমরা আসলে কী বোঝাতে চাইছি এটি সর্বাধিক সম্ভাবনার হিসাবরক্ষক (যা সমস্ত পর্যাপ্ত পরিসংখ্যানের ফাংশন) গণনা করার জন্য যথেষ্ট।

প্রদত্ত যে আমি আমার নিজের প্রশ্নের উত্তর দিচ্ছি, এবং তাই আমি উত্তর সম্পর্কে 100% নিশ্চিত নই, আমি কিছু প্রতিক্রিয়া না পাওয়া পর্যন্ত আমি এটিকে সঠিক হিসাবে চিহ্নিত করব না। আপনি যদি মনে করেন যে আমি ভুল / অনর্থক / ইত্যাদি হয়ে যাচ্ছি তবে দয়া করে কোনও মন্তব্য এবং ডাউন-ভোট যুক্ত করুন ...

(এসই শিষ্টাচারের সাথে এটি সামঞ্জস্যপূর্ণ না হলে আমাকে জানতে দিন, এটি আমার প্রথম প্রশ্ন হওয়ায় আমি যদি কোনও নিয়ম লঙ্ঘন করি তবে আমি আপনার প্রার্থনা প্রার্থনা করছি)


1

আমি যখন পর্যাপ্ততা সম্পর্কে অধ্যয়ন করছিলাম তখন আমি আপনার প্রশ্নটি নিয়ে এসেছি কারণ আমি যা জোগাড় করেছি সে সম্পর্কে আমি অন্তর্দৃষ্টিটি বুঝতে চেয়েছিলাম যা আমি সামনে এসেছি (আমি যদি কোনও ভুল করে থাকি তবে আপনি কী ভাবছেন তা আমাকে জানাতে হবে)।

যাক গড় সঙ্গে একটি পইসন বিতরণের থেকে একটি র্যান্ডম নমুনা হতে θ > 0X1,,Xnθ>0

আমরা জানি যে θ এর জন্য পর্যাপ্ত পরিসংখ্যান , যেহেতু এক্স 1 এর শর্তসাপেক্ষ বিতরণ , , এক্স এন দেওয়া টি ( এক্স ) θ মুক্ত , অন্য কথায়, না নির্ভর করে dependT(X)=i=1nXiθX1,,XnT(X)θθ

এখন, পরিসংখ্যানবিদ জানেন যে এক্স 1 , , এক্স এন i i d P o i s s o n ( 4 ) এবং এই বিতরণ থেকে n = 400 এলোমেলো মান তৈরি করে :A X1,,Xni.i.dPoisson(4)n=400

n<-400
theta<-4
set.seed(1234)
x<-rpois(n,theta)
y=sum(x)

freq.x<-table(x) # We will use this latter on
rel.freq.x<-freq.x/sum(freq.x)

পরিসংখ্যানবিদ যে মানগুলি তৈরি করেছেন তার জন্য তিনি এর যোগফল নিয়েছেন এবং পরিসংখ্যানবিজ্ঞানী বি কে জিজ্ঞাসা করলেনAB কে নিম্নলিখিতটি :

"আমার কাছে এই নমুনার মানগুলি পোইসন বিতরণ থেকে নেওয়া হয়েছে Know n i = 1 x i = y = 4068 জেনেওx1,,xni=1nxi=y=4068 , তুমি আমাকে কি এই ডিস্ট্রিবিউশন সম্পর্কে আমাদের বলতে পারেন?"

সুতরাং, বুদ্ধিমান শুধু তাই (এবং সত্য যে নমুনা সংগ্রহ করেন পইসন বিতরণের থেকে উঠে) পরিসংখ্যানবিদ জন্য যথেষ্ট বি সম্পর্কে কিছু বলার θi=1nxi=y=4068Bθ ? যেহেতু আমরা জানি যে এটি যথেষ্ট পরিসংখ্যান, আমরা জানি যে উত্তরটি "হ্যাঁ"।

এর অর্থ সম্পর্কে কিছুটা ধারণা অর্জনের জন্য আসুন নিম্নলিখিতগুলি (হগ এবং ম্যাক্কিয়ান এবং ক্রেগের "গাণিতিক পরিসংখ্যানের পরিচিতি", 7 তম সংস্করণ, অনুশীলন 7.1.9 থেকে নেওয়া) করুন:

" কিছু জাল পর্যবেক্ষণ তৈরি করার সিদ্ধান্ত নিয়েছে, যাকে তিনি জেড 1 , জেড 2 , , জেড এন বলেছিলেন (যেমন তিনি জানেন যে তারা সম্ভবত মূল এক্স- মূল্যগুলির সমান হবে না )। তিনি উল্লেখ করেছেন যে স্বাধীন পোয়েসনের শর্তসাপেক্ষ সম্ভাবনা র্যান্ডম ভেরিয়েবল জেড 1 , টু Z 2 ... , টু Z এন সমান হচ্ছে z- র 1 , z- র 2 , ... , z- র এন দেওয়া Σ z- র আমি = Y হলBz1,z2,,znxZ1,Z2,Znz1,z2,,znzi=y

θz1eθz1!θz2eθz2!θzneθzn!nθyenθy!=y!z1!z2!zn!(1n)z1(1n)z2(1n)zn

Y=Zinθyn1/nByz1,,zn

মহড়াটি এটাই বলে। সুতরাং, আসুন ঠিক এটি করা যাক:

# Fake observations from multinomial experiment
prob<-rep(1/n,n)
set.seed(1234)
z<-as.numeric(t(rmultinom(y,n=c(1:n),prob)))
y.fake<-sum(z) # y and y.fake must be equal
freq.z<-table(z)
rel.freq.z<-freq.z/sum(freq.z)

এবং দেখা যাক কি জেড দেখে মনে হচ্ছে (আমি পোয়েসনের আসল ঘনত্বেরও প্লট করছি) (4) এর জন্য k=0,1,,13 - anything above 13 is pratically zero -, for comparison):

# Verifying distributions
k<-13
plot(x=c(0:k),y=dpois(c(0:k), lambda=theta, log = FALSE),t="o",ylab="Probability",xlab="k",
     xlim=c(0,k),ylim=c(0,max(c(rel.freq.x,rel.freq.z))))
lines(rel.freq.z,t="o",col="green",pch=4)
legend(8,0.2, legend=c("Real Poisson","Random Z given y"), 
       col = c("black","green"),pch=c(1,4))

enter image description here

So, knowing nothing about θ and knowing only the sufficient statistic Y=Xi we were able to recriate a "distribution" that looks a lot like a Poisson(4) distribution (as n increases, the two curves become more similar).

Now, comparing X and Z|y:

plot(rel.freq.x,t="o",pch=16,col="red",ylab="Relative Frequency",xlab="k",
     ylim=c(0,max(c(rel.freq.x,rel.freq.z))))
lines(rel.freq.z,t="o",col="green",pch=4)
legend(7,0.2, legend=c("Random X","Random Z given y"), col = c("red","green"),pch=c(16,4))

enter image description here

We see that they are pretty similar, as well (as expected)

So, "for the purpose of making a statistical decision, we can ignore the individual random variables Xi and base the decision entirely on the Y=X1+X2++Xn" (Ash, R. "Statistical Inference: A concise course", page 59).


0

Let me give another perspective that may help. This is also qualitative, but there is a rigorous version of that particularly important in Information Theory - known as Markov property.

In the beginning, we have two objects, data (coming from a Random Variable, call it X) and parameter, θ (another rv, implicitly assumed since we are talking about its estimator). These two, are assumed to be dependent (otherwise, there is no point in trying to estimate one from the other). Now, the third object enters the game, Sufficient Statistic, T. The intuitive idea when we say T is enough to estimate θ really means that if we know T (ie conditioned on T), X provides no additional info, that is, X and θ are independent. In other word, knowledge of X is equivalent to knowledge of T as far as estimation of θ is concerned. Note that in probabilities are where all the uncertainties are captured, and hence "any estimate" when (conditional) probabilities are independent (eg conditional densities factorize).

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.