বন্টনের পরিবারের সংজ্ঞা?


14

কোনও বিতরণের পরিবারের অন্যান্য বিভাগের তুলনায় পরিসংখ্যানের জন্য আলাদা সংজ্ঞা রয়েছে কি?

সাধারণভাবে, কার্ভগুলির পরিবার হ'ল একটি বক্ররেখাগুলির সেট, যার প্রত্যেকটিই একটি ফাংশন বা প্যারামিট্রাইজেশন দ্বারা দেওয়া হয় যেখানে এক বা একাধিক পরামিতি বিভিন্ন হয়। যেমন পরিবারগুলি বৈদ্যুতিন উপাদানগুলি বৈশিষ্ট্যযুক্ত করতে ব্যবহৃত হয় ।

পরিসংখ্যানগুলির জন্য, একটি উত্স অনুসারে একটি পরিবার হ'ল আকারের পরামিতি পরিবর্তনের ফলাফল। তাহলে আমরা কীভাবে বুঝতে পারি যে গামা বিতরণটির একটি আকার এবং স্কেল প্যারামিটার রয়েছে এবং কেবলমাত্র গামা বিতরণ ছাড়াও কোনও অবস্থানের প্যারামিটার রয়েছে? এটি কি পরিবারকে প্যারামিটারের পরিবর্তনের ফলাফল করে? @ যাহার মতে একটি পরিবারের অর্থ স্পষ্টতই একটি পরিবারের "প্যারামিটারাইজেশন" হ'ল একটি অবিচ্ছিন্ন মানচিত্র ℝ nn নিয়মিত টোপোলজি সহ বিতরণের জায়গাতে, যার চিত্র সেই পরিবার।

সরল ভাষায়, পরিসংখ্যান বিতরণের জন্য একটি পরিবার কী?

একই পরিবার থেকে বিতরণের পরিসংখ্যানগত সম্পত্তির মধ্যে সম্পর্ক সম্পর্কে একটি প্রশ্ন ইতিমধ্যে এ এর ​​জন্য যথেষ্ট বিতর্ক সৃষ্টি করেছে পৃথক প্রশ্নের করেছে যার অর্থ অন্বেষণ করা উপযুক্ত বলে মনে হয়।

এটি অগত্যা একটি সূচকীয় ঘৃণ্য পরিবারে বাক্যটি ব্যবহার করে একটি সাধারণ প্রশ্ন জন্মগ্রহণ করে , যা কার্ভগুলির পরিবারের সাথে কোনও সম্পর্ক রাখে না, তবে কেবলমাত্র প্যারামিটারগুলিই নয়, পুনরায় পরিমাপের মাধ্যমে একটি বিতরণের পিডিএফ ফর্ম পরিবর্তনের সাথে সম্পর্কিত , কিন্তু স্বাধীন র্যান্ডম ভেরিয়েবলের ফাংশনগুলির বিকল্পও subst


1
"বিতরণের পরিবার" শব্দবন্ধ দ্বারা, আপনি কি অন্যরকম কিছু বোঝাতে চান "বিতরণের পরিবার"? তাত্পর্যপূর্ণ পরিবার হ'ল বিতরণের একটি পরিবার (নির্দিষ্ট বৈশিষ্ট্য সহ), এবং প্রতিটি বন্টনের পিডিএফটিকে একটি বক্র হিসাবে ব্যাখ্যা করে, এটি এমনকি বক্ররেখার পরিবারের সাথে মিল রাখে, তাই শেষ অনুচ্ছেদগুলি বিভ্রান্ত বলে মনে হয়।
জুহো কোক্কালা

@ জুহোকোকালা এটি বিভ্রান্তিকর বলে মনে হচ্ছে কারণ "পরিবার" এর অর্থ প্রাসঙ্গিক নির্ভর। উদাহরণস্বরূপ, অজানা গড় এবং জ্ঞাত বৈকল্পিকগুলির একটি সাধারণ বিতরণ হ'ল ঘাতক পরিবারে। একটি সাধারণ বিতরণে অসীম সমর্থন থাকে, ( - , + )(,+) , এবং একটি সূচকীয় বিতরণে অর্ধ-অসীম সমর্থন রয়েছে, [ 0 , + )[0,+) , তাই কোনও ঘনিষ্ঠ বন্টনের জন্য কার্ভের কোনও পরিবার নেই যা একটি সাধারণ পরিসীমা জুড়ে covers বিতরণ, তাদের কখনও একই আকৃতি হয় না ...
কার্ল

@ জুহোকোকালা ... এবং একটি ক্ষতিকারক পিডিএফ এর এমনকি কোনও অবস্থানের প্যারামিটারও নেই, অন্যদিকে সাধারণ বিতরণ ছাড়া এটি করা যায় না। প্রয়োজনীয় বিকল্পগুলির জন্য উপরের লিঙ্কটি দেখুন, এবং যে প্রসঙ্গে সাধারণ পিডিএফ তাত্পর্যপূর্ণ পরিবারে রয়েছেন।
কার্ল

1
stats.stackexchange.com/questions/129990/… প্রাসঙ্গিক হতে পারে। "অজানা গড় এবং জ্ঞাত বৈকল্পিকগুলির সাধারণ বিতরণ হ'ল ঘৃণ্য পরিবারে" আমার জ্ঞানের কাছে পরিভাষার অপব্যবহার (যদিও কিছুটা সাধারণ)। সঠিকভাবে বলতে গেলে, একটি ঘৃণ্য পরিবার নির্দিষ্ট সম্পত্তি সহ বিতরণের একটি পরিবার। অজানা গড় এবং জ্ঞাত ভ্যারিয়েন্স সাথে স্বাভাবিক ডিস্ট্রিবিউশন এর পরিবার একটি সূচকীয় পরিবার | তাত্পর্য বিতরণের পরিবার হ'ল আরেকটি
ঘৃণ্য

1
@ জুহোক্ককল: এই "পরিবার" এত সাধারণভাবে (আব) ব্যবহৃত হয়, একটি বিশেষ ক্ষেত্রে, "পরিবারের গোষ্ঠী" বোঝার জন্য সম্ভবত এটি অন্য উত্তরের দিকে আকর্ষণীয়। (আমি অন্যান্য ক্ষেত্রে মনে করতে পারবেন না - কিছু কারণে মনে হয় কেউ এর "বলতে প্রবণ অবস্থান-স্কেল পরিবার"।)
Scortchi - পুনর্বহাল মনিকা

উত্তর:


14

পরিসংখ্যানগত এবং গাণিতিক ধারণাগুলি হুবহু একই, "পরিবার" একটি জেনেরিক গাণিতিক শব্দ যা বিভিন্ন পরিস্থিতিতে যেমন প্রযুক্তিগত বিভিন্নতার সাথে অভিযোজিত:

একটি প্যারাম্যাট্রিক পরিবার হ'ল সমস্ত বিতরণের জায়গাতে একটি বাঁক (বা পৃষ্ঠ বা অন্যান্য সীমাবদ্ধ মাত্রার সাধারণীকরণ)।

এই পোস্টের বাকী অংশটি কী তার অর্থ ব্যাখ্যা করে। একদিকে যেমন, আমি মনে করি না যে এটির কোনওটিই গাণিতিক বা পরিসংখ্যানগতভাবে বিতর্কিত নয় (একটি ছোটখাটো ইস্যু যা নীচে উল্লিখিত আছে) বাদে)। এই মতামতের সমর্থনে আমি অনেকগুলি রেফারেন্স সরবরাহ করেছি (বেশিরভাগ উইকিপিডিয়া নিবন্ধগুলিতে)।


"পরিবারগুলির" এই পরিভাষাটি সেট ওয়াই বা "মানচিত্র" এ ফাংশনের সি ওয়াই ফাংশন অধ্যয়ন করার সময় ব্যবহার করা হয় । একটি ডোমেন দেওয়া এক্স , একটি পরিবার এফ উপর মানচিত্রের এক্স স্থিতিমাপ কিছু সেট Θ ( "পরামিতি") একটি ফাংশনCYYX FX Θ

: এক্স × Θ ওয়াই

F:X×ΘY

যা (1) প্রতিটি জন্য θ Θ , ফাংশন এফ θ : এক্স ওয়াই কর্তৃক প্রদত্ত এফ θ ( এক্স ) = এফ ( এক্স , θ ) রয়েছে সি ওয়াই এবং (2) এফ নিজেই নির্দিষ্ট "চমৎকার" বৈশিষ্ট্য আছে।θΘFθ:XYFθ(x)=F(x,θ)CYF

ধারণাটি হ'ল আমরা X থেকে Y এ "মসৃণ" বা নিয়ন্ত্রিত পদ্ধতিতে ফাংশনগুলি পৃথক করতে চাই । প্রপার্টি (1) মানে প্রতিটি θ মনোনীত যেমন একটি ফাংশন, যখন সম্পত্তি (2) বিস্তারিত জানার যা একটি "ছোট" পরিবর্তন ক্যাপচার হবে θ সংঘটিত একটি পর্যাপ্ত "ছোট" পরিবর্তন এফ θXYθθFθ

প্রশ্নের একটি উল্লেখযোগ্য গাণিতিক উদাহরণ, হটোমোপি । এই ক্ষেত্রে সি ওয়াই হয় বিভাগ থেকে একটানা মানচিত্র ভূ স্পেস এক্স টপোলজিকাল মহাকাশ ওয়াই ; Θ = [ 0 , 1 ] আর তার স্বাভাবিক টপোলজি সঙ্গে ইউনিট ব্যবধান, এবং আমরা প্রয়োজন যে এফ একটি হতে ক্রমাগত টপোলজিকাল পণ্য থেকে মানচিত্র এক্স × Θ মধ্যে ওয়াই । এটিকে "মানচিত্রের এফ এর ক্রমাগত বিকৃতি হিসাবে ভাবা যেতে পারেCY XYΘ=[0,1]RFX×ΘY 0F0থেকে এফ 1 । "যখন এক্স = [ 0 , 1 ] নিজেই একটি বিরতি পায়, তাহলে সেই মানচিত্রগুলি হয় রেখাচিত্র মধ্যে ওয়াইF1X=[0,1]Y এবং হোমোপিটি একটি বাঁক থেকে অন্য বাঁক পর্যন্ত মসৃণ বিকৃতি হয়।

পরিসংখ্যানগত অ্যাপ্লিকেশনের জন্য, সি ওয়াই সব ডিস্ট্রিবিউশন এর সেট আর (অথবা, বাস্তবে, উপর আর এন কিছু এন কিন্তু উদ্ভাস সহজ আমি উপর ফোকাস করা রাখার এন = 1 )। আমরা এটি সমস্ত অ-হ্রাসকৃত সিডল্যাগ ফাংশন আর[ 0 , 1 ] এর সেট দিয়ে চিহ্নিত করতে পারি যেখানে তাদের পরিসীমা বন্ধ হওয়ার সাথে 0 এবং 1 উভয়ই অন্তর্ভুক্ত থাকে : এগুলি হল संचयी বিতরণ ফাংশন, বা কেবল বিতরণ ফাংশন। সুতরাং, এক্স = আর ওয়াই =CYRRnnn=1R[0,1]01X=R এবং [ 0 , 1 ]Y=[0,1]

বিতরণের একটি পরিবার সি ওয়াইয়ের যে কোনও উপসেট । CY পরিবারের অন্য একটি নাম পরিসংখ্যানের মডেল। এটি এমন সমস্ত বিতরণ নিয়ে গঠিত যা আমরা মনে করি আমাদের পর্যবেক্ষণগুলি পরিচালনা করে, তবে কোনটি বিতরণ প্রকৃত তা আমরা অন্যথায় জানি না।

  • একটি পরিবার খালি থাকতে পারে।
  • সি ওয়াই নিজেই একটি পরিবার।CY
  • একটি পরিবার একটি একক বিতরণ বা তাদের মধ্যে সীমাবদ্ধ সংখ্যা নিয়ে গঠিত হতে পারে।

এই বিমূর্ত সেট-তাত্ত্বিক বৈশিষ্ট্যগুলি তুলনামূলকভাবে কম আগ্রহ বা ইউটিলিটির। কেবলমাত্র যখন আমরা সি ওয়াইয়ের উপর অতিরিক্ত (প্রাসঙ্গিক) গাণিতিক কাঠামো বিবেচনা করি তখনই এই ধারণাটি দরকারী হয়ে ওঠে। তবে সি ওয়াইয়ের কোন বৈশিষ্ট্য পরিসংখ্যানগত আগ্রহের? কিছু যে ঘন ঘন প্রদর্শিত হয়:CYCY

  1. সি ওয়াই একটি হলউত্তল সেট: কোন দুটি ডিস্ট্রিবিউশন দেওয়া এফ , জি সি ওয়াই , আমরা গঠন করতে পারেমিশ্রণ বন্টন(1-টি) এফ + +T জিওয়াইসবার জন্যটি[0,1]। এটিএফথেকেজিপর্যন্ত এক ধরণের "হোমোপি"।CYF,GCY (1t)F+tGYt[0,1]FG

  2. সি ওয়াইয়ের বড় অংশগুলি বিভিন্ন সিউডো মেট্রিকগুলিকে সমর্থন করে যেমন কুলব্যাক-লেবেলার বিচ্যুতি বা ঘনিষ্ঠভাবে সম্পর্কিত ফিশার ইনফরমেশন মেট্রিক।CY

  3. CYCY has an additive structure: corresponding to any two distributions FF and GG is their sum, FGFG.

  4. CYCY supports many useful, natural functions, often termed "properties." These include any fixed quantile (such as the median) as well as the cumulants.

  5. CYCY is a subset of a function space. As such, it inherits many useful metrics, such as the sup norm (LL norm) given by ||FG||=supxR|F(x)G(x)|.

    ||FG||=supxR|F(x)G(x)|.
  6. Natural group actions on RR induce actions on CYCY. The commonest actions are translations Tμ:xx+μTμ:xx+μ and scalings Sσ:xxσSσ:xxσ for σ>0σ>0. The effect these have on a distribution is to send FF to the distribution given by Fμ,σ(x)=F((xμ)/σ)Fμ,σ(x)=F((xμ)/σ). These lead to the concepts of location-scale families and their generalizations. (I don't supply a reference, because extensive Web searches turn up a variety of different definitions: here, at least, may be a tiny bit of controversy.)

The properties that matter depend on the statistical problem and on how you intend to analyze the data. Addressing all the variations suggested by the preceding characteristics would take too much space for this medium. Let's focus on one common important application.

Take, for instance, Maximum Likelihood. In most applications you will want to be able to use Calculus to obtain an estimate. For this to work, you must be able to "take derivatives" in the family.

(Technical aside: The usual way in which this is accomplished is to select a domain ΘRdΘRd for d0d0 and specify a continuous, locally invertible function pp from ΘΘ into CYCY. (This means that for every θΘθΘ there exists a ball B(θ,ϵ)B(θ,ϵ), with ϵ>0ϵ>0 for which pB(θ,ϵ):B(θ,ϵ)ΘCYpB(θ,ϵ):B(θ,ϵ)ΘCY is one-to-one. In other words, if we alter θθ by a sufficiently small amount we will always get a different distribution.))

Consequently, in most ML applications we require that pp be continuous (and hopefully, almost everywhere differentiable) in the ΘΘ component. (Without continuity, maximizing the likelihood generally becomes an intractable problem.) This leads to the following likelihood-oriented definition of a parametric family:

A parametric family of (univariate) distributions is a locally invertible map F:R×Θ[0,1],

F:R×Θ[0,1],
with ΘRnΘRn, for which (a) each FθFθ is a distribution function and (b) for each xRxR, the function Lx:θ[0,1]Lx:θ[0,1] given by Lx(θ)=F(x,θ)Lx(θ)=F(x,θ) is continuous and almost everywhere differentiable.

Note that a parametric family FF is more than just the collection of FθFθ: it also includes the specific way in which parameter values θθ correspond to distributions.

Let's end up with some illustrative examples.

  • Let CYCY be the set of all Normal distributions. As given, this is not a parametric family: it's just a family. To be parametric, we have to choose a parameterization. One way is to choose Θ={(μ,σ)R2σ>0}Θ={(μ,σ)R2σ>0} and to map (μ,σ)(μ,σ) to the Normal distribution with mean μμ and variance σ2σ2.

  • The set of Poisson(λ)(λ) distributions is a parametric family with λΘ=(0,)R1λΘ=(0,)R1.

  • The set of Uniform(θ,θ+1)(θ,θ+1) distributions (which features prominently in many textbook exercises) is a parametric family with θR1θR1. In this case, Fθ(x)=max(0,min(1,xθ))Fθ(x)=max(0,min(1,xθ)) is differentiable in θθ except for θ{x,x1}θ{x,x1}.

  • Let FF and GG be any two distributions. Then F(x,θ)=(1θ)F(x)+θG(x)F(x,θ)=(1θ)F(x)+θG(x) is a parametric family for θ[0,1]θ[0,1]. (Proof: the image of FF is a set of distributions and its partial derivative in θθ equals F(x)+G(x)F(x)+G(x) which is defined everywhere.)

  • The Pearson family is a four-dimensional family, ΘR4ΘR4, which includes (among others) the Normal distributions, Beta distributions, and Inverse Gamma distributions. This illustrates the fact that any one given distribution may belong to many different distribution families. This is perfectly analogous to observing that any point in a (sufficiently large) space may belong to many paths that intersect there. This, together with the previous construction, shows us that no distribution uniquely determines a family to which it belongs.

  • The family CYCY of all finite-variance absolutely continuous distributions is not parametric. The proof requires a deep theorem of topology: if we endow CYCY with any topology (whether statistically useful or not) and p:ΘCYp:ΘCY is continuous and locally has a continuous inverse, then locally CYCY must have the same dimension as that of ΘΘ. However, in all statistically meaningful topologies, CYCY is infinite dimensional.


2
It will take me about a day to digest your answer. I will have to chew slowly. Meanwhile, thank you.
Carl

(+1) OK, I slogged through it. So is F:R×Θ[0,1]F:R×Θ[0,1] a Polish space or not? Can we do a simple answer so people know how to avoid using the word family improperly, please. @JuhoKokkala related, for example, that Wikipedia abused language in their exponential family, that needs clarification.
Carl

1
Doesn't the second sentence of this answer serve that request for simplicity?
whuber

IMHO, however uninformed, no, it does not due to incompleteness, it doesn't say what a family isn't. The concept "in the space of all distributions" seems to relate to statistics only.
Carl

1
I have accepted your answer. You have enough information in it that I could apply it to the question in question.
Carl

1

To address a specific point brought up in the question: "exponential family" does not denote a set of distributions. (The standard, say, exponential distribution is a member of the family of exponential distributions, an exponential family; of the family of gamma distributions, also an exponential family; of the family of Weibull distributions, not an exponential family; & of any number of other families you might dream up.) Rather, "exponential" here refers to a property possessed by a family of distributions. So we shouldn't talk of "distributions in the exponential family" but of "exponential families of distributions"—the former is an abuse of terminology, as @JuhoKokkala points out. For some reason no-one commits this abuse when talking of location–scale families.


0

Thanks to @whuber there is enough information to summarize in what I hope is a simpler form relating to the question from which this post arose. "Another name for a family [Sic, statistical family] is [a] statistical model."

From that Wikipedia entry: A statistical model consists of all distributions that we suppose govern our observations, but we do not otherwise know which distribution is the actual one. What distinguishes a statistical model from other mathematical models is that a statistical model is non-deterministic. Thus, in a statistical model specified via mathematical equations, some of the variables do not have specific values, but instead have probability distributions; i.e., some of the variables are stochastic. A statistical model is usually thought of as a pair (S,P)(S,P), where SS is the set of possible observations, i.e., the sample space, and P is a set of probability distributions on S.

Suppose that we have a statistical model (S,P) with P={Pθ:θΘ}. The model is said to be a Parametric model if Θ has a finite dimension. In notation, we write that ΘRd where d is a positive integer (R denotes the real numbers; other sets can be used, in principle). Here, d is called the dimension of the model.

As an example, if we assume that data arise from a univariate Gaussian distribution, then we are assuming that
P={Pμ,σ(x)12πσexp((xμ)22σ2):μR,σ>0}.

In this example, the dimension, d, equals 2, end quote.

Thus, if we reduce the dimensionality by assigning, for the example above, μ=0, we can show a family of curves by plotting σ=1,2,3,4,5 or whatever choices for σ.

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.