概率分布

The name of the pictureThe name of the pictureThe name of the pictureClash Royale CLAN TAG#URR8PPP











概率分布(德語:Wahrscheinlichkeitsverteilung英语:probability distribution)或簡稱分布,是概率論的一個概念。使用時可以有以下兩種含義:


  • 廣義地,它指稱隨機變量的概率性質--當我們說概率空間(Ω,F,P)displaystyle (Omega ,mathcal F,mathbb P )(Omega ,mathcal F,mathbb P )中的兩個隨機變量XY具有同樣的分布(或同分布)時,我們是無法用概率Pdisplaystyle mathbb P mathbb P 來區別他們的。換言之:

XY為同分布的隨機變量,當且僅當對任意事件A∈Fdisplaystyle Ain mathcal FAin mathcal F,有P(X∈A)=P(Y∈A)displaystyle mathbb P (Xin A)=mathbb P (Yin A)mathbb P (Xin A)=mathbb P (Yin A)成立。



但是,不能認為同分布的隨機變量是相同的隨機變量。事實上即使XY同分布,也可以没有任何點ω使得X(ω)=Y(ω)。在這個意義下,可以把隨機變量分類,每一類稱作一個分布,其中的所有隨機變量都同分布。用更簡要的語言來說,同分布是一種等價關係,每一個等價類就是一個分布。需注意的是,通常談到的離散分布、均勻分布、伯努利分布、正態分布、泊松分布等,都是指各種類型的分布,而不能視作一個分布。


  • 狹義地,它是指隨機變量的概率分布函數。設X是樣本空間(Ω,F)displaystyle (Omega ,mathcal F)(Omega ,mathcal F)上的隨機變量,Pdisplaystyle mathbb P mathbb P 為概率測度,則稱如下定義的函數是X的分布函數(德語:Verteilungsfunktion英语:distribution function),或稱累積分布函數(德語:kumulative Verteilungsfunktion英语:cumulative distribution function,簡稱CDF):

FX(a)=P(X≤a)displaystyle F_X(a)=mathbb P (Xleq a)displaystyle F_X(a)=mathbb P (Xleq a),對任意實數adisplaystyle aa定義。



具有相同分布函數的隨機變量一定是同分布的,因此可以用分布函數來描述一個分布,但更常用的描述手段是概率密度函數(德語:Wahrscheinlichkeitsdichtefunktion英语:probability density function, pdf)。


  • 在常用的文獻中,「分布」一詞可指其廣義和狹義,而「累計分布函數」或「分布函數」一詞只能指稱後者。為了不致混淆,下文中談及上述的廣義時使用「分布」一詞;狹義時使用「分布函數」一詞。


目录





  • 1 分布函數的性質刻劃


  • 2 隨機變量的分布


  • 3 离散分布

    • 3.1 均匀分布


    • 3.2 二项分布


    • 3.3 正态分布


    • 3.4 几何分布


    • 3.5 超几何分布

      • 3.5.1 超几何分布和二项分布的关系



    • 3.6 泊松近似



  • 4 连续分布

    • 4.1 均匀分布


    • 4.2 指数分布


    • 4.3 伽马分布


    • 4.4 正态分布

      • 4.4.1 正态分布和二项分布




  • 5 外部链接


  • 6 参考文献


  • 7 參見




分布函數的性質刻劃


對於特定的隨機變量 Xdisplaystyle XX,其分布函數FXdisplaystyle F_XF_X是單調不減及右連續,而且FX(−∞)=0displaystyle F_X(-infty )=0F_X(-infty )=0FX(∞)=1displaystyle F_X(infty )=1F_X(infty )=1。這些性質反過來也描述了所有可能成為分布函數的函數:


  • F:[−∞,∞]→[0,1],F(−∞)=0,F(∞)=1displaystyle F:[-infty ,infty ]to [0,1],F(-infty )=0,F(infty )=1F:[-infty ,infty ]to [0,1],F(-infty )=0,F(infty )=1且單調不減、右連續,則存在概率空間(Ω,F,P)displaystyle (Omega ,mathcal F,mathbb P )(Omega ,mathcal F,mathbb P )及其上的隨機變量 X ,使得 FX 的分布函數,即 FX=Fdisplaystyle F_X=FF_X=F


隨機變量的分布


Pdisplaystyle PP為概率測度,Xdisplaystyle XX為隨機變量,則函數
F(x)=P(X≤x)displaystyle F(x)=P(Xleq x)F(x)=P(Xleq x)     (x∈Rdisplaystyle xin mathbb R xin mathbb R )
稱為Xdisplaystyle XX的概率分布函數。如果将Xdisplaystyle XX看成是数轴上的随机点的坐标,那么,分布函数F(x)displaystyle F(x)F(x)xdisplaystyle xx处的函数值就表示Xdisplaystyle XX落在区间(−∞,x]displaystyle (-infty ,x](-infty ,x]上的概率。


例如,設隨機變量Xdisplaystyle XX為擲兩次骰子所得的點數差,而整个樣本空間由36个元素组成。





































数量

( i , j )∈ S

xdisplaystyle xx

P(X=x)displaystyle P(X=x)P(X=x)

F(x)displaystyle F(x)F(x)
6( 1,1 ),( 2,2 ),( 3,3 )
( 4,4 ),( 5,5 ),( 6,6 )
06/366/36
10( 1,2 ),( 2,3 )
( 3,4 ),( 4,5 ),( 5,6 )
( 2,1 ),( 3,2 ),( 4,3 )
( 5,4 ),( 6,5 )
110/3616/36
8( 1,3 ),( 2,4 ),( 3,5 )
( 4,6 ),( 3,1 ),( 4,2 )
( 5,3 ),( 6,4 )
28/3624/36
6( 1,4 ),( 2,5 ),( 3,6 )
( 4,1 ),( 5,2 ),( 6,3 )
36/3630/36
4( 1,5 ),( 2,6 )
( 5,1 ),( 6,2 )
44/3634/36
2( 1,6 ),( 6,1 )52/3636/36

其分布函数是:


F(x)={0,x<06/36,0≤x<116/36,1≤x<224/36,2≤x<330/36,3≤x<434/36,4≤x<51,5≤xdisplaystyle F(x)=begincases0,x<0\6/36,0leq x<1\16/36,1leq x<2\24/36,2leq x<3\30/36,3leq x<4\34/36,4leq x<5\1,5leq xendcasesdisplaystyle F(x)=begincases0,x<0\6/36,0leq x<1\16/36,1leq x<2\24/36,2leq x<3\30/36,3leq x<4\34/36,4leq x<5\1,5leq xendcases


离散分布


上面所列举的例子属于离散分布,即分布函数的值域是離散的,比如只取整數值的隨機變量就是屬於離散分布的。F(x)displaystyle F(x)F(x)表示随机变量X≤xdisplaystyle Xleq xXleq x的概率值。如果X的取值只有x1<x2<...<xndisplaystyle x_1<x_2<...<x_nx_1<x_2<...<x_n,則:


  • FX(xi)=∑j=1iP(xj)displaystyle F_X(x_i)=sum _j=1^iP(x_j)F_X(x_i)=sum _j=1^iP(x_j)

  • ∑k=1nP(xk)=1displaystyle sum _k=1^nP(x_k)=1displaystyle sum _k=1^nP(x_k)=1


均匀分布




二项分布



二项分布是最重要的离散概率分布之一,由瑞士数学家雅各布·伯努利(Jakob Bernoulli)所发展,一般用二项分布来计算概率的前提是,每次抽出样品后再放回去,并且只能有两种试验结果,比如黑球或红球,正品或次品等。二项分布指出,随机一次试验出现的概率如果为pdisplaystyle pp,那么在ndisplaystyle nn次试验中出现kdisplaystyle kk次的概率为:


f(n,k,p)=(nk)pk(1−p)n−kdisplaystyle f(n,k,p)=n choose kp^k(1-p)^n-kf(n,k,p)=n choose kp^k(1-p)^n-k

例如,在掷3次骰子中,不出现6点的概率是:f(3,0,16)=(30)(16)0(56)3=0.579displaystyle f(3,0,frac 16)=3 choose 0left(frac 16right)^0left(frac 56right)^3=0.579f(3,0,frac 16)=3 choose 0left(frac 16right)^0left(frac 56right)^3=0.579
在连续两次的轮盘游戏中,至少出现一次红色的概率为:f(2,1,1837)+f(2,2,1837)=0.736displaystyle f(2,1,frac 1837)+f(2,2,frac 1837)=0.736f(2,1,frac 1837)+f(2,2,frac 1837)=0.736




二项分布在p=0.5displaystyle p=0.5p=0.5时的对称性 ( 自变量为kdisplaystyle kk )


二项分布在p=0.5displaystyle p=0.5p=0.5时表现出图像的对称性,而在pdisplaystyle pp取其它值时是非对称的。另外二项分布的期望值E⁡(X)=npdisplaystyle operatorname E (X)=npoperatorname E (X)=np,以及方差var⁡(X)=np(1−p)displaystyle operatorname var (X)=n,p,(1-p)!operatorname var (X)=n,p,(1-p)!



正态分布




几何分布




超几何分布





作为离散概率分布的超几何分布尤其指在抽样试验时抽出的样品不再放回去的分布情况。在一个容器中一共有Ndisplaystyle NN个球,其中Mdisplaystyle MM个黑球,(N−M)displaystyle (N-M)(N-M)个红球,通过下面的超几何分布公式可以计算出,从容器中抽出的ndisplaystyle nn个球中(抽出的球不放回去)有kdisplaystyle kk个黑球的概率是多少:


f(k,n;M;N):=(Mk)(N−Mn−k)(Nn)displaystyle f(k,n;M;N):=frac displaystyle M choose kN-M choose n-kdisplaystyle N choose nf(k,n;M;N):=frac displaystyle M choose kN-M choose n-kdisplaystyle N choose n

例如,容器中一共10个球,其中6个黑色,4个白色,一共抽5次(抽出的球不放回去),在这5个球中有3个黑球的概率是:
f(k=3)=(63)(10−65−3)(105)=0.476displaystyle f(k=3)=frac displaystyle 6 choose 310-6 choose 5-3displaystyle 10 choose 5=0.476f(k=3)=frac displaystyle 6 choose 310-6 choose 5-3displaystyle 10 choose 5=0.476



超几何分布和二项分布的关系


和二项分布不同的是,在超几何分布中,特別强调的是抽出的样品在下一次抽取前不再放回去,但是如果抽取的次数ndisplaystyle nn和总共样品数Ndisplaystyle NN相比很小(大约n/N<0,05displaystyle n/N<0,05n/N<0,05),这时在计算上二项分布和超几何分布相互间则没有主要的区别,此时人们更愿意采用二项分布的方法,因为在数学计算上二项分布要简单一些。



泊松近似



泊松近似是二项分布的一種極限形式。其强调如下的试验前提:一次抽样的概率值pdisplaystyle pp相对很小,而抽取次数ndisplaystyle nn值又相对很大。因此泊松分布又被称之为罕有事件分布。泊松分布指出,如果随机一次试验出现的概率为pdisplaystyle pp,那么在ndisplaystyle nn次试验中出现kdisplaystyle kk次的概率按照泊松分布应该为:


f(n,k,p)=(n⋅p)ken⋅p⋅k!displaystyle f(n,k,p)=frac (ncdot p)^ke^ncdot pcdot k!f(n,k,p)=frac (ncdot p)^ke^ncdot pcdot k!

其中数学常数e=2.71828...displaystyle e=2.71828...e=2.71828...(自然對數的底数)
例如,某工厂在生产零件时,每200个成品中会有1个次品,那么在100个零件中最多出现2个次品的概率按照泊松分布应该是:f(100,0,1200)+f(100,1,1200)+f(100,2,1200)=0.986displaystyle f(100,0,frac 1200)+f(100,1,frac 1200)+f(100,2,frac 1200)=0.986f(100,0,frac 1200)+f(100,1,frac 1200)+f(100,2,frac 1200)=0.986


在实践中如果遇到ndisplaystyle nn值很大導致二项分布難於計算时,可以考慮使用泊松分布,但前提是n⋅pdisplaystyle ncdot pncdot p必須趨於一個有限极限[來源請求]采用泊松分布的一个不太严格的规则(通过展开二项分布,并在形式上化简为类似泊松分布后,利用极限化简即可得)[來源請求]是:


  1. n≥100displaystyle ngeq 100ngeq 100

  2. p≤0.1displaystyle pleq 0.1pleq 0.1


连续分布


Xdisplaystyle XX是具有分布函数Fdisplaystyle FF的连续随机变量,且F的一階導數處處存在,則其導函數


f(x)=d⁡F(x)d⁡xdisplaystyle f(x)=frac operatorname d F(x)operatorname d xf(x)=frac operatorname d F(x)operatorname d x

称为Xdisplaystyle XX的機率密度函数。
每个機率密度函数都有如下性质:


  • ∫−∞∞f(x)dx=1displaystyle int _-infty ^infty f(x),rm dx=1int _-infty ^infty f(x),rm dx=1

  • ∫abf(x)dx=P⁡(a≤X≤b)=F(b)−F(a)displaystyle int _a^bf(x),rm dx=operatorname P (aleq Xleq b)=F(b)-F(a)int _a^bf(x),rm dx=operatorname P (aleq Xleq b)=F(b)-F(a)

第一个性质表明,機率密度函数与xdisplaystyle xx轴形成的区域的面积等于1,第二个性质表明,连续随机变量在区间[a,b]displaystyle [a,b][a,b]的概率值等于密度函数在区间[a,b]displaystyle [a,b][a,b]上的积分,也即是与Xdisplaystyle XX轴在[a,b]displaystyle [a,b][a,b]内形成的区域的面积。因为0≤F(x)≤1displaystyle 0leq F(x)leq 10leq F(x)leq 1,且f(x)displaystyle f(x)f(x)F(x)displaystyle F(x)F(x)的导数,因此按照积分原理不难推出上面两个公式。


正态分布、指数分布、tdisplaystyle tt-分布,Fdisplaystyle FF-分布以及Ξ2displaystyle Xi ^2Xi ^2-分布都是連續分布。



均匀分布




指数分布




伽马分布




正态分布





连续随机变量的機率密度函数如果是如下形式,


f(x)=1σ2πe(−12(x−μσ)2)displaystyle f(x)=frac 1sigma sqrt 2pi e^left(-frac 12left(frac x-mu sigma right)^2right)f(x)=frac 1sigma sqrt 2pi e^left(-frac 12left(frac x-mu sigma right)^2right)

那么这个连续分布被称之为正态分布,或者高斯分布。其密度函数的曲线呈对称钟形,因此又被称之为钟形曲线,其中μdisplaystyle mu mu 是平均值,σdisplaystyle sigma sigma 是标准差。正态分布是一种理想分布,许多典型的分布,比如成年人的身高,汽车轮胎的运转状态,人类的智商值(IQ),都属于或者说至少接近正态分布。同样按照连续分布的定义,正态機率密度函数具有和普通機率密度函数类似的性质:


  • ∫−∞∞f(t)dt=1displaystyle int _-infty ^infty f(t),rm dt=1int _-infty ^infty f(t),rm dt=1

  • F(x)=1σ2π∫−∞xe(−12(t−μσ)2)dtdisplaystyle F(x)=frac 1sigma sqrt 2pi int _-infty ^xe^left(-frac 12left(frac t-mu sigma right)^2right),rm dtF(x)=frac 1sigma sqrt 2pi int _-infty ^xe^left(-frac 12left(frac t-mu sigma right)^2right),rm dt

如果给出一个正态分布的平均值μdisplaystyle mu mu 以及标准差σdisplaystyle sigma sigma ,可以根据上面的第二个公式计算出任一区间的概率分布情况。但是如上的计算量是相当庞大的,没有计算机的辅助基本是不可能的,解决这一问题的方法是借助zdisplaystyle zz-变换以及标准正态分布表格(zdisplaystyle zz-表格)。


中间值μ=0displaystyle mu =0mu =0以及标准差σ=1displaystyle sigma =1sigma =1的正态分布被称之为标准正态分布,其累積分布函数是



File:Z-transformation.png

zdisplaystyle zz-变换示意图


Φ(z)=12π⋅∫−∞ze−12t2dtdisplaystyle Phi (z)=frac 1sqrt 2pi cdot int _-infty ^ze^-frac 12t^2mathrm d tPhi (z)=frac 1sqrt 2pi cdot int _-infty ^ze^-frac 12t^2mathrm d t

将普通形式的正态分布变换到标准正态分布的方法是


z=x−μσdisplaystyle z=frac x-mu sigma z=frac x-mu sigma

例如,已知一正态分布的μ=5displaystyle mu =5mu =5σ=3displaystyle sigma =3sigma =3,求区间概率值P(4<X≤7)?displaystyle P(4<Xleq 7)?P(4<Xleq 7)?计算过程如下,


4−53<Z≤7−53displaystyle frac 4-53<Zleq frac 7-53frac 4-53<Zleq frac 7-53

−1/3<Z≤2/3displaystyle -1/3<Zleq 2/3-1/3<Zleq 2/3

P(4<X≤7)=P(−1/3<Z≤2/3)=Φ(2/3)−Φ(−1/3)=0.7475−0.3694=0.3781displaystyle P(4<Xleq 7)=P(-1/3<Zleq 2/3)=Phi (2/3)-Phi (-1/3)=0.7475-0.3694=0.3781P(4<Xleq 7)=P(-1/3<Zleq 2/3)=Phi (2/3)-Phi (-1/3)=0.7475-0.3694=0.3781

其中Φ(z)displaystyle Phi (z)Phi (z)值通过查zdisplaystyle zz-表格获得。



正态分布和二项分布


在离散分布中如果试验次数ndisplaystyle nn值非常大,而且单次试验的概率pdisplaystyle pp值又不是很小的情况下,正态分布可以用来近似的代替二项分布。一个粗略的使用正态分布的近似规则是:n⋅p⋅(1−p)≥9displaystyle ncdot pcdot (1-p)geq 9ncdot pcdot (1-p)geq 9
从二项分布中获得μdisplaystyle mu mu σdisplaystyle sigma sigma 值的方法是


  • 期望值μ=n⋅pdisplaystyle mu =ncdot pmu =ncdot p

  • 標準差σ=n⋅p⋅(1−p)displaystyle sigma =sqrt ncdot pcdot (1-p)sigma =sqrt ncdot pcdot (1-p)

如果σ>3displaystyle sigma >3sigma >3,则必须采用下面的近似修正方法:


P(x1≤X≤x2)=∑k=x1x2(nk)⋅pk⋅(q)n−k⏟EF≈Φ(x2+0.5−μσ)−Φ(x1−0.5−μσ)⏟ZFdisplaystyle P(x_1leq Xleq x_2)=underbrace sum _k=x_1^x_2n choose kcdot p^kcdot (q)^n-k _mathrm EF approx underbrace Phi left(frac x_2+0.5-mu sigma right)-Phi left(frac x_1-0.5-mu sigma right) _mathrm ZF P(x_1leq Xleq x_2)=underbrace sum _k=x_1^x_2n choose kcdot p^kcdot (q)^n-k _mathrm EF approx underbrace Phi left(frac x_2+0.5-mu sigma right)-Phi left(frac x_1-0.5-mu sigma right) _mathrm ZF

( 注:q=1−pdisplaystyle q=1-pq=1-p , EF:二项分布,ZF:正态分布)



上(下)临界值分别增加(减少)修正值0.5的目的是在σdisplaystyle sigma sigma 值很大时获得更精确的近似值,只有σdisplaystyle sigma sigma 很小时,修正值0.5可以不被考虑。


例如,随机试验为连续64次掷硬币,获得的国徽数位于32和42之间的概率是多少?用正态分布计算如下,


μ=n⋅p=64⋅0.5=32displaystyle mu =ncdot p=64cdot 0.5=32mu =ncdot p=64cdot 0.5=32

σ=n⋅p⋅(1−p)=64⋅0.5⋅0.5=4displaystyle sigma =sqrt ncdot pcdot (1-p)=sqrt 64cdot 0.5cdot 0.5=4sigma =sqrt ncdot pcdot (1-p)=sqrt 64cdot 0.5cdot 0.5=4

n⋅p⋅q=16≥9displaystyle ncdot pcdot q=16geq 9ncdot pcdot q=16geq 9,符合近似规则,应用zdisplaystyle zz-变换:



P(32≤X≤42)≈Φ(42+0.5−324)−Φ(32−0.5−324)displaystyle P(32leq Xleq 42)approx Phi left(frac 42+0.5-324right)-Phi left(frac 32-0.5-324right)displaystyle P(32leq Xleq 42)approx Phi left(frac 42+0.5-324right)-Phi left(frac 32-0.5-324right)
=Φ(2.63)−Φ(−0.13)=0.0517+0.4957=0.5474displaystyle =Phi left(2.63right)-Phi left(-0.13right)=0.0517+0.4957=0.5474=Phi left(2.63right)-Phi left(-0.13right)=0.0517+0.4957=0.5474


标准正态分布N(0,1)displaystyle N(0,1)N(0,1)下的zdisplaystyle zz-表格


在运用zdisplaystyle zz- 表格时注意到利用密度函数的对称性来求出zdisplaystyle zz为负值时的区域面积。



外部链接


  1. 二项分布Java演示

  2. 超几何分布Java演示

  3. 泊松分布Java演示

  4. 正态分布Java演示


参考文献



  1. (德文)彼得 缺菲尔(Peter Zoefel):《统计和经济学家》PEASON Studium出版社2003年ISBN 3-8273-7062-0


  2. (德文)约瑟夫 西拉(Josef Schira):《统计理论与企业管理》PEASON Studium出版社2003年ISBN 3-8273-7041-8


  3. (德文)汉斯-底特 黑伯曼(Hans-Dieter Hippmann):《统计学》SCHAEFFER POESCHEL出版社2003年ISBN 3-7910-2119-2


參見


  • 概率论

  • 隨機變數

  • 累积分布函数

  • 概率密度函数

  • 概率質量函数

Popular posts from this blog

“Thánh nhọ” Lee Kwang Soo chúc thi tốt, sĩ tử Việt Nam... có dám nhận hay không?

Museum on the Mound

眉山市