njtynhj

概率分布（德語：Wahrscheinlichkeitsverteilung，英语：probability distribution）或簡稱分布，是概率論的一個概念。使用時可以有以下兩種含義：

廣義地，它指稱隨機變量的概率性質－－當我們說概率空間 $(Omega ,mathcal F,mathbb P )$ 中的兩個隨機變量X和Y具有同樣的分布（或同分布）時，我們是無法用概率 $mathbb P$ 來區別他們的。換言之：

稱X和Y為同分布的隨機變量，當且僅當對任意事件 $Ain mathcal F$ ，有 $mathbb P (Xin A)=mathbb P (Yin A)$ 成立。

但是，不能認為同分布的隨機變量是相同的隨機變量。事實上即使X與Y同分布，也可以没有任何點ω使得X(ω)=Y(ω)。在這個意義下，可以把隨機變量分類，每一類稱作一個分布，其中的所有隨機變量都同分布。用更簡要的語言來說，同分布是一種等價關係，每一個等價類就是一個分布。需注意的是，通常談到的離散分布、均勻分布、伯努利分布、正態分布、泊松分布等，都是指各種類型的分布，而不能視作一個分布。

狹義地，它是指隨機變量的概率分布函數。設X是樣本空間 $(Omega ,mathcal F)$ 上的隨機變量， $mathbb P$ 為概率測度，則稱如下定義的函數是X的分布函數（德語：Verteilungsfunktion，英语：distribution function），或稱累積分布函數（德語：kumulative Verteilungsfunktion，英语：cumulative distribution function，簡稱CDF）：

$displaystyle F_X(a)=mathbb P (Xleq a)$ ，對任意實數 $a$ 定義。

具有相同分布函數的隨機變量一定是同分布的，因此可以用分布函數來描述一個分布，但更常用的描述手段是概率密度函數（德語：Wahrscheinlichkeitsdichtefunktion，英语：probability density function, pdf）。

在常用的文獻中，「分布」一詞可指其廣義和狹義，而「累計分布函數」或「分布函數」一詞只能指稱後者。為了不致混淆，下文中談及上述的廣義時使用「分布」一詞；狹義時使用「分布函數」一詞。

分布函數的性質刻劃

對於特定的隨機變量 $X$ ，其分布函數 $F_X$ 是單調不減及右連續，而且 $F_X(-infty )=0$ ， $F_X(infty )=1$ 。這些性質反過來也描述了所有可能成為分布函數的函數：

設 $F:[-infty ,infty ]to [0,1],F(-infty )=0,F(infty )=1$ 且單調不減、右連續，則存在概率空間 $(Omega ,mathcal F,mathbb P )$ 及其上的隨機變量 X ，使得 F 是 X 的分布函數，即 $F_X=F$

隨機變量的分布

設 $P$ 為概率測度， $X$ 為隨機變量，則函數
$F(x)=P(Xleq x)$ ( $xin mathbb R$ )
稱為 $X$ 的概率分布函數。如果将 $X$ 看成是数轴上的随机点的坐标，那么，分布函数 $F(x)$ 在 $x$ 处的函数值就表示 $X$ 落在区间 $(-infty ,x]$ 上的概率。

例如，設隨機變量 $X$ 為擲兩次骰子所得的點數差，而整个樣本空間由36个元素组成。

数量	( i , j )∈ S	$x$	$P(X=x)$	$F(x)$
6	( 1,1 )，( 2,2 )，( 3,3 ) ( 4,4 )，( 5,5 )，( 6,6 )	0	6/36	6/36
10	( 1,2 )，( 2,3 ) ( 3,4 )，( 4,5 )，( 5,6 ) ( 2,1 )，( 3,2 )，( 4,3 ) ( 5,4 )，( 6,5 )	1	10/36	16/36
8	( 1,3 )，( 2,4 )，( 3,5 ) ( 4,6 )，( 3,1 )，( 4,2 ) ( 5,3 )，( 6,4 )	2	8/36	24/36
6	( 1,4 )，( 2,5 )，( 3,6 ) ( 4,1 )，( 5,2 )，( 6,3 )	3	6/36	30/36
4	( 1,5 )，( 2,6 ) ( 5,1 )，( 6,2 )	4	4/36	34/36
2	( 1,6 )，( 6,1 )	5	2/36	36/36

其分布函数是：

displaystyle F(x)=begincases0,x<0\6/36,0leq x<1\16/36,1leq x<2\24/36,2leq x<3\30/36,3leq x<4\34/36,4leq x<5\1,5leq xendcases

离散分布

上面所列举的例子属于离散分布，即分布函数的值域是離散的，比如只取整數值的隨機變量就是屬於離散分布的。 $F(x)$ 表示随机变量 $Xleq x$ 的概率值。如果X的取值只有 $x_1<x_2<...<x_n$ ，則：

$F_X(x_i)=sum _j=1^iP(x_j)$

$displaystyle sum _k=1^nP(x_k)=1$

均匀分布

二项分布

二项分布是最重要的离散概率分布之一，由瑞士数学家雅各布·伯努利（Jakob Bernoulli）所发展，一般用二项分布来计算概率的前提是，每次抽出样品后再放回去，并且只能有两种试验结果，比如黑球或红球，正品或次品等。二项分布指出，随机一次试验出现的概率如果为 $p$ ，那么在 $n$ 次试验中出现 $k$ 次的概率为：

f(n,k,p)=n choose kp^k(1-p)^n-k

例如，在掷3次骰子中，不出现6点的概率是： $f(3,0,frac 16)=3 choose 0left(frac 16right)^0left(frac 56right)^3=0.579$
在连续两次的轮盘游戏中，至少出现一次红色的概率为： $f(2,1,frac 1837)+f(2,2,frac 1837)=0.736$

二项分布在

p=0.5

时的对称性 ( 自变量为

k

)

二项分布在 $p=0.5$ 时表现出图像的对称性，而在 $p$ 取其它值时是非对称的。另外二项分布的期望值 $operatorname E (X)=np$ ，以及方差 $operatorname var (X)=n,p,(1-p)!$

正态分布

几何分布

超几何分布

作为离散概率分布的超几何分布尤其指在抽样试验时抽出的样品不再放回去的分布情况。在一个容器中一共有 $N$ 个球，其中 $M$ 个黑球， $(N-M)$ 个红球，通过下面的超几何分布公式可以计算出，从容器中抽出的 $n$ 个球中（抽出的球不放回去）有 $k$ 个黑球的概率是多少：

f(k,n;M;N):=frac displaystyle M choose kN-M choose n-kdisplaystyle N choose n

例如，容器中一共10个球，其中6个黑色，4个白色，一共抽5次（抽出的球不放回去），在这5个球中有3个黑球的概率是：
$f(k=3)=frac displaystyle 6 choose 310-6 choose 5-3displaystyle 10 choose 5=0.476$

超几何分布和二项分布的关系

和二项分布不同的是，在超几何分布中，特別强调的是抽出的样品在下一次抽取前不再放回去，但是如果抽取的次数 $n$ 和总共样品数 $N$ 相比很小（大约 $n/N<0,05$ ），这时在计算上二项分布和超几何分布相互间则没有主要的区别，此时人们更愿意采用二项分布的方法，因为在数学计算上二项分布要简单一些。

泊松近似

泊松近似是二项分布的一種極限形式。其强调如下的试验前提：一次抽样的概率值 $p$ 相对很小，而抽取次数 $n$ 值又相对很大。因此泊松分布又被称之为罕有事件分布。泊松分布指出，如果随机一次试验出现的概率为 $p$ ，那么在 $n$ 次试验中出现 $k$ 次的概率按照泊松分布应该为：

f(n,k,p)=frac (ncdot p)^ke^ncdot pcdot k!

其中数学常数 $e=2.71828...$ (自然對數的底数)
例如，某工厂在生产零件时，每200个成品中会有1个次品，那么在100个零件中最多出现2个次品的概率按照泊松分布应该是： $f(100,0,frac 1200)+f(100,1,frac 1200)+f(100,2,frac 1200)=0.986$

在实践中如果遇到 $n$ 值很大導致二项分布難於計算时，可以考慮使用泊松分布，但前提是 $ncdot p$ 必須趨於一個有限极限^{[來源請求]}。采用泊松分布的一个不太严格的规则（通过展开二项分布，并在形式上化简为类似泊松分布后，利用极限化简即可得）^{[來源請求]}是：

$ngeq 100$

$pleq 0.1$

连续分布

設 $X$ 是具有分布函数 $F$ 的连续随机变量，且F的一階導數處處存在，則其導函數

f(x)=frac operatorname d F(x)operatorname d x

称为 $X$ 的機率密度函数。
每个機率密度函数都有如下性质：

$int _-infty ^infty f(x),rm dx=1$

$int _a^bf(x),rm dx=operatorname P (aleq Xleq b)=F(b)-F(a)$

第一个性质表明，機率密度函数与 $x$ 轴形成的区域的面积等于1，第二个性质表明，连续随机变量在区间 $[a,b]$ 的概率值等于密度函数在区间 $[a,b]$ 上的积分，也即是与 $X$ 轴在 $[a,b]$ 内形成的区域的面积。因为 $0leq F(x)leq 1$ ，且 $f(x)$ 是 $F(x)$ 的导数，因此按照积分原理不难推出上面两个公式。

正态分布、指数分布、 $t$ -分布， $F$ -分布以及 $Xi ^2$ -分布都是連續分布。

均匀分布

指数分布

伽马分布

正态分布

连续随机变量的機率密度函数如果是如下形式，

f(x)=frac 1sigma sqrt 2pi e^left(-frac 12left(frac x-mu sigma right)^2right)

那么这个连续分布被称之为正态分布，或者高斯分布。其密度函数的曲线呈对称钟形，因此又被称之为钟形曲线，其中 $mu$ 是平均值， $sigma$ 是标准差。正态分布是一种理想分布，许多典型的分布，比如成年人的身高，汽车轮胎的运转状态，人类的智商值（IQ），都属于或者说至少接近正态分布。同样按照连续分布的定义，正态機率密度函数具有和普通機率密度函数类似的性质：