二项分布

概率论统计学中,二项分布(英语:Binomial distribution)是独立的是/非试验中成功的次数的离散概率分布,其中每次试验的成功概率。这样的单次成功/失败试验又称为伯努利试验。实际上,当时,二项分布就是伯努利分布。二项分布是显著性差异二项试验的基础。

二项分布
概率质量函数
Probability mass function for the binomial distribution
累积分布函数
Cumulative distribution function for the binomial distribution
记号 B(n, p)
参数 试验次数 (整数)
成功概率 (实数)
值域
概率质量函数
累积分布函数
期望值
中位数 之一
众数
方差
偏度
峰度
矩生成函数
特征函数

详述

概率质量函数

一般来说,若随机变量 服从参数为  的二项分布,我们记作  。n次试验中正好得到k次成功的概率由概率质量函数给出:

 

对于 ,其中 

二项式系数(这就是二项分布的名称的由来),又记为  ,或 。该公式可以用以下方法理解:我们希望有 次成功( )和 次失败 。然而, 次成功可以在 次试验的任何地方出现,而把 次成功分布在 次试验中共有 个不同的方法。

在制造二项分布概率的参考表格时,通常表格中只填上 个值。这是因为 时的概率可以从它的补集计算出:

 

因此,我们要看另外一个 和另外一个 (二项分布一般不是对称的)。然而,它的表现不是任意的。总存在一个整数 ,满足:

 

作为 的函数,表达式  时单调递增, 时单调递减,只有当 是整数时例外。在这时,有两个值使 达到最大:   是伯努利试验的最可能的结果,称为众数。注意它发生的概率可以很小。

累积分布函数(概率分布函数)

累积分布函数可以表示为:

 

其中 是小于或等于 最大整数

它也可以用正则化不完全贝塔函数来表示:

 

期望和方差

如果 (也就是说, 是服从二项分布的随机变量),那么 期望值

 

方差

 

这个事实很容易证明。首先假设有一个伯努利试验。试验有两个可能的结果:1和0,前者发生的概率为 ,后者的概率为 。该试验的期望值等于 。该试验的方差也可以类似地计算: .

一般的二项分布是 次独立的伯努利试验的和。它的期望值和方差分别等于每次单独试验的期望值和方差的和:

 

众数和中位数

通常二项分布 众数等于 ,其中  取整函数。然而,当 是整数且 不等于0或1时,分布有两个众数:  。当 等于0或1时,众数相应地等于0或 。这些情况可以综述如下:

 

一般地,没有一个单一的公式可以求出二项分布的中位数,甚至中位数可能是不唯一的。然而有几个特殊的结果:

  • 如果 是整数,那么平均数、中位数和众数相等,都等于 [1][2]
  • 任何中位数 都位于区间 内。[3]
  • 中位数 不能离平均数太远: [4]
  • 如果 ,或 ,或 (除了  是奇数的情况以外),那么中位数是唯一的,且等于 [3][4]
  • 如果 ,且 是奇数,那么区间 中的任何数 都是二项分布的中位数。如果  是偶数,那么 是唯一的中位数。

两个二项分布的协方差

如果有两个服从二项分布的随机变量  ,我们可以求它们的协方差。利用协方差的定义,当 时我们有

 

第一项仅当  都等于1时非零,而  分别为  的概率。定义   都等于1的概率,便得到

 

对于n次独立的试验,我们便有

 

如果  是相同的变量,便化为上面的方差公式。

与其他分布的关系

二项分布的和

如果  ,且  相互独立,那么 也服从二项分布;它的分布为

 

伯努利分布

伯努利分布是二项分布在 时的特殊情况。  的意思是相同的。相反,任何二项分布 都是 次独立伯努利试验的和,每次试验成功的概率为 

泊松二项分布

二项分布是泊松二项分布的一个特殊情况。泊松二项分布 次独立、不相同的伯努利试验( )的和。如果 服从泊松二项分布,且 ,那么 

正态近似

 
  时的二项分布以及正态近似

如果 足够大,那么分布的偏度就比较小。在这种情况下,如果使用适当的连续性校正,那么 的一个很好的近似是正态分布

 
 

 越大(至少30),近似越好,当 不接近0或1时更好。[5]不同的经验法则可以用来决定 是否足够大,以及 是否距离0或1足够远:

  • 一个规则是  都必须大于5。

泊松近似

当试验的次数趋于无穷大,而乘积 固定时,二项分布收敛于泊松分布。因此参数为 的泊松分布可以作为二项分布 的近似,如果 足够大,而 足够小。[6]

极限

  •  趋于  趋于0,而 固定于 ,或至少 趋于 时,二项分布 趋于期望值为λ的泊松分布
  •  趋于  固定时,
 
的分布趋于期望值为 0、方差为 1的正态分布。这个结果是中心极限定理的一个特殊情况。

例子

一个简单的例子如下:掷一枚骰子十次,那么掷得4的次数就服从  的二项分布。

参见

参考文献

  1. ^ Neumann, P. Über den Median der Binomial- and Poissonverteilung. Wissenschaftliche Zeitschrift der Technischen Universität Dresden. 1966, 19: 29–33 (德语). 
  2. ^ Lord, Nick. (July 2010). "Binomial averages when the mean is an integer", The Mathematical Gazette 94, 331-332.
  3. ^ 3.0 3.1 Kaas, R.; Buhrman, J.M. Mean, Median and Mode in Binomial Distributions. Statistica Neerlandica. 1980, 34 (1): 13–18. doi:10.1111/j.1467-9574.1980.tb00681.x. 
  4. ^ 4.0 4.1 Kais Hamza. The smallest uniform upper bound on the distance between the mean and the median of the binomial and Poisson distributions. Statistics & Probability Letters: 21–25. [2018-04-02]. doi:10.1016/0167-7152(94)00090-u. (原始内容存档于2020-12-15). 页面存档备份,存于互联网档案馆
  5. ^ Box, Hunter and Hunter. Statistics for experimenters. Wiley. 1978: 130. 
  6. ^ NIST/SEMATECH, "6.3.3.1. Counts Control Charts"页面存档备份,存于互联网档案馆), e-Handbook of Statistical Methods.