负二项分布
负二项分布(Negative binomial distribution)是统计学上一种描述在一系列独立同分布的伯努利试验中,成功次数达到指定次数(记为)时失败次数的离散概率分布。比如,如果我们定义掷骰子随机变量值为时成功,所有为失败,这时我们反复掷骰子直到1出现3次(成功次数),此时非1数字出现次数的概率分布即为负二项分布。
不同来源对负二项分布的定义略有差异:随机变量的最小可能取值可能是(仅计失败的次数,或反之),亦可能是(总次数,不论成败);参数可能表示每次试验成功的概率,也可能表示失败的概率;试验的终止条件可能是成功次或失败次。[1] | |||
概率质量函数
| |||
参数 |
(实) (实) | ||
---|---|---|---|
值域 | |||
概率质量函数 | |||
累积分布函数 | |||
期望值 | |||
众数 |
| ||
方差 | |||
偏度 | |||
峰度 | |||
矩生成函数 | |||
特征函数 |
帕斯卡分布(Pascal distribution,来自布莱兹·帕斯卡 (Blaise Pascal))和波利亚分布(Polya distribution,又称罐子模型,来自乔治·波利亚 (George Pólya))均是负二项分布的特例。在工程、气候等领域中经常用“负二项分布”或“帕斯卡分布”来描述变量为整数的情况,而使用“波利亚分布”来描述取到实数值的情况。
对于“相关的离散事件”("associated discrete events")的发生,例如龙卷风爆发,相比于泊松分布,波利亚分布由于允许其平均值和方差不同,而能够给出更精确的模型。在流行病学中,它已被用于模拟传染病的疾病传播,其中可能的继发感染数量可能因个体和环境而异[2]。 更一般地说,由于正协方差项,事件具有正相关的事件导致比独立事件更大的方差可能是合适的。
“负二项分布”与“二项分布”的区别在于:“二项分布”是固定试验总次数的独立试验中,成功次数k的分布;而“负二项分布”是所有到r次成功时即终止的独立试验中,失败次数k的分布。
定义
若每次伯努利试验有两种可能的结果,分别为成功或者失败。在每次试验中,成功的概率为 ,失败的概率为 。反复进行该伯努利试验,直到观察到第 次成功发生。此时试验失败次数 的分布即为负二项分布(或称帕斯卡分布),那么:
- 若随机变量 服从参数为 和 的负二项分布,则记为 .
在实际生活中,我们可以使用负二项分布描述某种机器在坏掉前,能够工作的天数的分布。此时,“成功”的事件可以指机器正常工作一天,“失败”的事件可以指机器故障的一天。如果我们使用负二项分布来描述运动员在获取r个奖牌前尝试的次数的分布,此时,“失败”的事件指运动员的一次尝试,“成功”的事件指运动员获取一枚奖牌。如果使用负二项分布来描述掷一枚硬币出现r次正面前,出现硬币反面的次数的分布,“成功”的事件指出现硬币的正面,“失败”的事件指出现硬币的反面。
概率质量函数
帕斯卡分布
当 是整数时的负二项分布又称帕斯卡分布,其概率质量函数为:
其中 是失败的次数, 是成功的次数, 是事件成功的概率。在负二项分布的概率质量函数中,由于 次伯努利试验为独立同分布,每个成功 次、失败 次的事件的概率为 。由于第r次成功一定是最后一次试验,所以应该在 次试验中选择 次成功,使用排列组合二项系数获取所有可能的选择数。
二项系数与负二项名称来源
括号中为二项式系数表达式:
该表达式可以写成带负值参数的二项系数的形式,如下式所示,解释了“负二项”名称的来源:
概率质量函数对所有可能k值求和为1
帕斯卡分布概率质量函数 对所有可能 值求和,一定等于1:
证明如下:
其中第三步用到了二项序列展开。
几何分布
取 ,负二项分布等于几何分布。其概率质量函数为 。
例子
举例说,若我们掷骰子,掷到一即视为成功。则每次掷骰的成功率是 。要掷出三次一,所需的掷骰次数属于集合{ 3, 4, 5, 6, ... }。掷到三次一的掷骰次数是负二项分布的随机变量。要在第三次掷骰时,掷到第三次一,则之前两次都要掷到一,其概率为 。注意掷骰是伯努利试验,之前的结果不影响随后的结果。
若要在第四次掷骰时,掷到第三次一,则之前三次之中要有刚好两次掷到一,在三次掷骰中掷到2次1的概率为 。第四次掷骰要掷到一,所以要将前面的概率再乘 : 。
相关分布
几何分布(在 { 0, 1, 2, 3, ... } 上)是负二项分布的一个特例,其中
- 负二项分布是离散相型分布的一个特例。
- 负二项分布是离散复合泊松分布的一个特例。
参见
- 二项式分布
- 几何分布
参考文献
- ^ DeGroot, Morris H. Probability and Statistics Second. Addison-Wesley. 1986: 258–259. ISBN 0-201-11366-X. LCCN 84006269. OCLC 10605205.
- ^ e.g. J.O. Lloyd-Smith, S.J. Schreiber, P.E. Kopp, and W.M. Getz (2005), Superspreading and the effect of individual variation on disease emergence, Nature, 438, 355–359. doi:10.1038/nature04153
The overdispersion parameter is usually denoted by the letter in epidemiology, rather than as here. - ^ Casella, George; Berger, Roger L. Statistical inference 2nd. Thomson Learning. 2002: 95. ISBN 0-534-24312-6.