泊松分布

**泊松分布**
	概率质量函数; 横轴是索引k，发生次数。该函数只定义在k为整数的时候。连接线是只为了指导视觉。
	累积分布函数; 横轴是索引k，发生次数。CDF在整数k处不连续，且在其他任何地方都是水平的，因为服从泊松分布的变量只针对整数值。
参数	λ > 0（实数）
值域
概率质量函数
累积分布函数	，或，或 (对于，其中是不完全Γ函数，是高斯符号，Q是规则化Γ函数)
期望值
中位数
众数
方差
偏度
峰度
熵	（假设较大） ;
矩生成函数
特征函数
概率母函数

泊松分布（法语：loi de Poisson；英语：Poisson distribution）又称Poisson分布、帕松分布、布瓦松分布、布阿松分布、普阿松分布、波以松分布、卜氏分布、帕松小数法则（Poisson law of small numbers），是一种统计与概率学里常见到的离散概率分布，由法国数学家西莫恩·德尼·泊松在1838年时发表。

泊松分布适合于描述单位时间内随机事件发生的次数的概率分布。如某一服务设施在一定时间内受到的服务请求的次数，电话交换机接到呼叫的次数、汽车站台的候客人数、机器出现的故障数、自然灾害发生的次数、DNA序列的变异数、放射性原子核的衰变数、激光的光子数分布等等。

泊松分布的概率质量函数为：

P(X=k)={\frac {e^{-\lambda }\lambda ^{k}}{k!}}

泊松分布的参数 $\lambda$ 是随机事件发生次数的数学期望值。

记号

若 $X$ 服从参数为 $\lambda$ 的泊松分布，记为 $X\sim \pi (\lambda )$ ，或记为 $X\sim Poisson(\lambda )$ .

性质

1、服从泊松分布的随机变量，其数学期望与方差相等，同为参数 $\lambda$ : $E(X)=V(X)=\lambda$

2、两个独立且服从泊松分布的随机变量，其和仍然服从泊松分布。更精确地说，若 $X\sim Poisson(\lambda _{1})$ 且 $Y\sim Poisson(\lambda _{2})$ ，则 $X+Y\sim Poisson(\lambda _{1}+\lambda _{2})$ 。反过来若两个独立随机变量的和服从泊松分布，则这两个随机变量经平移后皆服从泊松分布（Raikov定理（英语：Raikov's theorem））。

3、其矩母函数为：

M_{X}(t)=E[e^{tX}]=\sum _{x=0}^{\infty }e^{tx}{\frac {e^{-\lambda }\lambda ^{x}}{x!}}=e^{-\lambda }\sum _{x=0}^{\infty }{\frac {({e^{t}}\lambda )^{x}}{x!}}=e^{{\lambda }(e^{t}-1)}

推导

期望值：(倒数第三至第二是使用泰勒展开式)

${\begin{aligned}\mathrm {E} (X)&=\sum _{i=0}^{\infty }\displaystyle iP(X=i)\\&=\sum _{i=1}^{\infty }\displaystyle i{e^{-\lambda }\lambda ^{i} \over i!}\\&=\lambda e^{-\lambda }\sum _{i=1}^{\infty }\displaystyle {\lambda ^{i-1} \over (i-1)!}\\&=\lambda e^{-\lambda }\sum _{i=0}^{\infty }\displaystyle {\lambda ^{i} \over i!}\\&=\lambda e^{-\lambda }e^{\lambda }\\&=\lambda \end{aligned}}$

${\begin{aligned}\mathrm {E} (X^{2})&=\sum _{i=0}^{\infty }\displaystyle i^{2}P(X=i)\\&=\sum _{i=1}^{\infty }\displaystyle i^{2}{e^{-\lambda }\lambda ^{i} \over i!}\\&=\lambda e^{-\lambda }\sum _{i=1}^{\infty }\displaystyle {i\lambda ^{i-1} \over (i-1)!}\\&=\lambda e^{-\lambda }\sum _{i=1}^{\infty }\displaystyle {1 \over (i-1)!}{d \over d\lambda }(\lambda ^{i})\\&=\lambda e^{-\lambda }{d \over d\lambda }\left[\sum _{i=1}^{\infty }\displaystyle {\lambda ^{i} \over (i-1)!}\right]\\&=\lambda e^{-\lambda }{d \over d\lambda }\left[\lambda \sum _{i=1}^{\infty }\displaystyle {\lambda ^{i-1} \over (i-1)!}\right]\\&=\lambda e^{-\lambda }{d \over d\lambda }(\lambda e^{\lambda })=\lambda e^{-\lambda }(e^{\lambda }+\lambda e^{\lambda })=\lambda +\lambda ^{2}\end{aligned}}$

我们可以得到： $Var(X)=(\lambda +\lambda ^{2})-\lambda ^{2}=\lambda$

如同性质： $E(X)=Var(X)=\lambda$ 、 $\sigma _{X}={\sqrt {\lambda }}$

泊松分布的来源（泊松小数定律）

在二项分布的伯努利试验中，如果试验次数 $n$ 很大，二项分布的概率 $p$ 很小，且乘积 $\lambda =np$ 比较适中，则事件出现的次数的概率可以用泊松分布来逼近。事实上，二项分布可以看作泊松分布在离散时间上的对应物。

证明如下。首先，回顾自然对数 $e$ 的定义：

\lim _{n\to \infty }\left(1-{\lambda  \over n}\right)^{n}=e^{-\lambda },

二项分布的定义：

P(X=k)={n \choose k}p^{k}(1-p)^{n-k}

。

如果令 $p={\frac {\lambda }{n}}$ ， $n$ 趋于无穷时 $P$ 的极限：

{\begin{aligned}\lim _{n\to \infty }P(X=k)&=\lim _{n\to \infty }{n \choose k}p^{k}(1-p)^{n-k}\\&=\lim _{n\to \infty }{n! \over (n-k)!k!}\left({\lambda  \over n}\right)^{k}\left(1-{\lambda  \over n}\right)^{n-k}\\&=\lim _{n\to \infty }\underbrace {\left[{\frac {n!}{n^{k}\left(n-k\right)!}}\right]} _{F}\left({\frac {\lambda ^{k}}{k!}}\right)\underbrace {\left(1-{\frac {\lambda }{n}}\right)^{n}} _{\to \exp \left(-\lambda \right)}\underbrace {\left(1-{\frac {\lambda }{n}}\right)^{-k}} _{\to 1}\\&=\lim _{n\to \infty }\underbrace {\left[\left(1-{\frac {1}{n}}\right)\left(1-{\frac {2}{n}}\right)\ldots \left(1-{\frac {k-1}{n}}\right)\right]} _{\to 1}\left({\frac {\lambda ^{k}}{k!}}\right)\underbrace {\left(1-{\frac {\lambda }{n}}\right)^{n}} _{\to \exp \left(-\lambda \right)}\underbrace {\left(1-{\frac {\lambda }{n}}\right)^{-k}} _{\to 1}\\&=\left({\frac {\lambda ^{k}}{k!}}\right)\exp \left(-\lambda \right)\end{aligned}}

最大似然估计（MLE）

给定 $n$ 个样本值 $k_{i}$ ，希望得到从中推测出总体的泊松分布参数 $\lambda$ 的估计。为计算最大似然估计值，列出对数似然函数：

{\begin{aligned}L(\lambda )&=\ln \prod _{i=1}^{n}f(k_{i}\mid \lambda )\\&=\sum _{i=1}^{n}\ln \!\left({\frac {e^{-\lambda }\lambda ^{k_{i}}}{k_{i}!}}\right)\\&=-n\lambda +\left(\sum _{i=1}^{n}k_{i}\right)\ln(\lambda )-\sum _{i=1}^{n}\ln(k_{i}!).\end{aligned}}

{\frac {\mathrm {d} }{\mathrm {d} \lambda }}L(\lambda )=0\iff -n+\left(\sum _{i=1}^{n}k_{i}\right){\frac {1}{\lambda }}=0.\!

解得λ从而得到一个驻点（stationary point）：

{\widehat {\lambda }}_{\mathrm {MLE} }={\frac {1}{n}}\sum _{i=1}^{n}k_{i}.\!

检查函数 $L$ 的二阶导数，发现对所有的 $\lambda$ 与 $k_{i}$ 大于零的情况二阶导数都为负。因此求得的驻点是对数似然函数 $L$ 的极大值点：

{\frac {\partial ^{2}L}{\partial \lambda ^{2}}}=\sum _{i=1}^{n}-\lambda ^{-2}k_{i}

例子

对某公共汽车站的客流做调查，统计了某天上午10:30到11:47来到候车的乘客情况。假定来到候车的乘客各批（每批可以是1人也可以是多人）是互相独立发生的。观察每20秒区间来到候车的乘客批次，共观察77分钟*3=231次，共得到230个观察记录。其中来到0批、1批、2批、3批、4批及4批以上的观察记录分别是100次、81次、34次、9次、6次。使用极大似真估计（MLE），得到 $\lambda$ 的估计为 ${\frac {81\times 1+34\times 2+9\times 3+6\times 4}{230}}\approx 0.87$ 。

生成泊松分布的随机变量

一个用来生成随机泊松分布的数字（伪随机数抽样）的简单算法，已经由高德纳给出（见下文参考）：

algorithm poisson random number (Knuth):
    init:
         Let L ← e^−λ, k ← 0 and p ← 1.
    do:
         k ← k + 1.
         Generate uniform random number u in [0,1] and let p ← p×u.
    while p > L.
    return k − 1.

尽管简单，但复杂度是线性的，在返回的值 $k$ ，平均是 $\lambda$ 。还有许多其他算法来克服这一点。有些人由Ahrens和Dieter给出，请参阅下面的参考资料。同样，对于较大的 $\lambda$ 值， $e^{-\lambda }$ 可能导致数值稳定性问题。对于较大 $\lambda$ 值的一种解决方案是拒绝采样，另一种是采用泊松分布的高斯近似。

对于很小的 $\lambda$ 值，逆变换取样简单而且高效，每个样本只需要一个均匀随机数u。直到有超过 $u$ 的样本，才需要检查累积概率。

algorithm Poisson generator based upon the inversion by sequential search:^[1]
    init:
         Let x ← 0, p ← e^−λ, s ← p.
         Generate uniform random number u in [0,1].
    do:
         x ← x + 1.
         p ← p * λ / x.
         s ← s + p.
    while u > s.
    return x.

参见

泊松过程
概率论
泊松回归
概率分布

参考文献

引用

^ Luc Devroye, Non-Uniform Random Variate Generation（Springer-Verlag, New York, 1986）, chapter 10, page 505 http://luc.devroye.org/rnbookindex.html （页面存档备份，存于互联网档案馆）

来源

Guerriero V. Power Law Distribution: Method of Multi-scale Inferential Statistics. Journal of Modern Mathematics Frontier (JMMF). 2012, 1: 21–28 [2017-10-30]. （原始内容存档于2018-02-21）.
Joachim H. Ahrens, Ulrich Dieter. Computer Methods for Sampling from Gamma, Beta, Poisson and Binomial Distributions. Computing. 1974, 12 (3): 223–246. doi:10.1007/BF02293108.
Joachim H. Ahrens, Ulrich Dieter. Computer Generation of Poisson Deviates. ACM Transactions on Mathematical Software. 1982, 8 (2): 163–179. doi:10.1145/355993.355997.
Ronald J. Evans, J. Boersma, N. M. Blachman, A. A. Jagers. The Entropy of a Poisson Distribution: Problem 87-6. SIAM Review. 1988, 30 (2): 314–317. doi:10.1137/1030059.
Donald E. Knuth. Seminumerical Algorithms. The Art of Computer Programming. Volume 2. Addison Wesley. 1969.

[1] Luc Devroye, Non-Uniform Random Variate Generation（Springer-Verlag, New York, 1986）, chapter 10, page 505 http://luc.devroye.org/rnbookindex.html （页面存档备份，存于互联网档案馆）

[1]

概率质量函数横轴是索引k，发生次数。该函数只定义在k为整数的时候。连接线是只为了指导视觉。
累积分布函数横轴是索引k，发生次数。CDF在整数k处不连续，且在其他任何地方都是水平的，因为服从泊松分布的变量只针对整数值。
参数	λ > 0（实数）
值域	$k\in \{0,1,2,3,\cdots \}$
概率质量函数	${\frac {\lambda ^{k}}{k!}}e^{-\lambda }$
累积分布函数	${\frac {\Gamma (\lfloor k+1\rfloor ,\lambda )}{\lfloor k\rfloor !}}$ ，或 $e^{-\lambda }\sum _{i=0}^{\lfloor k\rfloor }{\frac {\lambda ^{i}}{i!}}\$ ，或 $Q(\lfloor k+1\rfloor ,\lambda )$ (对于 $k\geq 0$ ，其中 $\Gamma (x,y)$ 是不完全Γ函数， $\lfloor k\rfloor$ 是高斯符号，Q是规则化Γ函数)
期望值	$\lambda$
中位数	$\approx \lfloor \lambda +1/3-0.02/\lambda \rfloor$
众数	$\lceil \lambda \rceil -1,\lfloor \lambda \rfloor$
方差	$\lambda$
偏度	$\lambda ^{-1/2}$
峰度	$\lambda ^{-1}$
熵	$\lambda [1-\log(\lambda )]+e^{-\lambda }\sum _{k=0}^{\infty }{\frac {\lambda ^{k}\log(k!)}{k!}}$ （假设 $\lambda$ 较大） ${\frac {1}{2}}\log(2\pi e\lambda )-{\frac {1}{12\lambda }}-{\frac {1}{24\lambda ^{2}}}-$ $\qquad {\frac {19}{360\lambda ^{3}}}+O\left({\frac {1}{\lambda ^{4}}}\right)$
矩生成函数	$\exp(\lambda (e^{t}-1))$
特征函数	$\exp(\lambda (e^{it}-1))$
概率母函数	$\exp(\lambda (z-1))$