泊松分布 (法语:loi de Poisson ;英语:Poisson distribution )又称Poisson分布 、帕松分布 、布瓦松分布 、布阿松分布 、普阿松分布 、波以松分布 、卜氏分布 、帕松小数法则 (Poisson law of small numbers),是一种统计 与概率 学里常见到的离散概率分布 ,由法国 数学家 西莫恩·德尼·泊松 在1838年时发表。
泊松分布
概率质量函数
横轴是索引k ,发生次数。该函数只定义在k 为整数的时候。连接线是只为了指导视觉。
累积分布函数
横轴是索引k ,发生次数。CDF在整数k 处不连续,且在其他任何地方都是水平的,因为服从泊松分布的变量只针对整数值。 参数
λ > 0(实数 ) 值域
k
∈
{
0
,
1
,
2
,
3
,
⋯
}
{\displaystyle k\in \{0,1,2,3,\cdots \}}
概率质量函数
λ
k
k
!
e
−
λ
{\displaystyle {\frac {\lambda ^{k}}{k!}}e^{-\lambda }}
累积分布函数
Γ
(
⌊
k
+
1
⌋
,
λ
)
⌊
k
⌋
!
{\displaystyle {\frac {\Gamma (\lfloor k+1\rfloor ,\lambda )}{\lfloor k\rfloor !}}}
,或
e
−
λ
∑
i
=
0
⌊
k
⌋
λ
i
i
!
{\displaystyle e^{-\lambda }\sum _{i=0}^{\lfloor k\rfloor }{\frac {\lambda ^{i}}{i!}}\ }
,或
Q
(
⌊
k
+
1
⌋
,
λ
)
{\displaystyle Q(\lfloor k+1\rfloor ,\lambda )}
(对于
k
≥
0
{\displaystyle k\geq 0}
,其中
Γ
(
x
,
y
)
{\displaystyle \Gamma (x,y)}
是不完全Γ函数 ,
⌊
k
⌋
{\displaystyle \lfloor k\rfloor }
是高斯符号 ,Q是规则化Γ函数) 期望值
λ
{\displaystyle \lambda }
中位数
≈
⌊
λ
+
1
/
3
−
0.02
/
λ
⌋
{\displaystyle \approx \lfloor \lambda +1/3-0.02/\lambda \rfloor }
众数
⌈
λ
⌉
−
1
,
⌊
λ
⌋
{\displaystyle \lceil \lambda \rceil -1,\lfloor \lambda \rfloor }
方差
λ
{\displaystyle \lambda }
偏度
λ
−
1
/
2
{\displaystyle \lambda ^{-1/2}}
峰度
λ
−
1
{\displaystyle \lambda ^{-1}}
熵
λ
[
1
−
log
(
λ
)
]
+
e
−
λ
∑
k
=
0
∞
λ
k
log
(
k
!
)
k
!
{\displaystyle \lambda [1-\log(\lambda )]+e^{-\lambda }\sum _{k=0}^{\infty }{\frac {\lambda ^{k}\log(k!)}{k!}}}
(假设
λ
{\displaystyle \lambda }
较大)
1
2
log
(
2
π
e
λ
)
−
1
12
λ
−
1
24
λ
2
−
{\displaystyle {\frac {1}{2}}\log(2\pi e\lambda )-{\frac {1}{12\lambda }}-{\frac {1}{24\lambda ^{2}}}-}
19
360
λ
3
+
O
(
1
λ
4
)
{\displaystyle \qquad {\frac {19}{360\lambda ^{3}}}+O\left({\frac {1}{\lambda ^{4}}}\right)}
矩生成函数
exp
(
λ
(
e
t
−
1
)
)
{\displaystyle \exp(\lambda (e^{t}-1))}
特征函数
exp
(
λ
(
e
i
t
−
1
)
)
{\displaystyle \exp(\lambda (e^{it}-1))}
概率母函数
exp
(
λ
(
z
−
1
)
)
{\displaystyle \exp(\lambda (z-1))}
泊松分布适合于描述单位时间内随机事件发生的次数的概率分布。如某一服务设施在一定时间内受到的服务请求的次数,电话 交换机 接到呼叫的次数、汽车站台的候客人数、机器出现的故障数、自然灾害 发生的次数、DNA序列的变异数、放射性原子核的衰变数、激光 的光子数分布等等。
泊松分布的概率质量函数 为:
P
(
X
=
k
)
=
e
−
λ
λ
k
k
!
{\displaystyle P(X=k)={\frac {e^{-\lambda }\lambda ^{k}}{k!}}}
泊松分布的参数
λ
{\displaystyle \lambda }
是随机事件发生次数的数学期望值。
记号
若
X
{\displaystyle X}
服从参数为
λ
{\displaystyle \lambda }
的泊松分布,记为
X
∼
π
(
λ
)
{\displaystyle X\sim \pi (\lambda )}
,或记为
X
∼
P
o
i
s
s
o
n
(
λ
)
{\displaystyle X\sim Poisson(\lambda )}
.
性质
1、服从泊松分布的随机变量 ,其数学期望 与方差 相等,同为参数
λ
{\displaystyle \lambda }
:
E
(
X
)
=
V
(
X
)
=
λ
{\displaystyle E(X)=V(X)=\lambda }
2、两个独立且服从泊松分布的随机变量 ,其和仍然服从泊松分布。更精确地说,若
X
∼
P
o
i
s
s
o
n
(
λ
1
)
{\displaystyle X\sim Poisson(\lambda _{1})}
且
Y
∼
P
o
i
s
s
o
n
(
λ
2
)
{\displaystyle Y\sim Poisson(\lambda _{2})}
,则
X
+
Y
∼
P
o
i
s
s
o
n
(
λ
1
+
λ
2
)
{\displaystyle X+Y\sim Poisson(\lambda _{1}+\lambda _{2})}
。反过来若两个独立随机变量的和服从泊松分布,则这两个随机变量经平移后皆服从泊松分布(Raikov定理 )。
3、其矩母函数 为:
M
X
(
t
)
=
E
[
e
t
X
]
=
∑
x
=
0
∞
e
t
x
e
−
λ
λ
x
x
!
=
e
−
λ
∑
x
=
0
∞
(
e
t
λ
)
x
x
!
=
e
λ
(
e
t
−
1
)
{\displaystyle M_{X}(t)=E[e^{tX}]=\sum _{x=0}^{\infty }e^{tx}{\frac {e^{-\lambda }\lambda ^{x}}{x!}}=e^{-\lambda }\sum _{x=0}^{\infty }{\frac {({e^{t}}\lambda )^{x}}{x!}}=e^{{\lambda }(e^{t}-1)}}
推导
期望值:(倒数第三至第二是使用泰勒展开式 )
E
(
X
)
=
∑
i
=
0
∞
i
P
(
X
=
i
)
=
∑
i
=
1
∞
i
e
−
λ
λ
i
i
!
=
λ
e
−
λ
∑
i
=
1
∞
λ
i
−
1
(
i
−
1
)
!
=
λ
e
−
λ
∑
i
=
0
∞
λ
i
i
!
=
λ
e
−
λ
e
λ
=
λ
{\displaystyle {\begin{aligned}\mathrm {E} (X)&=\sum _{i=0}^{\infty }\displaystyle iP(X=i)\\&=\sum _{i=1}^{\infty }\displaystyle i{e^{-\lambda }\lambda ^{i} \over i!}\\&=\lambda e^{-\lambda }\sum _{i=1}^{\infty }\displaystyle {\lambda ^{i-1} \over (i-1)!}\\&=\lambda e^{-\lambda }\sum _{i=0}^{\infty }\displaystyle {\lambda ^{i} \over i!}\\&=\lambda e^{-\lambda }e^{\lambda }\\&=\lambda \end{aligned}}}
E
(
X
2
)
=
∑
i
=
0
∞
i
2
P
(
X
=
i
)
=
∑
i
=
1
∞
i
2
e
−
λ
λ
i
i
!
=
λ
e
−
λ
∑
i
=
1
∞
i
λ
i
−
1
(
i
−
1
)
!
=
λ
e
−
λ
∑
i
=
1
∞
1
(
i
−
1
)
!
d
d
λ
(
λ
i
)
=
λ
e
−
λ
d
d
λ
[
∑
i
=
1
∞
λ
i
(
i
−
1
)
!
]
=
λ
e
−
λ
d
d
λ
[
λ
∑
i
=
1
∞
λ
i
−
1
(
i
−
1
)
!
]
=
λ
e
−
λ
d
d
λ
(
λ
e
λ
)
=
λ
e
−
λ
(
e
λ
+
λ
e
λ
)
=
λ
+
λ
2
{\displaystyle {\begin{aligned}\mathrm {E} (X^{2})&=\sum _{i=0}^{\infty }\displaystyle i^{2}P(X=i)\\&=\sum _{i=1}^{\infty }\displaystyle i^{2}{e^{-\lambda }\lambda ^{i} \over i!}\\&=\lambda e^{-\lambda }\sum _{i=1}^{\infty }\displaystyle {i\lambda ^{i-1} \over (i-1)!}\\&=\lambda e^{-\lambda }\sum _{i=1}^{\infty }\displaystyle {1 \over (i-1)!}{d \over d\lambda }(\lambda ^{i})\\&=\lambda e^{-\lambda }{d \over d\lambda }\left[\sum _{i=1}^{\infty }\displaystyle {\lambda ^{i} \over (i-1)!}\right]\\&=\lambda e^{-\lambda }{d \over d\lambda }\left[\lambda \sum _{i=1}^{\infty }\displaystyle {\lambda ^{i-1} \over (i-1)!}\right]\\&=\lambda e^{-\lambda }{d \over d\lambda }(\lambda e^{\lambda })=\lambda e^{-\lambda }(e^{\lambda }+\lambda e^{\lambda })=\lambda +\lambda ^{2}\end{aligned}}}
我们可以得到:
V
a
r
(
X
)
=
(
λ
+
λ
2
)
−
λ
2
=
λ
{\displaystyle Var(X)=(\lambda +\lambda ^{2})-\lambda ^{2}=\lambda }
如同性质:
E
(
X
)
=
V
a
r
(
X
)
=
λ
{\displaystyle E(X)=Var(X)=\lambda }
、
σ
X
=
λ
{\displaystyle \sigma _{X}={\sqrt {\lambda }}}
泊松分布的来源(泊松小数定律)
在二项分布 的伯努利试验 中,如果试验次数
n
{\displaystyle n}
很大,二项分布的概率
p
{\displaystyle p}
很小,且乘积
λ
=
n
p
{\displaystyle \lambda =np}
比较适中,则事件出现的次数的概率可以用泊松分布来逼近。事实上,二项分布可以看作泊松分布在离散时间上的对应物。
证明如下。首先,回顾自然对数
e
{\displaystyle e}
的定义:
lim
n
→
∞
(
1
−
λ
n
)
n
=
e
−
λ
,
{\displaystyle \lim _{n\to \infty }\left(1-{\lambda \over n}\right)^{n}=e^{-\lambda },}
二项分布的定义:
P
(
X
=
k
)
=
(
n
k
)
p
k
(
1
−
p
)
n
−
k
{\displaystyle P(X=k)={n \choose k}p^{k}(1-p)^{n-k}}
。如果令
p
=
λ
n
{\displaystyle p={\frac {\lambda }{n}}}
,
n
{\displaystyle n}
趋于无穷时
P
{\displaystyle P}
的极限:
lim
n
→
∞
P
(
X
=
k
)
=
lim
n
→
∞
(
n
k
)
p
k
(
1
−
p
)
n
−
k
=
lim
n
→
∞
n
!
(
n
−
k
)
!
k
!
(
λ
n
)
k
(
1
−
λ
n
)
n
−
k
=
lim
n
→
∞
[
n
!
n
k
(
n
−
k
)
!
]
⏟
F
(
λ
k
k
!
)
(
1
−
λ
n
)
n
⏟
→
exp
(
−
λ
)
(
1
−
λ
n
)
−
k
⏟
→
1
=
lim
n
→
∞
[
(
1
−
1
n
)
(
1
−
2
n
)
…
(
1
−
k
−
1
n
)
]
⏟
→
1
(
λ
k
k
!
)
(
1
−
λ
n
)
n
⏟
→
exp
(
−
λ
)
(
1
−
λ
n
)
−
k
⏟
→
1
=
(
λ
k
k
!
)
exp
(
−
λ
)
{\displaystyle {\begin{aligned}\lim _{n\to \infty }P(X=k)&=\lim _{n\to \infty }{n \choose k}p^{k}(1-p)^{n-k}\\&=\lim _{n\to \infty }{n! \over (n-k)!k!}\left({\lambda \over n}\right)^{k}\left(1-{\lambda \over n}\right)^{n-k}\\&=\lim _{n\to \infty }\underbrace {\left[{\frac {n!}{n^{k}\left(n-k\right)!}}\right]} _{F}\left({\frac {\lambda ^{k}}{k!}}\right)\underbrace {\left(1-{\frac {\lambda }{n}}\right)^{n}} _{\to \exp \left(-\lambda \right)}\underbrace {\left(1-{\frac {\lambda }{n}}\right)^{-k}} _{\to 1}\\&=\lim _{n\to \infty }\underbrace {\left[\left(1-{\frac {1}{n}}\right)\left(1-{\frac {2}{n}}\right)\ldots \left(1-{\frac {k-1}{n}}\right)\right]} _{\to 1}\left({\frac {\lambda ^{k}}{k!}}\right)\underbrace {\left(1-{\frac {\lambda }{n}}\right)^{n}} _{\to \exp \left(-\lambda \right)}\underbrace {\left(1-{\frac {\lambda }{n}}\right)^{-k}} _{\to 1}\\&=\left({\frac {\lambda ^{k}}{k!}}\right)\exp \left(-\lambda \right)\end{aligned}}}
最大似然估计(MLE)
给定
n
{\displaystyle n}
个样本值
k
i
{\displaystyle k_{i}}
,希望得到从中推测出总体的泊松分布参数
λ
{\displaystyle \lambda }
的估计。为计算最大似然估计 值,列出对数似然函数:
L
(
λ
)
=
ln
∏
i
=
1
n
f
(
k
i
∣
λ
)
=
∑
i
=
1
n
ln
(
e
−
λ
λ
k
i
k
i
!
)
=
−
n
λ
+
(
∑
i
=
1
n
k
i
)
ln
(
λ
)
−
∑
i
=
1
n
ln
(
k
i
!
)
.
{\displaystyle {\begin{aligned}L(\lambda )&=\ln \prod _{i=1}^{n}f(k_{i}\mid \lambda )\\&=\sum _{i=1}^{n}\ln \!\left({\frac {e^{-\lambda }\lambda ^{k_{i}}}{k_{i}!}}\right)\\&=-n\lambda +\left(\sum _{i=1}^{n}k_{i}\right)\ln(\lambda )-\sum _{i=1}^{n}\ln(k_{i}!).\end{aligned}}}
d
d
λ
L
(
λ
)
=
0
⟺
−
n
+
(
∑
i
=
1
n
k
i
)
1
λ
=
0.
{\displaystyle {\frac {\mathrm {d} }{\mathrm {d} \lambda }}L(\lambda )=0\iff -n+\left(\sum _{i=1}^{n}k_{i}\right){\frac {1}{\lambda }}=0.\!}
解得λ 从而得到一个驻点 (stationary point):
λ
^
M
L
E
=
1
n
∑
i
=
1
n
k
i
.
{\displaystyle {\widehat {\lambda }}_{\mathrm {MLE} }={\frac {1}{n}}\sum _{i=1}^{n}k_{i}.\!}
检查函数
L
{\displaystyle L}
的二阶导数,发现对所有的
λ
{\displaystyle \lambda }
与
k
i
{\displaystyle k_{i}}
大于零的情况二阶导数都为负。因此求得的驻点是对数似然函数
L
{\displaystyle L}
的极大值点:
∂
2
L
∂
λ
2
=
∑
i
=
1
n
−
λ
−
2
k
i
{\displaystyle {\frac {\partial ^{2}L}{\partial \lambda ^{2}}}=\sum _{i=1}^{n}-\lambda ^{-2}k_{i}}
例子
对某公共汽车站的客流做调查,统计了某天上午10:30到11:47来到候车的乘客情况。假定来到候车的乘客各批(每批可以是1人也可以是多人)是互相独立发生的。观察每20秒区间来到候车的乘客批次,共观察77分钟*3=231次,共得到230个观察记录。其中来到0批、1批、2批、3批、4批及4批以上的观察记录分别是100次、81次、34次、9次、6次。使用极大似真估计(MLE),得到
λ
{\displaystyle \lambda }
的估计为
81
×
1
+
34
×
2
+
9
×
3
+
6
×
4
230
≈
0.87
{\displaystyle {\frac {81\times 1+34\times 2+9\times 3+6\times 4}{230}}\approx 0.87}
。
生成泊松分布的随机变量
一个用来生成随机泊松分布的数字(伪随机数抽样)的简单算法,已经由高德纳 给出(见下文参考):
algorithm poisson random number (Knuth) :
init :
Let L ← e −λ , k ← 0 and p ← 1.
do :
k ← k + 1.
Generate uniform random number u in [0,1] and let p ← p×u.
while p > L.
return k − 1.
尽管简单,但复杂度是线性的,在返回的值
k
{\displaystyle k}
,平均是
λ
{\displaystyle \lambda }
。还有许多其他算法来克服这一点。有些人由Ahrens和Dieter给出,请参阅下面的参考资料。同样,对于较大的
λ
{\displaystyle \lambda }
值,
e
−
λ
{\displaystyle e^{-\lambda }}
可能导致数值稳定性问题。对于较大
λ
{\displaystyle \lambda }
值的一种解决方案是拒绝采样 ,另一种是采用泊松分布的高斯近似。
对于很小的
λ
{\displaystyle \lambda }
值,逆变换取样简单而且高效,每个样本只需要一个均匀随机数u。直到有超过
u
{\displaystyle u}
的样本,才需要检查累积概率。
algorithm Poisson generator based upon the inversion by sequential search :[1]
init :
Let x ← 0, p ← e −λ , s ← p.
Generate uniform random number u in [0,1].
do :
x ← x + 1.
p ← p * λ / x.
s ← s + p.
while u > s.
return x.
参见 参考文献
引用
来源
Guerriero V. Power Law Distribution: Method of Multi-scale Inferential Statistics . Journal of Modern Mathematics Frontier (JMMF). 2012, 1 : 21–28 [2017-10-30 ] . (原始内容 存档于2018-02-21).
Joachim H. Ahrens, Ulrich Dieter. Computer Methods for Sampling from Gamma, Beta, Poisson and Binomial Distributions. Computing. 1974, 12 (3): 223–246. doi:10.1007/BF02293108 .
Joachim H. Ahrens, Ulrich Dieter. Computer Generation of Poisson Deviates . ACM Transactions on Mathematical Software. 1982, 8 (2): 163–179. doi:10.1145/355993.355997 .
Ronald J. Evans, J. Boersma, N. M. Blachman, A. A. Jagers. The Entropy of a Poisson Distribution: Problem 87-6. SIAM Review. 1988, 30 (2): 314–317. doi:10.1137/1030059 .
Donald E. Knuth. Seminumerical Algorithms. The Art of Computer Programming. Volume 2. Addison Wesley . 1969.