在统计学 与概率论 中,协方差 矩阵 (也称离差矩阵 、方差-协方差矩阵 )是一个矩阵,其 i , j 位置的元素是第 i 个与第 j 个随机变量 之间的协方差 。这是从标量随机变量 到高维度随机向量 的自然推广。
中心为 (0, 0) 的一个
二元高斯概率密度函数 ,协方差矩阵为 [ 1.00, 0.50 ; 0.50, 1.00 ]。
一个左下右上方向标准差为 3,正交方向标准差为 1 的
多元高斯分布 的样本点。由于
x 和
y 分量共变(即相关),
x 与
y 的方差不能完全描述该分布;箭头的方向对应的协方差矩阵的特征向量,其长度为
特征值 的平方根。
定义
假设
X
{\displaystyle X}
是以
n
{\displaystyle n}
个随机变量组成的行向量 ,
X
=
[
X
1
X
2
⋮
X
n
]
{\displaystyle \mathbf {X} ={\begin{bmatrix}X_{1}\\X_{2}\\\vdots \\X_{n}\end{bmatrix}}}
并且
μ
i
{\displaystyle \mu _{i}}
是
X
i
{\displaystyle X_{i}}
的期望值 ,即,
μ
i
=
E
(
X
i
)
{\displaystyle \mu _{i}=\mathrm {E} (X_{i})}
。协方差矩阵的第
(
i
,
j
)
{\displaystyle (i,j)}
项(第
(
i
,
j
)
{\displaystyle (i,j)}
项是一个协方差)被定义为如下形式:
Σ
i
j
=
c
o
v
(
X
i
,
X
j
)
=
E
[
(
X
i
−
μ
i
)
(
X
j
−
μ
j
)
]
{\displaystyle \Sigma _{ij}=\mathrm {cov} (X_{i},X_{j})=\mathrm {E} {\begin{bmatrix}(X_{i}-\mu _{i})(X_{j}-\mu _{j})\end{bmatrix}}}
而协方差矩阵为:
Σ
=
E
[
(
X
−
E
[
X
]
)
(
X
−
E
[
X
]
)
T
]
{\displaystyle \Sigma =\mathrm {E} \left[\left(\mathbf {X} -\mathrm {E} [\mathbf {X} ]\right)\left(\mathbf {X} -\mathrm {E} [\mathbf {X} ]\right)^{\rm {T}}\right]}
=
[
E
[
(
X
1
−
μ
1
)
(
X
1
−
μ
1
)
]
E
[
(
X
1
−
μ
1
)
(
X
2
−
μ
2
)
]
⋯
E
[
(
X
1
−
μ
1
)
(
X
n
−
μ
n
)
]
E
[
(
X
2
−
μ
2
)
(
X
1
−
μ
1
)
]
E
[
(
X
2
−
μ
2
)
(
X
2
−
μ
2
)
]
⋯
E
[
(
X
2
−
μ
2
)
(
X
n
−
μ
n
)
]
⋮
⋮
⋱
⋮
E
[
(
X
n
−
μ
n
)
(
X
1
−
μ
1
)
]
E
[
(
X
n
−
μ
n
)
(
X
2
−
μ
2
)
]
⋯
E
[
(
X
n
−
μ
n
)
(
X
n
−
μ
n
)
]
]
{\displaystyle ={\begin{bmatrix}\mathrm {E} [(X_{1}-\mu _{1})(X_{1}-\mu _{1})]&\mathrm {E} [(X_{1}-\mu _{1})(X_{2}-\mu _{2})]&\cdots &\mathrm {E} [(X_{1}-\mu _{1})(X_{n}-\mu _{n})]\\\\\mathrm {E} [(X_{2}-\mu _{2})(X_{1}-\mu _{1})]&\mathrm {E} [(X_{2}-\mu _{2})(X_{2}-\mu _{2})]&\cdots &\mathrm {E} [(X_{2}-\mu _{2})(X_{n}-\mu _{n})]\\\\\vdots &\vdots &\ddots &\vdots \\\\\mathrm {E} [(X_{n}-\mu _{n})(X_{1}-\mu _{1})]&\mathrm {E} [(X_{n}-\mu _{n})(X_{2}-\mu _{2})]&\cdots &\mathrm {E} [(X_{n}-\mu _{n})(X_{n}-\mu _{n})]\end{bmatrix}}}
矩阵中的第
(
i
,
j
)
{\displaystyle (i,j)}
个元素是
X
i
{\displaystyle X_{i}}
与
X
j
{\displaystyle X_{j}}
的协方差。这个概念是对于标量 随机变量 方差 的一般化推广。
术语与符号分歧
协方差矩阵有不同的术语。有些统计学家,沿用了概率学家威廉·费勒 的说法,把这个矩阵称之为随机向量
X
{\displaystyle X}
的方差 (Variance of random vector X),这是从一维随机变量方差到高维随机向量的自然推广。另外一些则把它称为协方差矩阵 (Covariance matrix),因为它是随机向量里头每个标量元素的协方差的矩阵(或者说它是多维随机变量各维度两两之间的协方差组合而成的矩阵)。不幸的是,这两种术语带来了一定程度上的冲突:
随机向量
X
{\displaystyle X}
的方差(Variance of random vector X)定义有如下两种形式:
var
(
X
)
=
cov
(
X
,
X
)
=
E
[
(
X
−
E
[
X
]
)
(
X
−
E
[
X
]
)
T
]
.
{\displaystyle \operatorname {var} (\mathbf {X} )=\operatorname {cov} (\mathbf {X} ,\mathbf {X} )=\mathrm {E} \left[(\mathbf {X} -\mathrm {E} [\mathbf {X} ])(\mathbf {X} -\mathrm {E} [\mathbf {X} ])^{\rm {T}}\right].}
协方差矩阵(Covariance matrix)定义如下:
cov
(
X
,
Y
)
=
E
[
(
X
−
E
[
X
]
)
(
Y
−
E
[
Y
]
)
⊤
]
{\displaystyle \operatorname {cov} ({\textbf {X}},{\textbf {Y}})=\mathrm {E} \left[({\textbf {X}}-\mathrm {E} [{\textbf {X}}])({\textbf {Y}}-\mathrm {E} [{\textbf {Y}}])^{\top }\right]}
第一个记号可以在威廉·费勒 的广受推崇的两册概率论及其应用的书中找到。两个术语除了记法之外并没有不同。
性质
Σ
=
E
[
(
X
−
E
[
X
]
)
(
X
−
E
[
X
]
)
⊤
]
{\displaystyle \Sigma =\mathrm {E} \left[\left({\textbf {X}}-\mathrm {E} [{\textbf {X}}]\right)\left({\textbf {X}}-\mathrm {E} [{\textbf {X}}]\right)^{\top }\right]}
与
μ
=
E
(
X
)
{\displaystyle \mu =\mathrm {E} ({\textbf {X}})}
满足下边的基本性质:
Σ
=
E
(
X
X
⊤
)
−
μ
μ
⊤
{\displaystyle \Sigma =\mathrm {E} (\mathbf {XX^{\top }} )-\mathbf {\mu } \mathbf {\mu ^{\top }} }
Σ
{\displaystyle \Sigma }
是半正定 的和对称 的矩阵。
var
(
a
⊤
X
)
=
a
⊤
var
(
X
)
a
{\displaystyle \operatorname {var} (\mathbf {a^{\top }} \mathbf {X} )=\mathbf {a^{\top }} \operatorname {var} (\mathbf {X} )\mathbf {a} }
Σ
≥
0
{\displaystyle \mathbf {\Sigma } \geq 0}
var
(
A
X
+
a
)
=
A
var
(
X
)
A
⊤
{\displaystyle \operatorname {var} (\mathbf {AX} +\mathbf {a} )=\mathbf {A} \operatorname {var} (\mathbf {X} )\mathbf {A^{\top }} }
cov
(
X
,
Y
)
=
cov
(
Y
,
X
)
⊤
{\displaystyle \operatorname {cov} (\mathbf {X} ,\mathbf {Y} )=\operatorname {cov} (\mathbf {Y} ,\mathbf {X} )^{\top }}
cov
(
X
1
+
X
2
,
Y
)
=
cov
(
X
1
,
Y
)
+
cov
(
X
2
,
Y
)
{\displaystyle \operatorname {cov} (\mathbf {X_{1}} +\mathbf {X_{2}} ,\mathbf {Y} )=\operatorname {cov} (\mathbf {X_{1}} ,\mathbf {Y} )+\operatorname {cov} (\mathbf {X_{2}} ,\mathbf {Y} )}
若
p
=
q
{\displaystyle p=q}
,则有
var
(
X
+
Y
)
=
var
(
X
)
+
cov
(
X
,
Y
)
+
cov
(
Y
,
X
)
+
var
(
Y
)
{\displaystyle \operatorname {var} (\mathbf {X} +\mathbf {Y} )=\operatorname {var} (\mathbf {X} )+\operatorname {cov} (\mathbf {X} ,\mathbf {Y} )+\operatorname {cov} (\mathbf {Y} ,\mathbf {X} )+\operatorname {var} (\mathbf {Y} )}
cov
(
A
X
,
B
X
)
=
A
cov
(
X
,
X
)
B
⊤
{\displaystyle \operatorname {cov} (\mathbf {AX} ,\mathbf {BX} )=\mathbf {A} \operatorname {cov} (\mathbf {X} ,\mathbf {X} )\mathbf {B} ^{\top }}
若
X
{\displaystyle \mathbf {X} }
与
Y
{\displaystyle \mathbf {Y} }
是独立的,则有
cov
(
X
,
Y
)
=
0
{\displaystyle \operatorname {cov} (\mathbf {X} ,\mathbf {Y} )=0}
Σ
=
Σ
⊤
{\displaystyle \Sigma =\Sigma ^{\top }}
其中
X
,
X
1
{\displaystyle \mathbf {X} ,\mathbf {X_{1}} }
与
X
2
{\displaystyle \mathbf {X_{2}} }
是随机
(
p
×
1
)
{\displaystyle \mathbf {(p\times 1)} }
向量,
Y
{\displaystyle \mathbf {Y} }
是随机
(
q
×
1
)
{\displaystyle \mathbf {(q\times 1)} }
向量,
a
{\displaystyle \mathbf {a} }
是
(
p
×
1
)
{\displaystyle \mathbf {(p\times 1)} }
向量,
A
{\displaystyle \mathbf {A} }
与
B
{\displaystyle \mathbf {B} }
是
(
q
×
p
)
{\displaystyle \mathbf {(q\times p)} }
矩阵。
尽管协方差矩阵很简单,可它却是很多领域里的非常有力的工具。它能导出一个变换矩阵 ,这个矩阵能使数据完全去相关(decorrelation)。从不同的角度看,也就是说能够找出一组最佳的基以紧凑的方式来表达数据。(完整的证明请参考瑞利商 )。
这个方法在统计学中被称为主成分分析 (principal components analysis),在图像处理中称为Karhunen-Loève 变换(KL-变换)。
复随机向量
均值为
μ
{\displaystyle \mu }
的复随机标量变量的方差定义如下(使用共轭复数 ):
var
(
z
)
=
E
[
(
z
−
μ
)
(
z
−
μ
)
∗
]
{\displaystyle \operatorname {var} (z)=\operatorname {E} \left[(z-\mu )(z-\mu )^{*}\right]}
其中复数
z
{\displaystyle z}
的共轭记为
z
∗
{\displaystyle z^{*}}
。
如果
Z
{\displaystyle Z}
是一个复列向量,则取其共轭转置 ,得到一个方阵:
E
[
(
Z
−
μ
)
(
Z
−
μ
)
∗
]
{\displaystyle \operatorname {E} \left[(Z-\mu )(Z-\mu )^{*}\right]}
其中
Z
∗
{\displaystyle Z^{*}}
为共轭转置, 它对于标量也成立,因为标量的转置还是标量。
估计
多元正态分布 的协方差矩阵的估计的推导非常精致. 它需要用到谱定义 以及为什么把标量看做
1
×
1
{\displaystyle 1\times 1}
矩阵的迹更好的原因。参见协方差矩阵的估计 。
外部链接