协方差矩阵

在统计学与概率论中，协方差矩阵（也称离差矩阵、方差-协方差矩阵）是一个矩阵，其 i, j 位置的元素是第 i 个与第 j 个随机变量（英语：Multivariate random variable）之间的协方差。这是从标量随机变量到高维度随机向量的自然推广。

中心为 (0, 0) 的一个二元高斯概率密度函数，协方差矩阵为 [ 1.00, 0.50 ; 0.50, 1.00 ]。

一个左下右上方向标准差为 3，正交方向标准差为 1 的多元高斯分布的样本点。由于 x 和 y 分量共变（即相关），x 与 y 的方差不能完全描述该分布；箭头的方向对应的协方差矩阵的特征向量，其长度为特征值的平方根。

定义

假设 $X$ 是以 $n$ 个随机变量组成的行向量，

\mathbf {X} ={\begin{bmatrix}X_{1}\\X_{2}\\\vdots \\X_{n}\end{bmatrix}}

并且 $\mu _{i}$ 是 $X_{i}$ 的期望值，即, $\mu _{i}=\mathrm {E} (X_{i})$ 。协方差矩阵的第 $(i,j)$ 项（第 $(i,j)$ 项是一个协方差）被定义为如下形式：

\Sigma _{ij}=\mathrm {cov} (X_{i},X_{j})=\mathrm {E} {\begin{bmatrix}(X_{i}-\mu _{i})(X_{j}-\mu _{j})\end{bmatrix}}

而协方差矩阵为：

\Sigma =\mathrm {E} \left[\left(\mathbf {X} -\mathrm {E} [\mathbf {X} ]\right)\left(\mathbf {X} -\mathrm {E} [\mathbf {X} ]\right)^{\rm {T}}\right]

={\begin{bmatrix}\mathrm {E} [(X_{1}-\mu _{1})(X_{1}-\mu _{1})]&\mathrm {E} [(X_{1}-\mu _{1})(X_{2}-\mu _{2})]&\cdots &\mathrm {E} [(X_{1}-\mu _{1})(X_{n}-\mu _{n})]\\\\\mathrm {E} [(X_{2}-\mu _{2})(X_{1}-\mu _{1})]&\mathrm {E} [(X_{2}-\mu _{2})(X_{2}-\mu _{2})]&\cdots &\mathrm {E} [(X_{2}-\mu _{2})(X_{n}-\mu _{n})]\\\\\vdots &\vdots &\ddots &\vdots \\\\\mathrm {E} [(X_{n}-\mu _{n})(X_{1}-\mu _{1})]&\mathrm {E} [(X_{n}-\mu _{n})(X_{2}-\mu _{2})]&\cdots &\mathrm {E} [(X_{n}-\mu _{n})(X_{n}-\mu _{n})]\end{bmatrix}}

矩阵中的第 $(i,j)$ 个元素是 $X_{i}$ 与 $X_{j}$ 的协方差。这个概念是对于标量随机变量方差的一般化推广。

术语与符号分歧

协方差矩阵有不同的术语。有些统计学家，沿用了概率学家威廉·费勒的说法，把这个矩阵称之为随机向量 $X$ 的方差（Variance of random vector X），这是从一维随机变量方差到高维随机向量的自然推广。另外一些则把它称为协方差矩阵（Covariance matrix），因为它是随机向量里头每个标量元素的协方差的矩阵（或者说它是多维随机变量各维度两两之间的协方差组合而成的矩阵）。不幸的是，这两种术语带来了一定程度上的冲突：

随机向量 $X$ 的方差（Variance of random vector X）定义有如下两种形式：

\operatorname {var} (\mathbf {X} )=\operatorname {cov} (\mathbf {X} ,\mathbf {X} )=\mathrm {E} \left[(\mathbf {X} -\mathrm {E} [\mathbf {X} ])(\mathbf {X} -\mathrm {E} [\mathbf {X} ])^{\rm {T}}\right].

协方差矩阵（Covariance matrix）定义如下：

\operatorname {cov} ({\textbf {X}},{\textbf {Y}})=\mathrm {E} \left[({\textbf {X}}-\mathrm {E} [{\textbf {X}}])({\textbf {Y}}-\mathrm {E} [{\textbf {Y}}])^{\top }\right]

第一个记号可以在威廉·费勒的广受推崇的两册概率论及其应用的书中找到。两个术语除了记法之外并没有不同。

性质

$\Sigma =\mathrm {E} \left[\left({\textbf {X}}-\mathrm {E} [{\textbf {X}}]\right)\left({\textbf {X}}-\mathrm {E} [{\textbf {X}}]\right)^{\top }\right]$ 与 $\mu =\mathrm {E} ({\textbf {X}})$ 满足下边的基本性质：

$\Sigma =\mathrm {E} (\mathbf {XX^{\top }} )-\mathbf {\mu } \mathbf {\mu ^{\top }}$
$\Sigma$ 是半正定的和对称的矩阵。
$\operatorname {var} (\mathbf {a^{\top }} \mathbf {X} )=\mathbf {a^{\top }} \operatorname {var} (\mathbf {X} )\mathbf {a}$
$\mathbf {\Sigma } \geq 0$
$\operatorname {var} (\mathbf {AX} +\mathbf {a} )=\mathbf {A} \operatorname {var} (\mathbf {X} )\mathbf {A^{\top }}$
$\operatorname {cov} (\mathbf {X} ,\mathbf {Y} )=\operatorname {cov} (\mathbf {Y} ,\mathbf {X} )^{\top }$
$\operatorname {cov} (\mathbf {X_{1}} +\mathbf {X_{2}} ,\mathbf {Y} )=\operatorname {cov} (\mathbf {X_{1}} ,\mathbf {Y} )+\operatorname {cov} (\mathbf {X_{2}} ,\mathbf {Y} )$
若 $p=q$ ，则有 $\operatorname {var} (\mathbf {X} +\mathbf {Y} )=\operatorname {var} (\mathbf {X} )+\operatorname {cov} (\mathbf {X} ,\mathbf {Y} )+\operatorname {cov} (\mathbf {Y} ,\mathbf {X} )+\operatorname {var} (\mathbf {Y} )$
$\operatorname {cov} (\mathbf {AX} ,\mathbf {BX} )=\mathbf {A} \operatorname {cov} (\mathbf {X} ,\mathbf {X} )\mathbf {B} ^{\top }$
若 $\mathbf {X}$ 与 $\mathbf {Y}$ 是独立的，则有 $\operatorname {cov} (\mathbf {X} ,\mathbf {Y} )=0$
$\Sigma =\Sigma ^{\top }$

其中 $\mathbf {X} ,\mathbf {X_{1}}$ 与 $\mathbf {X_{2}}$ 是随机 $\mathbf {(p\times 1)}$ 向量, $\mathbf {Y}$ 是随机 $\mathbf {(q\times 1)}$ 向量, $\mathbf {a}$ 是 $\mathbf {(p\times 1)}$ 向量, $\mathbf {A}$ 与 $\mathbf {B}$ 是 $\mathbf {(q\times p)}$ 矩阵。

尽管协方差矩阵很简单，可它却是很多领域里的非常有力的工具。它能导出一个变换矩阵，这个矩阵能使数据完全去相关(decorrelation)。从不同的角度看，也就是说能够找出一组最佳的基以紧凑的方式来表达数据。(完整的证明请参考瑞利商)。这个方法在统计学中被称为主成分分析(principal components analysis)，在图像处理中称为Karhunen-Loève 变换(KL-变换)。

复随机向量

均值为 $\mu$ 的复随机标量变量的方差定义如下（使用共轭复数）：

\operatorname {var} (z)=\operatorname {E} \left[(z-\mu )(z-\mu )^{*}\right]

其中复数 $z$ 的共轭记为 $z^{*}$ 。

如果 $Z$ 是一个复列向量,则取其共轭转置，得到一个方阵:

\operatorname {E} \left[(Z-\mu )(Z-\mu )^{*}\right]

其中 $Z^{*}$ 为共轭转置, 它对于标量也成立，因为标量的转置还是标量。

估计

多元正态分布的协方差矩阵的估计的推导非常精致. 它需要用到谱定义以及为什么把标量看做 $1\times 1$ 矩阵的迹更好的原因。参见协方差矩阵的估计。

外部链接

Covariance Matrix（页面存档备份，存于互联网档案馆） at Mathworld