交叉熵
此条目需要精通或熟悉相关主题的编者参与及协助编辑。 (2018年2月2日) |
在信息论中,基于相同事件测度的两个概率分布和的交叉熵(英语:Cross entropy)是指,当基于一个“非自然”(相对于“真实”分布而言)的概率分布进行编码时,在事件集合中唯一标识一个事件所需要的平均比特数(bit)。
给定两个概率分布和,相对于的交叉熵定义为:
其中是的熵,是从与的KL散度(也被称为p相对于q的相对熵)。
对于离散分布和,这意味着:
对于连续分布也是类似的。我们假设和在测度 上是绝对连续的(通常 是Lebesgue measure on a Borel σ-algebra)。设和分别为的在测度 上概率密度函数。则
源起
在信息论中, 以直接可解编码模式通过值 编码一个信息片段,使其能在所有可能的 集合中唯一标识该信息片段,Kraft–McMillan theorem确保这一过程可以被看作一种 上的隐式概率分布 ,从而使得 是 的编码位长度。 因此, 交叉熵可以看作每个信息片段在错误分布 下的期望编码位长度,而信息实际分布为 。这就是期望 是基于 而不是 的原因。
估计
在大多数情况下,我们需要在不知道分布 的情况下计算其交叉熵。例如在语言模型中, 我们基于训练集 创建了一个语言模型, 而在测试集合上通过其交叉熵来评估该模型的准确率。 是语料中词汇的真实分布,而 是我们获得的语言模型预测的词汇分布。由于真实分布是未知的,我们不能直接计算交叉熵。在这种情况下,我们可以通过下式来估计交叉熵:
是测试集大小, 是在训练集上估计的事件 发生的概率。我们假设训练集是从 的真实采样,则此方法获得的是真实交叉熵的蒙特卡洛估计。
参考资料
- de Boer, Pieter-Tjerk; Kroese, Dirk P.; Mannor, Shie; Rubinstein, Reuven Y. A Tutorial on the Cross-Entropy Method (PDF) (pdf) 134 (1). February 2005: 19–67 [2018-02-02]. ISSN 1572-9338. doi:10.1007/s10479-005-5724-z. (原始内容存档 (PDF)于2016-10-26).
|journal=
被忽略 (帮助)