词义消歧

计算机语言学中，词义消歧是一个自然语言处理和本体论的开放问题。歧义与消歧是自然语言理解中最核心的问题，在词义、句义、篇章含义层次都会出现语言根据上下文语义不同的现象，消歧即指根据上下文确定对象语义的过程。词义消歧即在词语层次上的语义消歧。语义消歧/词义消歧是自然语言处理任务的一个核心与难点，影响了几乎所有任务的性能，比如搜索引擎、意见挖掘、文本理解与产生、推理等。

在语言学长期发展的过程中，语言本身积累了许多一词多义的用法。语言的产生是多方面共同作用的结果。语言的使用是不断变化的，一个词在发展中有许多具体的意思，现在通用的还有一些意思。不同地区可能对一个词有不同的用法，不同的行业对一个词也会不同，甚至不同群体、不同个人、不同语气都会有自己的特殊的解读意思。语义消歧是一种语言理解的方式，一方面我们要理解通用词语一词多义的含义及应用，另一方面，还要考虑到具体场景，运用相关知识库、语料训练来增加一词多义的性能。

迄今为止，丰富多样的技术已经被研究，以词典为基础的方法，使用知识库与知识图谱技术的，监督学习的，无监督的，半监督的，基于词或者词向量的。基于各种资源的、半监督的、同时基于词与词向量的应该是发展的方向。

困难

词典

基于词典的语义消歧依赖于词典对语义的区分。粗粒度的一词多义指区分较大的语义，比如水，可能表示自然水，也能指水货；细粒度的一词多义指能区分较小不同的语义。如果词典缺少某一层次/某一些语义的描述，以词典作为词语义的完全描述就会导致问题。这个特点对WSD(词义消歧)与EL(entity linking)同样适用。解决这个问题的办法是，对描述较少的语义聚集自动增量增加聚类。

英文里常用的字典包括WordNet, Roget'Thesaurus, BabelNet. 任意语言都可以把常用的字典、词典、网络百科、专业知识库/数据库作为消歧的词典文件。 ^[1]

词性标注

词性标注与词义消歧是相互关联的两个问题，在人的系统他们同时能到满足。但是目前系统一般并不能让2者公用参数，同时输出。语义理解，包括分词、词性标注、词义消歧、句法解析、语义解析并不是前馈的，是相互依赖的存在反馈的。

词性标注与语义消歧都要依赖上下文来标注，但是词性标注比语义消歧要简单以及成功。原因主要是词性标注的标注集合是确定的，而语义消歧并没有，并且量级要大的多；词性标注的上下文依赖比语义消歧要短。

judge依赖

有时候人也不能很地判断一个词属于哪个意思。对于粗粒度的区分肯定比细粒度的高。所以一般选择粗粒度的任务，因为需要使用人的判断作为黄金标准。 ^[2]

语用学

许多研究者认为要做到词义消歧，需要理解语用学、一些常识。语言学本身就是与知识紧密结合的，肯定需要语言相关的常识帮助解析，就像实体消歧需要实体的相关的知识一样。

不同任务使用词义消歧的区别

不同的任务具体词义消歧会不同。比如翻译，不必须显式地输出词义消歧中间结果，他需要最后的句子的同义即可

多义的定义

人们一般能在粗粒度的定义上获得一致的看法，当他到更细的粒度，则很难统一。并且即便同个语义，在不同的环境里，也许还会有不同，因为语言表达有无限的可能性，导致语义在细粒度可能会迁移。

参考资料

^ A. Moro, A. Raganato, R. Navigli.
^ Snyder & Palmer 2004，第41–43页.

[1] A. Moro, A. Raganato, R. Navigli.

[FOOTNOTESnyderPalmer200441–43-2] Snyder & Palmer 2004，第41–43页.

[1]

[2]