词形还原

语言学中的词形还原(英语:Lemmatisation)是将一个单词的屈折形式组合在一起的过程,以便可以将它们作为单个项目进行分析,由该单词的原形英语Lemma (morphology)或词典形式进行识别[1]

计算语言学中,词形还原是根据一个单词的预期含义来确定其词形的算法过程。与词干提取不同的是,词形还原取决于正确识别一个单词在句子中的词类和意义,以及在该句子周围更大的语境中,例如邻近的句子甚至整个文件中。因此,开发高效的词义分析算法是一个开放的研究领域[2][3][4]

描述

在许多语言中,单词会以多种屈折形式出现。例如在英语中,动词“to walk”可能出现“walk”、“walked”、“walks”或“walking”。人们在字典中可能查到的基本形式“walk”,被称为该词的词义。基本形式与一个语篇的关联通常被称为该词的词位

词形还原与词干提取密切相关。不同的是,词干提取在不了解上下文的情况下对单个单词进行操作,因此不能区分因语篇不同而具有不同含义的单词。然而词干提取通常更容易实现,运行速度也更快。对于某些应用来说,降低“准确度”可能并不重要。事实上,当在资讯检索系统中使用时,与词形还原比,词干提取提高了查询召回的准确性,或真正的正面率。然而对于这些系统来说,词干提取降低了精确率,或者说实际为阳性的正标实例的比例[5]

举例来说:

  • “better”的原形是“good”。这种联系被词干提取所遗漏,因为它需要查询字典。
  • “walk”是“walking”的基本形式,因此在词干提取和词形还原中都与此相匹配。
  • 根据上下文,“meeting”可以是名词的基本形式,也可以是动词的形式(“meet”);例如,“In our last meeting”或“We are meeting again tomorrow”。与词干提取不同,词形还原试图根据上下文选择正确的原形。

Lucene[6]这样的文档索引软件可以存储单词的基本词干提取格式,而不需要了解词义,只是考虑单词形成的语法规则。词干提取的词本身可能不是一个有效的单词:如下例所示,“lazy”被许多词干提取为“lazi”。这是因为词干提取的目的不是为了产生适当的词组——那是一个更具挑战性的任务,需要对语境的了解。词干提取的主要目的是将一个单词的不同形式映射到一个单一形式[7]。作为一个基于规则的算法,它只依赖于一个词的拼写,它牺牲了准确性,以确保,例如当“laziness”被词干提取为“lazi”时,它与“lazy”具有相同的词干。

算法

词形还原的一个简单的方法是通过简单的字典查询。这对直接的屈折形式很有效,但在其他情况下,例如在有长合成词的语言中,就需要一个基于规则的系统。这种规则可以是手工制作的,也可以是从注释的语料库中自动学习的。

在生物医学中的应用

对已发表的生物医学文献进行形态学分析可以产生有用的结果。生物医学文本的形态学处理可以通过专门的生物医学的词形还原程序更加有效,并可能提高实际信息抽取任务的准确性[8]

参考资料

  1. ^ Collins English Dictionary, entry for "lemmatise"
  2. ^ WebBANC: Building Semantically-Rich Annotated Corpora from Web User Annotations of Minority Languages (PDF). [2022-10-28]. (原始内容存档 (PDF)于2016-11-01). 
  3. ^ Müller, Thomas; Cotterell, Ryan; Fraser, Alexander; Schütze, Hinrich. Joint Lemmatization and Morphological Tagging with LEMMING (PDF). 2015 Conference on Empirical Methods in Natural Language Processing. Lisbon: Association for Computational Linguistics: 2268–2274. 2015 [2022-10-28]. doi:10.18653/v1/D15-1272 . (原始内容 (PDF)存档于2017-10-31). 
  4. ^ Bergmanis, Toms; Goldwater, Sharon. Context Sensitive Neural Lemmatization with Lematus (PDF). [2022-10-28]. (原始内容 (PDF)存档于2019-12-31). 
  5. ^ Manning, Christopher D.; Raghavan, Prabhakar; Schütze, Hinrich. Introduction to Information Retrieval. Cambridge University Press. [2022-10-28]. (原始内容存档于2022-12-13). 
  6. ^ Lucene Snowball. Apache project. [2022-10-28]. (原始内容存档于2022-12-10). 
  7. ^ Martin Porter. Porter Stemmer. [2022-10-28]. (原始内容存档于2012-05-14). 
  8. ^ Liu, H.; Christiansen, T.; Baumgartner, W. A.; Verspoor, K. BioLemmatizer: A lemmatization tool for morphological processing of biomedical text. Journal of Biomedical Semantics. 2012, 3: 3. PMC 3359276 . PMID 22464129. doi:10.1186/2041-1480-3-3.