组合范畴语法

组合范畴语法(Combinatory categorial grammar,CCG),是在AB演算基础上进行扩展而产生的范畴语法。从语法理论视角看,CCG是一种词汇形式化的方法;从计算语言学视角看,CCG属于一类适度上下文相关文法;从逻辑语义学视角看,CCG在句法与语义的接口方面非常融洽。无论是CCG语言的、计算的,还是逻辑的特征,都使得 CCG非常适用于自然语言信息处理,对于计算语言学具有很好的理论和实际价值[1]

介绍

组合范畴语法CCG应该算作是20世纪末的理性主义产物,它在20 世纪 80至90年代开始出现,在AB演算基础上进行扩展而产生,其核心的扩展在于“组合”,即基于范畴语法增添了函子范畴的组合运算,从而增强了表达与描述能力。另一方面,由于组合规则与柯里的组合算子非常接近,因此每个组合规则在分析过程中都具有一个语义解读,这样使得句法派生的同时,又能够构造谓词-论元结构作为语义解读[2]

形式化规则

范畴

在CCG中,范畴指的是这样一个简洁描述:它能够和什么样的论元组合以及与该论元组合之后会生成什么,换言之,就是它的函数类型。 词汇便成了从词汇条目到范畴的映射,意味着每个词汇条目寻求论元的行为。Lambek(1958)[3]这样描述过词汇化的益处: 一个形式化语言的句子结构完全是由它的类型列表[词汇]决定的。 范畴的构造的起点是原子。在经典的AB范畴语法中,原子范畴集仅仅由S(在Montagovian术语中,即表示真值类型t)和N(即表示实体的类型e)构成。有了这两个基本原子,我们能够通过递归利用原子生成更复杂的范畴来建造词库。 范畴的正式集合是由一个原子类集合组合而成的: 定义1 给定一个有限的原子范畴类F,集合C是满足下列条件的最小集合:

  1. F   C
  2. 如果X,Y   C,那么X/Y, X\Y   C

例如,如果F = {S, NP},那么C的元素例中包括原子S和原子NP,以及(S\NP)和(NP\NP)\(NP\NP)。由原子不断递归生成的对象被称为函子或复合范畴。

组合规则

组合规则给多个标记(token)赋予主要类型(principled types),并基于输入符号的范畴来限制组合的类型。由于组合规则与Curry等(1958)的组合子(combinators)之间紧密相关(close relationship),每个组合规则都有一个语义解释,这在语法分析过程中,允许语法派生同时构建谓词-论元结构(predicate-argument structure)。

函项应用规则

 

  函数应用规则适用于标准的函项范畴与其所寻找的论元范畴相毗连的情况。只包含这两条函项应用规则的范畴语法就是著名的AB语法,这是以最先提出该语法的两位语言/逻辑学家Ajdukiewicz(1935)和Bar-Hillel(1953)的首字母命名的。这样的一种语法就等同于将生成规则整合在词汇中的短语结构语法。AB语法和上下文无关文法的等价性由Bra-Hillel等人(1960)证明,这种范畴语法的形式化因为只包含两条函项应用规则,因此具有一定的局限性。

组合规则

 

 

类型提升

 

  在只有应用的情景中,只有函子(functor)才能消耗它们的论元。而类型提升规则允许论元反过来消耗函子。

参考文献

  1. ^ 邹崇理. 关于组合范畴语法CCG[J]. 重庆理工大学学报:社会科学版, 2011, 25(8):1-5.
  2. ^ 陈鹏. 组合范畴语法(CCG)的计算语言学价值[J]. 重庆理工大学学报:社会科学版, 2016, 30(8):5-11.
  3. ^ Lambek J. The Mathematics of Sentence Structure. American Mathematical Monthly. 1958, 65(3): 154-170.