计算语言学

计算语言学,亦称电脑语言学(英语:computational linguistics)是一门跨学科的研究领域,试图找出自然语言的规律,建立运算模型,最终让电脑能够像人类般分析,理解和处理自然语言。

过去,计算语言学的研究一般由专门负责利用电脑处理自然语言的电脑学家进行。由于近年的研究显示人类语言是超乎想像的复杂,现在的计算语言学研究多由来自不同学科的专家共同进行。一般来说,研究队伍的成员有电脑学家、语言学家、语言专家(熟悉有关研究项目所要处理的语言的人),以至研究人工智能认知心理学数学逻辑学等的专家。

计算语言学具有理论和应用的成分。理论计算语言学聚焦于理论语言学与认知科学;应用计算语言学聚焦于模拟人类使用语言的实用成果。[1]

计算语言学会英语Association for Computational Linguistics对于计算语言学的定义是:……从计算的观点,以科学方法研究语言的学问。计算语言学家关注于提供各种语言学现象的计算模型[2]

起源

计算语言学始于一九五零年代的美国,是人工智能研究的开端。当时,美国希望能够利用运算又快又准确的电脑,将大量外语材料瞬间翻译成英语;研究重点特别放在翻译俄文写成的科学技术刊物上,以窥探苏联的科技发展。[3]电脑既然比人类运算更快、更准确,当初认为电脑很快就可以开始处理语言。[4]计算与计量方法也曾经用于重建现代语言的早先形式以及将现代语言组成语群。早期的方法例如词汇统计学英语lexicostatistics语言年代学都证实未成熟、不准确。不过近年来跨领域研究借用生物学,尤其是基因作图,产生了更精密的分析工具与更可靠的结果。[5]

机器翻译无法立即产生精确的翻译,人类语言的自动处理被视为远比当初所设想的复杂。计算语言学这个新领域于是诞生,从而发展能够智慧处理语言资料的算法与软件。“计算语言学”这个术语是由计算语言学会英语Association for Computational Linguistics计算语言学国际委员会英语International Committee on Computational Linguistics的起始成员大卫•海斯(David G. Hays英语David G. Hays)所创。[6]1960年代,人工智能出现,计算语言学这个领域成为人工智能的分支,处理人类层次的理解与自然语言的产出。

为了翻译一种语言成为另一种语言,发觉必须理解两种语言的语法,包括词法句法。为了理解句法,又必须理解语义词汇表,甚至语用学。因此本来只是两种语言之间的翻译,演变成探究如何使用电脑去表述与处理自然语言。[7]

门径

正如计算语言学可以由不同领域、各个系所的专家进行研究,研究的领域也可以划分成各样的主题。下面各节探讨横跨整个领域的一些现有文献,分为四个区块:发展语言学,结构语言学,语言产出,以及语言理解。

发展门径

语言是个人一生中发展出来的认知能力。这个发展过程已有一些检视的技巧,运用计算是其中一种方法。人类的语言发展英语language development对于计算方法造成一些限制,增加了以其理解语言发展的难度。例如儿童在语言习得期间,大体上只遭逢正面例证,[8]亦即在个人语言发展期间,只接触到语言正确的形式,而无不正确的形式,这对于做简单的假说检定而言资料不足,[9]因此造成了使用计算方法去模拟个人语言发展与习得的界限。

从计算的观点去模拟语言习得的过程导致了统计语法英语stochastic grammar联结模型[10]这方面的成果被提议用来作为解释语言的起源之方法。利用模型已显示,语言的学习可以随着儿童发展出更佳的记忆力与更长的注意期间,经由渐进地提供简单的输入组合而达成。这同时也解释了为什么人类幼儿发展期之长。[11]以上两个结论都因为该计划创建的人工神经网络之优点而得以达成。

婴儿的语言发展能力也已利用机器人去模拟,[12]以便检定语言学理论。一个可以如孩童般学习的模型,根据直观功能的概念而建,映射行动、知觉、与效应,并且连结到口语。重要的是,这些机器人不需要语法结构,而能够习得字词与意义之间的关联,大大地简化了学习过程。这个模型揭示的讯息,增进了对于语言学发展的理解,必须注意的是,这些讯息只能使用计算方法进行经验测试。

结构门径

为了建立更佳语言的计算模型,理解语言的结构至关重要。这个目标,英语已利用计算方法周密地进行研究,以便更佳理解英语在结构层次如何运行。研究语言结构的要件之一是具备大型的语料库或样本,计算语言学家才能有足够的原始资料进行模拟,并且在大量的资料里,更佳理解任一语言的内在结构。最常引用的语料库之一是宾大结构树库英语Treebank[13]这个语料库来源多元广泛,例如IBM的电脑手册和转写的电话谈话,包含超过四百五十万个美式英文字。这个语料库主要以词类标记与句法加括(syntactic bracketing)来注释,并且已产生关于结构的大量实证观察。

语言结构的理论也已发展,让计算语言学家能在架构内运用多种方法发展假说,从而增进对语言的理解。关于语法的内化与语言结构,一个原创理论提出了两种模型,其中学习到的规则与模式,会随着接触的频率而增强。[9]这种模型也留下一个问题有待计算语言学家解答:婴儿如何能在未学习简单化语法的情况下,学习特定与异常的语法(乔姆斯基范式)。[9]在这个领域的早期,此类理论的成果设定了研究的方向,对于其茁壮至关重要。

语言结构的资讯可以用于认定两个类似的语句, 例如近来已证实,根据人类言谈模式之中的语言结构,概念的递归图英语recurrence plots可以用来模拟资料并使其图像化,对于自然语句的相似性,建立起可靠的测量方法。[14]这种技巧对于更进一步探究人类言谈的结构,是有力的工具。这个问题不用计算的方法,科学家无法获得言谈资料之中巨量复杂的资讯。

产出门径

语言产出有两个同样复杂的成分:语言内含的资讯,以及流利的产出者所需的技巧。亦即理解只是通讯问题的一半,另一半是系统如何产出语言,计算语言学家在这方面已有非常令人关注的发现。

 
艾伦•图灵:计算机科学家,提议以图灵测试测量机器的智慧。

1950年艾伦·图灵在一篇现在著名的论文里,提出机器或许有能够思考的一天。他提议一种“模拟测试”,用来定义机器思考的概念,其中受试者以文字进行两场谈话,一次与真人,一次与模仿人的机器。图灵提议,如果受试者无法分辨真人与机器之别,或许可以断定该机器能够思考。[15]这种测试现今称为图灵测试,在人工智能领域仍是重要概念。

最早期著名的自然交谈程式之一是ELIZA,1966年由约瑟夫·维森鲍姆在麻省理工学院发展而成。该程式回答使用者提出的文字陈述或问题时,模拟一位罗杰斯式心理治疗师。它看似能够理解他人输入的谈话并且智慧地回应,但实际上只是执行句型对比的程序,只认得句子里的几个关键字。其回答是由未知的部分围绕着转化的已知单字而组成。以“你似乎厌恶我”举例而言,ELIZA理解“你”和“我” ,因而找出“你…我”的基本句型,再把“你”和“我”转成“我”和“你”,然后回答“为什么你会认为我厌恶你?”在这个例子里,ELIZA并不理解“厌恶”这个词,但不妨碍在这种心理分析的情境下形成一个合理的回答。[16]

文字互动门径

许多最早期像ELIZA这种简单的人机互动模式,电脑接受使用者的文字输入然后产生回答。这种方法使用“关键词撷取英语keyword spotting”:电脑识别使用者打入词句的类型,再据以回答。

语音互动门径

最近的科技比较重视语音互动系统。这些系统,例如iOS操作系统的Siri,运用的技巧类似文字系统的句型辨识,只不过使用者的输入是经由语音辨识。这个语言学的分支,把使用者的语音当作音波来处理,并解释音质与语言的形式,让电脑得以辨识使用者的输入。[17]

理解门径

现代计算语言学多着重于语言理解。随着互联网的扩张,人写的文字随处可见,如果有程式能够理解自然语言,会带来广泛、令人振奋的机会,包括改良的搜索引擎、自动化客服、以及线上教育。

语言理解的早期成果包括应用贝氏统计进行光学字符识别。[18]其它贝氏统计的语言分析应用包括分析《联邦党人文集》以决定作者是谁。[19]

理解口语方面,最初是奠基于1960、1970年代信号模拟的成果——分析未知的信号,从中找寻类型,并且根据历史做出预测。这种信号模拟应用于语言,最早、还算成功的一例是在1989年利用隐马尔可夫模型达成。[20]这些统计方法更近期被应用在较难的任务,例如主题识别——估计贝氏参数以推断文件主题为何的几率。[21]

应用

现代计算语言学是门混合的学问,包括计算机科学与程序设计、数学(尤其是统计学)、语言结构、以及自然语言处理。这些领域的结合,发展出辨认语音然后据以执行任务的系统。例如语音识别软件(苹果的Siri)、拼字检查工具、语音合成程式(示范发音或辅助语言障碍者)、以及机器翻译(谷歌翻译、WordReference) 。[22]

计算语言学在社交媒体与网际网络的场域可能特别有助益。例如过滤聊天室与网站的内容必须利用计算语言学,也有许多程序让家长使用“家长控制英语Parental controls”。计算语言学家也能利用“社交媒体挖掘英语Social media mining”发展出分类与组织内容的程式。例如推特,程式可以根据主题或关键字去分类“推文”。[23]计算语言学也能应用于文件检索与分类。当你在线上搜寻时,出现的文件与网站取决于你键入的文字相应的独特标示。[24]

次领域

计算语言学可以根据语言的媒介与执行的任务区分:语音或文字;分析(识别)或合成(生成)。

语音合成、语音识别

主要包括以下几个方面:语音编码(speech coding)、语音识别(speech recognition)、语种识别(language identification)、说话人识别(speaker recognition)或说话人确认(speaker verification)、语义理解(semantics understanding)、语音合成(speech synthesis)等。

在人机交互过程中,经常用到语音识别技术和语音合成技术。

信息检索

信息抽取

问答系统

机器翻译

机器翻译的主要方法包括规则机器翻译实例机器翻译统计机器翻译

参考文献

  1. ^ HANS USZKOREIT. WHAT IS COMPUTATIONALLINGUISTICS?. Computational Linguistics and Phonetics. [2022-01-13]. (原始内容存档于2022-01-21). 
  2. ^ What is Computational Linguistics?. The Association for Computational Linguistics. [2022-01-13]. (原始内容存档于2022-01-26). 
  3. ^ John Hutchins. Retrospect and prospect in computer-based translation (PDF). 1999-09-17 [2008-07-04]. (原始内容 (PDF)存档于2008-04-14) (英语). 
  4. ^ Bostrom, Derrick, 1975: And the Changes To Come, 2007-12-31 [2022-01-13], (原始内容存档于2022-01-13) 
  5. ^ T. Crowley., C. Bowern. An Introduction to Historical Linguistics. Auckland, N.Z.: Oxford UP, 1992. Print.
  6. ^ Deceased members. ICCL members. [15 November 2017]. (原始内容存档于2017-05-17). 
  7. ^ Natural Language Processing by Liz Liddy, Eduard Hovy, Jimmy Lin, John Prager, Dragomir Radev, Lucy Vanderwende, Ralph Weischedel (PDF). [2017-12-13]. (原始内容 (PDF)存档于2017-08-10). 
  8. ^ Bowerman, M. (1988). The "no negative evidence" problem: How do children avoid constructing an overly general grammar. Explaining language universals页面存档备份,存于互联网档案馆).
  9. ^ 9.0 9.1 9.2 Braine, M.D.S. (1971). On two types of models of the internalization of grammars. In D.I. Slobin (Ed.), The ontogenesis of grammar: A theoretical perspective. New York: Academic Press.
  10. ^ Powers, D.M.W. & Turk, C.C.R. (1989). Machine Learning of Natural Language. Springer-Verlag. ISBN 978-0-387-19557-5.
  11. ^ Elman, Jeffrey L. Learning and development in neural networks: the importance of starting small. Cognition. 1993-07, 48 (1): 71–99 [2022-01-13]. doi:10.1016/0010-0277(93)90058-4. (原始内容存档于2022-03-02) (英语). 
  12. ^ Salvi, G.; Montesano, L.; Bernardino, A.; Santos-Victor, J. Language Bootstrapping: Learning Word Meanings From Perception–Action Association. IEEE Transactions on Systems, Man, and Cybernetics, Part B (Cybernetics). 2012-06, 42 (3): 660–671 [2022-01-13]. ISSN 1083-4419. doi:10.1109/TSMCB.2011.2172420. (原始内容存档于2022-03-07). 
  13. ^ Marcus, M. & Marcinkiewicz, M. Building a large annotated corpus of English: The Penn Treebank (PDF). Computational linguistics. 1993, 19 (2): 313–330 [2017-12-16]. (原始内容 (PDF)存档于2017-08-14). 
  14. ^ Angus, D.; Smith, A.; Wiles, J. Conceptual Recurrence Plots: Revealing Patterns in Human Discourse. IEEE Transactions on Visualization and Computer Graphics. 2012-06, 18 (6): 988–997 [2022-01-13]. ISSN 1077-2626. doi:10.1109/TVCG.2011.100. (原始内容存档于2022-03-08). 
  15. ^ Turing, A. M. I.—COMPUTING MACHINERY AND INTELLIGENCE. Mind. 1950-10-01, LIX (236): 433–460 [2022-01-13]. ISSN 1460-2113. doi:10.1093/mind/LIX.236.433. (原始内容存档于2020-09-08) (英语). 
  16. ^ Weizenbaum, Joseph. ELIZA—a computer program for the study of natural language communication between man and machine. Communications of the ACM. 1966-01, 9 (1): 36–45 [2022-01-13]. ISSN 0001-0782. doi:10.1145/365153.365168. (原始内容存档于2022-03-21) (英语). 
  17. ^ Language Files. The Ohio State University Department of Linguistics. 2011: 624–634. ISBN 9780814251799. 
  18. ^ Bledsoe, W. W.; Browning, I. Pattern recognition and reading by machine. Papers presented at the December 1-3, 1959, eastern joint IRE-AIEE-ACM computer conference on - IRE-AIEE-ACM '59 (Eastern) (Boston, Massachusetts: ACM Press). 1959: 225–232. doi:10.1145/1460299.1460326 (英语). 
  19. ^ Mosteller, Frederick; Wallace, David L. Inference in an Authorship Problem. Journal of the American Statistical Association. 1963-06, 58 (302): 275 [2022-01-13]. doi:10.2307/2283270. (原始内容存档于2022-02-12). 
  20. ^ Rabiner, L. A tutorial on hidden Markov models and selected applications in speech recognition. Proceedings of the IEEE. 1989. doi:10.1109/5.18626. 
  21. ^ Blei, David M.; Ng, Andrew Y.; Jordan, Michael I. Latent dirichlet allocation. The Journal of Machine Learning Research. 2003-03-01, 3 (null): 993–1022 [2022-01-13]. ISSN 1532-4435. doi:10.5555/944919.944937. (原始内容存档于2022-03-21). 
  22. ^ Careers in Computational Linguistics. California State University. [19 September 2016]. (原始内容存档于2017-12-21). 
  23. ^ Marujo, Lu s et al. "Automatic Keyword Extraction on Twitter." Language Technologies Institute, Carnegie Melon University, n.d. Web. 19 Sept. 2016.
  24. ^ Computational Linguistics. Stanford Encyclopedia of Philosophy. Feb 26, 2014 [Apr 19, 2017]. (原始内容存档于2018-04-22). 

延伸阅读

  • Bates, M. Models of natural language understanding. Proceedings of the National Academy of Sciences of the United States of America. 1995, 92 (22): 9977–9982. doi:10.1073/pnas.92.22.9977. 
  • Steven Bird, Ewan Klein, and Edward Loper (2009). Natural Language Processing with Python. O'Reilly Media. ISBN 978-0-596-51649-9.
  • Daniel Jurafsky and James H. Martin (2008). Speech and Language Processing, 2nd edition. Pearson Prentice Hall. ISBN 978-0-13-187321-6.
  • Mohamed Zakaria KURDI (2016). Natural Language Processing and Computational Linguistics: speech, morphology, and syntax, Volume 1. ISTE-Wiley. ISBN 978-1848218482.
  • Mohamed Zakaria KURDI (2017). Natural Language Processing and Computational Linguistics: semantics, discourse, and applications, Volume 2. ISTE-Wiley. ISBN 978-1848219212.

参见

  • 自然语言处理
  • 统计语义学
  • 计算词汇学
  • 计算语义学
  • 数理语言学
  • 语料库语言学

外部链接