自动标引

自动标引(英语:Automatic Indexing)包括关键词自动提取(又称自动抽词标引)与自动赋词标引两种类型。关键词自动提取是一种识别有意义且具有代表性片段或词汇的自动化技术[1]。关键词自动提取在文本挖掘域被称为关键词抽取(英语:Keyword Extraction),在计算语言学领域通常着眼于术语自动识别(英语:Automatic Term Recognition),在讯息检索领域,就是指自动标引。自动标引属于文本讯息抽取的范畴。文本讯息抽取是从文本数据中抽取人们关注的特定的讯息。

作用

由于关键词是表达文件主题意义的最小单位,因此大部分对非结构化文件的自动处理,如自动标引、自动文摘、自动分类、自动聚类、相关反馈、自动过滤、事件检测与跟踪、知识挖掘、讯息可视化、概念检索、检索提示、关联知识分析、自动问答等,都必须先进行关键词提取的动作,再进行其他的处理。可以说,关键词提取是所有文件自动处理的基础与核心技术。目前大多文档都不具有关键词,同时手工标引费力费时且主观性较强, 因此关键词自动标引是一项值得研究的技术[2]

发展过程

自动标引研究可以分为三个阶段: 从Luhn于1957年开始进行自动标引后开始,到目前为止,自动标引研究经历了50年的发展历程。一直到20世纪90年代初,关于关键词自动提取的研究一直就没有停止过。 20世纪90年代初到90年代末,自动标引研究渐渐冷却,原因主要包括:全文索引逐渐被人采用,并且基本上能满足用户需要;传统的自动标引方法的效率到了极限;网络兴起之初的冲击与信息需求环境的改变。20世纪90年代末一直到现在,关键词自动提取的研究逐渐升温,尤其是最近几年,关键词自动提取研究进行的如火如荼,产生该现象的主要原因为:全文索引的功能越来越难以满足实际需求,用户需要更加精确的结果;另外互联网的很多服务,例如自动摘要,文档分类与聚类,文本分析,主题检索等都要依赖于关键词自动提取的结果,只有这样才能有希望从根本上提高讯息服务品质。

代表方法

根据见诸于报道的自动标引研究情况,结合自动标引研究领域的影响程度和自动标引方法的创新程度,归纳出1957~2007年五十年时间里比较有代表性的自动标引方法。

  • 1957年,Luhn开始自动标引研究,首次将计算机技术引入文献标引领域,开创了以词频为特征的统计标引方法,其理论基础是Zipf定律,该方法具有一定的客观性和合理性,并且简单易行,在自动标引中占有重要地位[3]
  • 1958年,Luhn提出基于绝对频率加权法的自动标引方法[4] ; P.B.Baxendale提出从论题句和介词短语中自动提取关键词[5]
  • 1959年,Edmundson与Oswald提出基于相对频率加权法的自动标引方法[6]
  • 1960年,Maron & Kuhns提出基于相关概率的赋词标引方法[7]
  • 1969年,H.P.Edmundson提出了一些新的加权方法,如提示词(预示词)加权法、题名加权法、位置加权法,并探讨了不同加权法的最优组合问题[8]
  • 1970年,Lois L. Earl利用句法分析等语言学方法与词频统计方法相结合的方法来提取关键词[9]
  • 1973年,Salton等提出基于词区分值的自动标引方法[10]
  • 1975年,Salton等将VSM模型用于自动标引中[11]
  • 1983年,Dillon等提出一种基于概念的自动标引方法,研制了FASIT系统[12]
  • 1985年,Devadason提出基于深层结构标引方法[13]
  • 1990年,Deerwester & Dumais等提出潜在语义分析标引法[14]
  • 1993年,Silva & Milidiu提出基于相信函数模型的赋词标引方法[15]
  • 1995年,Cohen提出N-Gram分析法的自动标引方法[16]
  • 1997年,简立峰提出基于PAT树的关键词提取方法[17]
  • 1999年,Frank等人提出基于朴素贝叶斯(Naive Bayes,NB)的关键词提取方法[18] ;Turney 利用遗传算法和C4.5决策树算法等机器学习方法进行关键短语提取的研究[19]
  • 2001年,Anjewierden & Kabel提出基于本体的自动标引方法[20]
  • 2003年,Tomokiyo & Hurst提出了基于语言模型的关键词提取方法[21];Hulth利用Bagging算法进行了基于集成学习的关键词抽取[22]
  • 2004年,李素建提出基于最大熵模型的关键词提取方法[2]
  • 2006年,张阔提出基于支持向量机自动标引模型[23]
  • 2007年,Ercan, G. & Cicekli, I提出基于词汇链的自动标引方法[24]

参考文献

  1. ^ 曾元显. 关键词自动提取技术与相关词反馈. 中国图书馆学会会报, 1997, 59: 59-64.
  2. ^ 2.0 2.1 李素建, 王厚峰, 俞士汶, 辛乘胜.关键词自动标引的最大熵模型应用研究.计算机学报, 2004, 27(9):1192-1197.
  3. ^ Luhn H P. A Statistical Approach to Mechanized Encoding and Searching of Literary Information. IBM Journal of Research and Development, 1957, 1(4): 309-317.
  4. ^ Luhn H P. The Automatic Creation of Literature Abstracts. IBM Journal of Research and Development. 1958. 2(2): 159-165.
  5. ^ Baxendale P E. Machine-made Index for Technical Literature——an Experiment. IBM. Journal of Research and Development, 1958, 2(4): 354-361.
  6. ^ Edmundson H P, Oswald V A. Automatic Indexing and Abstracting of the Contents of Documents. Planning Research Corp, Document PRC R-126, ASTIA AD No. 231606, Los Angeles, 1959: 1-142.
  7. ^ Maron M E, Kuhns J L. On Relevance, Probabilistic Indexing and Information Retrieval. Journal of the Association for Computer Machinery, 1960, 7(3): 216-244.
  8. ^ Edmundson H P. New Methods in Automatic Abstracting Extracting. Journal of the Association for Computing Machinery, 1969, 16(2): 264-285.
  9. ^ Lois L E. Experiments in Automatic Indexing and Extracting. Information Storage and Retrieval, 1970, 6: 313-334.
  10. ^ Salton G, Yang C S. On the Specification of Term Values in Automatic Indexing, Journal of Documentation, 1973, 29(4): 351-72.
  11. ^ Salton G, Wong A, Yang C S. A Vector Space Model for Automatic Indexing. Communications of ACM, 1975, 18(11): 613-620.
  12. ^ Dillon M, Gray A S. FASIT: A Fully Automated Syntactically Based Indexing System. Journal of the American Society for Information Science, 1983, 34(2): 99-108.
  13. ^ Devadason F. Computerization of Deep Structure Based Indexes. International Classification, 1985, 12(2): 87-94.
  14. ^ Deerwester S, Dumais S T, Landauer T K, Furnas G W, Harshman R A. Indexing by Latent Semantic Analysis. Journal of the American Society for Information Science, 1990, 41(6): 391-407.
  15. ^ Silva W T, MiliDiu R L. Belief Function Model for Information Retrieval. Jounral of the American Society for Information Science, 1993, 44(1): 10-18.
  16. ^ Cohen J D. Highlights: Language and Domain-independent Automatic Indexing Terms for Abstracting. Journal of the American Society for Information Science, 1995, 46(3): 162-174.
  17. ^ Chien L F. PAT-tree-based Keyword Extraction for Chinese Information Retrieval. In: Proceedings of the 20th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR1997), Philadelphia, PA, USA, 1997: 50-59.
  18. ^ Frank E, Paynter G W, Witten I H. Domain-Specific Keyphrase Extraction. In: Proceedings of the 16th International Joint Conference on Aritifcal Intelliegence, Stockholm, Sweden, Morgan Kaufmann, 1999: 668-673.
  19. ^ Turney P D. Learning to Extract Keyphrases from Text. NRC Technical Report ERB-1057, National Research Council, Canada. 1999: 1-43.
  20. ^ Anjewierden A, Kabel S. Automatic Indexing of Documents with Ontologies. In: Proceedings of the 13th Belgian/Dutch Conference on Artificial Intelligence (BNAIC-01), Amsterdam, Neteherlands, 2001: 23-30.
  21. ^ Tomokiyo T, Hurst M. A language Model Approach to Keyphrase Extraction. In: Proceedings of the ACL Workshop on Multiword Expressions: Analysis, Acquisition & Treatment, Sapporo, Japan, 2003: 33-40.
  22. ^ Hulth A. Improved Automatic Keyword Extraction Given More Linguistic Knowledge. In: Proceedings of the 2003 Conference on Emprical Methods in Natural Language Processing, Sapporo, Japan, 2003: 216-223.
  23. ^ Zhang K, Xu H, Tang J, Li J Z. Keyword Extraction Using Support Vector Machine. In: Proceedings of the Seventh International Conference on Web-Age Information Management (WAIM2006), Hong Kong, China, 2006: 85-96.
  24. ^ Ercan G, Cicekli I. Using Lexical Chains for Keyword Extraction. Information Processing and Management, 2007, 43(6): 1705-1714.

外部链接

  1. http://sites.google.com/site/zhangczhomepage/keyword-extraction页面存档备份,存于互联网档案馆