文本分割
此条目需要精通或熟悉相关主题的编者参与及协助编辑。 (2020年10月7日) |
文本分割(Text segmentation)将书面文本分割成有意义单位的过程,如单词、句子或主题。这个术语既适用于人类阅读文本时的心理过程,也适用于在计算机中实现的人工过程,后者属于自然语言处理的领域。一些书面语言有明确的单词分界标记,例如英语的词之间有空格标识,阿拉伯语有独特的首、中、末字母形状,但这种标记不是所有书面语言都有。
分割问题
分词
分词(Word segmentation)是将一串书面语言分成其组成词的问题。中文分词指的是使用计算机自动对中文文本进行词语的切分,即像英文那样使得中文句子中的词之间有空格以标识。中文分词被认为是中文自然语言处理中的一个最基本的环节。
Unicode联盟已经发表了一个关于文本分割的标准附件[1]。
意图分割
意图分割(Intent segmentation)是将书面语言分割为关键词(2个或2个以上的词组)的问题。
参考文献
外部链接
- 中央研究院信息学所词库小组的中文断词系统 (页面存档备份,存于互联网档案馆)
- 卓腾语言科技 - 基于句法规则的中文断词系统 (同时完成 POS 和 NER 标记) (页面存档备份,存于互联网档案馆)
- 基于机器学习的智能塔中文分词系统