中文分词技术概要

来源:互联网 发布:红米note3怎么内存优化 编辑:程序博客网 时间:2024/06/07 15:20

中文自动分词,就是让计算机系统在中文文本中的词与词之间自动加上空格或者其他边界标记。

1、中文分词的主要难点在于分词规范、歧义切分、未登录词识别。

其一,迄今未有公认的权威的分词规范。

其二,歧义切分较复杂,往往需要进行复杂的上下文语义分析,甚至韵律分析。
歧义识别,只要针对三种情况:交集歧义,目前研究较多;组合歧义,需要结合整个句子;真歧义,需要结合上下文其他句子。

其三,对于大规模真实文本来说,未登录词对于分词精度的影响远远超过了歧义切分。

2、了解几个概念:stopWord 停止词,filterWord 过滤词

3、分词算法,可以简单归结为三种类别:

其一,基于字符串匹配的算法

其二,基于理解的算法

其三,基于统计的算法

4、常用开源分词器

IKanalysis
Ansj

原创粉丝点击