初识中文分词

来源:互联网 发布:oracle sql rollup 编辑:程序博客网 时间:2024/06/06 03:57

中文分词,就是将一个汉语序列(句子、段落等)切分成一个一个独立的词语(或者根据其他要求,可以切分成词组)。

但是相对其他语言,中文分词具有一些特殊性。比如:①与英语等其他拉丁语语言相比,中文并没有明显的空格为自然边界。②中文的词与词之间的界限划分并不十分清晰,单纯对汉语初学者,都会存在一些划分歧义,对于及其处理更是不消得说。

中文分词对于信息处理,数据挖掘有着重要的意义。作为自然语言处理(NLP)的一个分支,目前为止取得了很大的成效与应用,比如在搜索引擎,中文翻译,手写字体识别等方面。

有关分词的算法可分为以下三大类:

1、基于字符串匹配的分词方法。(又称为机械分词方法)

按照一定的策略将汉字序列与一个相当大的机器字典的词条(词库)进行匹配,匹配成功,即识别一个词。

①正向最大匹配法(左→右)

②逆向最大匹配法(右→左)

③最小切分(使切分的词数最小)

除此,还有双向最大匹配法(左→右,右→左两次扫描),以上方法可以结合使用。一般逆向最大匹配的正确率稍微比正向醉打匹配的要高一点。

2、基于理解的分词方法

通过让计算机模拟人对句子的理解,从而进行分词的操作,包括分词时的句法、语义分析,以及上下文处理歧义等。此法对语言知识和信息要求要高,尚处于试验阶段。

3、基于统计的分词方法

基于词是字的稳定组合,利用字与字之间相邻共现的频率或概率可以较好的反映词的置信度。计算两个字的互现信息,来刻画汉字之间的紧密程度,当这种程度超过一定的阈值,即可认为构成一个词。此法只对文本的字组频度进行统计,并不需要切分词典,因此又称为无字典分词法(或统计取词法)。但精度不高,时空开销大。但是可以与字符串匹配相结合,运用统计方法统计网络新词。

此外,结合统计机器学习的方法,可以对文本进行训练,学习词语的切分方法,以实现对中文文本分词的效果。同样要求大量的训练样本,并且时空开销比较大。

主要难题

1、歧义问题
2、新词识别
0 0
原创粉丝点击