初识中文分词

来源：互联网发布：oracle sql rollup 编辑：程序博客网时间：2024/06/06 03:57

中文分词，就是将一个汉语序列（句子、段落等）切分成一个一个独立的词语（或者根据其他要求，可以切分成词组）。

但是相对其他语言，中文分词具有一些特殊性。比如：①与英语等其他拉丁语语言相比，中文并没有明显的空格为自然边界。②中文的词与词之间的界限划分并不十分清晰，单纯对汉语初学者，都会存在一些划分歧义，对于及其处理更是不消得说。

中文分词对于信息处理，数据挖掘有着重要的意义。作为自然语言处理（NLP）的一个分支，目前为止取得了很大的成效与应用，比如在搜索引擎，中文翻译，手写字体识别等方面。

有关分词的算法可分为以下三大类：

1、基于字符串匹配的分词方法。（又称为机械分词方法）

按照一定的策略将汉字序列与一个相当大的机器字典的词条（词库）进行匹配，匹配成功，即识别一个词。

①正向最大匹配法（左→右）

②逆向最大匹配法（右→左）

③最小切分（使切分的词数最小）

除此，还有双向最大匹配法（左→右，右→左两次扫描），以上方法可以结合使用。一般逆向最大匹配的正确率稍微比正向醉打匹配的要高一点。

2、基于理解的分词方法

通过让计算机模拟人对句子的理解，从而进行分词的操作，包括分词时的句法、语义分析，以及上下文处理歧义等。此法对语言知识和信息要求要高，尚处于试验阶段。

3、基于统计的分词方法

基于词是字的稳定组合，利用字与字之间相邻共现的频率或概率可以较好的反映词的置信度。计算两个字的互现信息，来刻画汉字之间的紧密程度，当这种程度超过一定的阈值，即可认为构成一个词。此法只对文本的字组频度进行统计，并不需要切分词典，因此又称为无字典分词法（或统计取词法）。但精度不高，时空开销大。但是可以与字符串匹配相结合，运用统计方法统计网络新词。

此外，结合统计机器学习的方法，可以对文本进行训练，学习词语的切分方法，以实现对中文文本分词的效果。同样要求大量的训练样本，并且时空开销比较大。

主要难题

1、歧义问题

2、新词识别

0 0