谈谈分词（下）

来源：互联网发布：电脑收银软件下载编辑：程序博客网时间：2024/06/14 17:02

分词的一致性和颗粒度当统计语言模型被广泛应用后，简单依靠与人工分词的结果比较来衡量分词器的准确性就很难，甚至毫无意义。不能讲一个准确率97%的分词器一定比95%的好，因为这要看它们选用的所谓正确的人工分词的数据是如何得来的。我们只能讲某个分词器与另一个相比，与人工分词结果的吻合度稍微高一点而已。所幸的是，现在中文分词是一个已经解决的问题，提高的空间微乎其微，只要采用统计语言模型，效果都差不多哪去。

在机器翻译中，一般来讲，颗粒度大翻译效果好，比如“联想公司”作为整体，很容易翻译为Lenovo，如果分词将它们分开，就有可能翻译不好。但是在网页搜索中，小的颗粒度更好，比如“清华大学”这四个字如果作为一个词，在对网页分词后，它是一个整体，当用户查询“清华”时就找不到清华大学了。可以针对不同应用构造不同的分词器，但是这样做非常浪费。更好的做法是让一个分词器同时支持不同层次的词的切分。也就是说，如上面的清华大学，既可以看成整体也可以切分开，然后由不同的应用自行决定切分的粒度。分词的不一致性可以分为错误和颗粒度不一致两种，错误又分两类，一类是越界型错误，比如把“北京大学生”分为“北京大学-生”，另一类是覆盖性错误，比如把“薛之谦”分成了三个字，这些是明显的错误，是改进分词器时尽可能消除的。颗粒度的不一致性在衡量分词器的好坏时可以不作为错误，以免不同人的看法不同左右来对分词器的度量。

分词小结中文分词以统计语言模型为基础，经过几十年的发展和完善，今天基本上可以看做是一个已经解决的问题。当然不同的人做的分词器有好有坏，差别主要在于数据的使用和工程实现的精度。分词部分介绍就这样，这个系列文章只希望起到一个小小的科普作用，每个知识点的具体内容得大家自己去研究。

0 0