谈谈分词(下)

来源:互联网 发布:电脑收银软件下载 编辑:程序博客网 时间:2024/06/14 17:02

    分词的一致性和颗粒度当统计语言模型被广泛应用后,简单依靠与人工分词的结果比较来衡量分词器的准确性就很难,甚至毫无意义。不能讲一个准确率97%的分词器一定比95%的好,因为这要看它们选用的所谓正确的人工分词的数据是如何得来的。我们只能讲某个分词器与另一个相比,与人工分词结果的吻合度稍微高一点而已。所幸的是,现在中文分词是一个已经解决的问题,提高的空间微乎其微,只要采用统计语言模型,效果都差不多哪去。

    在机器翻译中,一般来讲,颗粒度大翻译效果好,比如“联想公司”作为整体,很容易翻译为Lenovo,如果分词将它们分开,就有可能翻译不好。但是在网页搜索中,小的颗粒度更好,比如“清华大学”这四个字如果作为一个词,在对网页分词后,它是一个整体,当用户查询“清华”时就找不到清华大学了。可以针对不同应用构造不同的分词器,但是这样做非常浪费。更好的做法是让一个分词器同时支持不同层次的词的切分。也就是说,如上面的清华大学,既可以看成整体也可以切分开,然后由不同的应用自行决定切分的粒度。分词的不一致性可以分为错误和颗粒度不一致两种,错误又分两类,一类是越界型错误,比如把“北京大学生”分为“北京大学-生”,另一类是覆盖性错误,比如把“薛之谦”分成了三个字,这些是明显的错误,是改进分词器时尽可能消除的。颗粒度的不一致性在衡量分词器的好坏时可以不作为错误,以免不同人的看法不同左右来对分词器的度量。

    分词小结中文分词以统计语言模型为基础,经过几十年的发展和完善,今天基本上可以看做是一个已经解决的问题。当然不同的人做的分词器有好有坏,差别主要在于数据的使用和工程实现的精度。分词部分介绍就这样,这个系列文章只希望起到一个小小的科普作用,每个知识点的具体内容得大家自己去研究。

0 0