谈谈分词(下)
来源:互联网 发布:电脑收银软件下载 编辑:程序博客网 时间:2024/06/14 17:02
分词的一致性和颗粒度当统计语言模型被广泛应用后,简单依靠与人工分词的结果比较来衡量分词器的准确性就很难,甚至毫无意义。不能讲一个准确率97%的分词器一定比95%的好,因为这要看它们选用的所谓正确的人工分词的数据是如何得来的。我们只能讲某个分词器与另一个相比,与人工分词结果的吻合度稍微高一点而已。所幸的是,现在中文分词是一个已经解决的问题,提高的空间微乎其微,只要采用统计语言模型,效果都差不多哪去。
在机器翻译中,一般来讲,颗粒度大翻译效果好,比如“联想公司”作为整体,很容易翻译为Lenovo,如果分词将它们分开,就有可能翻译不好。但是在网页搜索中,小的颗粒度更好,比如“清华大学”这四个字如果作为一个词,在对网页分词后,它是一个整体,当用户查询“清华”时就找不到清华大学了。可以针对不同应用构造不同的分词器,但是这样做非常浪费。更好的做法是让一个分词器同时支持不同层次的词的切分。也就是说,如上面的清华大学,既可以看成整体也可以切分开,然后由不同的应用自行决定切分的粒度。分词的不一致性可以分为错误和颗粒度不一致两种,错误又分两类,一类是越界型错误,比如把“北京大学生”分为“北京大学-生”,另一类是覆盖性错误,比如把“薛之谦”分成了三个字,这些是明显的错误,是改进分词器时尽可能消除的。颗粒度的不一致性在衡量分词器的好坏时可以不作为错误,以免不同人的看法不同左右来对分词器的度量。
分词小结中文分词以统计语言模型为基础,经过几十年的发展和完善,今天基本上可以看做是一个已经解决的问题。当然不同的人做的分词器有好有坏,差别主要在于数据的使用和工程实现的精度。分词部分介绍就这样,这个系列文章只希望起到一个小小的科普作用,每个知识点的具体内容得大家自己去研究。
- 谈谈分词(下)
- 谈谈分词(上)
- 谈谈分词
- 数学之美 系列二 -- 谈谈中文分词(转载)
- 数学之美系列2(转载)谈谈中文分词
- 数学之美(系列二) 之 谈谈中文分词
- 数学之美--谈谈分词
- 谈谈中文分词(转自 Google黑板报)
- 谈谈ActionScript垃圾回收(下)
- 谈谈程序员的职业方向(下)
- 浅谈SEO的关键:中文分词(下)
- Apache Solr 4.9 和 IKAnalyzer中文分词配置(下)
- 概率语言模型的分词方法(下)
- 谈谈需求(下)
- 谈谈大三下
- 数学之美 系列二 -- 谈谈中文分词
- 数学之美 系列二 -- 谈谈中文分词
- 数学之美 系列二 -- 谈谈中文分词
- JSF基础(一)
- Win10上搭建深度学习平台Tensorflow
- 指向常对象的指针变量
- 侧滑菜单--狸菇凉_
- 面向对象—多态(1)
- 谈谈分词(下)
- 对象的常引用
- JDBC中常用的SQL总结02之SELECT语句用法详解
- 对象存储oss集成到thinkPHP,将图片上传到oss里面
- 代码Python入门(七、文件)
- maven教程
- 机器学习笔记--模型评估与选择
- 说话人识别中的VAD
- 【Angular】——环境配置