关于分词的一些解惑
来源:互联网 发布:家长监控软件 编辑:程序博客网 时间:2024/05/21 12:42
1.目前用CRF做分词,一般分词效果是最好的,而且对于未登录词的识别也较为有效.。但为什么很多商业搜索引擎还是用基于词典的方法来做呢。是因为人力成本,还是 其他方面的考量?
Ans:学术界用CRF多,工业界几乎没有使用CRF。解决不了分词一致性的问题。
2. 所说的分词一致性指的是同一个短文本,上下文发生了变化,切出来的词 就不一样了? 是么?
Ans:对的。CRF的上下文太强了。在搜索这块反而有点不明显。另外一项研究表明,在搜索领域,提升分词的准确率,比如说提升2个点,对搜索效果的提升几乎没有帮助。分词一致性在搜索这个问题上,比准确率要重要得多。另外一个问题是时间,线性时间,这点CRF做不到。另外CRF在新词识别上,准确率肯定没有我们现在紧密度的方法高。
3. “CRF的上下文太强了,在搜索反而有点不明显” 是啥意思?
Ans:CRF的准确率在搜索反而不是一个明显的优点,一个是查询很短,上下文不充分,优势不明显,另外一个容易带来不一致的问题。
4. 你上面的这句话, 侧重点主要是query端吧。 因为query端的短文本,不像网页正文一样,那么符合语法规则。缺少上下文的特征。我的意思是。根本原因是query 上下文不充分吧。不一致的原因 是query 上下文 不充分。除了 text和query,在上下文信息方面有区别。 你觉得 还有哪些 别的信息,导致了不一致问题?
Ans:强上下文相关性。公司两年前就做过一个基于CRF的分词,一年前做过一个基于dnn的分词。两个项目都流产了。准确率都很高,但是解决不了 分词一致性的问题。另外一个是性能,速度也会差很多,不一致性和性能都是问题,还有另外一个问题,不可维护,出了case,很难解决。CRF的修复成本很高。得写很多规则。不过这个是次要问题,不一致性和性能才是本质问题,尤其是不一致性。不过也有人尝试用词典+CRF结合的方法来解决一致性的问题,能解决得不错,但是性能这个问题解决不了。准确率提升不大,但是性能慢了很多。
5. 单就速度而言,CRF满足不了index和query seg的需求么?
Ans:index做索引的时候,对于搜索来说,可能会带来的成本是做索引的机器得翻好几倍。
6. wuzhen做的那套紧密度工作,使用了Unsupervised query segmentation using clickthrough for information retrieval 那篇论文里面的思想了么?
Ans:想法是一样的,实现不一样。
Q:实现是用的百度 那一套?
A:百度也是类似那篇论文的思想,实现也不一样,google也是。google中国的紧密度也是这一套。google那一套是听soso的师兄讲的,google那班人到搜搜了。
百度也是听百度人说的。
- 关于分词的一些解惑
- 关于Alexa排名作弊的一些解惑
- 关于 Java解惑 里的一些问题
- 关于中文分词的一些琐碎资料
- webx的一些不解解惑
- 关于分词的问题
- 【解惑】关于数据结构的学习
- 【解惑】关于实习生的问题
- 【解惑】关于数据结构的学习
- 关于zookeeper的自我解惑
- 关于中文分词的一元分词讨论
- 关于中文分词的一元分词讨论
- 中文分词的一些心得体会
- 测试分词的一些例子
- Kafka Consumer端的一些解惑
- Kafka Consumer端的一些解惑
- 关于目前分词的想法
- 关于ValueOperations的increment方法的解惑
- 安装Win7和Ubuntu双系统后,Win7耳机无声音的解决办法
- Chrome扩展及应用开发 入门笔记(七)带选项页面的扩展与本地存储
- 创建一个透明的UIToolbar
- 数据库之基础3
- 数据选择控件
- 关于分词的一些解惑
- [引言]学习编程技术需要的基本条件
- js关于省市的二级下拉菜单联动
- [LeetCode]045-Jump Game II
- Java多线程之ThreadPoolExecutor
- 综合案例建模--失物招领管理系统的模型
- Python学习实例:编写一个记事本GUI
- 工作总结2-代码规范问题
- Dagger 2 before