关于分词的一些解惑

来源：互联网发布：家长监控软件编辑：程序博客网时间：2024/05/21 12:42

1.目前用CRF做分词，一般分词效果是最好的，而且对于未登录词的识别也较为有效.。但为什么很多商业搜索引擎还是用基于词典的方法来做呢。是因为人力成本，还是其他方面的考量？

Ans:学术界用CRF多，工业界几乎没有使用CRF。解决不了分词一致性的问题。

2. 所说的分词一致性指的是同一个短文本，上下文发生了变化，切出来的词就不一样了？是么？

Ans:对的。CRF的上下文太强了。在搜索这块反而有点不明显。另外一项研究表明，在搜索领域，提升分词的准确率，比如说提升2个点，对搜索效果的提升几乎没有帮助。分词一致性在搜索这个问题上，比准确率要重要得多。另外一个问题是时间，线性时间，这点CRF做不到。另外CRF在新词识别上，准确率肯定没有我们现在紧密度的方法高。

3. “CRF的上下文太强了,在搜索反而有点不明显” 是啥意思？

Ans：CRF的准确率在搜索反而不是一个明显的优点，一个是查询很短，上下文不充分，优势不明显，另外一个容易带来不一致的问题。

4. 你上面的这句话，侧重点主要是query端吧。因为query端的短文本，不像网页正文一样，那么符合语法规则。缺少上下文的特征。我的意思是。根本原因是query 上下文不充分吧。不一致的原因是query 上下文不充分。除了 text和query，在上下文信息方面有区别。你觉得还有哪些别的信息，导致了不一致问题？

Ans:强上下文相关性。公司两年前就做过一个基于CRF的分词，一年前做过一个基于dnn的分词。两个项目都流产了。准确率都很高，但是解决不了分词一致性的问题。另外一个是性能，速度也会差很多，不一致性和性能都是问题，还有另外一个问题，不可维护，出了case，很难解决。CRF的修复成本很高。得写很多规则。不过这个是次要问题，不一致性和性能才是本质问题，尤其是不一致性。不过也有人尝试用词典+CRF结合的方法来解决一致性的问题，能解决得不错，但是性能这个问题解决不了。准确率提升不大，但是性能慢了很多。

5. 单就速度而言，CRF满足不了index和query seg的需求么?

Ans:index做索引的时候，对于搜索来说，可能会带来的成本是做索引的机器得翻好几倍。

6. wuzhen做的那套紧密度工作，使用了Unsupervised query segmentation using clickthrough for information retrieval 那篇论文里面的思想了么？

Ans:想法是一样的，实现不一样。

Q：实现是用的百度那一套？

A:百度也是类似那篇论文的思想，实现也不一样，google也是。google中国的紧密度也是这一套。google那一套是听soso的师兄讲的，google那班人到搜搜了。

百度也是听百度人说的。

0 0