关于分词的一些解惑

来源:互联网 发布:家长监控软件 编辑:程序博客网 时间:2024/05/21 12:42

1.目前用CRF做分词,一般分词效果是最好的,而且对于未登录词的识别也较为有效.。但为什么很多商业搜索引擎还是用基于词典的方法来做呢。是因为人力成本,还是 其他方面的考量?

Ans:学术界用CRF多,工业界几乎没有使用CRF解决不了分词一致性的问题。

2. 所说的分词一致性指的是同一个短文本,上下文发生了变化,切出来的词  就不一样了? 是么?

Ans:对的。CRF的上下文太强了。在搜索这块反而有点不明显。另外一项研究表明,在搜索领域,提升分词的准确率,比如说提升2个点,对搜索效果的提升几乎没有帮助。分词一致性在搜索这个问题上,比准确率要重要得多。另外一个问题是时间,线性时间,这点CRF做不到。另外CRF在新词识别上,准确率肯定没有我们现在紧密度的方法高

3. “CRF的上下文太强了,在搜索反而有点不明显” 是啥意思?

Ans:CRF的准确率在搜索反而不是一个明显的优点,一个是查询很短,上下文不充分,优势不明显,另外一个容易带来不一致的问题

4. 你上面的这句话, 侧重点主要是query端吧。 因为query端的短文本,不像网页正文一样,那么符合语法规则。缺少上下文的特征。我的意思是。根本原因是query 上下文不充分吧。不一致的原因 是query 上下文 不充分。除了 text和query,在上下文信息方面有区别。 你觉得 还有哪些 别的信息,导致了不一致问题?

Ans:强上下文相关性。公司两年前就做过一个基于CRF的分词,一年前做过一个基于dnn的分词。两个项目都流产了。准确率都很高,但是解决不了 分词一致性的问题。另外一个是性能,速度也会差很多,不一致性和性能都是问题,还有另外一个问题,不可维护,出了case,很难解决。CRF的修复成本很高。得写很多规则。不过这个是次要问题,不一致性和性能才是本质问题,尤其是不一致性。不过也有人尝试用词典+CRF结合的方法来解决一致性的问题,能解决得不错,但是性能这个问题解决不了。准确率提升不大,但是性能慢了很多。

5. 单就速度而言,CRF满足不了index和query seg的需求么?

Ans:index做索引的时候,对于搜索来说,可能会带来的成本是做索引的机器得翻好几倍。

6. wuzhen做的那套紧密度工作,使用了Unsupervised query segmentation using clickthrough for information retrieval  那篇论文里面的思想了么?

Ans:想法是一样的,实现不一样。

Q:实现是用的百度 那一套?

A:百度也是类似那篇论文的思想,实现也不一样,google也是。google中国的紧密度也是这一套。google那一套是听soso的师兄讲的,google那班人到搜搜了。

百度也是听百度人说的。

0 0