【信息检索导论】第12章 基于语言建模的信息检索模型

来源:互联网 发布:淘宝全球购买手是什么 编辑:程序博客网 时间:2024/05/30 23:34

12章 基于语言建模的信息检索模型

语言模型

一类最简单的语言模型与一个概率有穷自动机等价。

在一元语言模型中,词出现的先后次序无关紧要,因此,这类模型也往往称为词袋模型

查询似然模型

查询似然模型(query likelihood model)我们对文档集中的每篇文档构建其对应的语言模型Md。我们的目标是将文档按照其与查询相关的似然P(d|q)排序。

最普遍的计算P(d|q)的方法是使用多项式一元语言模型,该模型等价于多项式朴素贝叶斯模型,其中这里的文档相当于后者中的类别,每篇文档在估计中都是一门独立的“ 语言” 。

在基于语言模型(简记为LM)的检索中,可以将查询的生成看成一个随机过程。具体的方法是:

(1) 对每篇文档推导出其LM

(2) 估计查询在每个文档di LM 下的生成概率P(q|Md)

(3) 按照上述概率对文档进行排序。

原创粉丝点击