检索模型与搜索排序学习

来源：互联网发布：网络散布谣言案例编辑：程序博客网时间：2024/05/17 21:56

布尔模型

仅仅根据term后续的倒排列表进行布尔运算,获取最终的返回结果.无法进行排序打分.

空间向量模型

将搜索语句当成一片文档来解析成n维度空间中的某个点,与已经存在的原始文档在该维度中的做比较,根据夹角等因素算出数值进行排序.

首先需要计算每个term的特征权重.为 TF*IDF

TF的两种计算方式:

1+log(TF) 或者 a + (1-a) * Tf/max(TF) a为经验数值

IDF为逆文档频率因子

IDF = log(N/n) N 为总的文档数量, n 为包含此term的文档数量

计算出特征权重后需要计算查询文档和满足条件文档之间的相似度.

文档相似性的计算使用 Cosine(q,d):

这是二维的,同理n维扩充即可.

概率检索模型

将文档分为两类,一类为和查询相关的文档,一类为和查询无关的文档.如果,查询文档在相关

文档中的概率大于不相关的文档的概率,那么就为相关文档.根据条件概率的转换最后可以得出

一个概率公式,计算此公式的数值,按照大小排序即可.

二元独立模型:

引入两个假设:

二元假设:假设查询词在文档中只有两种情况既出现和不出现,分别表示为1和0

词汇独立假设:文档中词和词之间是相互独立的,那么文档的概率就可以转换为词相乘的概率.

BM25模型

BM25在二元独立模型的基础上引入了,单词在查询文档中的权重及单词在文档中的权重.

BM25F模型

BM25F 在BM25模型的基础上考虑了多个域的问题,添加了一个域的影响的因素.

语言模型

由文档到查询这个方向

对文档中的每个查询词计算出概率,相乘即是打分结果,引入一个同背景概率.及将整个集合的文档算为一个文档算出词的概率.

机器学习排序

需要四个基本步骤:

人工标注训练数据,文档特征抽取,学习分类函数,实际运用

单文档方法:

文档对方法

文档列表方法

这个三个仅仅是简单介绍一下,如果实际要用,还要看看专业的书籍

检索质量评价标准

主要是两个标准: 精确率和召回率相对而言精确率更加重要

精确率 = A / A +C

召回率 = A / A + B

评价搜索引擎精度的指标: P@10 和 MAP

P@10为前10个文档相关文档所占比例

MAP为多次查询的平均准确率

AP 为一次查询中相关文档应该排的位置比上实际排的位置的平均数

0 0

检索模型与搜索排序 学习