检索模型与搜索排序 学习

来源:互联网 发布:网络散布谣言 案例 编辑:程序博客网 时间:2024/05/17 21:56
布尔模型

仅仅根据term后续的倒排列表进行布尔运算,获取最终的返回结果.无法进行排序打分.


空间向量模型

将搜索语句当成一片文档来解析成n维度空间中的某个点,与已经存在的原始文档在该维度中的做比较,根据夹角等因素算出数值进行排序.

首先需要计算每个term的特征权重.为 TF*IDF
TF的两种计算方式:
1+log(TF) 或者 a + (1-a) * Tf/max(TF)  a为经验数值

IDF为 逆文档频率因子 

IDF = log(N/n) N 为总的文档数量, n 为包含此term的文档数量

计算出特征权重后需要计算查询文档和满足条件文档之间的相似度.

文档相似性的计算使用 Cosine(q,d):


这是二维的,同理n维扩充即可.


概率检索模型

将文档分为两类,一类为和查询相关的文档,一类为和查询无关的文档.如果,查询文档在相关
文档中的概率大于不相关的文档的概率,那么就为相关文档.根据条件概率的转换最后可以得出
一个概率公式,计算此公式的数值,按照大小排序即可.

二元独立模型:
引入两个假设: 
二元假设:假设查询词在文档中只有两种情况既出现和不出现,分别表示为1和0
词汇独立假设:文档中词和词之间是相互独立的,那么文档的概率就可以转换为词相乘的概率.

BM25模型
BM25在二元独立模型的基础上引入了,单词在查询文档中的权重及单词在文档中的权重.

BM25F模型

BM25F 在BM25模型的基础上考虑了多个域的问题,添加了一个域的影响的因素.


 语言模型

由文档到查询这个方向

对文档中的每个查询词计算出概率,相乘即是打分结果,引入一个同背景概率.及将整个集合的文档算为一个文档算出词的概率.

机器学习排序
需要四个基本步骤:
人工标注训练数据,文档特征抽取,学习分类函数,实际运用

单文档方法:
文档对方法
文档列表方法
这个三个仅仅是简单介绍一下,如果实际要用,还要看看专业的书籍


检索质量评价标准

主要是两个标准: 精确率和召回率 相对而言精确率更加重要



精确率 =  A / A +C
召回率 =  A / A + B

评价搜索引擎精度的指标: P@10 和 MAP

P@10为前10个文档相关文档所占比例

MAP为 多次查询的平均准确率

AP 为 一次查询中相关文档应该排的位置比上实际排的位置的平均数
0 0
原创粉丝点击