检索模型与搜索排序 学习
来源:互联网 发布:网络散布谣言 案例 编辑:程序博客网 时间:2024/05/17 21:56
布尔模型
仅仅根据term后续的倒排列表进行布尔运算,获取最终的返回结果.无法进行排序打分.
空间向量模型
将搜索语句当成一片文档来解析成n维度空间中的某个点,与已经存在的原始文档在该维度中的做比较,根据夹角等因素算出数值进行排序.
首先需要计算每个term的特征权重.为 TF*IDF
TF的两种计算方式:
1+log(TF) 或者 a + (1-a) * Tf/max(TF) a为经验数值
IDF为 逆文档频率因子
IDF = log(N/n) N 为总的文档数量, n 为包含此term的文档数量
计算出特征权重后需要计算查询文档和满足条件文档之间的相似度.
文档相似性的计算使用 Cosine(q,d):
这是二维的,同理n维扩充即可.
概率检索模型
将文档分为两类,一类为和查询相关的文档,一类为和查询无关的文档.如果,查询文档在相关
文档中的概率大于不相关的文档的概率,那么就为相关文档.根据条件概率的转换最后可以得出
一个概率公式,计算此公式的数值,按照大小排序即可.
二元独立模型:
引入两个假设:
二元假设:假设查询词在文档中只有两种情况既出现和不出现,分别表示为1和0
词汇独立假设:文档中词和词之间是相互独立的,那么文档的概率就可以转换为词相乘的概率.
BM25模型
BM25在二元独立模型的基础上引入了,单词在查询文档中的权重及单词在文档中的权重.
BM25F模型
BM25F 在BM25模型的基础上考虑了多个域的问题,添加了一个域的影响的因素.
语言模型
由文档到查询这个方向
对文档中的每个查询词计算出概率,相乘即是打分结果,引入一个同背景概率.及将整个集合的文档算为一个文档算出词的概率.
机器学习排序
需要四个基本步骤:
人工标注训练数据,文档特征抽取,学习分类函数,实际运用
单文档方法:
文档对方法
文档列表方法
这个三个仅仅是简单介绍一下,如果实际要用,还要看看专业的书籍
检索质量评价标准
主要是两个标准: 精确率和召回率 相对而言精确率更加重要
精确率 = A / A +C
召回率 = A / A + B
评价搜索引擎精度的指标: P@10 和 MAP
P@10为前10个文档相关文档所占比例
MAP为 多次查询的平均准确率
AP 为 一次查询中相关文档应该排的位置比上实际排的位置的平均数
0 0
- 检索模型与搜索排序 学习
- 学习笔记---检索与排序
- 【搜索系列】检索模型
- 信息检索与排序模型之布尔模型
- 【索引】排序与检索
- [索引] 排序与检索
- 排序与检索
- 简单排序与检索
- 信息检索模型与评估
- 排序与检索6174问题
- UVA 排序与检索1
- UVA 排序与检索2
- 二分插入排序与检索
- STL初步--排序与检索
- 排序与搜索算法
- 数组 :排序与搜索
- 聊聊学习List<T>搜索与排序的心得
- 全文检索与Lucene学习
- Android--获取当前系统时间
- 【补10月30日】 链表例题
- Android ContentProvider使用
- Java 基础知识总结:异常处理
- Android基础--LoadActivity(载入页面显示)
- 检索模型与搜索排序 学习
- 重装系统之必备技能UEFI和GPT或者MBR安装WIN8.1
- Comparable与Comparator的区别
- https 请求被中止: 未能创建 SSL/TLS 安全通道
- Problem 46 Goldbach's other conjecture (暴力...)
- 数据结构
- Extjs的button居中
- Ajax
- mybatis 中#与$的区别