检索学习
来源:互联网 发布:淘宝寄错东西了怎么办 编辑:程序博客网 时间:2024/06/05 23:39
TF-IDF
TF:词频,词语在某一文档中出现的次数。
IDF:逆文本频率,一个词越稀有,这个值越高。文件总数除以包含该词语的文件数目,再将得到的商取对数。
TF*IDF得到一个词语在文档中的权重,即这个词稀有程度和在文档中出现的频繁程度。
可以用于文档的搜索查询,对于查询中的每个关键字,计算tfidf分数,并相加。得分最高的就是与查询语句最符合的文档。
Okapi BM25
属于bag-of-words模型,即只考虑文档中的词频,不考虑句子结构或语法关系,把文档看成装words的袋子,具体袋子里面可以是乱序的。
新的版本BM25F可以考虑文档结构和链接文本,代表类tf-idf检索功能的最优方法
其在tf-idf基础上增加了两个可调参数,k1(词语频率饱和度)和b(字段规约长度)
k1:指一篇文章某个词语频率具有上限,即某个词出现40次和80次是一样的,值介于1.2-2.0,数值越低饱和过程越快即赋予某个词40次和80次的
分数相同
b:将文档的长度归约化到全部文档的平均长度。
值介于0-1 1意味着全部归约
阅读全文
0 0
- 检索学习
- 全文检索学习
- 全文检索学习
- 全文检索学习
- MySQL全文检索学习!
- 检索搜索引擎框架学习
- 全文检索学习
- 信息检索学习笔记
- 数据库检索学习
- Hibernate学习---检索优化
- 学习笔记:信息检索(1) 布尔检索
- Hiberante学习笔记:检索策略
- Hibernate学习(八):检索方式
- Hibernate学习笔记:检索策略
- Hibernate学习(八):检索方式
- 全文检索与Lucene学习
- hibernate学习笔记(检索策略)
- lucene学习笔记2--检索
- AlphaGo对战柯洁,机器取胜已毫无悬念
- JAVA-二分法查找算法总结
- json对象与数组以及转换成js对象的简单实现方法
- Maven 集成 JavaFX 8 以及「fx:root」问题探讨
- ThreadPoolExecutor的PriorityBlockingQueue的cannot be cast to问题
- 检索学习
- 机器视觉开源代码集合(转)
- 关于Date、DateFormat、Calendar的综合应用--日历
- 加载图片框架Glide
- Profile 工具系列之二: gperftools
- 使用Spring Boot的跨源CORS设置
- leetcode 208. Implement Trie (Prefix Tree)字典树
- Js获取短信验证码前段效果
- File---文件类