检索学习

来源:互联网 发布:淘宝寄错东西了怎么办 编辑:程序博客网 时间:2024/06/05 23:39

TF-IDF

TF:词频,词语在某一文档中出现的次数。
IDF:逆文本频率,一个词越稀有,这个值越高。文件总数除以包含该词语的文件数目,再将得到的商取对数。
TF*IDF得到一个词语在文档中的权重,即这个词稀有程度和在文档中出现的频繁程度。
可以用于文档的搜索查询,对于查询中的每个关键字,计算tfidf分数,并相加。得分最高的就是与查询语句最符合的文档。

Okapi BM25

属于bag-of-words模型,即只考虑文档中的词频,不考虑句子结构或语法关系,把文档看成装words的袋子,具体袋子里面可以是乱序的。
新的版本BM25F可以考虑文档结构和链接文本,代表类tf-idf检索功能的最优方法
其在tf-idf基础上增加了两个可调参数,k1(词语频率饱和度)和b(字段规约长度)
k1:指一篇文章某个词语频率具有上限,即某个词出现40次和80次是一样的,值介于1.2-2.0,数值越低饱和过程越快即赋予某个词40次和80次的
分数相同
b:将文档的长度归约化到全部文档的平均长度。
值介于0-1 1意味着全部归约

原创粉丝点击