BM25对于结构化摘要的优化

来源:互联网 发布:伏安特性曲线实验数据 编辑:程序博客网 时间:2024/06/06 04:11

BM25算法典型用法

       众所周知,BM25通常用来做搜索相关性评分
                                 
           上图的三个公式表示了BM25的一个典型用法,用来计算一个文档与我们所搜索的query的相关性。权值Wi,在这里通常用IDF来表示,即对于每一个词语,如果这个词在整个文档集合中,包含这个词的文档数越多,那么这个词所占的权重就越小,这是因为在检索当中,对于那些在每个文档都出现频繁的词,它们对相关性的贡献作用会相应地减弱。
         
                                        
       以上的公式是对于搜索引擎的一个典型用法,但是我们所做的是文本摘要处理,上面的公式直接应用于文本摘要中的效果并不是很好,因此我们要对它进行优化。

 BM25算法对于文本摘要的优化

       我们必须明确,我们所做的是文本摘要处理,主要是基于textrank算法进行的,而BM25是其中关于句子相似度计算的一个部分,而我们最终得到的评分数值是textrank之后的数值,现在优化的只是中间步骤。
       对于原来公式里的参数,也都必须有新的含义,我们这里比较的是两个句子的相似度,所以
       我们在这个部分做了一个优化,因为对于原来的公式,后半部分指的是query中的词频,但事实上搜索的时候,我们查询的词频在绝大部分情况下都是1,并不会有别的值,所以上面公式的后半部分在之前的搜索算法里就被省略了。而在我们的摘要处理过程中,句子与句子之间的关系都是平等的,如果要计算两个句子的相似度,词频对于两个句子的影响应该是公平的,所以我们把这个部分还原回来,不能省略。
       接下来就是关于权值的部分,我们在这里主要是做关于主题的搜索,而原来一个词在文档中的出现次数在这里变成了一个词在这篇文章中出现的次数,我们在处理过程中去掉了一些停用词和一些无关词,因此出现次数多的那些词一般来说都是比较重要的词,所以我们应该相应地提升它们的权重。在这里,我们把IDF换成了DF
                                       
        以上就是我们优化之后的算法。
原创粉丝点击