【metasearch学习笔记】Relevance Score Normalization for Metasearch_Aslam_CIKM2001

来源：互联网发布：剑灵犬夜叉捏脸数据编辑：程序博客网时间：2024/05/22 00:19

主要内容：

这篇文章主要是讲元搜索中Score Normalization的，也就是有若干个独立的搜索引擎，对于一个query，每个搜索引擎给出一些doc列表以及每个doc的分数，为了使各个搜索引擎对doc的打分可以相互比较，做的Normalization的工作。

个人评论：刚开始看元搜索的一些细节性东西，发现元搜索的文章主要集中在2k年前后，再之后的文章就很少了。不知道学术界为什么转移了研究方向？是效果不很好、还是可以挖掘的研究点不多了？

具体内容：

1. 元搜索的应用点

（1）external usage：在某些成熟的商业引擎基础上，再建立元搜索引擎，并也应用在商业上面。

（2）internal usage：在某个搜索引擎内部，建立一些垂直、独立的搜索引擎，当query过来的时候，元搜素融合内部搜索的各个结果

2. 元搜索的三个子问题

注意，这时候本文作者的前提假设是：各个子搜索引擎结果独立、同时不仅能够获得子搜索引擎对doc的排序、而且能够获得子搜索引擎对doc的打分。这个打分不是概率，否则概率可以直接进行比较，本文的工作也就没有意义。

（1）Normalization问题：就是上面说的，对子搜索引擎对doc的打分进行归一化，目的是使得各个搜索引擎的打分可以相互比较

（2）estimation问题：这个文章上描述的是对那些搜索引擎没有retrieved到的doc进行打分预测，个人不太清楚对那些doc进行打分预测有什么用，是还想加到结果列表里面去、从而提升召回率？

（3）combination问题：就是将各个结果进行融合，形成一个序列

3. Normalization的步骤

其实只要稍有编程常识的人都能够想出来，不明白为什么这样的思路、结果还能够发一篇还算OK的文章。废话少说，说步骤：

3.1 shifting

说白了就是在原有打分的基础上都加（或者减去）一个常数，使得打分的范围“平移”到某个区域

3.2 scaling

再在上面的基础之上乘以一个常数，进一步将这个区域放大（或者缩小）。

当所有搜索引擎的结果都重合到一个区域的时候，这时候这些结果不就是可以直接比较的了么。

4. 几种Normalization方法

方法都很容易懂，zmuv的不太容易懂，不过从后来的实验效果上看，也没见得好到哪儿去。

转载请注明出处：http://blog.csdn.net/xceman1997/article/details/22524755

完。

0 0