计算广告学习笔记 4.3竞价广告系统-广告检索

来源:互联网 发布:淘宝助手如何导出宝贝 编辑:程序博客网 时间:2024/04/28 13:49

对于GD的广告商比较少,所以不需要广告检索,但在广告网络中广告商数量非常大,就需要检索了。

广告的检索有两点是在普通搜索之外的,下面探讨,一个是布尔表达式检索的方式,另一个是长query的处理

其中讨论的Doc就是广告,说白了也就是广告商提出的一组条件。

下面是GD里面广告商做广告检索的方法


每个Conjunction就是对于某条广告广告主的要求的一类人群。

sizeof(Conjunction)大于sizeof(query),也就是说,比如某个广告商要求(广州的人并且大于18岁)或者(湖北的人并且年龄大于36岁),第一个conjunction=广州 并 大于18

这时候来了个展示的要求,该展示的查询是(广州的),那么就属于这种情况,这样无法满足广告主的需求,所以这个查询被抛弃。

和RSS订阅的研究方向有些类似。



后一个索引前面的0,1,2 代表size分布为0,1,2的conjunction大的分组,可以用按照上面提到的方法简化计算。

下面进入第二个问题,长query的查找


什么是理论上不需要考虑的文档,就需要在查询和doc之间建立一个相关性的函数。

如果这个相关性函数是线性的话,那么就可以进行剪枝,但是这种线性的函数不好找。但是一旦找到,就能提高检索和排序的效率

下面介绍


WAND就是为了建立这样一个好的相关性函数尽可能跳过一些无关的文档,目的是为了在query很长的时候进行有效的剪枝,剪枝的目的是为了限制检索出的TopN的个数尽量少,把好的doc覆盖住。

ub=上限

最后前N个的排序是在那个堆里面,通过这个流程,可以skip一些docs

因为原始的IR的检索方法中,对于某一个长的查询词,因为每个词都是should的关系,只可能先对每个查询词分别找到topn,然后合并在一起,然后再排序,这样的情况下,topN不可能太大(太大系统负担不起),直接会导致很多好的结果不会被包含进来,最终的结果就是检索的效果不好。Wand就是为了解决这样的问题。下图说明这一点


从图中可以看到 好的方面是,非常相关的上升;不好的方面是:由于评价函数,所以重复率也会上升。


原创粉丝点击