我读Boosting Saliency CVPR 2012

来源:互联网 发布:淘宝聚仙堂的符怎么样 编辑:程序博客网 时间:2024/06/05 02:14

原创手打,转载请注明出处。如有疑问或者错误,留言即可。讲稿ppt:http://download.csdn.net/detail/xuanwu_yan/4852558

2014.4.28更新:Matlab with C mex实现方法已传至github,方便大家直接下载。传送门

Boosting Bottom-up and Top-down Visual Features for Saliency

这篇文章的作者是Ali Borji,Pdf,三篇cvpr_2012,明年有篇TPAMI

本文主要提取低层(low-level)和高层(top-down)产生的saliency map的集合成为该点特征,并使用leave-one-out的方法用三种分类器(Regression,SVM,Boosting)在三个数据集上训练测试,与真人观测得到的眼动数据ground-truth对比,在三个度量(AUC,NSS,CC)上发现Boosting得到的拟合眼动数据效果最好,最后在ROC曲线上与其他方法得到的saliency map进行对比。

本文的主要出发点是一个贝叶斯公式的推导,在具有特征f的某位置x是salient的概率p是等式的左边,有如下

此处假设f与x相互独立,且先验概率p(s)相同,所以可以得到正相关最右。又有:


即与图片中心点的欧式距离相关,所以本文主要研究的是特征点和salient的对应关系。

接下来说说feature的来源。

视觉特征的底层特征提取:色强,方向,颜色值。
图片先缩放200x200,然后用下面的4类方法提取特征,像素级。


高层特征,包括人脸,文字,人体,车,对称的东西,引导注意的标志符号等。提取比较困难,因为情绪和动作因果关系包含且无法检测,文字检测也没有好的算法。

综上,底层和高层加起来,每个pixel就对应一个34维的feature,然后化为200x200的map,
提取feature就到这里,下面介绍三个分类器
采用online learning,先将feature matrix归一化,使其平均数是0,标准差是1,然后建立一个等大小的label map,每个点取值+1/-1,人眼观测的预测结果,top 20%标注+1,bottom 40% 标注-1。他将数据集分为N组,然后使用leave-one-out的方式进行训练和测试。测试的分类器包括:线性回归(Regression),线性核的SVM, 以及boosting方法。从实验结果对比来看,非线性的boosting方法取得的效果是最好的。
三个分类器我就不讲了,看我ppt吧,主要是我也不会。。。。
train->test之后就得到了saliency map,用三个评价指数比较关注点预测和显著对象检测的对应关系,发现很好。

  1. AUC值为ROC曲线与x轴之间距离的积分。
  2. 线性相关系数CC表示saliency map和人眼关注map之间的线性关系,计算协方差。
  3. NSS归一化扫描路径的显着性,描述saliency可以描述fixation的程度,给定一幅图,标记人眼观测显著点,计算saliency map,平均数是0,标准差是1,取人眼观测显著点处的saliency value,值越大,saliency越能够描述人眼fixation。见ppt
Cvpr_2011, Unbiased Look at Dataset Bias,无偏见的研究数据集偏见。认为单个数据集不具有普适性和领域性。
所以这个论文在3个数据集上建立了眼动数据,和其他27个saliency模型对比。
又介绍了两个map,一个是Gaussian map,图片中心点画一个Gaussian图形;另一个就是眼动数据作为Ground-truth,描述关注其他事物的时间和给定刺激的比值,三个数据集上15个人,每幅图播放几秒,间隔一秒的灰色图像,以此建立。

下面是AUC对比

然后是三个度量的对比,看不清的话看论文。


最后是salient的ROC curve