论文笔记《Harvesting Discriminative Meta Objects with Deep CNN Features for Scene Classification》

来源：互联网发布：网络爬虫 java 开源编辑：程序博客网时间：2024/06/05 08:03

文章提出一个pipeline从场景训练集中挖掘代表性的元素（meta object），将一幅图像用这些meta object表示，得到了state-of-the-art的分类效果。

论文来自ICCV2015

1 Motivation

假设：场景的类别与场景中的目标有关。

本文借鉴BOW思想，用整个训练集提取出representative and discriminative meta object，用category-specific的object表示图像。

文章提出的pipeline分5步，图示如下：
Framework

MCG是基于图片的空间金字塔分割，将多尺度的分割结果合并后得到candidates，能够更好地捕获细节，得到更精确的proposal。

Hybrid-CNN是用Places数据集（场景图片数据集）和ImageNet的图片数据集一起训练得的网络，更适用于场景图片。

目标函数：

m i n 1 2 ∥ w ∥ 2 + 1 v l \sum l ξ i - ρ

(w \cdot Φ (x i)) \geq ρ - ξ i, x i i \geq 0, i = 1, 2, \dots, l

决策函数：

f (x) = s i g n (w \cdot Φ (x i) - ρ)

其中，

l是样本个数，

v是outlier所占比率，是人为设置的，

ρ是offset，one-class SVM可以看做将二分类的分类面向一侧平移以忽略一些点，这个offset就是平移的距离。

下图是v={0.1, 0.2, 0.4}时ρ的变化，可以看到为了去掉更多outlier，分类面在收缩。
one class SVM

为图片i 中的patch j 计算一个weight，在所有patch中（除去第i张图的所有其他patch）选patch j的K个近邻，有Ky个patch和patch j的label是相同的。这样使得场景的代表性patch有较高的weight。

w i j = P (y i ∣ p i j) = P ( p i j , y i ) P ( p i j ) \approx K y / K .

从下图可以看出，代表性patch其实是不多的。
这里写图片描述

用RIM4(Regularized Information Maximization)对所有patch聚类，聚类中心就是meta object，目的是分析整合representative patch中的语义信息。
聚类结果示例：

这里写图片描述

实验中对pipeline的每一个环节都做了验证。

这里写图片描述

meta object实际上是proposal的聚类结果，而proposal本身只是object候选框，在后面的meta object挖掘过程中并没有调整这些proposal的内容，所以要依赖于高质量的proposal。
挖掘discriminant patch时没有用准确的标号信息，限制了挖掘能力。

Multiscale combinatorial grouping. CVPR 2014 ↩
Learning deep features for scene recognition using places database. NIPS 2014 ↩
Estimating the support of a high-dimentional distribution. Neural Comput. 2011 ↩
Discriminative clustering by regularized information maximization. NIPS 2010 ↩
Linear spatial pyramid matching using sparse coding for image classification. CVPR 2009 ↩
Aggregating local descriptors into a compact image representation. CVPR 2010 ↩

0 0