自然图像中的logo识别和定位：Logo localization andrecognition in natural images using homographic class graphs

来源：互联网发布：淘宝怎么提高销量2016 编辑：程序博客网时间：2024/06/04 00:34

这篇文章是2015年发表的文章：Logo localization andrecognition in natural images using homographic class graphs。检测自然场景中logo效果很好。

重要的部分或者改进用红色标注。欢迎大家讨论~

背景

检测logo有很多挑战，比如视角变化、弯曲、形状和颜色的变化、遮挡、背景变化等。文章提出了一种在自然图像中定位和分类logo的方法。为了解决视角变化，同一类logo实例的SIFT关键点之间进行单映射匹配。为了解决颜色变化，构建了一个logo互连的加权图，以提取潜在的某个类的多个类实例。通过将各个训练图像映射到中心图像上构建一个类模型。对于彩色反转logo，通过反转第一个类模型的特征方向获得第两个类模型，这将大大提高准确率。

logo是包含了颜色、形状、特征等信息的图形实体。它的定位和识别是目标检测的一个子问题，在现实生活中有很多用处：

（1）在汽车行业，自动的logo识别可以用于营销研究，允许生产者通过分析其运输模式更好地了解客户；在法医学中还补充了车牌识别。

（2）正式文件中logo的识别可以提高分类和处理效率。

（3）在体育领域，logo显示的持续时间和位置很重要，例如赞助商需要保证其logo一定程度的可见度。

（4）一般广告业采用logo检测评估营销活动的影响。

（5）企业收集类似现有logo的证据，发现不正当或未授权使用其logo的侵权等。

方法

1. 特征提取

SIFT特征是很好的描述图像特征的描述子。它对尺度、方向等具有不变性。在自然图像中，logo通常都十分小。若是直接提取SIFT特征，可能提取不到或者只能提取到几个特征点，这对检测是十分不利的。因此在训练图像中，首先剪切出只含有logo的部分作为“训练logo块”，然后再提取SIFT特征。

为了更好地描述logo做了两方面的修改。首先，将SIFT中DoG的边缘阈值从10提高至100。这能够保证在不引入无用的特征点的同时，提取到更多的特征点来描述logo。其次，也是为了提高获得的特征点个数。数据集中测试图像中的logo过于微小，受[2]启发，在测试时，将任何一维小于200像素的测试图像扩大一倍，这将提高准确率。其中200像素是一个经验值。

2. 图像匹配

图像匹配的目的是通过寻找到两张图像的合适的映射关系，揭示图像对之间的空间对应关系。这里的映射关系指的是单应性，即评估将一张图像映射到另一张图像平面的单应性矩阵。（图像拼接）

2.1 单应性矩阵

单映性变换是相同场景的两个图像之间的一种连接，记为H。它可以将第一张图像中平面上的点（a,b）映射到第二张图上的（x,y）点：

，

给H乘以一个系数z，就变成把原来的（a,b,1）映射成（zx,zy,z）。该点实际上和（x,y,1）是同一个点，可以令z=1/h33，则h33=1。所以H中只有8个自由元素，至少需要4对图像对即可解出一个矩阵H。

2.2 RANSAC

迭代地随机选择4对特征对应关系，用直接线性变换（DLT）确定单应性矩阵H[3]。迭代次数越多，寻找到的匹配关系越准确。如果一次正确匹配的概率是pi，则nn次迭代之后得到正确匹配关系的概率是：

其中r是每次迭代时提取的图像对数。在本文中，r=4。

因为logo很小，所以较小。为了提高得到正确匹配关系的概率，将RANSAC的迭代次数从500提升至200,000次。这将导致匹配的时间变长，而且测试阶段有很大可能找不到测试图像和类模型图像的单应性关系，这种情况下不需要进行全部的迭代过程。所以规定在测试阶段，如果匹配点数少于20，系统自动认为两张图像有很大的可能性找不到单应性关系，直接结束。

3. 互连图

在训练图像完成所有可能的连接之后，以图的形式展示所创建的连接。

假设训练集共有n张图像，理论上一共会产生n(n-1)/2个有联系的图像对。然而实际上，由于遮挡、颜色反转等，并不是所有的图像对之间都有足够的信息而产生一个正确的映射关系。但这并不是一个问题，因为任何两张图像之间都可以通过其他的图像构建联系，即所有图像都可以以直接或间接的方式存在连接。如图所示。

形成图之后，可以很方便地找到与其他图像连接数最多的“中心图像”/“核心图像”。在上图中，img7就是中心图像。与[4]中不同，在本文中为每一条边赋予了权重，权重大小与匹配的点对数数量成反比。

4. 类模型

训练的目的是在同一个平面中，联合所有代表性的关键点和它们对应的描述子。联合特征指的是将所有的特征（关键点和描述子）映射到某一张图像上。只有关键点需要计算，描述子不需要再进行计算。使用之前得出的H，所有图像均可以映射到中心图像上。这里存在一个问题，对于直接连接的图像，直接应用单应性转换即可。对于那些间接连接的图像，比如图像1和图像n没有直接连接，需要通过以下公式完成映射：

由于映射会引入少量的误差，所以为了尽可能地减少误差，需要为间接相连的图像选择合适的映射路径。明显地，路径越长，引入的误差越多。因为边缘权重与匹配的点对数数量成反比，这使权重和最小的路径有最多的匹配点对数，能够更好地描述特征，即引入了更少的误差。

5. 错误图谱

为了避免过多的不相关的信息影响最终的类模型，引入一个关键点的预过滤过程。对于每一对映射关系，构建一个错误图谱，它能将正确的和错误的匹配分隔开。图谱的值与区域的匹配正确性有直接关系，过程和[5]中相似。

这个图谱能够区分某个区域是正确的映射区域还是遮挡或者形变的区域。下图显示了一个错误图谱的例子。（c）是这个映射产生的错误图谱，其中深色区域显示了正确的匹配，浅色的部分显示了遮挡或logo的不同之处。

6. 类的描述

在建立类模型时，提取出的特征点有很多相似的,映射到中心图像后，会有很多位置和描述都十分相近的关键点，这会减慢我们的匹配效率。所以进行描述子的量化，从而得到唯一的关键点和特征描述。[6]中，作者提到采用K-D树能够完成最大限度的量化，减少计算时间。

7. 光照反转logo模型

logo图像可能是在不同的光照条件下拍摄的，如下图所示。一般的SIFT描述符是去计算等效灰度图的特征点，能够很好地描述物体的形状信息，但它不能解决不同光照条件的问题。由于SIFT描述符仅计算等效灰度图像的事实，反转实际上指灰度/亮度水平的反转; 然而RGB颜色的反转在很小的程度上意味着灰度级别的反转。

对于具有不同光照条件的logo图像，在训练阶段，互连图形成了两个不同的集群。具有差不多相同亮度的训练集中的图像将能够通过单映射彼此匹配，而具有反相亮度级别的其他图像将聚集在另一个单独的集群中。

训练集中，有的类需要构建光照反转logo模型，而有的类一个模型就能达到较好的识别效果。为了自动检测需要反转模型的类，我们使用类紧凑性标准- 通过分析类的图：如果识别了两个单独的连接组件，那么该类必须有两个类模型。由于中央图像被认为是具有最多连接的中心图像，所以这意味着该类的主要模型由图中最大的连接分量描述。如果图的其他集群中的图像一旦亮度反转，就能与类模型相匹配，那意味着实际上类将需要一个反向亮度模型。

如果某类需要构建反转模型，就从第二个集群中选择一个“次要中心图像”。如果按照与第一个模型完全相同的步骤来构建类的另一个模型将导致该类的弱描述，因为该集群包含的图像少于主体，因此信息较少。之前的第一个模型具有很高的描述力，反转之后是对类的中的反转部分进行适当表示。这一次只需要创建关键点的SIFT向量，位置保持不变，而SIFT的8个方向则必须进行相应反转。如下图所示。

实验

实验采用FlickrLogos-32[7]，BelgaLogos[8]两个关于logo的数据集。正确检测的标准有两个：logo的确存在在该张图像，并且和GroundTruth的交叉联合大于50%[9]。

在FlickrLogos-32的检测中，18类能够达到100%，27类能达到90%以上。全部的32类logo的准确率高达90.62%。其中Apple和Pepsi类效果不佳，主要原因是两者的图像大多不平坦，映射时误差较大。在BelgaLogos的37类logo中，准确率只有78.09%。准确率不及FlickrLogos-32数据集的原因是一些类别的logo具有很少的图像：15类含有少于10张的训练测试图像。比如Gucci类，一共只有四张图像，包含两个正样本两个负样本，这大大影响了实验的准确率。一些实验结果如下图所示。

实验过程中，也发现了一些检测效果不好的情况。如下图所示。（a）（b）的主要原因是logo的尺度过小且很模糊；（c）的原因在于logo过小，而且logo的视角十分极端。

参考文献

[1]Boia R, Florea C, Florea L, et al. Logo localizationand recognition in natural images using homographic class graphs[J]. MachineVision and Applications, 2016, 27(2):287-301.

[2] Revaud J, Douze M, Schmid C. Correlation-basedburstiness for logo retrieval[C]// ACM International Conference on Multimedia.ACM, 2012:965-968.

[3]Hartley R, Zisserman A. Multiple View Geometry inComputer Vision[J]. Kybernetes, 2003, 30(9/10):1865 - 1872.

[4]Boia R, Florea C. Homographic Class Template for LogoLocalization and Recognition[M]// Pattern Recognition and Image Analysis.Springer International Publishing, 2015:487-495.

[5]Florea L, Florea C, Vranceanu R, et al. Can Your EyesTell Me How You Think? A Gaze Directed Estimation of the Mental Activity[C]//British Machine Vision Conference. 2013:60.1-60.11.

[6]Brown M, Lowe D G. Automatic Panoramic ImageStitching using Invariant Features[J]. International Journal of ComputerVision, 2007, 74(1):59-73.

[7]Romberg S, Pueyo L G, Lienhart R, et al. Scalablelogo recognition in real-world images[C]// ACM International Conference onMultimedia Retrieval. ACM, 2011:25.

[8] Joly A, Buisson O. Logo retrieval with a contrariovisual query expansion[C]// International Conference on Multimedia 2009,Vancouver, British Columbia, Canada, October. DBLP, 2009:581-584.

[9] Everingham M, Gool L V, Williams C K I, et al. ThePascal Visual Object Classes (VOC) Challenge[J]. International Journal ofComputer Vision, 2010, 88(2):303-338.

关于FlickrLogos-32，BelgaLogos两个关于logo的数据集我之前分析过。可以翻看我之前的博客。

3 0