学习sift特征总结

来源：互联网发布：c语言node是干嘛的编辑：程序博客网时间：2024/05/25 19:58

Scale-space theory: A basic tool for analysing structures at different scales

尺度空间理论：一个基本地分析不同尺度下的图像结构的工具。

摘要：

现实世界中的物体总是通过不同尺度的观察而得到不同变化的。如果我们想分析未知世界信息的结构时，一个数据的多尺度表示是至关重要的。

本文给出一个典型的多尺度表示的一个回顾，线形尺度表示是由计算机视觉协会提出的，以统一的方式来处理不同尺度下的图像结构。基本思想是插入一个基本信号到一逐渐平滑的信号组里，其中精细结构被逐渐平滑掉。

在一般情况下，计算类型是视觉处理的首要阶段，可以称为视觉前端。可以证明，高斯核及其由他派生出来是唯一可能的平滑内核。指定的条件是高斯核是基本的，线形的，位移不变的和形成正式概念的不同方式，在粗燥尺度下的图像结构应符合其精细尺度下的相应结构简单化。他们不应是创建平滑结构的偶然方法。特别是，选择尺度空间理论的不同方法要得出相同的结论。

尺度空间的表示结果可以用于很多早期视觉研究中，像特征检测，特征分类，形状计算等的操作可以直接的表述成多尺度下的高斯派生的联合。在这种意义中，尺度空间表示为早期的视觉分析提供了基础。

在过去的几十年中，其他用到多尺度表示的很多方法已经产生，它们或多或少地涉及的尺度空间理论，特别是金字塔理论、小波和多网格方法。尽管他们本质上存在着差别，这些方法都很受欢迎，这表明关键思想尺度是不断为计算机图形学和其他相关领域的研究者使用的。

和生物视觉相似之处是尺度空间操作酷似哺乳类视网膜和视觉皮层的原理。

1、引言

我们认为现实世界中的物体在一定的尺度范围内。一个简单的例子是仅在一个尺度中分析的树枝理论，认为数字是从厘米到几米变化的。所以在纳米和千米范围内研究树枝理论是没有意义的。在这种尺度中更多的是讨论组成树叶或深林的树叶。相似的，在一个特定的粗步范围内讨论才是有意义的。在精细的范围内，分析单个水滴是更合适的，反过来水滴是由水分子组成的，水分子是由原子组成的，原子是由质子和中子组成的等等。（本段说明的意思是不同的物体要在不同的尺度下进行分析）

现实世界中的物体依赖于观察的尺度以不同的方式呈现，这表明描述他们有着不同的含义。这也显示出尺度理念和多尺度代表的思想是至关重要的。这种方法一定要理解好，例如，绘图法中在不同尺度下的提取产生地图。一张地图包括很多国家和岛屿，可能几个城市，而城镇和小岛首先在一个乡村地图中呈现。在一个城市地图中，提取的尺度随着包含的街道和建筑而变化等。一个地图可以看成现实世界多尺度表示的符号，随着特殊的目的而建构。（利用地图来说明尺度的构建要以不同目的来构建。）

在物理学中，要在不同的尺度水平下模拟现象，从精细尺度的粒子物理和量子力学，到天文学和相关理论都要比要研究的尺度要大一些。显然物理的描述要依赖于模拟世界中的尺度。这与某些数学实体形成对比，例如点和线不依赖于观察的尺度。

特别的，多尺度表示的需求的产生是分析自动分析设计方法和从现实世界测量结果中的信号派生出来的信息的方法。为了从数据中提起任何类型的信息，与用一个特定的操作相吻合是很必要的。在很大程度上，数据中的实际结构大小和探测的大小关系决定了获取的信息类型。在信号处理中一些非常基础的问题涉及到使用的探测器的类型，在何处应用他们，他们应该是多大。如果这些问题不能恰当的处理，解释操作反映的分析是很困难的。

在特定的可控制的情况下，要事先知道分析的恰当尺度。例如，物理学家的特定能力是选择合适的尺度来模拟问题。但是，例如在其他一些情况下，在分析自动化信号处理的应用中，如何事先决定合适的尺度是不那么明显。例如视觉系统来分析未知的场景。除了现实世界中的物体的固有的多尺度属性，系统必须面对一些问题：透视影射产生尺度变化，图像处理过程中产生一些噪声，现有的数据是二维数据来反映三维世界中的数据。为了处理这些问题，一个必要的工具是在多尺度下分析结构的形式化理论。

以上回顾的主要目的是分析一些基础的结果涉及到一个多尺度表示理论，称为尺度空间理论。它是有计算机视觉组织提出的一个基本框架，来描述图像数据和多尺度的本质。在视觉处理的早期，它的主要目的是感知。我们主要在原始图像数据上来分析这些操作，称之为视觉前端阶段。

尽管这些方法主要涉及到视觉数据的分析，尺度空间表示的基本理论有着更广泛的应用，在多场景下提出分析数据，自动方法的解释。

1.1 计算机视觉中的尺度空间理论

视觉分析世界中的光线反射信息的问题。有意义和有用的信息依赖于分析的目标，也就是潜在的目的为什么我们想利用视觉信息和自动方法来处理它。机器视觉，期望利用视觉能力提供机器和机器人。要解决的典型问题就是目标识别、目标操作和视觉上的导航。其他应用计算机视觉中的技术是在图像处理过程中，而人能够提出图像增强、清晰和医学数据的分析，和工业探测、远程感知、自动绘图、数据压缩和直观道具的设计等等。（应用领域）

自动处理最为重要的方面是内在表示动机。只有获取了代表信息并有利于决策过程。表示的目的是确定信息内容，也就是说不用任何处理就可以获得的图像表示。本文分析早期图像表示的基本方面：如何记录到达视网膜的光线；如何使对后期图像处理有用的信息更清晰。这就是视觉前端所作的一些处理。如果定位了操作，那么他们必须在视网膜上保存相应的拓扑结构，正因为此，称之为视网膜处理。

一个重要的问题涉及到，应提取什么样的信息，并进行什么样的计算处理。何种类型的处理是切实可行的？采用一个公理方法来限制可能的空间，假设视觉处理的首要阶段是处理场景中感兴趣的部分。作为首要部分，首要阶段应做尽可能少的选择。特别地，没有任何先验的知识我决定何时得尺度，仅仅的合理方法是在所有尺度下考虑表示。这直接地产生多尺度表示。

此外，世界中的欧几里得本性和透视映射强加自然的约束到视觉系统中。目标移动、光照变化、物体大小的变化和观察方向的变化等等。因此，要求早期的视觉处理不受特定地变化影响。

本文中，我们展示出这些约束，事实上，充分约束低水平操作。对于视觉系统，尺度空间理论是图像在不同尺度下和高斯核卷积及其派生物。

这种方法最吸引人的属性是在处理的初始阶段给出一个统一的结构。

2、图像数据的多尺度表示

多尺度表示的基本思想是插入一个原始的信号到一组派生信号中。这种表示如何建构呢？一个关键条件是多尺度表示中在粗尺度中的结构应该由精细尺度下相应的简单结构组成。他们不应利用平滑的方法产生偶然的情况。

这种属性已经被很多作者形式化的表述过。一个明显的巧合是，可以通过很多不同的起点得到相同的结论。我们要达到的主要结果是，如果在视觉处理的首要阶段，计算类型相对一般的情况下，高斯核及其派生是唯一可能的高斯核。高斯核是线性的、空间位移不变形。大尺度应该与小尺度下的结构相联系。新的结构不应通过平滑的方法创建。这反映了平滑作为过程处理步骤控制噪声的干扰。

当然，他们有很多方法从已给的信号中来构建一个参数组。多尺度代表在尺度空间中，有一个明确的解释。尺度空间是多尺度的代表，通过与高斯核卷积进行构建，或者扩散方程来解释。

3、早期的多尺度表示

3.1 四叉树

图像数据的数形代表，图像递归的分为更小的区域。

基本思想如下：大小为2k * 2k 的离散图像f，在任何区域中，定义一个灰度值变化测量_

分裂合并的方法进行分割。

3.2 金字塔

金字塔的表示是灰度数据的表示，它把亚采样操作和平滑操作联合在一起。（参看图3和图4）。例如，输入图像f大小是2k * 2k，并令f（k）=f。假设平滑滤波器是可分离的，滤波系数是奇数。

等波纹设计

3.3

尺度空间理论的主要思想是通过对原始图象进行尺度变换, 获得图象多尺度下的尺度空间表示序列, 对这些序列进行尺度空间主轮廓的提取, 并以该主轮廓作为一种特征向量, 实现边缘、角点检测,和不同分辨率上的特征提取等。尺度空间表示是一种基于区域而不是基于边缘的表达, 它无需关于图象的先验知识。与通过减小图象尺寸而提高计算效率的其他多尺度或多分辨率表达相比, 尺度空间表示由平滑获得, 在所有尺度上都保持了不变的空间取样, 但对同一特征而言, 它在粗糙尺度上比在精细尺度上对应更多的象素点, 这样就使得对这些数据的计算任务得到连续的简化。尺度空间表示的另一个重要特性, 就是基于尺度的结构特性能以一种简单的方式解析地表达, 不同尺度上的特征可以一种精确的方式联系起来。【5】

使用图像金字塔来表示图像的空间尺度信息，常用的有高斯金字塔和拉普拉斯金字塔。一幅图像的高斯金字塔是对下一层进行滤波然后进行隔行隔列将采样而生成的。这一系列上一级比下一级缩小4倍的图像从低到高排列就形成了所以图像个高斯金字塔。

拉普拉斯金字塔是高斯金字塔与其上一层通过插值扩大的插值图像，反映的是高斯金字塔两极间的信息茶，实际上就是图像的细节部分。

拉普拉斯金字塔算法

在文献[3]中，Burt 和Adelson 介绍了拉普拉斯金字塔算法。此算法主要由简化（reduce）

和扩展（expand）两部分组成。为了构造某一图像的拉普拉斯金字塔，必须首先构造其高斯金

字塔。若g0(ij)代表初始纹理图像，则通过简化g0（低通滤波）可以得到图像g1，因g1的分辨

率和采样浓度都比g0要低，因此可以把g1 看成g0 的“简化”。同样可以得到g1的“简化” g2。通过上述方法可以得到初始纹理图像的高斯金字塔，此高斯金字塔由一系列不同分辨率的图

像g0, g1,⋯, gn 组成。同时也可以得到此纹理图像的拉普拉斯金字塔L0, L1, ⋯, Ln，其拉普拉斯

金字塔中的每一层图像都是两层高斯金字塔之间的差。即对于0 ≤ i< n，Li=gi - Expand(gi+1)，

其中Expand(gi+1)为gi 的预测图像，且Ln 等于gn 。

4.5尺度不变性。

4.5.1 尺度不变性的必要条件

任何线性和尺度不变操作都可以描述成一个卷积操作。因此，假设任何一个信号f的尺度空间表示L，可以通过与一组核h进行卷积进行构建。

在傅立叶域（w）,可以写成：

在物理学上称为 π定理，可以描述为：如果一个物理过程是尺度独立的，那么可以把这个过程称为不随纬度变化的。下面的维度和变化发生：