SIFT特征提取算法

来源：互联网发布：mac如何截图保存编辑：程序博客网时间：2024/05/16 05:26

学到SIFT看到了参考了最下面的四篇文章，最后综合起来，根据自己的理解，按着自己的想法，手敲了下面的内容，感觉好长，不过希望对大家有用。

SIFT（Scale-invariant feature transform）是一种检测局部特征的算法，该算法通过求一幅图中的特征点（interest points,or corner points）及其有关scale 和 orientation 的描述子得到特征并进行图像特征点匹配，获得了良好效果。

基本的路线：

1. 尺度空间极值检测：搜索所有尺度上的图像位置。通过高斯微分函数来识别潜在的对于尺度和旋转不变的兴趣点。

2. 关键点定位：在每个候选的位置上，通过一个拟合精细的模型来确定位置和尺度。关键点的选择依据于它们的稳定程度。

3. 方向确定：基于图像局部的梯度方向，分配给每个关键点位置一个或多个方向。所有后面的对图像数据的操作都相对于关键点的方向、尺度和位置进行变换，从而提供对于这些变换的不变性。

4. 关键点描述：在每个关键点周围的邻域内，在选定的尺度上测量图像局部的梯度。这些梯度被变换成一种表示，这种表示允许比较大的局部形状的变形和光照变化。

一、尺度空间

尺度空间理论的基本思想是：在图像信息处理模型中引入一个被视为尺度的参数，通过连续变化尺度参数获得多尺度下的尺度空间表示序列，对这些序列进行尺度空间主轮廓的提取，并以该主轮廓作为一种特征向量，实现边缘、角点检测和不同分辨率上的特征提取等。

尺度空间理论目的是模拟数据的多尺度特征。

为什么要先建立尺度空间呢？因为计算机机器对不知道物体的尺度，所以我们要先教会机器认识，教机器那就是把不同尺度的物像输入给及其，完成一个认知的过程。在构建尺度空间的过程中，相关的就是高斯卷积核，也是实现尺度变换的唯一线性核。通过不同的来构造尺度空间

对于一个二维图像的尺度空间定义为

其中G（x,y,）是尺度可变的高斯函数

是尺度空间因子，是高斯正态分布的方差，反映了图像被平滑的程度，值越小表征图形被平滑程度越小，相应尺度也越小

进一步为了高效地在尺度空间内检测出稳定的特征点，在SIFT算法中使用尺度空间中的差分高斯(Ddifferenc of Gaussina,DOG）z作为极值作为判别依据。DOG子定义如下

下图是不同下图像尺度空间

二、图像金字塔，高斯金字塔，高斯差分金字塔

这三个金字塔是为了找极值点（关键点的铺垫）

图像金字塔：首先是低通滤波器平滑图像，然后对预处理的图像进行降采样（水平竖直的1/2），从而得到一系列尺寸缩小的图像。、

对于传统的金字塔，每一层是由上一层分辨率的长宽各一半，也就是1/4的像素组成。

高斯金字塔是在多分辨率金字塔简单的降采样基础上高斯滤波得到的，也就是对金字塔每层图像用不同的做高斯模糊。金字塔的每层的多张图像合称为一组octave，每组都会有不同的层。需要注意的是，在降采样的时候，金字塔上边一组图像的第一张图像（最底层的一张）是由前一组（金字塔下面一组）图像的倒数第三章图像隔点采样得到的。

而SIFT算法通过对两个相邻高斯尺度空间上的图像相减来得到DOG图像，就是D(x,y,)

下面结合图像来理解一下，左边的是高斯金字塔，右边的是高斯差分金字塔，这里的层数组数先不用管后面用到会再说，先看个金字塔过程这里

三、DOG关键点（尺度空间的极值点）

为了寻找尺度空间的极值点，每一个采样点要和它所有的相邻点比较，看其是否比它的图像域和尺度域的相邻点大或者小。

如图所示，中间的检测点和它同尺度的8个相邻点和上下相邻尺度对应的9×2个点共26个点比较，以确保在尺度空间和二维图像空间都检测到极值点。 一个点如果在DOG尺度空间本层以及上下两层的26个领域中是最大或最小值时，就认为该点是图像在该尺度下的一个特征点,如图所示。

知道了极值点的找法，但是有个问题就是如果是每组的首层和末层都缺少一个临近层的时候，又怎么找呢？当然还是按上面的原则，缺少的话我们就再添加补上，这里为什么要在顶层加上高斯模糊生成的3幅图像呢?这里增加图像是为了首尾层有临近层，这个数字3层是为了保证尺度变换的连续性，下面的这个图就会解释加3层，为什么能保证尺度变换的连续性。

这里有的童鞋不理解什么叫“为了满足尺度变化的连续性”，现在做仔细阐述：

假设s=3，也就是每个塔里有3层，则k=2^1/s=2^1/3，那么按照上图可得Gauss Space和DoG space 分别有3个（s个）和2个（s-1个）分量，在DoG space中，1st-octave两项分别是σ,kσ; 2nd-octave两项分别是2σ,2kσ;由于无法比较极值，我们必须在高斯空间继续添加高斯模糊项，使得形成σ,kσ,k²σ,k³σ,k⁴σ这样就可以选择DoG space中的中间三项kσ,k²σ,k³σ（只有左右都有才能有极值），那么下一octave中（由上一层降采样获得）所得三项即为2kσ,2k²σ,2k³σ，其首项2kσ=2^4/3。刚好与上一octave末项k³σ=2^3/3尺度变化连续起来，所以每次要在Gaussian space添加3项，每组（塔）共S+3层图像，相应的DoG金字塔有S+2层图像。

四、找到特征点后要去不好的点

（1）第一种去的点，我称为假极值点，为什么会有假的极值点呢? 因为我们的图像层数是离散的，并不是连续的，所以得到的并一定是真的极值点，正如下面的图

对于这样的点，是通过拟和三维二次函数以精确确定关键点的位置和尺度（达到亚像素精度），同时去除低对比度的关键点和不稳定的边缘响应点(因为DoG算子会产生较强的边缘响应)，以增强匹配稳定性、提高抗噪声能力

①空间尺度函数泰勒展开式如下：

对上面的公式求导，导数为0，得到极值点为

②在已经检测到的特征点中,要去掉低对比度的特征点和不稳定的边缘响应点。去除低对比度的点：把公式(2)代入公式(1)，即在DoG Space的极值点处D(x)取值，只取前两项可得：

如果，该特征点就会保留下来，否则就会被丢弃，删除

（2）边缘响应的去除，因为除了上面的响应低的点，也有响应较强的特征点，而我们知道在边缘梯度方向上的主曲率值较大，而沿着边缘方向曲率较小，因此需要提出边缘效应的影响。边缘上得到的极值点和非边缘区域相比，主曲率比值较大，所以可以将主曲率比值大于一定阈值的点看作是边缘上的点进行剔除。

DOG的主曲率与2x2的Hessian矩阵H的特征值成正比。H矩阵

令α为较大特征值，β为较小的特征值，则

分别表示求矩阵的迹，求矩阵的行列式

令α=γβ，则得到

(r + 1)²/r的值在两个特征值相等的时候最小，随着r的增大而增大，因此，为了检测主曲率是否在某域值r下，只需检测

if (α+β)/ αβ> (r+1)²/r, throw it out. 在Lowe的文章中，取r＝10。r是主曲率比值阈值

五、关键点的三个信息（x,y,,）即位置，尺度，方向

上一步中确定了每幅图中的特征点，为每个特征点计算一个方向，依照这个方向做进一步的计算，利用关键点邻域像素的梯度方向分布特性为每个关键点指定方向参数，使算子具备旋转不变性。图像的关键点已经检测完毕，每个关键点有三个信息：位置，所处尺度、方向，由此可以确定一个SIFT特征区域。

模值：

方向：

六、特征描述

（1）主梯度方向

梯度直方图的范围是0～360度，其中每10度一个柱，总共36个柱。随着距

中心点越远的领域其对直方图的贡献也响应减小.Lowe论文中还提到要使用高斯函数对直方图进行平滑，减少突变的影响。

在实际计算时，我们在以关键点为中心的邻域窗口内采样，并用直方图统计邻域像素的梯度方向。梯度直方图的范围是0～360度，其中每45度一个柱，总共8个柱, 或者每10度一个柱，总共36个柱。Lowe论文中还提到要使用高斯函数对直方图进行平滑，减少突变的影响。直方图的峰值则代表了该关键点处邻域梯度的主方向，即作为该关键点的方向。

该步将建立所有scale中特征点的描述子（128维）

通过对关键点周围图像区域分块，计算块内梯度直方图，生成具有独特性的向量，这个向量是该区域图像信息的一种抽象，具有唯一性。（8柱）

（2）关键点秒速子的生成

将坐标轴旋转为关键点的方向，以确保旋转不变性

以关键点为中心取8×8的窗口。

图左部分的中央为当前关键点的位置，每个小格代表关键点邻域所在尺度空间的一个像素，利用公式求得每个像素的梯度幅值与梯度方向，箭头方向代表该像素的梯度方向，箭头长度代表梯度模值，然后用高斯窗口对其进行加权运算。

图中蓝色的圈代表高斯加权的范围（越靠近关键点的像素梯度方向信息贡献越大）。然后在每4×4的小块上计算8个方向的梯度方向直方图，绘制每个梯度方向的累加值，即可形成一个种子点，如图右部分示。此图中一个关键点由2×2共4个种子点组成，每个种子点有8个方向向量信息。这种邻域方向性信息联合的思想增强了算法抗噪声的能力，同时对于含有定位误差的特征匹配也提供了较好的容错性。

计算keypoint周围的16*16的window中每一个像素的梯度，而且使用高斯下降函数降低远离中心的权重。

这样就可以对每个feature形成一个4*4*8=128维的描述子，每一维都可以表示4*4个格子中一个的scale/orientation. 将这个向量归一化之后，就进一步去除了光照的影响。

归一化

七. 根据SIFT进行Match

生成了A、B两幅图的描述子，（分别是k1*128维和k2*128维），就将两图中各个scale（所有scale）的描述子进行匹配，匹配上128维即可表示两个特征点match上了。

实际计算过程中，为了增强匹配的稳健性，Lowe建议对每个关键点使用4×4共16个种子点来描述，这样对于一个关键点就可以产生128个数据，即最终形成128维的SIFT特征向量。此时SIFT特征向量已经去除了尺度变化、旋转等几何变形因素的影响，再继续将特征向量的长度归一化，则可以进一步去除光照变化的影响。当两幅图像的SIFT特征向量生成后，下一步我们采用关键点特征向量的欧式距离来作为两幅图像中关键点的相似性判定度量。取图像1中的某个关键点，并找出其与图像2中欧式距离最近的前两个关键点，在这两个关键点中，如果最近的距离除以次近的距离少于某个比例阈值，则接受这一对匹配点。降低这个比例阈值，SIFT匹配点数目会减少，但更加稳定。为了排除因为图像遮挡和背景混乱而产生的无匹配关系的关键点,Lowe提出了比较最近邻距离与次近邻距离的方法,距离比率ratio小于某个阈值的认为是正确匹配。因为对于错误匹配,由于特征空间的高维性,相似的距离可能有大量其他的错误匹配,从而它的ratio值比较高。Lowe推荐ratio的阈值为0.8。但作者对大量任意存在尺度、旋转和亮度变化的两幅图片进行匹配，结果表明ratio取值在0. 4~0. 6之间最佳，小于0. 4的很少有匹配点，大于0. 6的则存在大量错误匹配点。(如果这个地方你要改进，最好给出一个匹配率和ration之间的关系图，这样才有说服力)作者建议ratio的取值原则如下:

ratio=0. 4　对于准确度要求高的匹配；
ratio=0. 6　对于匹配点数目要求比较多的匹配；
ratio=0. 5　一般情况下。
也可按如下原则:当最近邻距离<200时ratio=0. 6，反之ratio=0. 4。ratio的取值策略能排分错误匹配点。

当两幅图像的SIFT特征向量生成后，下一步我们采用关键点特征向量的欧式距离来作为两幅图像中关键点的相似性判定度量。取图像1中的某个关键点，并找出其与图像2中欧式距离最近的前两个关键点，在这两个关键点中，如果最近的距离除以次近的距离少于某个比例阈值，则接受这一对匹配点。降低这个比例阈值，SIFT匹配点数目会减少，但更加稳定。

参考文章

http://blog.csdn.net/abcjennifer/article/details/7639681

http://www.cnblogs.com/cfantaisie/archive/2011/06/14/2080917.html

http://blog.csdn.net/pi9nc/article/details/23302075

http://blog.csdn.net/baimafujinji?viewmode=contents

7 0