再读SIFT理论及源码

来源:互联网 发布:手机网络助手下载 编辑:程序博客网 时间:2024/05/30 07:12

SIFT特征点检测及描述

引言

SIFT特征点,尺度不变的特征变换。其具有尺度不变性(高斯差分金字塔),旋转不变性(主方向),部分放射不变性(在统计梯度方向直方图时对直方图进行了高斯平滑)。

SIFT特征分为两部分,第一个是要检测一幅图像中关键点的位置,第二个是要生成一个描述子来表示这个点位置。

名词解释

1.     高斯模糊:理论证明高斯核函数是实现尺度不变的唯一线性函数,通过将高斯函数与原图像进行卷积,根据卷积参数的大小可以得到不同的高斯模糊图像,这些图像尺度不变。

2.     降采样:一幅图像按照最近邻的原则进行收缩至原来的一半。

3.    高斯模板:对图像的每个像素做模糊时,理论上所有的点均可以对该点做贡献,但是在3之外的点可以忽略不计,模板大小即为(m,n)=(6+1, 6+1)。并且模板上的点按照距离该像素远近分配一个权值,体现为:

Lowe建议5*5的模板。

4.     高斯金字塔:金字塔有组和层两个概念,第一组在最底下,每一组最低层都是上一组最高层经过降采样得到的,也就是说当前组的下一组比当前组要一半,这样看起来就像是一座塔了,组数记为o。层是每组之中有的,下一层是由当前层经过高斯模糊得来的,层数记为s,一般s=3~5。

5.    差分金字塔:早年的实验证明高斯-拉普拉斯函数的极值点是图像最稳定的特征点,而高斯差分算子(DOG)可以代替拉普拉斯算子,因此在实际计算中,将高斯金字塔组内每两层相减可以得到一个差分层,从而建立了差分金字塔。

6.     关键点:又称极值点,即上述高斯-拉普拉斯函数极值点,在实际计算中,取差分金字塔上下和当前层周围3*3*3区域内的像素极值点。

亚像素:由于是在离散空间进行采样,因此点的位置不一定在像素级别是精确的,因此需要进行亚像素的插值,精确求解关键点的位置。DOG函数在尺度空间的泰勒展开式为:

求偏导数,令偏导数两边为0:求得极值点为,其中为三方向偏移量,当大于0.5时则在原位置+偏移量组成的新位置上再次插值。在计算机中的实际计算方法为:

7.     梯度:分别计算在x,y方向上的当前像素的下一个像素减去前一个像素,记为dx,dy。则梯度幅值为,梯度方向为。

8.     边缘效应与对比度:对比度较差的关键点不能作为特征,设定了一对比度阈值。DOG算子具有很强的边缘效应,即x与y向的海森矩阵特征值()差距过大。

。其中=,,满足<的关键点才能被留下。

9.     高斯尺度因子:尺度因子Lowe建议初始化为0.6,每一层之间的尺度因子变换关系为:。组间尺度因子变换关系为:这说明不同组相同层的尺度因子是相同的,只有层内才会发生尺度因子变化。

10.  主方向:关键点周围取一个圆形的邻域(半径r由Lowe建议),统计每一个像素的梯度,并且Lowe建议将360°分为8个方向,每一个范围均为45°,将每个像素对应梯度方向范围内加上梯度幅值,最后幅值最大的直方图柱称为主方向。

11.  主方向梯度直方图的高斯平滑:由于SIFT不具备仿射不变性,因此在特征点移动中会出现由于平移导致的振荡问题(仿射与线性变换),对主方向进行平滑,在计算中为:。

12.  旋转不变性:将像素点的坐标值按照主方向进行旋转,,这样主方向与坐标轴相重合,这样对图像的旋转既可以转换为对主方向的旋转,从而转换为对坐标轴的旋转,因此具有旋转不变性。

13.  特征点描述子:找到了关键点后对其进行描述,Lowe建议在特征点邻域内选择4*4的像素区域,在每个区域内选择8个方向。对每个采样点进行亚像素的双线性插值来求解梯度值。(因为此时是一个像素内,则梯度无法直接通过两个方向的像素来求解,只能通过插值求解,这需要跟求主方向的梯度区别开)(问题1:为什么会出现在像素内的点? 因为在经过关键点亚像素插值后,即产生了亚像素位置)(问题2:为什么求解主方向不用亚像素位置?因为求主方向时所取邻域较大,并且主方向反映宏观上的特征点坐标取向,因此利用像素级的点求解更好)。求解了8个方向的梯度后,可以形成一个4*4*8=128的特征向量,称为特征描述子。

14.  特征匹配:根据特征描述子的相近程度来匹配。

SIFT特征点检测及描述步骤

1) 对图像进行降采样,得到初期的o组高斯金字塔。(有时候会有-1组的出现,此时需要先将图像扩大一倍)

2) 对组内的一张图片进行高斯模糊,在每组内建立多层的图像,从而建立了o组多层的高斯金字塔

3) 对每一组内的相邻层进行差分求解,建立差分金字塔,每组金字塔的层数为s,并且要多取两层,为后来检测极值点准备。差分金字塔o组s层,(s+2)张图片。

4) 检测极值点,遍历差分金字塔每组每层的像素,找到像素3*3*3邻域内的极值点,作为关键点初始位置

5) 亚像素插值求解关键点精确位置。

6) 对关键点进行去除,包括对比度与边缘效应。

7) 差分金字塔各层尺度变换,尺度因子的关系。

8) 求解关键点的主方向,利用周围邻域的梯度来确定关键点的主方向。

9) 对主方向直方图进行高斯平滑,来提高稳定性。

10)  先将关键点邻域按其主方向进行旋转,并以主方向为基准建立坐标轴,确定邻域各像素的坐标位置。

11)  选取关键点周围4*4邻域范围,分别计算采样点对各子域梯度的影响,根据亚像素级双线性插值方法统计每个子阈8个方向的梯度,从而建立了4*4*8的特征向量,该向量即为描述子。

12)  归一化描述子。

13)  利用建立好的描述子进行特征匹配。

结合SIFT源代码的补充

源代码以opencv作为依赖库函数,以自带的结构体IplImage * 表示图像,三级指针IpIImage *** 表示金字塔,CvSeq *表示图像的特征序列,double *表示梯度直方图数组。

1) 源码提到了塔的-1组,并且将图的比例扩大一倍。

2) 在具体计算时,如梯度等均用差分代替偏导,或者中心差分代替二阶导数。

3) 在产生新特征点时,对序列数组要预先分配空间,而且分为产生新特征calloc,特征点加入序列malloc,特征点亚像素位置new。

4) 在高斯模糊搜索区域时,循环起点在高斯模板长度处开始(一般为5),保证了模板包含在整个图片像素内部。

5) 在循环时要考虑点是否在像素平面内,还有一个重要的考虑是第n个点与第0个点的左右值问题,程序中是循环处理的,及n-1,0,1也看做是相邻点。

总结

SIFT特征点是Lowe在1999年所提出的,至今仍有很好的应用,它利用差分金字塔近似高斯-拉普拉斯函数求解极值点保证了特征点的尺度不变性,利用特征点邻域统计梯度直方图确定主方向,并将坐标轴旋转至主方向保证了旋转不变性,利用对特征梯度直方图的平滑近似部分仿射不变性。从而使特征点在运动过程中较为稳定,为利用SIFT特征点进行帧间的运动估计提供了基础。

原创粉丝点击