《Pedestrian Tracking Using Thermal Infrared Imaging》

来源：互联网发布：js websocket ping 编辑：程序博客网时间：2024/05/22 02:06

看英文文献真是太容易走神了，只好一边翻译一边看，翻译的有点生硬，不喜勿喷。

1.简介

近几年来，热成像红外摄像机主要应用于军事方面，在低照度的环境下识别人和机械运动目标。由于热成像技术的发展，红外摄像机价格越来越能够被大众所接受，红外摄像机慢慢在工业和经济方面得到了应用并走入了消费者市场。

当前红外摄像机主要应用在安防系统，使用它来进行行人识别或车辆入侵检测，通常看完红外成像的图像需要人来进行最后的判决。本文采用非制冷的红外摄像机对行人进行自动跟踪。重点是识别真实图像的特征，并利用这些特征进行处理。可见光/红外图像的初步试验可以通过超光谱成像的潜在性能得到改进。

本文的内容分布如下，第二部分我们主要获取铁电的红外摄像机下红外图像的具体特征。第三部分我们主要介绍可见光和红外采用的行人识别和跟踪的方法，第四部分我们进行试验并给出实验结果。通过对红外摄像机在不同环境下(根据周围的气温主要分为冬天或夏天)的测试，试验结果更可信。在不同环境下采用不同的算法规则能够得到更好的结果。

2.红外摄像特征

以下是知名的自动图像处理算法应用到红外图像进行处理的性能影响。在红外环境中对于大多数材质表面反射的波长比较长，所以与可见光相比波更具有定向性而不分散，而可见光下相同材质的表面相对不规则。例如图1汽车和行人在路中反射得到的红外图像。在一些特别的情况下识别系统可能会出现对目标识别错误的现象。Vollmet使用偏光镜来分辨直射光和反射光，通过反射光的部分极性来解决这个问题。

我们使用铁质的红外摄像机进行实验，这些摄像机的一个优势是对周围环境温度的变化有免疫力。非制冷红外探测器系统的屏蔽，导致约80%的红外辐射到达检测器的元素来自摄像机的内部，而不是来自观察到的场景。任何一个摄像机内部温度的改变都会产生一个DC级别的漂移。相对来说这些变化比较慢，由于摄像机内的旋转调制盘，因此可以把它忽略。由于AC这项技术不能计算目标的温度。然而，它能产生一个对比的信号：温度低的点会在图像中的像素值较暗，较热的点在图像中像素值较亮，从而忽略了他们独自的值。例如，人身体在冬季晚上较亮，而在炎热的夏天则较黑，即使他们的温度是一样的(如图2)。

一个相关的图像特征是含有铁电阵列，可以利用这个特征进行一些应用，目标与背景会有一个强烈的对比(如图2)：背景中亮的目标将会被一些比背景黑的黑色点环绕，反之一样。这主要归结于摄像机内部对目标反射的结果进行分割：较热的目标会加热机械对应的点，而第二次辐射就很少关注，这将使得摄像机序列热的地方比真正图像目标热的地方更大。

3.行人检测和跟踪：一般原则

识别一个行人目标一般需要两个步骤。第一步，分割，确定一个可能含有行人的感兴趣区域。第二步，分类，对ROI区域进行分析是否含有行人。广泛使用的这两步算法通过减少分析区域的数量来降低计算量。然而，这两步分是没有严格的界限的，一个好的阈值分割的结果是区域内含有行人的概率高，当然它也扮演着分类器前处理的过程。这仍然是一个研究非常活跃的课题，在安防领域、甚至是军事应用。可以参阅Lombardi和Gavrila的研究课题。

3.1 红外摄像行人识别

红外图像的具体特征：红外图像与可见光图像最明显的不同是它不依赖光源特征，而是根据温度的不同而呈现不同的灰度。最直接的结果是它能在低照度或晚上使用。大多数红外图像应用于军事或安防领域，利用它的这个特征在晚上对人或机械进行识别。即使是在白天室外，光的变化要比温度的变化快，特别是当云遮挡了太阳光。所以利用背景建模技术，红外与可见光相比红外图像背景变化更小。利用背景建模进行前景检出红外更容易一些，因为在红外里面没有影子。在可将光里影子移除也是一个很大的研究课题。

然而，由于红外技术的限制，红外图像通常分辨率较低，并且与看见光相比更不敏感。这限制了利用人的轮廓/形状对行人的分类，特别是行人距离摄像机较远时。当然由于这些限制，红外图像不能像可见光那样提供更多的目标信息。由于红外图像并不包含具体的信息，与三通道的RGB图像相比，这样在目标跟踪时将会导致更多的错误。

在红外图像中对行人进行分割识别：大多数行人识别在红外图像中行人的温度要比背景高。大多数时候是这样的，尤其是在晚上或冬天，背景和行人之间有很强的对比。与可见光中采用复杂的算法相比，在红外系统中可以采用简单的(计算量小)分割算法。根据Cielniak和Duckett提出的方法，利用一个阈值选择比较热的区域做为感兴区域。这种方法更适用于基于测试仪热度的红外摄像机，由于这种摄像机能够决定目标的独立温度。

其它选择区域的方法都是目标比背景热并且有很强的对比度。例如，Fang等人提出的方法是对每一列的像素值相加，寻找垂直方向与背景相比对比度较大的位置，该位置很可能含有行人。标定最大和最小像素值的位置，通过此来定义感兴趣区域的位置。Conaire等人使用不同的方法，计算图像的直方图，直方图的形状是以背景平均值做为中心的高斯分布，峰值所对应的就是感兴趣区域的像素。之后截取感兴趣区域，感兴趣区域内的像素值不是大峰值，只是比背景平均值要大，之后重组确定目标的最小尺寸。这些技术计算都很快并且效率很高，也能够识别比背景温度低的行人，行人比背景温度低这种状况一般是在夏天出现。

在处理夏天的情况中红外图像背景建模算法与可见光基本相同，背景减方法另一个优势是背景点的热度与前景相同也不加以考虑。例如，如图2-b与背景点与人和汽车相比像素值比较亮，采用背景减技术背景不会被截取为前景。红外图像采用与可见光相同的背景减技术，需要增加减运算和存储器资源。

分类方法主要取决于具体的应用要求及分割所采用的方法。在城市的摄像识别中，基于背景减的前景目标提取算法是高效的预分类器，能够识别汽车和行人，简单的宽高比判断的结果也是很正确的。在其它的分类器中使用宽高比标准进行判断能够减少分类错误。例如，Torresan等人(背景减分割)提出的识别器采用行人步频率和宽高比特征。

在对城市的视频处理中采用像素阈值分割的方法与采用背景减的方法相比，阈值分割的方法更需要分类器，由于其提取的感兴趣区域很可能包含背景点。例如Fang等人把多个分类器合并了，首先把ROI直方图与行人直方图比较，然后使用惯性分类器对ROI区域中的亮点进行判断，判断改点属于行人还是背景，最后应用宽高比对感兴趣目标块进行判断。

大多数情况行人的温度比背景高，红外图像中获取感兴趣区域效率很高：几乎所有的行人都被认为是ROI并且大多数ROI都是行人。因此采用简单快速的分割方法(阈值/对比度)是可行的，即使与可见光相似的方法相比，提取的区域不是很精确，感兴趣区域中很可能包含背景的亮像素。高效的分割使得分类工作更容易，大多数情况采用简单的分类器的效果就很好。由于红外摄像的低分辨率(形状分析技术问题)和目标光谱/问题特征信息少(跟踪问题)，复杂的分类器不适用。当行人与背景相比不热的时候，阈值分割就失效了，这时候就应该使用背景减或运动识别技术了。

3.2 可将光-红外融合识别

经常鉴别来自于多个摄像机采集的图像。在低阶融合，对摄像机采集的原图进行融合，之后对融合的数据进行处理。中级(特征)融合，从每一个原图获取特征进行融合。最后高级(判断)融合，每个摄像机输出一个结论，对这些结果进行再判断得到一个全局结论。在行人识别应用中，第一阶是直接从不同的摄像机中获取图像融合。第二阶融合，例如融合分割的结果(前景区域)，最高级融合通过使用不同摄像机采用合并/判断的方法(分割+分类)对行人位置进行定位。

利用每一个摄像机提供独立的完整的信息对可见光和红外图像进行融合。然而高级和中级融合目前只有一些关于这方面的调查研究。利用原图融合处理已经有一些实验结果，但是对于拥有自主控制决定权的系统是不适用的。

Therrien等人设计了一套系统帮助路上作战更好的看清他们的环境。能够应用于低照环境下的红外图像与具有纹理特征的可见光图像结合应用。融合是很合适的。对于两个图像的同一个位置，利用空间分类器来计算和比较其中的大多数细节。如果两幅图像其中一幅提供了细节，则在图像融合过程中应该要着重考虑。目的要从红外图像或可见光图像中获取更多的细节信息。Iwao等人在医学应用中设计了一个简单的图像融合系统。

Conaire等人给出了一个采用中级融合技术对红外/可见光图像进行融合，能够自动的对行人识别。红外图像采用基于图像直方图的方法对感兴趣区域进行分割。最后对四通道(R、G、B、IR)采用背景减进行图像分割。第一次图像分割帮助背景进行建模。利用第一次图像分割的结果，背景模型的初始化利用图像分割判断为背景的部分进行。这对于处理被背景遮挡的目标是有帮助的。利用红外图像构建四通道图像进行背景减处理。

Torresan等人采用中级/高级融合方式进行行人识别。红外图像和可见光图像独自进行目标分割处理。目标被跟踪，利用暂存的信息进行分类。在跟踪过程进行融合。对可见光和红外图像中相同的目标进行质量比较，具有较强信息的目标帮助在其它通道内具有较弱信息的该目标进行跟踪。这能够增加跟踪的持续性。

4.实验结果

4.1 获取数据

试验所使用的相机是Raytheon的Thermal-eye 2000B。分辨率是320*240，敏感度是100mk。为了研究可见光和红外融合，可见光也要同时使用。可见光摄像机采用Sony Handycam PC105,640*480分辨率。两个摄像机平行着放，中间有8cm的缝隙(如图3)。目标一般距离摄像机至少要有几米，由于没有要求像素对齐，所以两个摄像机可以有两个不同的光轴。

我们录制摄像的速度是30f/s，之后利用Batch it Ultra软件对视频进行数字化处理。第二个摄像机录制的红外图像输出是NTSC格式。为了合适的分布，可见光和红外图像被重叠放置，组合的图像实时播放。融合图像的每一个像素值是两个原图相应的像素加权和。之后对像素值进行归一化处理，归一化至0~255之间。

4.2 红外和融合图像的例子

图4-a一个典型的冬天晚上的视频图像；行人与背景有很强的对比度，除了几盏灯几乎都是黑的。图4-b相同位置白天的图像。由于太阳热度背景黑的不一致。但是行人依然是可辨别的(使用阈值/对比度分割是可行的)。铁质的摄像机的晕驱动现象很明显能够看出来，天空(非常黑)和场景目标(灰色树和建筑物)边界很明显。明显的，行人周围的背景明显很黑，行人比他原本要更亮。

晕/对比增强有另一个影响，图5-a和5-b显示了两个行人在冬天晚上远离摄像机散步，从两幅图对比可以看到行人的纹理信息减少了很多。这主要归结于图5-b他们的像素很少。但这也导致行人区域内有白晕出现，这抑制了纹理细节。随着行人越来越小，白晕覆盖了整个行人图像。从图4-a中能够明显看到：行人能够清楚看到纹理信息(像素值表明它不是饱和伪影).

图5 (a)行人与摄像机较近(高分辨率)。行人远离摄像机(低分辨率)：(b)整个图像；(c)(b)行人区域放大。

晕现象有很多影响结果，根据识别规则和图像，一些是有益的但有些不是。随着对比度的增加，晕现象对阈值/对比度分割是有益的：温度高的行人可能更容易分割。但是在一些摄像机中，目标与背景的亮度相差不大，在分割时把背景也分割了出来(例如，图4-b中上面的树)，所以需要使用更复杂的分类器。

晕影响能够促进采用背景减算法提取前景目标，，但是目标周围的黑晕比背景黑，也会被提取。所以感兴趣区域图形不仅仅是目标，并且这对于形状分析分类器会产生一些问题。

最后，不论采用哪种技术进行分割，晕影响都会减少行人的细节(直方图信息更少)，分类器使用这些特征完成行人目标跟踪。

Davis和Sharma提出了一个新颖的分割技术，充分利用晕影响。首先采用背景阈值对感兴趣区域进行分割。在感兴趣区域内包含晕和目标，通过寻找最大对比度的区域对目标的边界进行定位。它是高效截取感兴趣区域并能够获取目标精确边界的方法。

另一个问题可以参看图6，其中有两个行人。左边的人刚从温暖的车中出来所以他很亮，而另一个人则穿着凉的衣服。红外图像的亮与暗主要依据温度和他/他衣服红外吸收系数。这就是为什么不采用热签名信号来识别人，即使微测辐射热计摄像机能够计算目标的独自的温度也不能够识别目标。所以使用直方图分类器比较ROI和行人温度会产生一些错误。

夏天红外图像：图7是很热的夏天的一个复杂的场景，与之前的图像完全不同，背景的细节很丰富(天边界的大晕)。行人的温度比背景低，在温暖的环境经常会发生，采用背景减或运动识别分割对于温度高的行人和温度低的背景及所有季节情况都能有一个有效的识别。

图8显示了另一个有趣的状况：一些行人的温度低，一些行人温度比背景高。我们可以看到另一个对比增强的结果：行人在图8-a中比图8-b中亮。这是由于在图8-a中的行人后面是黑色的背景(树)，所以对比度得到了增强。这也是一个问题，在目标跟踪过程中利用直方图信息，而随着目标在不同的背景下目标的亮度也随之变换，直方图信息是不可靠的。

红外可见光融合图像：图像融合的例子如图9，图9-a可见光灰度图像，图9-b红外图像。这两幅图像利用加权和进行融合，图9-c和图9-d显示了不同加权值下融合的图像结果。得到的图像具有两种信息：纹理/细节信息和温度定位信息。图像得到了增强，图9-a中的行人是很难被识别的，而在红外图像行人很容易被识别。

4.3 变换检测性能

采用Porikli和Tuzel提出的变换检测背景减算法来对红外图像进行检测。对每一个像素进行混合数据模型学习，在混合数据模型中选择最优的来对背景进行建模。通过当前像素值与背景像素值比较来确定前景目标区域。之后目标采用形状滤波和联通分支技术进行初始化。最后目标在之后跟踪时使用他们的颜色直方图信息。虽然没有行人分类器，行人识别主要依赖于红外图像前景检出的结果并对其进行目标跟踪。

我们用红外和可见光一起分析识别的结果。对其六个空间排列，同步的测试结果可以看图13.这些结果在20~60秒。除了序列2，他们都是在夏天室外环境，温度很高很难识别。对于序列中的每一帧我们都对行人区域进行了定位。对前景位置的估计和真实位置的比较而计算得到正确率。正确率被定义为前景像素被正确估计的数量与整个前景数量的比值。正确率与错误率主要依据一个参数值：前景检出的阈值。低阈值表示所有的值只有与背景有稍微不通过，就会被认为前景，这样会导致错误率高。高阈值表示只有当像素值与背景有很大不同才会被认为前景，这样会导致正确率低。

图13 融合的ROC曲线值：不同颜色的曲线表示不同的权值系数，例如，红色表示a=0,蓝色表示a=1，

其它的颜色是0<a<1,红外IR和可见光IV的加权和为aIR+(1-a)IV;

我们提供了接收器工作特征曲线，针对改变识别特征绘制了不同阈值的正确/错误率。图右上角的点表示无错误估计。我们测试结果主要有三种情况：只要红外、只有可见光、图像融合为4通道，包括颜色和温度值。

很明显可以看出来红外数据前景检出更准确；红外的ROC曲线更接近于图右上角点(正确率最大，错误率最低)同可见光和融合图像相比。这是普遍结果，对两个序列(图11序列1和序列4的ROC曲线)的ROC曲线进行观察可以看出红外数据在背景检出时最优。

有一些因数影响了结果。一个因素是可见光数据的可靠性。颜色空间的图像背景频谱与行人的频谱高度相像。例如大多数人穿深色的衣服，与黑色的背景在像素级分析时就很难分辨。另一个问题是移动的目标会产生影子。影子会使前景检出的结果不正确，并且会扭曲行人的边界。行人进入静态的影子地区会使得行人的像素值有很大的不同，颜色信息被抑制了，从而导致行人检出失败。另一个问题是可见光数据含有很多噪声，由于帧率较快时小孔径效应，通过压缩这些效应在颜色信息中被增强了。

另一方面，红外摄像机有它自己的局限性，与冬天完全相反，夏天行人的温度与背景相似。除此之外，红外数据与多通道的有颜色的图像相比，特征(红外图像几乎没有光谱信息)限制了它的发展。当然由于我们实验采用的具体的摄像技术，通过晕影响对比度被增强了。

提高正确率的一个方法是增加识别的敏感性，降低阈值。可见光摄像机分辨率高，图像中很小的变化例如叶子移动也能很容易的被识别。当然可见光摄像机本身噪声就很多，与红外相比对光线更敏感，所以可见光背景减问题更多。这种现象可以看图12.红外图像中行人周围的晕影响可以从图12-c看到，与可见光图像的融合行人脚的影子可以看图12-e。如果影子能够被有效的去除，晕影响通过使用微测辐射热摄像机(不受环境对比影响)或使用自适应的规则来去除。

图12 可见光和红外背景分割。(a)红外原图；(b)可见光原图；(c)(a)的前景区；

(d)(b)的前景区域-归一化阈值；(e)(b)的前景区域-低阈值；

虽然这个例子不能代表最糟糕的情况(行人比背景热)，也没有表示可见光最好的情况(行人与背景的颜色有很大的不同)，对算法的基础的理解很有帮助；如果我们想要可见光与红外的正确率形似，则我们需要增加错误率。从图10ROC曲线图可以很明显的看出。

不论是否对可见光与红外进行融合，结果都应该不错，因为红外背景减的结果就非常准确了。我们对所有的序列的ROC曲线计算平均值得到的结果如图13所示。我们对红外和可见光分别计算前景，之后对可能的前景像素求权值平均。对红外和可见光进行融合时不同的权值会得到不同的曲线。从图13中可以看到随着红外和可见光的alpha融合权值的增加并没有改善。

我们对红外和可见光下的行人跟踪结果进行了比较，我们发现两种方法很相似。然而，在可见光中会稍有跟踪错误的情况。红外图像分辨率低，晕效应影响了行人区域内的纹理，除此之外，温度直方图也是低分辨的。正如上文介绍的，这些特征完成了跟踪并基于这些制定了分类规则。

综合所有，高正确率在红外图像中很容易实现。温度对行人识别更准确。最主要的原因是：1)背景温度并没有像光线变换的快；2)人穿衣服的颜色与背景相似比人温度与背景温度相似出现的概率高；3)红外中树的变化、叶子和其它的背景自动变化产生的错误率较低；4)彩色图像中更容易出现图像噪声。

5.结论

行人识别在红外和可见光中是完全不同的，这两种图像的特征不同。可见光摄像机并不依靠周围的环境，所以一年四季都是一样的。由于它依靠光线，所以它一般在晚上是不能工作的，除非有辅助光源。与此相反，红外摄像机主要依靠温度，所以四季呈现不同的结果。由于夏天背景和行人的极性反转，一般红外的行人较背景温度高的分割方法不适用，需要依据夏天场景进行操作。然而我们发现可见光中的背景减算法同样适用于红外图像，即使是红外图像夏天，由于红外图像背景和行人有强对比度。

相反红外图像利用形状或人身体特征分类比可见光困难，由于红外图像包含很少的目标信息，主要是由于它们分辨率低缺少频谱和纹理信息，跟踪过程需要利用这些信息。我们不能够使用红外温度来分类行人/，即使利用能够测得独立温度的微测辐射热摄像机，这主要是因为衣服的温度是多变的。

总之，红外行人识别与可见光行人识别一样有效，分类的问题可以通过好的分割进行补偿。红外和可见光融合能够提高识别效率，由于两个信息能够得到互补。第一级的融合技术并没有产生更好的效果。

0 0