【视频变化检测】2017CVPR Spatio-Temporal Self-Organizing Map Deep Network for Dynamic Object Detection from

来源:互联网 发布:国家承认网络教育 编辑:程序博客网 时间:2024/05/22 15:53

Spatio-Temporal Self-Organizing Map Deep Network for DynamicObject Detection from Videos

Yang Du1,Chunfeng Yuan1, Bing Li1, Weiming Hu1 and Stephen Maybank2

CAS Centerfor Excellence in Brain Science and Intelligence Technology,

NationalLaboratory of Pattern Recognition, Institute of Automation, Chinese Academy ofSciences;

Universityof Chinese Academy of Sciences, Beijing, China

 

针对动目标检测问题,更好的探索空域和时域的特性来描述复杂的背景。提出Spatio-Temporal Self-Organizing Map(STSOM)深度网络。


总结复杂背景含有两个属性:

1、    全局背景的空间变换,包括相机的变焦、抖动等。认为背景运动的空域属性。

2、     局部背景随着时间的变化。主要指背景的动态属性,比如河流、泉水和坏天气等。认为为背景运动的时域属性。


本文基于SOM进行背景描述。


SOM(Self-Organizing Map)

一个通常的SOM单元包含一系列神经节点,可以通过自己组织的神经节点的权重来学习输入刺激的特征模式。

输入的元素与所有的节点是全链接关系,其中的关系可以用一个权重向量来表示。特殊地,获胜节点c被定义为其权重向量与输入图像有最小的距离。公式如下:

SOM的学习规则为找到获胜节点,然后更新获胜节点和领域节点的权重。则可以考虑到领域平滑信息。其权重更新公式如下:

为学习率,为领域函数,可保留空间拓扑结构。

 

STSOMDeep Network for Dynamic Object Detection

整体结构输入图像连接一个SOM,然后通过阈值得到之后的图像,再经过多层SOM得到最后的结果。通过多层数来更好的刻画复杂的背景。不同于SOBS,每一层的节点数目很少,只有3*3,所以需要更深的网络结构来刻画背景。


1.  预训练

整个视频图像都被用作预训练STSOM,先转化为HSV空间,在笛卡尔空间中计算像素点i与节点之间的距离:

将会得到一个D的距离大矩阵。分为空域时域来分开更新权重。

1)     空域权重更新

对于同一帧的不同像素来说,可以用来刻画背景的空域特性,则每一帧的距离为这一帧所有的像素到节点p的和,找到最小距离的节点,即为获胜节点,再根据更新权重规则进行更新。离获胜权重越近,影响越大,距离越远,影响越小。


2)     时域权重更新

对于同一像素的不同帧,可以刻画背景的时域特性,则每一个像素点的获胜节点为同一像素不同帧的对于节点p的最小距离的节点。

结合空域和时域的更新,使得STSOM有了很好的背景表达能力。


3)     前向传递(forward propagation)

通过一层一层的预训练,我们已经有了很多的STSOM层。对于每一层来说,我们可以获得结合了空域和时域信息的阈值,用来过滤图像是否为背景。

首先,我们通过平均所有的图像来获取一个粗的背景模型,然后利用贝叶斯参数估计方法来获取最后的背景模型。(没看懂这里怎么估计的)利用这个背景模型,进行前向传递,通过一层,将最大的空域节点距离除以所有的像素个数设为空域阈值,最大的时域节点距离设为时域阈值,对空域阈值和时域阈值取平均。然后通过阈值,可获得下一层的输入。

对于之后的层,再分别通过权重更新和背景前向传递进行一层一层的更新。获得最终每层的初始结果。


2.精调(Fine-tuning)

为了让网络更适用于复杂场景的变化,在精调步骤中,输入一个新的视频帧,对每一层的权重进行更新,不更新阈值。更新公式为:

与预训练一样,但是α会设置的更小一些


3.动目标检测(Dynamic Object Detection)

通过之前的训练会得到一个描述背景的网络,然后对于这个网络来说,输入一个新的帧,通过阈值,就会得到最后的动目标检测结果。越深的层数会更精确的表达背景模型。

 

实验结果

动背景,包括河流、运动的树、泉水、坏天气、相机抖动等等,有很大的提升效果。

热流、阴影也可以不错的解决

间断物体运动和低帧情况,达到最好的效果,因为模型可以动态实时更新。

PTZ夜晚视频,效果不佳

整体效果超过了state-of-art


一堆实验证明,pre-training的阈值效果比较好,相对大的阈值效果更好一些。


每层结果,可以看出,STSOM对于动态背景的有效表达能力。

 

阅读全文
0 0
原创粉丝点击