【视频变化检测】2017CVPR Spatio-Temporal Self-Organizing Map Deep Network for Dynamic Object Detection from

来源：互联网发布：国家承认网络教育编辑：程序博客网时间：2024/05/22 15:53

Spatio-Temporal Self-Organizing Map Deep Network for DynamicObject Detection from Videos

Yang Du1,Chunfeng Yuan1∗, Bing Li1, Weiming Hu1 and Stephen Maybank2

CAS Centerfor Excellence in Brain Science and Intelligence Technology,

NationalLaboratory of Pattern Recognition, Institute of Automation, Chinese Academy ofSciences;

Universityof Chinese Academy of Sciences, Beijing, China

针对动目标检测问题，更好的探索空域和时域的特性来描述复杂的背景。提出Spatio-Temporal Self-Organizing Map(STSOM)深度网络。

总结复杂背景含有两个属性：

1、全局背景的空间变换，包括相机的变焦、抖动等。认为背景运动的空域属性。

2、局部背景随着时间的变化。主要指背景的动态属性，比如河流、泉水和坏天气等。认为为背景运动的时域属性。

本文基于SOM进行背景描述。

SOM（Self-Organizing Map）

一个通常的SOM单元包含一系列神经节点，可以通过自己组织的神经节点的权重来学习输入刺激的特征模式。

输入的元素与所有的节点是全链接关系，其中的关系可以用一个权重向量来表示。特殊地，获胜节点c被定义为其权重向量与输入图像有最小的距离。公式如下：

SOM的学习规则为找到获胜节点，然后更新获胜节点和领域节点的权重。则可以考虑到领域平滑信息。其权重更新公式如下：

为学习率，为领域函数，可保留空间拓扑结构。

STSOMDeep Network for Dynamic Object Detection

整体结构输入图像连接一个SOM，然后通过阈值得到之后的图像，再经过多层SOM得到最后的结果。通过多层数来更好的刻画复杂的背景。不同于SOBS，每一层的节点数目很少，只有3*3，所以需要更深的网络结构来刻画背景。

1. 预训练

整个视频图像都被用作预训练STSOM，先转化为HSV空间，在笛卡尔空间中计算像素点i与节点之间的距离：

将会得到一个D的距离大矩阵。分为空域时域来分开更新权重。

1）空域权重更新

对于同一帧的不同像素来说，可以用来刻画背景的空域特性，则每一帧的距离为这一帧所有的像素到节点p的和，找到最小距离的节点，即为获胜节点，再根据更新权重规则进行更新。离获胜权重越近，影响越大，距离越远，影响越小。

2）时域权重更新

对于同一像素的不同帧，可以刻画背景的时域特性，则每一个像素点的获胜节点为同一像素不同帧的对于节点p的最小距离的节点。

结合空域和时域的更新，使得STSOM有了很好的背景表达能力。

3）前向传递（forward propagation）

通过一层一层的预训练，我们已经有了很多的STSOM层。对于每一层来说，我们可以获得结合了空域和时域信息的阈值，用来过滤图像是否为背景。

首先，我们通过平均所有的图像来获取一个粗的背景模型，然后利用贝叶斯参数估计方法来获取最后的背景模型。（没看懂这里怎么估计的）利用这个背景模型，进行前向传递，通过一层，将最大的空域节点距离除以所有的像素个数设为空域阈值，最大的时域节点距离设为时域阈值，对空域阈值和时域阈值取平均。然后通过阈值，可获得下一层的输入。

对于之后的层，再分别通过权重更新和背景前向传递进行一层一层的更新。获得最终每层的初始结果。

2.精调（Fine-tuning）

为了让网络更适用于复杂场景的变化，在精调步骤中，输入一个新的视频帧，对每一层的权重进行更新，不更新阈值。更新公式为：