分布式压缩视频感知DCVS

来源：互联网发布：帝国最后的荣耀知乎编辑：程序博客网时间：2024/05/22 00:30

1、分布式压缩感知

编码端十分简单，每个信号分别进行CS测量。而解码端复杂，将信号集在一起进行联合重构。如图1所示：

图1

分布式压缩感知的基础是联合稀疏模型，即JSM模型，目前有三种，其中JSM-1：信号集中的信号之间相关性很强，每个信号都由公共信号部分和独立信号部分组成，且均稀疏。

由于这种特性，因此在压缩感知过程中，可以对key frame进行更多次测量，而对non-key frame进行少量测量（编码端的低复杂性并非能找出信号的独立部分），从而可以用较少的测量值获得精确的重构效果。

因此，利用该模型的压缩感知可以既能消除时间冗余（帧间相关性），又能消除空间冗余（帧内相关性）。第一次看到JSM模型时，错以为编码端进行区分公共部分和独立部分并进行测量，当时让我百思不得其解。

2、分布式视频压缩感知

由于视频是由连续的帧组成，且时间冗余特别的大，即帧间相关性很强，因此十分适合使用分布式压缩感知。

文献[1]：DISTRIBUTED COMPRESSIVE VIDEO SENSING， Li-Wei Kang and Chun-Shien Lu，ICASSP。作者提出分布式压缩视频感知，编码端独立每一帧的测量，根据JSM-1模型，key frame 需要更多的测量，non-key frame可以减少测量数目。解码端对key frame直接进行GPSR重构，对于non-key frame重构时，需要利用key frame的边信息（side information）进行辅助重构。不失一般性，设有两个帧，Xt Xt+1，对Xt进行直接重构得到Xt的估计，由于前一时刻与后一时刻均有公共部分，因此将Xt的估计作为Xt+1的估计，辅助重构Xt+1。

文献[2]:Dynamic measurement rate allocation for distributed compressive video sensing，Hung-Wei Chen, Li-Wei Kang,SPIE。 作者基于上篇文章，提出将CS帧（non-key帧）进行分块处理，key frame不分块，这样好处是key frame重构质量高，继而提供边信息进行联合重构，提高整体恢复质量。对于分块CS帧，作者设计了自适应确定测量率。

作者提出：由于编码端无法获得raw data，对于CS帧，为了依据前一时刻帧中block的稀疏性估计下一时刻的相应block的稀疏性，则通过解码端key frame反馈信息的方式。

核心思想是：在解码端利用重构出的Xt的块的稀疏性去估计下一个帧Xt+1的相应块的稀疏性，从而确定编码端的测量率。由于，解码端Xt的稀疏表示是固定DWT基，而Xt+1是训练字典，作者使用训练字典来对Xt进行稀疏表示，因此能很好的估计Xt+1，之后通过每块系数的变化率确定每块的测量率。

同一时期关于分布式压缩视频感知的论文有三篇：

（1）distributed compressive video sensing，台湾中央研究院，ICASSP 2009 ，April 19-24

（2）distributed video coding using compressive sampling ，马毅等，PCS 2009 ，May 6-8

（3）distributed compressed video sensing，Lu Gan 等，ICIP 2009，November 7-10

论文（1）：

编码端：分别对key frame和non-key frame进行CS测量，其中non-key frame采用分块技术。根据JSM-1模型，key frame的测量率应该大于non-key frame。稀疏表示使用DWT基，测量矩阵采用SBHE矩阵。

解码端：key frame采用GPSR进行恢复。同样根据JSM-1模型，利用前一帧的信息来重构当前帧，即key frame提供side information 给non-key frame，采用修正的GPSR进行重构（根据side information计算初始值和终止条件）。what's side information？what's GPSR？

论文（2）：

编码端：区分key frame和CS frame，对于key frame采用传统的H.264编码，CS frame则分块测量。对n个像素的块组成的列向量进行分块测量，得到n个测量值，之后进行b bts的量化，最后选取m个进行传输。量化的作用是？

解码端：key frame采用传统的方式进行解码。对于CS帧解码的基是从字典中选取，字典是由当前块所在帧的前P个帧的相应块位置（以x为中心，w*w个像素范围）选取的块组成。然后通过解l1范式问题求得重构值。

作者提出三种机制，分别是skip机制、single机制、L1机制。skip机制中，如果编码端会计算当前块和之前解码key frame相应块的均方误差，若小于约定值，则skip，解码端根据之前的块copy作为重构。因此，编码端需要接收重构的key frame并计算均方误差，增加了复杂度，另外由于编码端无法获得原始数据，可行？single机制中,发送端发送前面m1个测量值，利用该测量值与字典中各个块的前m1测量值进行MMSE计算，若低于约定值，则选中该块作为恢复。否则，使用L1机制，继续发送剩下m2个测量值。编码端和解码端的信息沟通是通过feedback channel。下图所示。

论文（3）:

编码端：K-frame采用传统方式编解码。对于cs frame采用基于块和基于frame的CS测量（连续传递测量值）。

解码端：基于块的测量值传到解码端，根据JSM模型进行稀疏限制的块预测，算法能找出时域内相邻块（包括key frame）的最小数目的线性表示。如图所示，基于frame的测量值联合基于块的测量值，得到一个完备的测量矩阵，同时，基于块的预测也能获得一个测量矩阵，两者相减可以获得误差的测量矩阵，由于该误差稀疏，因此可以重构。最后将预测后的帧加上预测误差得到最后的结果。

总结：

1. 基于frame的测量稀疏性较基于块的更好，能够获得全局信息。基于块能获得局部信息，重构质量较高，但存在块效应。

2. 基于块的CS灵活性较高，能够根据不同块设计不同基、测量矩阵，适合尺寸较大的图像流。

3. 在论文（1）中，key frame采用基于frame的测量，原因是其重构质量更高？

4. 论文（1），对于key frame和non-key frame均采用CS测量，编码端简单。论文（2）（3）对于key frame采用传统的方式，恢复质量高，但编码端较复杂。

5. 论文（2）未具体讲述如何进行最优的块预测？？

在（二）中文献（1）的基础上，作者发表了文献（4）、文献（5）

文献（5）：DICTIONARY LEARNING-BASED DISTRIBUTED COMPRESSIVE VIDEO SENSING，台湾中央研究院liweikang，PCS2010

文献（6）：Dynamic measurement rate allocation for distributed compressive video sensing，台湾中央研究院liweikang，VCIP2010

个人认为文献（5）借鉴了文献（2）中字典的设计，并把K-SVD算法引入，得到此篇文章。

字典学习步骤：

1.当前帧的前一key frame和后一key frame得到It（side information ）。

2.对上述三帧进行分块，对每个块提取9个training patches（哪9个？）。

3.利用上述patches，根据K-SVD算法训练得到字典Dt。

side information：根据分布式压缩视频感知(一)中分布式视频编码框架，由已解码的key frame和之前的WZ帧生成side information，它的作用在于作为当前帧的估计，利用该边信息和接收到的WZ帧一起得到当前帧的解码。一般做法是：在相邻的两个key frame之间利用运动估计得到插值帧的运动轨道，利用运动补偿生成边信息。

个人认为文献（6）借鉴了文献（2）中的反馈机制，设计了基于解码端已重构帧的相应块的稀疏性的动态测量率。该节在分布式压缩视频感知(一)提到，此处略。

文献（6）distributed compressive video sensing： a review of the state-of-the-art architectures，M2VIP 2012.11

文献（7）Adaptive Dictionary Learning for Distributed Compressive Video Sensing ，期刊JDCTA（EI检索），2012

作者综合前几篇文献之后提出，编码端将key frame和CS frame均采用基于块的CS测量，CS frame量化后的向量进行编码；解码端，key frame采用基于字典的重构，区别与以往文献。作者对文献（6）cs frame的分块的动态测量策略进行改进，使用局部稀疏和remote joint sparstity，局部稀疏性通过计算SI代替当前帧（feedback）

个人感觉remote joint sparstity来设计编码端测量率是有问题的，另外SKIP机制说的也不清楚。上述之外作者的改进：利用modified MOD训练字典。

原文地址：http://blog.sina.com.cn/u/1726197622

0 0