论文阅读Synthetic to Real Adaptation with Generative Correlation Alignment Networks

来源:互联网 发布:linux根目录创建文件 编辑:程序博客网 时间:2024/05/21 22:41

论文题目:Synthetic to Real Adaptation with Generative Correlation Alignment Networks
作者:Xingchao Peng,Kate Saenko
来源: arxiv2017

1. 摘要

文章的想法是如果使用3D CAD建模的合成图片进行训练数据的数据增强,将会是一件非常有意义的事。然而,合成图片与真实图片之间存在较大的domain discrepancy,所以直接使用的效果甚微。本文提出了一种DGCAN的网络结构,使用shape preserving loss和low level statistic matching loss来减小特征空间中域之间的差异。
具体的,CAD合成图片具有很大的非真实性,其原因如下:
1)前景与背景的不匹配性很大
2)物体边缘和背景之间有很大的对比度
3)不逼真的场景
以上原因导致了合成图片与真实图片有很大的域差异

2. 文章的思路

2.1 总体的思路

总体方法图示
上图是总体的方法概略,使用DGCAN(Deep Generative Correlation Alignment Network)来生成inexpensive annotated training data。通过
综合物体的形状(从易获取的3D CAD中得到)以及结构纹理(从少量的真实图片中获得),最终在DGCAN-合成图片上进行训练,其效果有很大的改善。
Is={Ci,Yi}nsi=1,其中ns是有标签的source domain的CAD合成图的数目,而设It={Ri}nti=1,其中的nt是所有target domain所有真实图片(无标签)的数目。本文的目的是合成一个有标签的中间数据集I={Di,Yi}ni=1,每个DiI的图片都与CiIs包含类似的物体形状和轮廓,以及每个DiI的图片都与RIt图片相类似的模式,颜色,纹理结构等。
为了从 CR 中得到D,最直接的方法是直接对两个图片求平均。传统的方法如:half-half alpha blending以及pyramid blending仍会造成很大的domain shift。而本文的方法是在DCNN中将生成的D align到CR中,或者反过来,用Dp(D|C,R)来从C 中合成D

2.2 DGCAN的实现

DGCAN的网络实现
使用VGG-16作为基础架构,包含13个卷积层(conv1_1-conv5_3),3个全连接层(fc6-fc8),5个pooling层(pool1-pool5)。
Hl()是DCNN的第l层的表达矩阵,Hli()Hl()的第i个维度,Hli,j()Hli()的第j个值
第一个loss是为了保证物体的轮廓保持一致,第二个Loss是为了图像与真实图片有相似的low-level的特征。

2.2.1 shape preserving loss

LXffeat=lXf(ωlf2αli||Hli(D)Hli(C)||22)

其中DI,CIs ; ωsf是第l层的loss weight;Xf是所有加了l2 loss的集合。αl=NlFlNl是第l层特征的通道数,Fl是每个通道的特征长度
该loss关于激活值的导数是
LXffeatHli,j(D)=ωlfαl(Hli,j(D)Hli,j(C))

2.2.2 naturalness loss

为了使生成的图片具有与真实图片相似的low-level的特征(纹理,边缘对比度,颜色等),这里使用了CORAL loss。Correlation Alignment(CORAL) 是[1]论文中提出的loss。用于match the second-order statistics of feature distributions for domain adaptation。

LXccoral=lXc(ωlc4αl2||Cov(Hl(D))Cov(Hl(R))||2F)

其中DI,RIt ; ωlc是第l层的 COARL loss weight;Xc是所有加了CORAL loss的集合。
参考原论文,协方差矩阵如下:
Cov(Hl(M))=1Nl{Hl(M) Hl(M)1Nl{1Hl(M))(1Hl(M))}

其中M{D,R},1是恒1列向量,Nl是第l层的特征通道数
利用链式法则对CORAL求导得导数为:
LXccoralHli,j(D)=ωlcNlαl2{[Hl(D)1Nl(1Hl(D))1](Covl(D)Covl(R))}i.j

最后总的loss是将两个结合起来。先对原始图像增加一个扰动ϵN(0,Σ)。然后将图像送入DGCAN中关于 D 计算l2loss。关于 R 去计算 CORAL loss。合成图片通过如下规则得到:
D=argminDI(LXffeat+λLXccoral|X,R,Xf,XC,λ,ϵ)

2.3 实验结果

实验分两部分:1)用CAD合成图片和真实图片一起生成DGCAN合成图片;2)用现有的分类器在DGCAN合成图上进行训练
合成的图像展示
上图展示了根据两个输入(source domain:CAD合成图,target domain:真实图片)而产生的合成图。
1) 把LfeatLcoral分别总用与不同的卷积层找到最合适的方案。左图展示了当把Lfeat作用于浅层卷积层时,DGCAN可以生成清晰的物体轮廓。当把Lcoral作用于更高层的卷积层时,DGCAN可以合成出更具结构化的纹理特征
2)改变trade-off参数λ,找到λ的最优值。右图显示当λ较小时,物体轮廓比背景纹理更占优势,反之亦然。

实验效果图
左侧的一组图是CAD合成图和它对应的生成好的DGCAN合成图,可以看到着色后的图片具有真实的图像轮廓和真实的纹理。使用【2】中的工具进行图像可视化处理。可以发现,DGCAN的合成图片与真实图片的差异较小。而单一的灰度图像(CAD合成图)仅提供了边缘信息(edge information).
voc07的测试结果

可视化解释
左边的图不太懂(confusion matrix),大概理解是DGCAN合成图的错误模式和CAD合成图的错误模式大大不同,右图是t-SNE可视化的效果,可以得出DGCAN-合成图与原图的domian shift更小

3.参考文献

[1] B. Sun, J. Feng, and K. Saenko. Return of frustratingly easy domain adaptation. arXiv preprint arXiv:1511.05547, 2015. 1, 2, 4, 6, 7, 8
[2]A. Mahendran and A. Vedaldi. Visualizing deep convolutional neural networks using natural pre-images. International Journal ofComputer Vision, pages 1–23, 2016. 5

阅读全文
'); })();
0 0
原创粉丝点击
热门IT博客
热门问题 老师的惩罚 人脸识别 我在镇武司摸鱼那些年 重生之率土为王 我在大康的咸鱼生活 盘龙之生命进化 天生仙种 凡人之先天五行 春回大明朝 姑娘不必设防,我是瞎子 水霸王捕鱼机 霸王牌石英钟 霸王洗发水倒闭了吗 霸王育发液价格 三国群英传霸王再临 霸王防脱价格 三国之霸王复活 霸王洗发水广告词 霸王电子秤价格 新网游之霸王箭 霸王防脱育发液 霸秦 嬴无敌 霸秦 狂霸秦末的无敌猛将 英雄无敌之霸秦崛起 盗墓霸者无敌 韩娱霸者 霸者无双 学霸终结者 霸者重装 美漫霸者之路 霸者传奇手游 霸者传奇 韩娱霸者 允木果 大航海时代4霸者之证 东汉末年之霸者天下 雨后知秋 一个霸者的江湖 霸者的旅途 霸者屠龙 大航海时代4霸者之证坐标 霸者无双下载 三国志1中原之霸者 三国志中原之霸者 三国志1中原之霸者下载 大航海时代4东亚霸者之证 当学渣变成了学霸 暗中步行者 三国将星传中原之霸者 大秦之雄霸天下 不世霸者 重回1981蜜蛮学霸 霸蛮 灵植夫 真是霸蛮