Paper read weekly(one)

来源：互联网发布：高新区网络问政平台编辑：程序博客网时间：2024/06/09 20:15

其实每周boss都会在周例会上给算法组的每个人留一个下周发散任务。最近更是和DeepMind死磕上了。。。基本上是出一篇读一篇，出一堆，全组人都上的节奏。

这不，老板一下子给我安排了两篇。。。
吐槽完毕。

最近又出了一篇单目深度估计（Monocular Depth Estimation,MDE）的新文章——《Monocular Depth Estimation with Hierarchical Fusion
of Dilated CNNs and Soft-Weighted-Sum Inference》

MDE本质上是一个回归问题，但用分类思想来近似求解回归问题，也是一个多有尝试方法，本文就是一例。

结合本文所设计网络结构，我们来看看他主要有哪些contribute。

这里写图片描述

网络结构一如既往的选择了全卷积，然后吸收了resnet里的残差块，在此基础上还进行了不同层间特征的concat融合。

不同之处在于：

输出是score map，即深度值分类label的概率分布；
包含着infer层。作者说是为了将离散label值（score）变换成连续深度值。
既然将回归问题变成了分类问题，首先要做的就是continuous depth value的离散化了。

如此就可以得到各个连续深度值对应的量化标签了。
有了分类label，下一步就是构建loss了：

有了loss，网络就可以训练了，训练完后得到了网络参数，和输出score，就可以利用他们，依据”soft-weighted-sum inference”来得到最终的连续深度值了：

以上就是文章的contribute部分了。总结来说，强行用分类模型来解决回归问题，然后引入特殊映射层将预测的离散深度值又变换成连续深度值。想来是觉得分类模型里可用的网络结构丰富，可以直接拿来fine turn的预训练模型也更多。但引入先验映射这一做法仍然存在着局限性和可扩展性。

综上，网络结构没创新，loss也不新鲜，回归变分类，最终还是要变回成回归，同时从最终的数值效果和视觉效果来看，都只是一个comparable results。所以读完还是有些失望的。。。。

然后就是DeepMind的那两篇论文了。自从alphaGo大火之后，DeepMind围绕强化学习和模仿人类各种特性的脑洞文章就开始层出不穷了。所谓你们写paper的不嫌事儿大，读paper的可真是煎熬。。。

今儿要读的两篇文章，标题看着就让人激(meng)动(bi)。好好感受下吧。。。

这里写图片描述

这部分就不写论文读后感了，估计也读不太懂。了解下思想，能找到点启发是最好的了，找不到那就当读着完吧……

阅读全文

0 0