缺少灵感？你一定需要这8篇论文 | 本周值得读 #37

来源：互联网发布：现金返利系统源码编辑：程序博客网时间：2024/06/05 08:16

缺少灵感？你一定需要这8篇论文 | 本周值得读 #37

14小时前阅读1

　　「本周值得读」是 PaperWeekly 的优质文章集合地。在这里，来自 NLP、CV、DL 等方向的学习达人，各自用精炼妙语推荐当下最新的高质量文章。

　　这是第 37篇「本周值得读」

➊

#ICML#

On orthogonality and learning recurrent networks with long term dependencies

RNN 中存在不可避免的梯度消失和爆炸的问题，用正交矩阵能够保证这个问题，但是是否严格正交一定是最好的。本文探究 RNN 中的 weight matrix 的正交约束对于 training 的收敛速度和模型表现的影响。用一种 SVD 以及参数化的方式来 constraint training 过程中每一步的 W 所对应的 norm 的变化，以此来观察模型的能力。实验在人工的数据集以及 MNIST 和 PTB 都验证了。得到结论：对于不同 task 表现不同；但是在 sequence training 中，正交约束不应该太严格；而对于 training 的 sequence 非常长的情况，则应该对正交约束比较强才合适。

论文链接：https://arxiv.org/pdf/1702.00071.pdf

推荐人：吴郦军，中山大学（PaperWeekly arXiv 打卡小组）

➋

#GAN#

DeLiGAN : Generative Adversarial Networks for Diverse and Limited Data

GAN 一般要基于大量数据训练才能抓取到数据多样性，而本文提一种基于少量数据就能训练出能产生多样性数据的 GAN 模型，并提出了一种衡量多样性 modified-inception-score。当数据量有限时，通过加大模型的深度提升效果基本不可行，因此增强先验分布多样性来增加多样性是一个可选的方法。DeLiGAN 主要通过 reparameterise（One-liners method）隐变量空间（Mixture-of-Gaussians, supposed uniform distribute）形成一种混合模型，而本方法可以做为一个“插件”结合到很多 GAN 模型中，模型在 MNIST、CIFAR 10、Freehand Sketches 三个数据集中试验取得了比较好的结果。

论文链接：https://arxiv.org/abs/1706.02071

相关代码：

https://github.com/tonybeltramelli/pix2code

推荐人：罗玄，北京邮电大学（PaperWeekly arXiv 打卡小组）

➌

#深度神经网络#

The Landscape of Deep Learning Algorithms

本文研究了深度线性和 sigmoid 非线性神经网络的收敛性，指出在某些常见假设（样本 iid &一致有界，梯度有界等）下，这两种网络的经验风险（emprical risk）、稳定性（stability）、泛化能力（generalization）、梯度（gradient）、驻点（stationary points）均一致收敛。这应该是第一个给出深度神经网络一致收敛性的工作，文章指出，该结论还能推广到 ReLU 神经网络上。关于深度神经网络的理论分析很难，也不多，本文得到了一个较好的结果。

论文链接：https://arxiv.org/abs/1705.07038

推荐人：洪佳鹏，北京大学（PaperWeekly arXiv 打卡小组）

➍

#相似句生成#

Learning Paraphrastic Sentence Embeddings from Back-Translated Bitext

一个非常有趣的想法，通过先将 A 语言翻译成 B 语言，再将 B 语言翻译回 A 语言来生成 paraphrase pairs 作为其他任务的训练集，取得了不错的效果。这个想法可能并不难，文章中有一些技巧可能会非常关键。现在语义理解中，相似句的判别，相似句训练集的准备都是不小的难题，本文的思路也许会有帮助。实际应用中，翻译工具的使用应该会是一个比较好玩的东西。

论文链接：http://cn.arxiv.org/abs/1706.01847

推荐人：大俊，PaperWeekly 首席客服

➎

#CVPR2017#

Loss Max-Pooling for Semantic Image Segmentation

本文主要解决的是 semantic segmentation 中 imbalanced training data distributions 问题。在 semantic segmentation 数据集包括现实世界中存在明显的长尾分布的问题，即大多数的数据组成了小部分的类别，因此会导致学习器更偏向于这些类别。

主要思想是通过 pixel weighting functions 自适应地对每个像素的 contribution（即实际展现的 loss）进行 re-weighting，使引起更高 loss 的像素的权重更大，这直接对潜在的类内和类间不平衡进行了补偿；然后通过普通的max-pooling在pixel-loss level上对pixel weighting function取最大。而这个最大值是传统loss（即每个像素损失的权重是相等的）的上界，也就是说这种方法包括了传统loss的情况。

文中主要关注 p 范数和无穷范数下的 weighting functions，同时对对应的 p 范数和无穷范数也做了界定，使得通过调节 p 可以对像素进行一定程度的选择，即对部分像素进行赋予权重。文章使用偏数学证明的方法进行论证，详细证明过程请查看论文。

论文链接：https://arxiv.org/abs/1704.02966

详细解读：

https://zhuanlan.zhihu.com/p/27394105

推荐人：余昌黔，华中科技大学（PaperWeekly arXiv 打卡小组）

➏

#对话系统#

Assigning personality/identity to a chatting machine for coherent conversation generation

本文的亮点在于生成对话时考虑了 personality 或者 identity，使得整个聊天过程更加连贯和自然。该文章的作者之前有一篇工作研究了在生成不同情绪的对话，非常有意思。

论文链接：http://cn.arxiv.org/abs/1706.02861

推荐人：大俊，PaperWeekly 首席客服

❼

#图像分割#

Recurrent Scene Parsing with Perspective Understanding in the Loop

这篇文章中提出了 depth-aware gating module 和 recurrent refinement module 来改善图像分割的效果，在多个数据集和 benchmark 上都得到了较好效果。

景深的信息通过训练一个 regressor 得到，并且对 depth map 使用高斯平滑处理，将 depth map 与图像结合成 RGB-D 的 4 通道数据。景深信息的门结构（depth-aware gating module）在网络中评估景深信息得出目标尺度，然后在 atrous convolution 中自适应的使用不同 dilate rates 来产生需要的 pooling field size。这样可以做到对远处物体保留更多细节，并且对近处物体有较大的感受野。在分割的过程中反复改进（recurrent refinement module）输出结果，即优化一个关于 semantic segmentation，depth regression 和 quantized depth classification 的目标函数。

论文链接：https://arxiv.org/abs/1705.07238