十六、图像识别领域近期进展 & 其他深度模型介绍

来源：互联网发布：java语言开发编辑：程序博客网时间：2024/06/05 08:42

本博客主要内容为图书《神经网络与深度学习》和National Taiwan University (NTU)林轩田老师的《Machine Learning》的学习笔记，因此在全文中对它们多次引用。初出茅庐，学艺不精，有不足之处还望大家不吝赐教。

欢迎大家在评论区多多留言互动~~~~

1. 深度学习在计算机视觉领域的发展过程

1998 年， MNIST 被初次提出，训练一个使用最先进技术的工作站，来达到明显差于我们使用 GPU 并且训练少于一小时就能达到的准确率，要花费几周时间。

2012年，斯坦福和谷歌的研究小组发表 LRMD 论文。LRMD 使用一个神经网络来分类ImageNet的图像，一个非常具有挑战性的图像识别问题。他们使用的 2011 年ImageNet 数据包含 16,000,000 幅全彩色图像，有20,000个种类。这些图像收集自开放的网络，由亚马逊的 Mechanical Turk 服务部门的员工分类。LRMD 的网络获得了一个不错的 15.8% 的准确率来正确分类 ImageNet图像。

LRMD 的成果被一篇 Krizhevsky,Sutskever 和 Hinton （KSH）3的 2012 年论文追随。KSH 训练和测试一个深度卷积神经网络，它使用 ImageNet数据的一个有限的子集。他们使用的子集来自一个流行的机器学习竞赛——ImageNet Large-Scale Visual Recognition Challenge（ILSVRC）。使用一个竞赛用的数据集给了他们一个很好的和其它领先技术比较的途径。ILSVRC-2012 训练集包含有大约 1,200,000 幅 ImageNet 图像，取自 1,000 个种类。验证和测试集分别包含有 50,000 和 150,000 幅图像，各自取自同样的1,000 个种类。由于训练图像的歧义性，如果实际的ImageNet 分类在一个算法认为最有可能的 5个分类中，那么这个算法就被认为是正确的。通过这个前 5标准，KSH 的深度卷积网络达到了一个 84.7% 的准确率，大大好于次优的参赛者，后者取得了 73.8% 的准确率。使用更严格的必需准确标记的标准，KSH 的网络达到了 63.3% 的准确率。

2014 ILSVRC 竞赛：自 2012 年以来，研究一直在快速推进。看看 2014 年的ILSVRC 竞赛。和2012 一样，这次也包括了一个 120,000 张图像，1,000 种类别，而优值系数是前 5 个预测是否包含正确的分类。获胜团队，主要来自谷歌6称此为 GoogLeNet，作为向 LeNet-5 的致敬。GoogLeNet 达到了 93.33% 的前 5 准确率，远超 2013 年的获胜者和2012年的获胜者（KSH，84.7%）。
2013 年一篇9论文指出，深度网
络可能会受到有效盲点的影响。图像经过噪声干扰之后就无法正确分类，称被干扰后的图像为对手图像，并且对每幅图片都存在这样的“对手”图像，而非少量的特例。对手反例集以特别低的概率出现，因此在测试集中几乎难以发现，然而对手反例又是密集的（有点像有理数那样），所以会在每个测试样本附近上出现。

2. 其他深度模型介绍

如果你研读过神经网络的研究论文，那么会遇到很多这本书中未曾讨论的想法：RNN，Boltzmann Machine，生成式模型，迁移学习，强化学习等等……这些是近几年研究的新问题也是热点问题，所以在这里对这些问题进行简单的归纳。

2.1 循环神经网络（RNN）

拥有时间相关行为特性的神经网络就是循环神经网络，常写作 RNN，是一种随时间动态变化的网络。，RNN 在处理时序数据和过程上效果特别不错。这样的数据和过程正是语音识别和自然语言处理中常见的研究对象。

2.2 长短期记忆单元（Long short-term memory units，LSTMs）

影响 RNN 的一个挑战是前期的模型会很难训练，甚至比前馈神经网络更难。原因就是我们在上一章提到的不稳定梯度的问题。回想一下，这个问题的通常表现就是在反向传播的时候梯度越变越小。这就使得前期的层学习非常缓慢。在 RNN 中这个问题更加糟糕，因为梯度不仅仅通过层反向传播，还会根据时间进行反向传播。如果网络运行了一段很长的时间，就会使得梯度特别不稳定，学不到东西。幸运的是，可以引入一个称为长短期记忆（long short-term memory）的单元进入 RNN 中来解决梯度不稳定问题。

2.3 生成模型

生成式模型更像人类的大脑：不仅可以读数字，还能够写出数字。

阅读全文

1 0