深度学习——核心思想

来源：互联网发布：ico转换软件编辑：程序博客网时间：2024/05/29 13:21

核心思想：

假设我们有一个系统S，它有n层（S1,…Sn），它的输入是I，输出是O，形象地表示为： I =>S1=>S2=>…..=>Sn

=> O，如果输出O等于输入I，即输入I经过这个系统变化之后没有任何的信息损失，保持了不变，这意味着输入I经过

每一层Si都没有任何的信息损失，即在任何一层Si，它都是原有信息（即输入I）的另外一种表示。

在深度学习中，我们需要自动地学习特征，假设有一堆输入I（如一堆图像或者文本），我们设计了一个系统S（有n

层），我们通过调整系统中参数，使得它的输出仍然是输入I，那么我们就可以自动地获取得到输入I的一系列层次特

征，即S1，…, Sn。

深度学习的思想就是堆叠多个层，也就是说这一层的输出作为下一层的输入。通过这种方式实现对输入信

息进行分级表达了。深度学习是无监督学习的一种。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或

特征，以发现数据的分布式特征表示。

观点及网络结构：

2006年，加拿大多伦多大学教授、机器学习领域的泰斗Geoffrey Hinton和他的学生在《科学》上发表了一篇文

章，开启了深度学习在学术界和工业界的浪潮。这篇文章有两个主要观点：

1、多隐层的人工神经网络具有优异的特征学习能力，学习得到的特征对数据有更本质的刻画，从而有利于可视

化或分类；

2、深度神经网络在训练上的难度，可以通过“逐层初始化”（layer-wise pre-training）来有效克服，在这篇

文章中，逐层初始化是通过无监督学习实现的。

深度学习可通过学习一种深层非线性网络结构，实现复杂函数逼近，表征输入数据分布式表示，并展现了强大的从少

数样本集中学习数据集本质特征的能力。（多层的好处是可以用较少的参数表示复杂的函数）

深度学习的实质，是通过构建具有很多隐层的机器学习模型和海量的训练数据，来学习更有用的特征，从而最终提

升分类或预测的准确性。因此，“深度模型”是手段，“特征学习”是目的。深度学习强调了模型结构的深度，通常

有5层、6层，甚至10多层的隐层节点；明确突出了特征学习的重要性，也就是说，通过逐层特征变换，将样本在原

空间的特征表示变换到一个新特征空间，从而使分类或预测更加容易。与人工规则构造特征的方法相比，利用大数据

来学习特征，更能够刻画数据的丰富内在信息。

深度学习采用了神经网络相似的分层结构，系统由包括输入层、隐层（多层）、输出层组成的多层网络，只有相邻

层节点之间有连接，同一层以及跨层节点之间相互无连接，每一层可以看作是一个logistic regression模型；这种分

层结构，是比较接近人类大脑的结构的。

训练机制：

整体上是一个layer-wise的训练机制。这样做的原因是因为，如果采用back propagation的机制，对于一个deep

network（7层以上），残差传播到最前面的层已经变得太小，出现所谓的gradient diffusion（梯度扩散）。

0 0