深度学习概述

来源：互联网发布：淘宝红包链接转手机端编辑：程序博客网时间：2024/05/24 11:14

1.简述

Deep Learning.为了克服神经网络训练中的问题，采用了与神经网络很不同的训练机制。传统神经网络中，采用的是back propagation的方式进行，简单来讲就是采用迭代的算法来训练整个网络，随机设定初值，计算当前网络的输出，然后根据当前输出和label之间的差去改变前面各层的参数，直到收敛（整体是一个梯度下降法）。而deep learning整体上是一个layer-wise的训练机制。这样做的原因是因为，如果采用back propagation的机制，对于一个deep network（7层以上），残差传播到最前面的层已经变得太小，出现所谓的gradient diffusion（梯度扩散）。微笑什么是layer-wise？答：这算是一个思想吧，就是网络有很多层，然后我一层一层的训练。先训练好第一层，然后固定第一层，将第一层的输出作为第二层的输入，训练第二层。然后固定第一和第二层，将第二层的输出作为第三层的输入，训练第三层……一直往下，知道需要的层数。然后再在网络最顶，加一个分类层，训练的时候，全部层一起训练（微调）。

2. RNN

RNN, Recurrent Neural Network, 循环神经网络.
有些任务对输入信息的时序很敏感. 对读句子而言, 对当前词汇的理解并不是孤立的, 而是基于前文的, 所以神经元需要”记忆” 的功能.

图片名称
图 2-1 循环神经网络

可以将循环神经网络展开为普通神经网络来理解: 将其展开为多个同样网络的副本, 每个网络将信息传递给继任者.

图片名称
图2-2 循环神经网络展开

2.1 用途

用途有: 语音识别, 手写体识别, 翻译, 图像标注(image caption). 因为这些任务对输入信息的时序很敏感.

3.LSTM

参考博客: LSTM 简介.

LSTM,Long-Short Term Memory，长短期记忆(模型)。
根据深度学习三大牛的阐述，LSTM网络已被证明比传统的RNNs更加有效。
原生的RNN会遇到一个很大的问题，叫做 The vanishing gradient problem for RNNs，也就是后面时间的节点对于前面时间的节点感知力下降，也就是忘事儿。解决这个问题用到的就叫LSTM。
一个Cell由三个Gate（input、forget、output）和一个cell单元组成。

4.CNN

cnn,Convolutional Neural Network,卷积神经网络。
下层神经元和所有上层神经元都能够形成连接，带来的潜在问题是参数数量的膨胀。
对于CNN来说，并不是所有上下层神经元都能直接相连，而是通过“卷积核”作为中介。同一个卷积核在所有图像内是共享的，图像通过卷积操作后仍然保留原先的位置关系。
适用场景：计算机视觉问题。

5. dropout

drop-out 操作用在网络中, 起到 regularization , 防止过拟合的作用. 论文见 [1].

参考

RECURRENT NEURAL NETWORK
REGULARIZATION

阅读全文

0 0