深度学习概述

来源:互联网 发布:淘宝红包链接转手机端 编辑:程序博客网 时间:2024/05/24 11:14

1.简述

Deep Learning.为了克服神经网络训练中的问题,采用了与神经网络很不同的训练机制。传统神经网络中,采用的是back propagation的方式进行,简单来讲就是采用迭代的算法来训练整个网络,随机设定初值,计算当前网络的输出,然后根据当前输出和label之间的差去改变前面各层的参数,直到收敛(整体是一个梯度下降法)。而deep learning整体上是一个layer-wise的训练机制。这样做的原因是因为,如果采用back propagation的机制,对于一个deep network(7层以上),残差传播到最前面的层已经变得太小,出现所谓的gradient diffusion(梯度扩散)。微笑什么是layer-wise?答:这算是一个思想吧,就是网络有很多层,然后我一层一层的训练。先训练好第一层,然后固定第一层,将第一层的输出作为第二层的输入,训练第二层。然后固定第一和第二层,将第二层的输出作为第三层的输入,训练第三层……一直往下,知道需要的层数。然后再在网络最顶,加一个分类层,训练的时候,全部层一起训练(微调)。

2. RNN

RNN, Recurrent Neural Network, 循环神经网络.
有些任务对输入信息的时序很敏感. 对读句子而言, 对当前词汇的理解并不是孤立的, 而是基于前文的, 所以神经元需要”记忆” 的功能.

图片名称
图 2-1 循环神经网络

可以将循环神经网络展开为普通神经网络来理解: 将其展开为多个同样网络的副本, 每个网络将信息传递给继任者.

图片名称
图2-2 循环神经网络展开

2.1 用途

用途有: 语音识别, 手写体识别, 翻译, 图像标注(image caption). 因为这些任务对输入信息的时序很敏感.

3.LSTM

参考博客: LSTM 简介.

LSTM,Long-Short Term Memory,长短期记忆(模型)。
根据深度学习三大牛的阐述,LSTM网络已被证明比传统的RNNs更加有效。
原生的RNN会遇到一个很大的问题,叫做 The vanishing gradient problem for RNNs,也就是后面时间的节点对于前面时间的节点感知力下降,也就是忘事儿。解决这个问题用到的就叫LSTM。
一个Cell由三个Gate(input、forget、output)和一个cell单元组成。

4.CNN

cnn,Convolutional Neural Network,卷积神经网络。
下层神经元和所有上层神经元都能够形成连接,带来的潜在问题是参数数量的膨胀。
对于CNN来说,并不是所有上下层神经元都能直接相连,而是通过“卷积核”作为中介。同一个卷积核在所有图像内是共享的,图像通过卷积操作后仍然保留原先的位置关系。
适用场景:计算机视觉问题。

5. dropout

drop-out 操作用在网络中, 起到 regularization , 防止过拟合的作用. 论文见 [1].

参考

  1. RECURRENT NEURAL NETWORK
    REGULARIZATION
原创粉丝点击