Deep Learning学习

来源:互联网 发布:软件设计方案模板 编辑:程序博客网 时间:2024/05/20 03:39

我们知道在信号处理中,无论是图像还是语音,基本的处理流程是(以图像为例):

(1)   对原始输入进行预处理,如resize图像大小,去除噪音,背景差分等;

(2)   在预处理过程输出的数据上提取特征,进行features extraction及feature selection的操作,比如进行HOG计算,之后进行特征降维等;

(3)   在获得的features vectors(instances)之上,使用各种model进行学习,训练,最终完成具体任务,如Classification,Recognition等


这里面通常把通常把(1)和(2)统称起来叫做Feature Learning。需要说明一下,在上图中,把(2)过程分成两个Feature Extraction和Feature Learning两个部分。很多文献中,把关于feature的linear transformation称为Feature Extraction,关于non-linear transformation称为Feature Selection。为了便于区分,这里将计算、提取特征称为Feature Extraction,将对特征(feature)的linear 和non-linear transformation 统称为Feature Selection。

从上面的这个流程图中,我们可以看出,后面的操作是建立在前面输出结果的基础之上的。这样越靠近前部的处理就愈加重要,不考虑“预处理”部分,Feature Extraction是其中最为重要的部分。有很多文献中都提及到,Feature Extraction决定了要解决问题的能力上限,而在其后流程中的模型\方法等只是为了更好的或更有效的接近这个上限。

我们知道,虽然研究设计features的工作很多,但是特别有效的feature还是很少,在眼前张口就来的可能就SIFT,HOG这么几种。这里要说明的是,我们不是否定关于设计feature的工作,而是说这部分工作是很难的,特别是具体到一个特殊领域工作中,这些Features是否依然适合解决我们的问题都是未知。并且在实际工作,这部分工作需要更多的人工操作参入其中,由于人的因素这一方面增加了feature的不确定性,另一方面使得工程投入十分昂贵。

众多牛人其实很早以前就意识到这个问题了,也进行了很多尝试,比如类似Metric Learning,Kernel Learning等,这些linear或是non-linear的transformation都希望可以获取更有效的feature representation。然而,就像我们前面谈论到的,这些方法还是已有的features基础之上的。根据features决定上限的理论,这个东西还不是我们最想要的东西。于是牛人也继续发展这个问题,既然这个问题还是不行,大家干脆直接从原始底层数据上学习feature吧(features learning/representation learning),于是乎传说中的Deep Learning在这种需求背景下横空出世了。

深度学习(Deep Learning)的概念大概是2006年左右由Geoffrey Hinton等人提出来的,主要通过神经网络(Neural Network, NN)来模拟人的大脑的学习过程,希望通过模仿人的大脑的多层抽象机制来实现对数据(画像、语音及文本等)的抽象表达,将features learning和classifier整合到了一个学习框架中,减少了人工/人为在设计features中的工作。“深度学习”里面的深度(Deep)指的就是神经网络多层结构。深度学习的基本思想就是,在一个n层的NN中,对每一层的输出(Output)与这一层的输入(Input)“相等”。这个地方“相等”有两个含义在里面:第一个是说Output和Input不是在绝对形式上的相等,而是在抽象意义上的相等,关于“相等”的另外一点指的是限制的约束的程度,比如说是不会造成歧义的完全“相等”还是有适当宽松条件的“相等”。 其实上面的最后一点中的这两个思想,也是对应了Deep Learning中两种方法:AutoEncoder和Sparse Coding,除去这两者外,还有一个很常用的方法就是Restrict Boltzmann Machine (RBM)。

下面的学习计算从两方面走,一个是从理论上仔细学习一下相关方法,多读一些文献,看看其他人是都是从哪些方面入手的,这个还要看一些文章再做决定,这个主要是从[1]中给出的reading list入手了,主要集中在关于Computer Vision的部分。

另一个是从应用上走,主要是研究一些Deep Learning工具的使用(主要是Theano),实现一些示例。在这个过程中有不理解的地方在做适当的调整、学习。主要是按照[9]中给出的路线走:先了解一下Theano basic tutorial,然后按照[1]中的Getting StartedGuide学习。

之后呢尝试几个算法,关于Supervise Learning的

(1) Logistic Regression  - using Theano for something simple

(2)Multilayer perceptron - introduction to layers

(3) Deep Convolutional Network  - a simplified version of LeNet5

Unsupervise Learning的

(1)   Auto Encoders, Denoising Autoencoders - description of autoencoders

(2)Stacked Denoising Auto-Encoders - easy steps into unsupervised pre-training for deep nets

(3) Restricted Boltzmann Machines - single layer generative RBM model

(4) Deep Belief Networks - unsupervised generative pre-training of stacked RBMs followed by supervised fine-tuning

  

下面给出一些参考文献:

[1] Website: http://deeplearning.net/

[2] Introduction to Deep Learning: http://en.wikipedia.org/wiki/Deep_learning

[3] Bengio’s Survey: http://www.iro.umontreal.ca/~bengioy/papers/ftml_book.pdf

[4] Standord Deep Learning tutorial: http://ufldl.stanford.edu/wiki/index.php/UFLDL_Tutorial

[5] cvpr 2012 tutorial:http://cs.nyu.edu/~fergus/tutorials/deep_learning_cvpr12/tutorial_p2_nnets_ranzato_short.pdf, from LR, NN, CNN to Sparse Encoder

[6] 李航博士: http://blog.sina.com.cn/s/blog_7ad48fee0100vz2f.html

[7] 八卦: http://www.cnblogs.com/nicejs/archive/2012/12/07/2807766.html

[8] 邓亚峰: http://blog.sina.com.cn/s/blog_6ae183910101dw2z.html

[9] elevencity : http://elevencitys.com/?p=1854

[10] 邓侃:http://blog.sina.com.cn/s/blog_46d0a3930101fswl.html

转自:http://www.cnblogs.com/JackOne/archive/2013/02/19/DeepLearning-FirstBoold.html

0 0