《神经网络与深度学习》读书笔记（不完全）

来源：互联网发布：绝艺围棋软件编辑：程序博客网时间：2024/06/05 23:49

（个人感觉书写得比较混乱，没看完就不想看了，个人不推荐看这本书）

神经网络与深度学习读书笔记

《神经网络与深度学习》中国工信出版集团电子工业出版社

作者：吴岸城

0.写在前面：神经网络的历史

Turing 《Can Machines think?》（《机器能思考吗？》）第一次提出机器思维的概念。

1 神经网络是个什么东西

迁移学习

神经网络：是机器学习的一个分支，学名人工神经网络，与之相对的是生物神经网络（Biological Neural Networks，BNN）。

人工神经网络模型：简称人工神经网络或神经网络，是模拟生物神经网络的数学模型。

2 构造神经网络

s=p₁w₁+p₂w₂+p₃w₃+……+p_nw_n

传递函数列表：书P28

3 深度学习是个什么东西

机器学习

机器学习是人工智能的一个分支，是一个非常大的范围。

什么是机器学习？以下是两种解释：

一机器学习算法是一类从数据中自动分析获得规律，并利用规律对未知数据进行预测的算法。

二机器学习就是通过算法，使得机器能从大量历史数据中学习规律，从而对新的样本做智能识别或对未来做预测。

人工神经网络和深度学习都属于机器学习的一种。

监督学习（Supervised Learning）

监督学习是机器学习中的一种典型的学习方法。

监督式学习中，所有输入数据称为“训练数据”，每组数据由正确的训练集和错误的训练集两部分构成，这两部分训练集最好在数量上相等，并且样本数量足够全，能覆盖到最多的情况。

接下来，训练这些数据并识别或预测结果，与实际的人为标定过的“训练数据”做比较，不断地调整模型，直到模型的预测结果达到一个预测的准确率。

非监督学习（Unsupervised Learning）

没有人为标定好的数据，没有人告诉模型哪些数据是正确的，哪些是不正确的。在非监督式学习中，学习模型是为了推断出数据的一些内在结构，很常见的应用场景包括关联规则的学习及聚类等。

非监督学习中常见算法包括Apriori算法和K-Means算法。

强化学习（Reinforcement Learning,RL）

强化学习实际上是一个连续决策的过程。

传统的机器学习中，有的监督学习是给定一些标注数据，学习一个好的函数，对未知数据做出很好的决策。但有时候不知道标注是什么，也是一开始不知道什么是“好”的结果，所以强化学习不是给定标注，而是给一个回报函数，这个回报函数决定当前状态得到什么样的结果（“好”还是“坏”），其数学本质是一个马尔科夫决策过程。最终目的是决策过程中整体地回报函数期望最优。

这个过程类似于监督学习，只是标注数据不是预先准备好的，而是通过一个过程来回地调整并给出所谓的“标注数据”。这个过程就是强化学习。

深度神经网络

深度神经网络是一种具备至少一个隐层的神经网络。与浅层神经网络类似，深度神经网络也能为也能为复杂非线性系统提供建模，但多出的层次为模型提供了更高的抽象层次，因而提高了模型的能力。

深度神经网络通常都是前馈神经网络，但也有语言建模等方面的研究将其拓展到循环（递归）神经网络。

卷积深度神经网络（Convolutional Neuron Networks,CNN）在计算机视觉领域得到了成功的应用。此后，卷积神经网络也作为听觉模型被使用在自动语音识别领域。

上述三段可理解为：

1.深度神经网络通常是前馈型神经网络，前馈型神经网络是神经网络的一种构型，特征是至少有一个隐层。

2.多层前馈型神经网络都是深度神经网络，但深度神经网络不都是前馈性神经网络。

因为深度神经网络还包含了递归神经网络和卷积神经网络。

深度学习人工神经网络

深度学习别名Unsupervised Feature Learning，Unsupervised的意思是非监督式。

深度学习是神经网络的一个大分支，深度学习的基本结构是深度神经网络。

深度学习包含监督学习，非监督学习等，但监督学习、非监督谢谢是指机器学习的学习方式，这个概念广泛存在于机器学习中，而不只是深度学习里有这两个概念。

自动地学习特征的方法，统称为深度学习。

深度学习首先利用无监督学习对每一层进行逐层预训练（Layerwise Pre-Training）去学习特征，每次单独训练一层，并将结果作为更高一层的输入；然后到最上层改用监督学习从上到下进行微调（Fine-Tune）去学习模型。

人的视觉系统的信息处理是分级的

1981年诺贝尔生理学或医学奖 David Huble、Torsten Wiesel、Roger Sperry。前两位发现了人的视觉系统的信息处理是分级的。

从视网膜（Retina）出发，经过低级的V1区提取边缘特征，到V2区的基本形状或目标的局部，再到高层的整个目标（如判断为一张人脸），以及到更高层的RFC（前额叶皮层）进行分类判断等。

高层的特征是低层特征的组合，从低层到高层的特征表达越来越抽象化和概念化，即越来越能表现出语义或者意图。

特征

特征是机器学习的原料。在什么层面上抽取特征和特征精度决定了识别度。

特征粒度

算法在什么粒度上表示特征才能发挥作用？以一张摩托车图片为例，我们将特征提取得非常细，细到每一个像素，那么毫无意义。而如果特征是一个结构性的特征，比如是否具有车轮、把手？这样才能容易区分摩托车与非摩托车，学习算法才能发挥作用。

提取浅层特征

书P77

任何事物都可以划分成粒度合适的浅层特征，而这个浅层特征一般就是我们的第二层输入。

结构性特征

比浅层特征高一层的特征

浅层模型

含有一个隐层的称为多层感知机，也叫神经网络，这种模型叫做浅层模型。

在这种模型中，人们可以用强于人工规则的统计学方法，利用这种浅层模型实现较复杂的训练，甚至能实现对未知事件的预测，实现基本的分类。

20世纪90年代被提出的浅层机器学习模型：支持向量机(Support Vector Machines,SVM)、Boosting、最大熵方法（如Logistic Regression,LR）。这些模型都是只有一层或连一层隐层都没有的。提出后，它们很快被应用于数据分析挖掘领域中，在数据分析的各个行业中都有应用。

深度信念网络（Deep Belief Network,DBN）

2006年，Hinton，代表性论文：

·Hinton,G.E., Osindero, S. and Teh, Y., A fast learning algorithm for deep belief nets.Neural Computation.18:1527-1554,2006.

·Yoshua Bengio, Pascal Lamblin, Dan Popovivi and Hugo Larochelle, Greedy Layer-Wise Training of Deep Networks, in J.Platt et al.(Eds),Advances in Neural Information Processing Systems 19 (NIPS 2006),pp.153-160,MIT Press,2007.

· Marc’Aurelio Ranzato,Christopher Poultney,Sumit Chopra and Yann LeCun.Efficient Learning of Sparse Representations with an Energy-Based Model,in J.Platt et al.(Eds),Advances in Neural Information Processing System (NIPS 2006),MIT Press,2007.

注意这些论文中提出了以下几个非常关键的原则：

（1）非监督学习被用来（预）训练各个层。

（2）非监督学习在之前学习到的层次之上，一次只学习一个层次，每个层次学习到的结果将作为下一个层次的输入。

（3）除了一些专门用于预测的层次外，用监督学习来调整层与层之间的权重。

深度学习网络与传统神经网络

相似点：都有相似的分层结构，包括输入层、隐层、输出层的多层网络，其中只有相邻层之间有连接，同一层及跨层之间没有连接。

不同点：传统神经网络只有两至三层，参数和计算单元有限。深度神经网络具有五至十层，甚至更多，并且引入了更有限的算法。

PB算法

全称Back Propagation，也称Error Back Propagation，误差反向传播

在多层感知机中，多层感知机如何获取隐层权值？在单个神经元计算中，讲到了用实际输出结果和期望输出结果误差来调整单个神经元的权值。

BP算法的基本想法：由信号正向传播和误差反向传播。

（1）信号正向传播：正向传播时，输入样本从输入层传入，经各隐层逐层处理后，传向输出层。若输出层的实际输出与期望的输出（教师信号）不符，则转入误差的反向传播阶段。