DeepLearning(花书)第三章主要内容(8-14节)

来源：互联网发布：武汉大学网络教育试题编辑：程序博客网时间：2024/06/09 19:21

3.8期望，方差和协方差
函数f(x)关于某分布P(x)的期望(expectation)或者期望值(expected value)是指，当x由P产生时，f作用于x的平均值。对于离散型随机变量，可以通过求和得到:
这里写图片描述
对于连续性随机变量可以通过积分得到:

方差（variance）衡量的是我当我们对x依据它的概率分布进行采样时，随机变量x的函数值会呈现多大的差异:

当方差很小时，f(x)的值形成的簇比较接近他们的期望值。方差的平方根被称为标准差(standard deviation)。
协方差(covariance)在某种意义上给出了两个变量线性相关性的强度以及这些变量的尺度:
这里写图片描述
协方差的绝对值如果很大则意味着变量值变化很大，并且他们同时距离各自的均值很远。如果协方差是正的，那么两个向量都倾向于同时取得相对较大的值。
如果协方差是负的，那么其中一个变量倾向于取得相对较大的值的同时，另一个变量倾向于取得相对较小的值，反之亦然。其他的衡量指标如相关系数(correlation) 将每个变量的贡献归一化，为了只衡量变量的相关性，而不受变量大小的分别影响。
协方差和相关性是有联系的，但实际上不同的概念。
如果两个边相互独立，那么他们的协方差为0，如果两个协方差补位0，那么他们一定是相关的。
然而独立性和协方差又是完全不同的性质。
两个变量如果协方差为0，他们之间一定没有线性关系。
独立性是大于零协方差的更强的要求，因为独立性还排除了非线性关系。
两个变量相互依赖但是具有零协方差是可能的。
随即向量x∈Rn的协方差矩阵(covariance matrix)是一个n x n的矩阵，并且满足:
这里写图片描述
协方差矩阵的对角元是方差:

3.9常用概率分布
3.9.1Bernoulli分布
Bernoulli分布(Bernoulli distribution)是单个二值型随机变量的分布。它由单个参数Φ∈[0,1]控制，Φ给出随机变量等于1的概率。它具有如下性质:
这里写图片描述
3.9.2multinoulli分布
multinoulli分布（multinoulli distribution）或者分类分布(categorical distribution)是指在具有k个不同状态的单个离散型随机变量上的分布，k是有限的。
Multinoulli分布的参数是向量p∈[0,1]k-1,每一个分量pi表示低i状态的概率。最后的第k个状态的概率通过1-1Tp给出。注意到我们必须限制1Tp<=1.multinoulli分布经常用来表示对象分类的分布，所以我们很少假设状态1具有数值1之类的。因此我们通常不需要计算其期望和方差。
Bernoulli分布和multinoulli分布足够用来描述在他们领域内的任意分布。

3.9.3高斯分布
对于实数上的分布最常用的就是正态分布(normal distribution)，也成为高斯分布(gaussian distribution)：
这里写图片描述
如下图:

正态分布被两个参数控制，u∈R和σ∈(0,∞)。参数u给出了中心峰值的坐标，这也是分布的均值:E[x]=u.分布的标准差用表示，方差用σ2表示。
当我们要对概率密度函数求值时，我们需要对σ平方并且取倒数。当我们需要经常对不同参数下的概率密度函数求值时，一种更高效的使用参数描述分布的方式是使用参数 β ∈ (0, ∞)，来控制分布的精度(precision) 或者方差的倒数：
这里写图片描述

当我们缺乏对某个实数上分布的先验知识而不知道该选择怎样的形式时正态分布是一个非常好的选择：
1.我们想要建模的很多分布真实情况是比较接近正太分布的。中心极限定理(central limit theorem)说明很多独立随机变量的和近似服从正太分布。
2.在具有相同方差的所有可能的概率分布中，正态分布在实数上具有最大的不确定性，我们因此可以认为正态分布是对模型加入的先验知识量最少的分布。
正态分布可以推广到Rn空间，这种情况被称为多维正态分布(multivariate normal distribution)。它的参数是对一个正定对称矩阵Σ:
这里写图片描述
参数u仍然表示分布的均值，只不过限制是向量值的。参数Σ给出了分布的协方差矩阵。和单变量情况类似，当我们希望对很多不同参数下的概率密度函数多次求值时，协方差矩阵并不是一个很高效的用参数描述分布的方法，因为对概率密度函数求值时需要对 Σ 求逆。我们可以用一个精度矩阵(precision matrix) β 进行替代：
这里写图片描述
我们常常把协方差矩阵固定成一个对角阵。一个更简单的版本是各向同性（isotropic）高斯分布，它的协方差矩阵是一个标量乘以单位阵。
3.9.4指数分布和Laplace分布
在深度学习中，我们经常需要一个在x=0点处取得边界点(sharp point)的分布。为了实现这个目的，我们可以使用指数分布(exponential distribution)：
这里写图片描述
指数分布使用指示函数(indicator function)1x>=0来使得当x取得负数时概率为0.
一种非常相关的概率分布式Laplace分布(Laplace distribution)，他允许我们在任意一点u出设置概率分布的峰值

3.9.5Dirac分布和经验分布
在一些情况下，我们想要所有的概率集中在一个点上，这可以通过Dirac delta 函数(Dirac delta function)δ(x) 定义概率密度函数来实现：
这里写图片描述
Dirac delta 函数被定义成除了 0 以外的其他点的值都为 0，但是积分为 1。
Dirac delta 函数不像普通函数一样对 x 的每一个值都有一个实数值的输出，它是一种不同类型的数学对象，被称为广义函数(generalized function)，广义函数是依据积分性质定义的数学对象。我们可以把Dirac delta 函数想成一系列函数的极限点，这一系列函数把除 µ 以外的所有点的概率密度越变越小。
通常吧p(x)定义成δ函数左移-u个单位，我们得到了一个在x=u处具有无限窄也无限高的峰值的概率密度函数。
Dirac分布经常作为经验分布（empirical distribution）的一个组成部分出现:
这里写图片描述
经验分布将概率密度1/m赋给m个点x1,x2…xm中的每一个，这些点是给定的数据集或者采样的集合。Dirac delta 函数支队定义连续性随机变量的经验分布式必要的。对于离散型随机变量，情况更加简单:经验分布可以被定义成一个multinoulli分布，对于每一个可能的输入，其概率可以简单地设为在训练集上那个输入值的经验频率(empirical frequency)。

3.9.6分布的混合
通过组合一些简单的概率分布来定义新的概率分布也是很常见的。一种通用的组合方法是构造混合分布(mixture distribution)。混合分布由一些组件分布构成。每次实验，样本是由那个组件分布产生的取决于从一个multinoulli分布中采样的结果:
这里写图片描述
这里的P(c)是对各组件的一个multinoulli 分布。

一个非常强大且常见的混合模型时高斯混合模型(Gaussian Mixture Models)。它的组件p(x|c=i)是高斯分布，每个组件都有各自的参数，均值ui和协方差矩阵Σi。
除了均值和协方差意外，高斯混合模型的参数指明了给每个组件i的先验概率 αi=P(c=i)。“先验”这个词表明在观测到x之前传递给模型关于c的信念。作为对比，P(c|x)是后验概率，因为它实在观测到x之后进行计算的。高斯混合模型是概率密度的万能逼近器(universal approximator),在某种意义上，任何平滑的概率密度都可以用具有足够多组件的高斯混合模型以任意精度来逼近。
这里写图片描述

3.10常用函数的一些性质

Logistic sigmoid函数:
这里写图片描述
Logistic sigmoid函数通常用来产生Bernoulli分布中的参数Φ，因为它的范围是(0,1)，处在Φ的有效取值范围内。其函数如下图示:

另外一个经常遇到的函数是softplus函数(softplus function)。

Softplus可以用来产生正态分布的β和σ参数，因为它的范围是(0,∞)。当处理包含sigmoid函数的表达式时他经常出现。Softplus函数名来源于它是另一个函数的平滑函数，这个函数是:
这里写图片描述
Softplus函数图示:

函数的一些有用性质:

函数σ-1（x）在统计学中被称为分对数(logit)，但这个函数在机器学习中很少用。
Softplus被设计成正部函数(positive part function)的平滑版本，这个正部函数是指x+=max{0,x}，与正部函数相对的是负部函数x-=max{0,x}。为了获得类似负部函数的一个平滑函数，我们可以使用softplus(-x)。

3.11**贝叶斯规则**
我们经常需要在已知P(y|x)时计算P(x|y)。幸运的是，如果还知道P(x),我们可以使用贝叶斯规则(Bayes’ rule)来实现这一目的:
这里写图片描述
注意到P(y)出现在上面的公式中，他经常使用

来计算，所以我们并不需要事先知道P(y)的信息。
贝叶斯规则可以从全概率公式直接推出。

公式描述:公式表示若事件A1，A2，…，An构成一个完备事件组且都有正概率，则对任意一个事件B都有公式成立。

3.12连续型变量的技术细节
连续型随机变量和概率密度函数的深入理解需要用到数学分支测度论(measure theor) 的相关内容来扩展概率论。测度论超出了花书的范畴，简要概括一下。
对于我们的目的，测度论更多的是用来描述那些适用于Rn上的大多数店的定理的，而不是只适用于一些小的情况。测度论提供了一种严格的方式来描述那些非常微小的点集。这种集合被称为“零测度(measure zero)”。直观地理解这个概念是有用的，我们可以认为零测度集在我们的度量空间中不占有任何的体积。
另一个有用的测度论术语是“几乎处处（almost everywhere）”。即除了零测度的集合以外都是成立的，如果某个性质符合“几乎处处”，我们可以放心的忽略那些零测度集合。概率论中的一些重要结果对于离散值成立但是对于连续值只能是“几乎处处”成立。
连续性随机变量的另一技术细节:
加入我们有两个随机变量x和y满足y=g(x)，g是可逆的，连续可微的函数。可能有人会想 py(y)=px(g-1(y)),但实际上是不对的。

3.13信息论
信息论是应用数学的一个分支，主要研究的是对一个信号能够提供信息的多少进行量化。
信息论的基本思想是一个不太可能的时间居然发生了，要比一个非常可能的时间发生，能提供更多的信息。
比如:
今早上太阳升起。信息少
今早上有日食。信息多
我们想要通过这种基本想法来量化信息，特别地，
1.非常可能发生的时间的信息量比较少，而且极端情况下，确保能够发生的时间应该没有信息量。
2.更不可能发生的时间要具有更高的信息量。
3.独立事件应具有增量的信息。例如:投掷硬币两侧正面朝上传递的信息量，要是投掷一次硬币正面朝上的信息量的两倍。
为了满足这三个性质，我们定义一个时间x=x1的自信息(self-informaton)为:
这里写图片描述
注:log表示自然对数，底数为e。
我们定义I(x)的单位是奈特(nats)。一奈特是以1/e的概率观测到一个时间时获取得到的信息量。其他材料中使用底数为2的对数，单位是比特(bits)或者香农(shannons)。通过比特度量的信息只是通过奈特度量信息的常数倍。

当x是连续的，我们使用类似的关于信息的定义，但有些来源自离散型是的性质就丢失了。例如:一个具有单位密度的时间信息量为0，但是不能确保其一定发生。
自信息只处理单个的输入。我们可以用香农熵(Shannon entropy)来对整个概率分布中的不确定性总量进行量化。
这里写图片描述
换言之，一个分布的香农熵是遵循这个分布的时间所产生的期望信息总量。他给出了对依据概率分布P生成的符号，进行编码所需的比特数的平均意义上的下界(如果对数的底数是2的话，否则单位有所不同)。如下图所示，当x是连续的，香农熵被称为微分熵(differential entropy).
这里写图片描述

如果我们对于同一个随机变量x有两个单独的概率分布P(x)和Q(x)，我们可以使用KL散度(Kullback-Leibler(KL)divergence)来衡量这两个分布的差异:
这里写图片描述
在离散型变量的情况下，KL散度衡量的是，当我们使用一种被设计成能够使得概率分布Q产生的消息长度最小的编码时，发生包含由概率分布P善生的符号的消息时，所需要的额外信息量。
KL散度有很多有用的性质,最重要的是他是非负的。KL散度为0当且仅当P和Q在离散型变量的情况下是相同的分布，或者在连续型变量的情况下是“几乎处处”相同的。
因为KL散度是非负的并且衡量的是两个分布之间的差异，他经常被用作分布间的某种距离。然而，他并不是真的距离，因为他不是对称的:对于某些P和Q，DKL（P||Q）≠DKL（Q||P）。这宗非对称性意味着选择DKL(P||Q)还是DKL（Q||P）影响很大，如下图:
这里写图片描述
一种和KL散度密切联系的量是交叉熵(cross-entropy)H(P,Q)=H(P)+DKL(P||Q)，它和KL散度很像但是缺少左边一项:

针对Q最小化互信息分家与最小化KL散度，因为Q并不参与被省略的哪一项。

3.14结构化概率模型

代替使用单一的函数来表示概率分布，我们可以把概率分布分割成许多因子的乘积形式。
例如:假设我们有三个随机变量a,b和c，并且a影响b的取值，b影响c的取值，但是a和c在给定b时是条件独立的，我们可以吧全部的三个变量的概率分布重新表示为两个变量的概率分布的连乘形式:
P(a,b,c)=p(a)p(b|a)p(c|b)
我们可以用图来描述这种因子分解。这里我们使用的是图论中的“图”的概念:由一些可以通过边互相连接的顶点的集合构成。当我们用图来表示这种概率分布的因子分解，我们把它成为结构化概率模型(structured probabilistic model)或者图模型(graphical model)。
有两种主要的结构化概率模型:有向图和无向图。这两种图模型使用图G，其中图的每个节点对应着一个随机变量，连续两个随机变量的边意味着概率分布可以表示成这两个随机变量之间的直接作用。
有向(directed)模型使用带有有向边的图，他们用条件概率分布来表示因子分解，就像上面的例子。特别地，有向模型对于分布中的每一个随机变量xi 都包含着一个影响因子，这个组成 xi条件概率的影响因子被称为 xi 的双亲，记为 PaG(xi)：
这里写图片描述

无向(undirected)模型使用带有无向边的图，他们将因子分解表示为一对函数；不像有想模型那样，这些函数通常不是任何类型的概率分布。G 中任何全部相连的节点构成的集合被称为团。无向模型中的每个团 C (i) 都伴随着一个因子 ϕ (i) (C (i) )。这些因子仅仅是函数，并不是概率分布。每个因子的输出都必须是非负的，但是并没有像概率分布中那样要求因子的和或者积分为 1。
随机变量的联合概率和所有这些因子的乘积成比例(proportional)——这意味着因子的值越大则可能性越大。方然，不能宝成这种乘积的求和是1.所以我们需要初一一个归一化常数Z来使得归一化的概率分布，归一化常数Z被定义为Φ函数乘积的所有状态的求和或积分。概率分布为:
这里写图片描述
如下图给出了一个无向图表示概率分布的因子分解的例子:

阅读全文

0 0