深度学习日记 2

来源：互联网发布：网络喷子被打编辑：程序博客网时间：2024/06/06 02:16

深度学习日记 2 - 概率论与信息论基础：

1、随机变量（random variable）：是可以随机地取不同值的变量。我们通常用打印机
体的小写字母来表示随机变量本身,而用脚本字体中的小写字母来表示随机变量能
够取到的值。就其本身而言，一个随机变量只是对可能的
状态的描述；它必须伴随着一个概率分布来指定每个状态的可能性。

2、概率分布(probability distribution) 用来描述随机变量或一簇随机变量在每一个
可能取到的状态的可能性大小，我们描述概率分布的方式取决于随机变量是离散的
还是连续的。
PMF：离散型变量的概率分布可以用概率分布律函数(probability mass function,
PMF)1来描述。我们通常用大写字母P 来表示概率分布律函数

联合概率分布（joint probability distribution）P(x=x,y=y)

PDF：连续型随机变量：我们用概率密度函数(probability
density function, PDF) 而不是概率分布律函数来描述它的概率分布

边缘概率：即已知随机变量的联合分布概率，求其单一变量的概率分布

条件概率：即对于联合分布的两个随机变量间，求其中一个变量处于某一条件下，另一随机变量取某值的概率，大概为P(X=x|Y=y)=P(X=x,Y=y)/P(Y=y)
这里需要注意的是，不要把条件概率和计算当采用某个动作后会发生什么相混淆。假定某个人说德语，那么他可能是德国人的条件概率是非常高的，但是如果是
随机选择的一个人会说德语，他的国籍是不变的。计算一个行动的后果被称为干预查询(intervention query)。干预查询属于因果模型(causal modeling) 的范畴，我们不在本书中讨论。
条件概率的链式法则:任何多维随机变量的联合概率分布，都可以分解成只有一个变量的条件概率相乘的形式：
P(x|y)P(y)=P(x,y) => P(x|y,z)P(y,z)=P(x,y,z) => P(x,y,z)=P(x|y,z)P(y|z)P(z) => P(x1....xn)=P(x1)*P(xn|x1....xn-1)....P(x2|x1)

独立性与条件独立性：
独立性：即在任何条件下X，Y相互独立，即任何时候P(x,y)=P(x)P(y)
条件独立性：即在给定条件z下，x，y才相互独立，所以有：P(x,y|z)=P(x|z)P(y|z)

期望、方差、协方差：
期望：函数f(x)关于某分布P(x)的期望(expectation)或者期望值(expected value)是指，当x 由P 产生时，f(x)作用于x 的平均值
期望是线性的，也就是说：E(aX+bY)=aE(X)+bE(Y);
方差：D(X)=E((X-E(X))^2):也就是，偏离均值（期望）的函数的期望值
协方差：给出了两个变量线性相关性的强度（X，Y）以及这些变量的尺度C(X,Y)=E((X-E(X))(Y-E(Y)))
相关性：相关系数(correlation) 将每个变量的贡献归一化，为了只衡量变量的相关性，而不受变量大小的分别影响。协方差和相关性是有联系的，但实际上不同的概念。它们是有联系的，因为两个变量如果相互独立那么它们的协方差为零，如果两个变量的协方差不为零那么它们一定是相关的。然而，独立性又是和协方差完全不同的性质。两个变量如果协方差为零，它们之间一定没有线性关系。独立性是大于零协方差的更强的要求，因为独立性还排除了非线性的关系
协方差矩阵：是一个NxN的矩阵，并且满足CX(i,j)=C(xi,xj);所以有CX(i,i)=D(Xi):如何求协方差矩阵：http://blog.csdn.net/kuang_liu/article/details/16369475

常用分布：Bernoulli分布：单个二值型随机变量的分布：即x=0/1,P(x=1)=fai,P(x=0)=1-fai
Multinoulli分布：
分类分布：是指在具有k 个不同状态的单个离散型随机变量上的分布，k 是有限的：Let X be a Kx1 discrete random vector. Let the support of X be the set of Kx1 vectors having one entry equal to 1 and all other entries equal to 0:即随机变量x是k维的取值（k有限），其中一个条目（Xi）=1，然后其他所有条目(X(index!=i))=0
详细解释见：https://www.statlect.com/probability-distributions/multinoulli-distribution
高斯分布：
即正态分布：有均值mu,方差sigma来控制当我们需要经常对不同参数下的概率密度函数求值时，一种更高效的使用参数描述分布的方式是使用参数beta=1/sigma^2，来控制分布的精度(precision) 或者方差的倒数
多维正态分布：
mu仍然表示分布的均值，只不过现在是向量值的。sigma给出了分布的协方差矩阵。和单变量的情况类似，当我们希望对很多不同参数下的概率密度函数多次求值时，sigma协方差矩阵并不是一个很高效的用参数描述分布的方法，因为对概率密度求值时需要对sigma求逆，所以我们可以同上用精度矩阵beta=inv(sigma)代替sigma
指数分布和laplace分布：
指数分布：f(x)=lamda*exp(-lamda*x);(x>0),而f(x)=0当x<=0;lamda常被称为率参数(rateparameter).即每单位时间内发生某事件的次数。
所以有E(X)=lamda;D(X)=lamda^2
如果对指数分布概率函数的lamda取倒：gama=1/lamda,所以有f(x)=(1/gama)*exp(-x/gama):
laplace分布：即允许我们在任一点mu处设置概率分布的峰值指数分布：分布函数为：
Laplace(x;mu,gama)=(1/2*game)*exp(-|x-mu|/game);是不是和上面的指数分布函数很像啊
Dirac delta分布：
狄拉克delta函数是一个广义函数，在物理学中常用其表示质点、点电荷等理想模型的密度分布，该函数在除了零(a)以外的点取值都等于
零，而其在整个定义域上的积分等于1(在离散型随机变量里等同multinoulli分布)：
delta(x-a)=0(x!=a),且对delta函数定义域上积分结果为1
详情：http://baike.baidu.com/link?url=uEseBssZ_EeANDlkIhi4daz2PLjGR5y_BOcahynpCuWs9_N8jZgN1-RHfkmrDqkFffbJankL78vybwvl9yy4hJ07w5pp3tFj5O6xeenOVD7OWTsOfgG18gSKr7Zj7VCBXLsEAqJc1WyhdhiErbG8Yq
混合分布模型：通用模型是：P(x)=sum(P(c)P(x|c));其中P(x|c)即为各个混合模型组件，而c称为隐变量，而P(c)即为每个组件的参数
1、多种模型，通过和multinoulli分布进行混合来得到特定条件下的不同分布，即P(c)是multinoulli分布
2、高斯混合模型：即多个高斯分布混合，可以逼近任意概率密度函数（即可以模拟任何分布）,即组件P(x|c)均为高斯分布
而参数alpha=P(c)称为每个组件的先验概率（P(c|x)是后验概率）

常用函数的一些性质：
logistic sigmoid函数：sigma(x)=1/(1+exp(-x));
softplus函数：f(x)=log(1+exp(x)) 或者 x=max(0,x);

贝叶斯规则：P(x|y)=P(y|x)*P(x)/P(y);P(y)=sum(P(y|x)P(x));

连续型变量的技术细节:。。。没看懂。。。

信息论：
信息论是应用数学的一个分支，主要研究的是对一个信号能够提供信息的多少进行量化
信息论的基本想法是一个不太可能的事件居然发生了，要比一个非常可能的事件发生，能提供更多的信息。消息说：‘‘今天早上太阳升起’’ 信息量是如此之少以至于没有必要发送，但一条消息说：‘‘今天早上有日食’’ 信息量就很丰富。
? 非常可能发生的事件信息量比较少，并且极端情况下，确保能够发生的事件应该没有信息量。
? 更不可能发生的事件要具有更高的信息量。
? 独立事件应具有增量的信息。例如，投掷的硬币两次正面朝上传递的信息量，应该是投掷一次硬币正面朝上的信息量的两倍。
定义X=x的自信息为I(x)=-log(P(x));P(x)为X=x发生的概率，log以e为底数，定义I(x)的单位是奈特(nats)，所以1nats即为以1/e的概率观测到一个事件时
获得的信息量。当然也有用2作为底数的，此时单位为bit或者香农(shannons).(由此公式可以看出，概率越小，信息量越大，概率为1是信息量=0)
香农熵：因为自信息是为某一具体变量取值的表现，而我们需要对整个X分布做描述，于是：
香农熵是对整个概率分布中的不确定性总量进行量化：H(P)=H(X)=E(I(X))= -E(log(P(X)));注意此处的负号提出来了
可以看出，一个分布的香农熵是指遵循这个分布的事件所产生的期望信息总量。当x是连续的时候，香农熵也称为微分熵
KL散度：如果X具有两个分布P(x)和Q(x)，我们可以用KL散度来衡量这两个分布的差异:Dkl(P||Q)=E(log(P(X)/Q(X)))
是不是在sparse编码的时候见过KL函数？对，在函数拟合的时候
交叉熵：H(P,Q)=H(P)+Dkl(P||Q); 0log(0)=0
结构化概率模型：
使用图模型G，图中每个节点表示一个随机变量，连接两个节点的边意味着概率分布可以表示成这两个随机变量之间的直接作用
有向模型使用带有方向的边，用条件概率表示因子分解：
随机变量的联合分布概率与所有因子的乘积成比例，但不保证和为1，所以需要除以一个归一化常数Z来归一化概率分布，Z定义为因子函数乘积的所有和或积分。

阅读全文

0 0