Deep learning 中的数学基础知识

来源:互联网 发布:java在线直播平台源码 编辑:程序博客网 时间:2024/06/07 03:30

1.微积分

导数:一个函数在某一点的导数描述了这个函数在这一点附近的变化率。

f(a)=limh0f(a+h)f(a)h

梯度:多元函数的导数就是梯度。

一阶导数和梯度(gradient)

f(x) ;

f(X)=f(X)X=f(X)x1f(X)x2f(X)xn

二阶导数与Hessian矩阵

f′′(x);

H(x)=2f(X)=2f(X)x122f(X)x2x12f(X)xnx12f(X)x1x22f(X)x222f(X)xnx22f(X)x1xn2f(X)x2xn2f(X)xn2

泰勒级数

输入为标量的泰勒级数:

f(xk+δ)f(xk)+f(xk)δ+12f′′(xk)δ2++1n!f(n)(xk)δn

输入为矢量的泰勒级数(前三项):
f(xk+δ)f(xk)+Tf(xk)δ+12δTf′′(xk)δ

此时 满足 Tf(xk)=0 的点为平稳点,如果还有:

2f(xk)>0 ,即 为正定矩阵,则 xk为一严格局部极小值点(反之,严格局部极大值点)

​ 如果 2f(xk)=0 ,即为不定矩阵,则是一个鞍点(如 f(x)=x3,x=0时),此时需要考虑三阶导数。

问题为什么优化时选择梯度方向,梯度方向为什么是变化最快的方向?

:由泰勒级数展开式的前两项 f(xk+δ)f(xk)+Tf(xk)δ 可知,当δ 是一个模不变但方向不确定的矢量时,此时 f(xk+δ)f(xk)Tf(xk)δ , 可知,当 δ=f(xk) 时,Tf(xk)δ=||2(xk)|| ,此时取得最大的差值,也就是说 δ 取梯度方向是变化最大。 梯度下降法中的迭代方法就是负梯度方向,因为该方向下降最快!

2. 概率论

随机变量

累积分布函数

概率密度函数

高斯分布

独立同分布定理

3. 线性代数

方阵的特征值(Eigenvalues)与特征向量(Eigenvectors)

Ax=λx

特征向量

特征值和特征向量的几何意义与物理意义**:

矩阵是数学中非常抽象的一个概念,广义上我们可以将矩阵看作一个运动。即矩阵乘法对应了一个变换,是把任意一个向量变成另一个方向或长度都大多不同的新向量。在这个变换过程中,原向量主要发生旋转、伸缩的变化。 如果矩阵对某个或某些向量只发生伸缩变换,而不对这些向量产生旋转的效果,那么这些向量就称作这个矩阵的特征向量,伸缩的比例就是特征值。其物理意义就是运动的图景:特征向量在一个矩阵的作用下作伸缩运动,伸缩的幅度由特征值确定。

特征值示意图

特征分解的性质

对于 Axi=λxi ,如果所有的特征值都不相同,则对应的所有特征向量都线性无关。此时 A 可以被对角化为:

A=VΛV1

其中 V=[x1,x2,,xn] , Λ=Diag(λ1,λ2,,λn)

并不是所有的方阵都可以被对角化,这里主要考虑对称矩阵(A=AT)的特征分解。

如果一个对称矩阵的特征值都不相同,则其相应的所有特征向量正交。(UUT=UTU=I

A=UΛUT=[u1,u2,,un]λ1λnuT1uT2uTn=i=1nλiuiuTi

对称矩阵的特征值都是实数。

二次型**(Quadratic Form):

给定矩阵 ARm×n ,函数

xTAx=xixjaij

被称为二次型。

如果对于所有 xRn ,有 xTAx0 ,则为半正定矩阵,此时 λ(A)0 .

特征分解的应用——PCA的本质

PCA的本质就是协方差矩阵的对角化

4. 凸优化问题

凸集:一个集合中任意两点的连线都在该集合中,则这个集合是一个凸集。

一个函数 f 是凸函数,满足:

  • 它的定义域是凸集;

  • 对于定义域中的任意两点 x1x2, 对任意 0α1, 有

f(αx1+(1α)x2)αf(x1)+(1α)f(x2)

机器学习中的凸优化问题是一类特殊的优化问题。凸优化问题的形式是

minxSf(x)

其中 f(x)是凸函数,可行域 S 是凸集。或等价为:
minxf(x)subject togi(x)0,fori=1,2,,k

其中f(x) 和所有的约束函数 $g_i(x)都是凸函数。

凸优化问题的性质:它的局部最优解一定是全局最优解。

无约束条件的凸优化问题,用梯度下降法或牛顿法进行求解;有约束条件的优化问题转化为广义Lagerange 乘子形式,再根据KKT 条件进行优化求解。

原创粉丝点击