Deep learning 中的数学基础知识

来源：互联网发布：java在线直播平台源码编辑：程序博客网时间：2024/06/07 03:30

1.微积分

导数：一个函数在某一点的导数描述了这个函数在这一点附近的变化率。

f' (a) = lim h \to 0 f ( a + h ) - f ( a ) h

梯度:多元函数的导数就是梯度。

一阶导数和梯度（gradient）

f′(x) ;

\nabla f (X) = \partial f ( X ) \partial X = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ \partial f ( X ) \partial x 1 \partial f ( X ) \partial x 2 ⋮ \partial f ( X ) \partial x n ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥

二阶导数与Hessian矩阵：

f′′(x);

H (x) = \nabla 2 f (X) = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ \partial 2 f ( X ) \partial x 1 2 \partial 2 f ( X ) \partial x 2 \partial x 1 ⋮ \partial 2 f ( X ) \partial x n \partial x 1 \partial 2 f ( X ) \partial x 1 \partial x 2 \partial 2 f ( X ) \partial x 2 2 ⋮ \partial 2 f ( X ) \partial x n \partial x 2 \dots \dots ⋱ \dots \partial 2 f ( X ) \partial x 1 \partial x n \partial 2 f ( X ) \partial x 2 \partial x n ⋮ \partial 2 f ( X ) \partial x n 2 ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥

泰勒级数：

输入为标量的泰勒级数：

f (x k + δ) \approx f (x k) + f' (x k) δ + 1 2 f'' (x k) δ 2 + \dots + 1 n ! f (n) (x k) δ n

输入为矢量的泰勒级数（前三项）:

f (x k + δ) \approx f (x k) + \nabla T f (x k) δ + 1 2 δ T f'' (x k) δ

此时满足

∇Tf(xk)=0 的点为平稳点，如果还有：

∇2f(xk)>0 ，即为正定矩阵，则 xk为一严格局部极小值点（反之，严格局部极大值点）

如果 ∇2f(xk)=0 ，即为不定矩阵，则是一个鞍点（如 f(x)=x3,x=0时），此时需要考虑三阶导数。

问题：为什么优化时选择梯度方向，梯度方向为什么是变化最快的方向？

答：由泰勒级数展开式的前两项 f(xk+δ)≈f(xk)+∇Tf(xk)δ 可知，当δ 是一个模不变但方向不确定的矢量时，此时 f(xk+δ)−f(xk)≈∇Tf(xk)δ , 可知，当 δ=∇f(xk) 时，∇Tf(xk)δ=||∇2(xk)|| ,此时取得最大的差值，也就是说 δ 取梯度方向是变化最大。 梯度下降法中的迭代方法就是负梯度方向，因为该方向下降最快！

2. 概率论

随机变量

累积分布函数

概率密度函数

高斯分布

独立同分布定理

3. 线性代数

方阵的特征值（Eigenvalues）与特征向量（Eigenvectors）

A x = λ x

特征值和特征向量的几何意义与物理意义**：

矩阵是数学中非常抽象的一个概念，广义上我们可以将矩阵看作一个运动。即矩阵乘法对应了一个变换，是把任意一个向量变成另一个方向或长度都大多不同的新向量。在这个变换过程中，原向量主要发生旋转、伸缩的变化。如果矩阵对某个或某些向量只发生伸缩变换，而不对这些向量产生旋转的效果，那么这些向量就称作这个矩阵的特征向量，伸缩的比例就是特征值。其物理意义就是运动的图景：特征向量在一个矩阵的作用下作伸缩运动，伸缩的幅度由特征值确定。

特征值示意图

特征分解的性质：

对于 Axi=λxi ，如果所有的特征值都不相同，则对应的所有特征向量都线性无关。此时 A 可以被对角化为：

A = V Λ V - 1

其中

V=[x1,x2,⋯,xn] ,

Λ=Diag(λ1,λ2,⋯,λn) 。

并不是所有的方阵都可以被对角化，这里主要考虑对称矩阵（A=AT）的特征分解。

如果一个对称矩阵的特征值都不相同，则其相应的所有特征向量正交。（UUT=UTU=I）

A = U Λ U T = [u 1, u 2, \dots, u n] ⎡ ⎣ ⎢ ⎢ λ 1 ⋱ λ n ⎤ ⎦ ⎥ ⎥ ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ u T 1 u T 2 ⋮ u T n ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ = \sum i = 1 n λ i u i u T i

对称矩阵的特征值都是实数。

二次型**（Quadratic Form）：

给定矩阵 A∈Rm×n ，函数

x T A x = \sum \sum x i x j a i j

被称为二次型。

如果对于所有 x∈Rn ，有 xTAx≥0 ，则为半正定矩阵，此时 λ(A)≥0 .

特征分解的应用——PCA的本质

PCA的本质就是协方差矩阵的对角化。

4. 凸优化问题

凸集：一个集合中任意两点的连线都在该集合中，则这个集合是一个凸集。

一个函数 f 是凸函数，满足：

它的定义域是凸集；
对于定义域中的任意两点 x1、 x2，对任意 0≤α≤1，有

f (α x 1 + (1 - α) x 2) \leq α f (x 1) + (1 - α) f (x 2)

机器学习中的凸优化问题是一类特殊的优化问题。凸优化问题的形式是

min x \in S f (x)

其中

f(x)是凸函数，可行域

S 是凸集。或等价为：

min x f (x) subject to g i (x) \leq 0, for i = 1, 2, \dots, k

其中

f(x) 和所有的约束函数 $g_i(x)都是凸函数。

凸优化问题的性质：它的局部最优解一定是全局最优解。

无约束条件的凸优化问题，用梯度下降法或牛顿法进行求解；有约束条件的优化问题转化为广义Lagerange 乘子形式，再根据KKT 条件进行优化求解。

阅读全文

0 0