深度学习第一次课-数学

来源：互联网发布：mp4下载软件编辑：程序博客网时间：2024/06/07 12:38

说明：本文是七月算法5月深度学习班第一次课听课笔记。只记录关键知识点，有些没具体展开。帮助复习用。文中使用了老师课件中的公式。

微积分

导数

定义
常用函数导数
导数法则

加法乘法除法链式法则

一元函数与多元函数

一阶导一元函数 f'(x)
多元函数

二阶导一元函数f‘’(x)
多元函数Hessian矩阵

泰勒级数

泰勒级数公式一元版和多元版

一级导数=0 这一点可能为平稳点、极值点、鞍点。如果二级导数>0，是极小值点；二级导数<0，是极大值点。二级导数=0，是鞍点。注意在多元函数中二级导数>0，就是指hession矩阵>0（正定矩阵）。

梯度下降
为了找到函数最小值，首先要求一阶导数。当原函数的导数不好求，或者不可求的时候选择梯度下降。
为什么是梯度下降？
在函数已知点 (xk,f(xk)) ，走一个方向 delta。怎么才能让函数最快上升呢？根据上面的泰勒级数公式，当 delta = 梯度方向的时候，可以取到最大值，所以函数增长会最大。
当需要求函数最小值的时候，只要沿着负梯度方向就可以了。当然这里还有一个重要的参数是步长。

概率论

随机变量
离散型分布式函数
连续型累计分布函数概率密度函数

高斯分布
表达式一元版多元函数版
中心极限定理
多个(>=4)泊松分布的和是高斯分布
独立高斯变量相加=高斯分布

贝叶斯公式
贝叶斯公式用于推断一件事情发生的可能性。

通过公式1和公式2推出公式3，进而得到公式4，贝叶斯公式。P(A|B)是后验概率，P(B)是一个确定的事件，P(A)是先验概率，P(B|A)是似然函数。

吸毒案例学习
注意：当先验概率很低的时候，即使似然函数有很高的值，结果也可能很低。

矩阵

特征向量与特征值

A为一个矩阵，X为一个向量，r为一个实数。如果 AX=rX。则X是A的特征向量，r是特征值。也就是说一个向量，经过矩阵A的变换之后，仍然和原向量共线。
矩阵所有特征值不同=> 特征向量线性无关

对称矩阵特征分解

PCA
对象操作结果
X 协方差 = Cx
Cx SVD = U（单位特征向量）
(U转置) X 内积 = Y 对(X做去相关操作)
Y 协方差 = Cy 对角阵，对角元素是X的特征值，按照从小到大排序
与U中的列特征向量正好对应，形成特征向量与特征值

U[:,:k] X 内积 = 降维后的矩阵

凸优化

一般有约束的优化问题

KKT条件
将约束转为无约束

凸优化问题

无约束问题求解--------SGD
有约束优化问题 --------------拉格朗日乘子--------无约束问题-----------KKT 求解

0 0