深度学习第一次课-数学

来源:互联网 发布:mp4下载软件 编辑:程序博客网 时间:2024/06/07 12:38

说明:本文是七月算法5月深度学习班第一次课听课笔记。只记录关键知识点,有些没具体展开。帮助复习用。文中使用了老师课件中的公式。

微积分


导数

定义
常用函数导数
导数法则
加法  乘法  除法  链式法则
一元函数与多元函数

一阶导   一元函数 f'(x) 
             多元函数               

二阶导    一元函数f‘’(x)
    多元函数Hessian矩阵


泰勒级数

       泰勒级数公式    一元版和多元版

        

       

       一级导数=0  这一点可能为 平稳点、极值点、鞍点。如果二级导数>0,是极小值点;二级导数<0,是极大值点。二级导数=0,是鞍点。注意在多元函数中二级导数>0,就是指hession矩阵>0(正定矩阵)。


梯度下降

      为了找到函数最小值,首先要求一阶导数。当原函数的导数不好求,或者不可求的时候选择梯度下降。
      为什么是梯度下降?
      在函数已知点 (xk,f(xk)) ,走一个方向 delta。怎么才能让函数最快上升呢?根据上面的泰勒级数公式,当  delta = 梯度方向的时候, 可以取到最大值,所以函数增长会最大。
      当需要求函数最小值的时候,只要沿着负梯度方向就可以了。当然这里还有一个重要的参数是步长。


概率论


随机变量

离散型 分布式函数
连续型 累计分布函数概率密度函数

高斯分布

表达式   一元版   多元函数版
中心极限定理
多个(>=4)泊松分布的和是高斯分布
独立高斯变量相加=高斯分布

贝叶斯公式

贝叶斯公式用于推断一件事情发生的可能性。

通过 公式1和公式2推出公式3,进而得到公式4,贝叶斯公式。P(A|B)是后验概率,P(B)是一个确定的事件,P(A)是先验概率,P(B|A)是似然函数。

吸毒案例学习
注意:当先验概率很低的时候,即使似然函数有很高的值,结果也可能很低。


矩阵


特征向量与特征值

A为一个矩阵 ,X为一个向量,r为一个实数。如果 AX=rX。则X是A的特征向量,r是特征值。也就是说一个向量,经过矩阵A的变换之后,仍然和原向量共线。
矩阵所有特征值不同=> 特征向量线性无关

对称矩阵特征分解


PCA

对象                          操作       结果 
X                               协方差  =  Cx
Cx                             SVD   =     U(单位特征向量)
(U转置)   X                内积   =     Y 对(X做去相关操作)
Y                               协方差   =  Cy  对角阵,对角元素是X的特征值,按照从小到大排序
                                                                  与U中的列  特征向量正好 对应,形成特征向量与特征值

U[:,:k] X                      内积    =    降维后的矩阵


凸优化


一般有约束的优化问题


KKT条件

将约束转为无约束


凸优化问题


无约束问题求解--------SGD
有约束优化问题  --------------拉格朗日乘子--------无约束问题-----------KKT 求解
0 0