深度学习基础数学知识整理

来源：互联网发布：SEO优化编辑：程序博客网时间：2024/05/29 12:34

线性代数部分

1.1 基础概念

标量(scalar), 向量(vector), 矩阵(matrices), 张量(tensor)

1.2 矩阵相关:

转置(transpose), 矩阵乘法, 单位矩阵, 逆矩阵

1.3 线性相关

线性方程: X⋅b⃗ =y⃗ ,

线性组合: X 中各个列向量乘以对应的系数之和: ∑ibix(i) ,

生成空间: X中的原始向量线性组合后能抵达的点的集合. 确定上述方程是否有解相当于确定向量y⃗ 是否在X 的列向量的生成子空间中.

矩阵X可逆时解为b⃗ =X−1⋅y , 然而矩阵可逆是一个十分苛刻的条件, X 的列空间构成整个m维欧式空间Rm, 若X⋅b⃗ =y⃗ 对于每一个y值最多有一个解, 则X矩阵至多有m个列向量.

因此, 矩阵X只有是方阵且所有列向量都是线性无关的时候才满足要求, 若列向量线性相关, 则成该方阵X是奇异的.

这里引出了线性模型的基本模型: X⋅b⃗ =y⃗ .

X可逆时 ,我们可以直接对两边求逆, 得到线性模型的唯一解b⃗ =X−1⋅y , 然而,样本特征组成的矩阵X往往是不可逆的, 即X往往不是方阵, 或者是奇异的矩阵.

正因为在现实世界里, 直接对矩阵求逆来得到唯一解 b⃗ 几乎是不可能的, 所以我们才会退而求其次, 用最小化误差来逼近唯一解, 这叫做松弛求解.

求最小化误差的一般方法是求残差的平方和最小化, 这也就是所谓的线性最小二乘法.

1.4 范数(norm)

在机器学习中, 通常用范数来衡量一个矩阵的大小, L^p范数公式: ||x||=(∑i|xi|p)1p

范数是将向量映射到非负值的函数, 简单来讲, 向量x⃗ 的范数是原点到x⃗ 的距离. 这里之所以介绍范数, 是因为它涉及到机器学习中非常重要的正则化技术.

p = 2时, L^2称为欧几里得范数(Euclidean norm), 表示原点到向量x⃗ 的欧氏距离, L^2范数通常简写为||x|| , 它非常频繁地出现在机器学习中. 此外, 平方L^2 范数(||x||)2也经常用来衡量向量的大小, 可以简单地用(x⃗ )⊤⋅x⃗ 计算.

L^2范数: ||x||=(∑i|xi|2)12, 平方L^2范数:||x||=∑i|xi|2

平方L^2 范数对x⃗ 各元素导数只和对应元素相关, 而L^2范数对个元素的导数和整个向量相关, 因此平方L^2 范数计算更方便.

有时候平方L^2范数在原点附近增长缓慢, 在某些机器学习业务场景下, 区分元素值是否非零很重要, 此时更倾向于使用L^1范数:||x||1=∑i|xi|, L1范数在各个位置斜率相同, 且数学形式较简单, 每当x⃗ 中某元素从0增加了ϵ 时, 对应L1范数增加ϵ.

在机器学习中, L2和L1范数分别对应L2和L1正则化, 详情参考线性模型中的岭回归(Ridge Regression)和套索回归(Lasso).

1.5 伪逆(Moore-Penrose)

非方阵方程,其逆矩阵没有意义. 假设要求解线性方程 A⃗ ⋅x=y⃗ , 等式两边左乘左逆B⃗ 后: x=B⃗ y.
是否存在唯一映射, 将A⃗ 映射到B⃗ 取决于问题形式: 1. 若矩阵A行数大于列数, 则无解; 2. 若矩阵A行数小于列数, 则有多个解.
伪逆可以解决上述问题, 矩阵A的伪逆定义为: lima↘0(AT→A⃗ +αI⃗ )−1⋅AT→, 违逆计算的简化公式为: A+→=V⃗ D+→UT→, 其中,
矩阵U, D, V是矩阵A的奇异值分解后的矩阵, 对角矩阵D的伪逆D+→是非零元素取倒数后再转置得到的.

矩阵A的列数多于行数时, 可能有多个解. 伪逆求解线性方程是众多解法中的一种, 即: x⃗ =A+→y⃗ 是所有可行解中欧几里得距离最小的一个
矩阵A列数小于行数是, 可能没有解. 伪逆求解得到的x是A⃗ x和y⃗ 的欧几里得距离||A⃗ x−y⃗ ||22最小的解.

这里又回到了求解线性问题的一般思路上: 线性最小二乘法

阅读全文

0 0