机器学习笔记--线性代数

来源：互联网发布：数据可视化图片编辑：程序博客网时间：2024/05/22 14:14

谈到线性代数，只知道什么矩阵啊，向量啊，啥特征值，特征分解啊之类，也就知道些公式怎么用，概念也已经有些许模糊了。这里慢慢整理，吸收吧，毕竟线性代数对于后续的机器学习算法的理解还是非常重要的。

1 线性方程组

1.1 线性方程组

a 1 x 1 + a 2 x 2 + \dots + a n x n = b

其中

x1,x2,⋯,xn是未知数，

a1,a2,⋯,an和

b是实数或者复数

1.2 向量

仅含一列的矩阵称为列向量，简称向量.若n是正整数，Rn表示所有n个实数数列的集合，通常写成nx1列矩阵的形式：

⎡ ⎣ ⎢ ⎢ ⎢ ⎢ u 1 u 2 ⋮ u n ⎤ ⎦ ⎥ ⎥ ⎥ ⎥

1.3 线性组合

给定Rn中向量ν1,ν2,⋯,νp和标量c1,c2,⋯,cp，向量
$y = c 1 ν 1 + c 2 ν 2 + \dots + c p ν p$
称为向量ν1,ν2,⋯,νp以c1,c2,⋯,cp为权的线性组合。
若A是m×n矩阵，它的各列为a1,a2,⋯,an，若x是Rn中的向量，则A和x的积，记为Ax，就是A的各列以x中对应元素为权的线性组合，即：
$A x = [a 1 a 2 \dots a n] ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ x 1 x 2 ⋮ x n ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ = x 1 a 1 + x 2 a 2 + \dots + x n a n$

1.4 Span

若向量ν1,ν2,⋯,νp是Rn中的向量，则ν1,ν2,⋯,νp的所有线性组合所成的集合用记号Span{ν1,ν2,⋯,νp}表示，称为由ν1,ν2,⋯,νp所生成(张成)的Rn的子集。
要判断向量b是否属于Span{ν1,ν2,⋯,νp}，判断如下方程是否有解。 $x 1 ν 1 + x 2 ν 2 + \dots + x p ν p = b$
Span{ν} 和 Span{ν,u}的集合意义，若Rn是R3，那么前者是三维空间的一条直线，后者是三维空间一个平面。

1.5 线性变换

由Rn到Rm的一个变换(或称函数、映射)T是一个规则，它把Rn中每个向量x对应以Rm中的一个向量T(x).集Rn称为T的定义域，Rm称为T的余定义域(或取值空间)。对于Rn中的向量x，Rm中向量T(x)称为x(在T作用下)的像，所有像T(x)的集合称为T的值域。

2 矩阵运算

2.1 矩阵乘法

看下例子比较容易理解

2.2 矩阵的乘幂：

若A是n×n矩阵，k是正整数，则Ak表示k个A的乘积。其中A0是单位矩阵。

2.3 矩阵的转置

用AT表示，它的列由A的对应的行构成的，

2.4 矩阵的逆

实数3的乘法逆是3−1，满足方程3⋅3−1=1和3−1⋅3=1。
矩阵也需要类似两个方程都成立，一般n×n矩阵A可逆，存在
$A C = I 且 C A = I$
I=In是n×n的单位矩阵，若A可逆，逆是唯一的，于是有:
$A A - 1 = I 且 A - 1 A = I$
一个例子：

2.5 LU分解

定义
如下所示：
$A = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ 1 * * * 01 * * 001 * 0001 ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ◼ 000 * ◼ 00 * * 00 * * ◼ 0 * * * 0 ⎤ ⎦ ⎥ ⎥ ⎥ ⎥$
A=LU，其中L是m×m下三角矩阵，U是一个等价的 m×n阶梯矩阵。
当A=LU时，方程Ax=b可写成L(Ux)=b，把Ux写成y，求解：
${L y = b U x = y$
LU分解算法
偷个懒，不想写矩阵的公式了，太多了，就直接截个例子图吧，那些定义看着头疼，例子比较清晰
求矩阵的LU分解：

2.6 行列式

克拉默法则
看下例子，解如下方程组：
${3 x 1 - 2 x 2 = 6 - 5 x 1 + 4 x 2 = 8$
按照Ax=b型，得如下：
A=[3−5−24]，A1(b)=[68−24]，A2(b)=[3−568]
由于A的行列式为detA=2，根据克拉默法则解得：
$⎧ ⎩ ⎨ ⎪ ⎪ x 1 = d e t A 1 ( b ) d e t A = 24 + 16 2 = 20 x 2 = d e t A 2 ( b ) d e t A = 24 + 30 2 = 27$
可以得出：
xi=detAi(b)detA,i=1,2,...,n

3 向量空间

一个向量空间是由一些被称为向量的对象构成的非空集合V

3.1 向量子空间

一个向量空间是由一个大的向量空间中适当的向量的子集所构成的。
列空间：A的各列的线性组合的集合，记作：ColA
零子空间:都是零向量组成的集合，写成：{0}

3.2 子空间的基

生成子空间的一个最小的有限集合就是基，Rn中的子空间H的一组基是H中一个线性无关集。

3.3向量的秩

矩阵A的秩是A的列向量的维数，记做rankA

3.4 马尔科夫链

概率向量：一个具有非负分量且各分量的数值相加等于1的向量，如： $x 0 = [0.2 0.8]$
随机矩阵：各列向量为概率向量的方阵
马尔科夫链：一个概率向量序列x0,x1,x2,⋯和一个随机矩阵P，使得 $x 1 = P x 0, x 2 = P x 1, x 3 = P x 2, \dots$ $可得一阶微分方程： x k + 1 = P x k, k = 0, 1, 2, \dots$

4 特征向量与特征值

4.1 定义

A为n×n矩阵，x为非零向量，若存在数λ使Ax=λx成立，则称为λ为A的特征值，x称为对应于λ的特征向量。

4.2 例子

若A=[1562]，u=[6−5]，则：

A u = [1562] [6 - 5] = [- 24 20] = - 4 [6 - 5] = - 4 u

故

u是特征值为-4的特征向量。

4.3 三角矩阵特征值

三角矩阵的主对角线的元素是其特征值

A - λ I = ⎡ ⎣ ⎢ ⎢ a 1 1 00 a 1 2 a 2 2 0 a 1 3 a 2 3 a 3 3 ⎤ ⎦ ⎥ ⎥ - ⎡ ⎣ ⎢ ⎢ λ 00 0 λ 0 00 λ ⎤ ⎦ ⎥ ⎥ = ⎡ ⎣ ⎢ ⎢ a 1 1 - λ 00 a 1 2 a 2 2 - λ 0 a 1 3 a 2 3 a 3 3 - λ ⎤ ⎦ ⎥ ⎥

(A−λI)=0有非平凡解，A的特征值为a11,a22,a33。

A = ⎡ ⎣ ⎢ ⎢ 300600 - 8 62 ⎤ ⎦ ⎥ ⎥, B = ⎡ ⎣ ⎢ ⎢ 4 - 2 5 013004 ⎤ ⎦ ⎥ ⎥

由上述可知A的特征值为3，0，2；B的特征值为4，1。

4.4 应用

图像处理中的PCA方法，选取特征值最高的k个特征向量来表示一个矩阵，从而达到降维分析以及特征显示的方法，还有图像压缩的K-L变换。再比如很多人脸识别，数据流模式挖掘分析等方面。

知乎关于特征向量特征值的解释

5 正交性

5.1 内积

u = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ u 1 u 2 ⋮ u n ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ 和 v = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ v 1 v 2 ⋮ v n ⎤ ⎦ ⎥ ⎥ ⎥ ⎥

内积就是：

u \cdot v = u T v = [u 1 u 2 \dots u n] ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ v 1 v 2 ⋮ v n ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ = u 1 v 1 + u 2 v 2 + \dots + u n v n

5.2 向量的长度(范数)

向量v的长度，也就是范数，是非负数∥v∥，定义为：
$∥ v ∥ = v \cdot v ‾ ‾ ‾ ‾ \sqrt = v 21 + v 22 + \dots + v 2 n ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ \sqrt 且 ∥ v ∥ 2 = v \cdot v$
假若v是R2中的向量，∥v∥的值和平面到内原点v的线段的长度一直。
L0范数：向量中非0的元素的个数
L1范数：向量中各个元素绝对值之和，也有个美称叫“稀疏规则算子” $∥ x ∥ 1 = | x 1 | + | x 2 | + \dots + | x n |$
L2范数： $∥ x ∥ 2 = (| x 21 | + | x 22 | + \dots + | x 2 n |) 1 / 2$
关于L0.L1.L2范数点击此更详细

5.3 Rn空间中的距离

向量u和v的距离，记作dist(u,v)=∥u−v∥
距离的定义和欧几里得空间中点的距离公式一致，其中二维空间，dist(u,v)=∥u−v∥=(u1−v1)2+(u2−v2)2‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾√
三维空间：
dist(u,v)=∥u−v∥=(u1−v1)2+(u2−v2)2++(u3−v3)2‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾√

5.4 正交性

如果u⋅v=0，则两个向量u和v相互正交

6 正交投影

若W是Rn的一个子空间，那么Rn中每一个向量y可以唯一表示
$y = y ̂ + z$
此处ŷ 属于W且z属于W⊥，实际上，如果{u1,u2,⋯,up}是W的任意正交基，那么： $y ̂ = y \cdot u 1 u 1 \cdot u 1 u 1 + \dots + y \cdot u p u p \cdot u p u p$
正交投影几何解释：
如下图R3空间，y的正交投影就是y1+y2的投影。