机器学习笔记（三）矩阵和线性代数

来源：互联网发布：tcp 服务端源码编辑：程序博客网时间：2024/06/05 13:30

@(Machine Learning)[线性代数]

1.行列式

1×1方阵的行列式为该元素本身。
$A = (a 11)$ $| A | = a 11$

2×2方阵，其行列式用主对角线元素乘积减去次对角线元素的乘积。
$A = (a 11 a 21 a 12 a 22)$
$| A | = a 11 a 22 - a 12 a 21$

3×3阶方阵
$A = ⎛ ⎝ ⎜ a 11 a 21 a 31 a 12 a 22 a 32 a 13 a 23 a 33 ⎞ ⎠ ⎟$
三阶矩阵发现a12的对角线少一部分（也就是a23的右下部分缺失）。一种方法是copy三个完全一样的矩阵做补充。

行列式计算方法是一样的：
|A|=a11a22a33+a12a23a31+a13a21a32−a11a23a32−a12a21a33−a13a22a31

另一种方式就是利用代数余子式来计算

在一个n阶行列式A中，把(i,j)元素aij所在的第i行和第j列划去后，留下的n−1阶方阵的行列式叫做元素aij的余子式，记作Mij。

代数余子式：Aij=(−1)i+jMij
注意：代数余子式是个数值！

下图方框里计算的值便是a11a12的代数余子式M11,M12

n阶的行列式等于它的任意一行（或列）的各元素与其对应的代数余子式乘积之和。

对于任意一列 $\forall \leq j \leq n, | A | = \sum i = 1 n a i j (- 1) i + j M i j$

对于任意一行 $\forall \leq i \leq n, | A | = \sum j = 1 n a i j (- 1) i + j M i j$

所以上面三阶方阵的行列式A就是：|A|=a11(a22a33−a23a32)+a12(a21a33−a23a31)+a13(a21a32−a23a31)

2.伴随矩阵

对于n×n方阵的任意元素a_{ij}都有各自的代数余子式Aij=(−1)i+jMij，构造n×n的方阵A∗:

$A = ⎛ ⎝ ⎜ ⎜ ⎜ A 11 A 12 . . . A 1 n A 21 A 22 . . . A 2 n . . . . . . . . . . . . A n 1 A n 2 . . . A n n ⎞ ⎠ ⎟ ⎟ ⎟$

A∗称为A的伴随矩阵

注意：A12的位置和前面的是相反的，Aij位于A∗的第j行第i列

3.方阵的逆A⋅A∗=|A|⋅I

由前面的结论
$\forall \leq i \leq n, | A | = \sum j = 1 n a i j (- 1) i + j M i j$
根据：
A=⎛⎝⎜⎜⎜a11a21...an1a12a22...an2............a1na2n...ann⎞⎠⎟⎟⎟ <> A∗=⎛⎝⎜⎜⎜A11A12...A1nA21A22...A2n............An1An2...Ann⎞⎠⎟⎟⎟
- 两式相乘，其中A的第一行与A∗第一列相乘就是上面通式的a1j×M1j结果为|A|

所以
$A \cdot A * = ⎛ ⎝ ⎜ ⎜ ⎜ ⎜ | A | 0 . . . 0 0 | A | . . . 0 . . . . . . | A | . . . 00 . . . | A | ⎞ ⎠ ⎟ ⎟ ⎟ ⎟ = | A | \cdot I = > A - 1 = 1 | A | A *$
A−1=1|A|A∗仅当A有逆的时候成立

4.范德蒙行列式Vandermonde

给定n个点，可以用(n−1)阶的表达式把所有点都表示出来。

5.矩阵的乘法

A为m∗s阶的矩阵，B为s∗n阶的矩阵，那么，C=A∗B是m∗n阶的矩阵，其中
$c i j = \sum k = 1 s a i j b k j$

我们把矩阵乘法的过程想象成：

cij= 当前状态aij * 它下一刻的状态bkj

bkj就看作是一个`状态转移矩阵`

数学解释：
设一个初始概率分布π（只是一个向量）
- 第n+1代中处于第j个阶层的概率为：

$π (X n + 1 = j) = \sum i = 1 k π (X n = i) \cdot P (X n + 1 = j | X n = i)$
$= > π n + 1 = π n \cdot P$
全概率公式：
第n代处于1,2...n个阶层 * 第i(1,2...n)层下第n+1代为j的改率得到一个n+1代处于第j个阶层的概率

因此，矩阵P即为（条件）概率转移矩阵。

第i行元素表示：在上一个状态为i时的分布概率。每一行元素的和为1.

这就可以看成矩阵乘法的一个解释。并且结论证

明，π的初始分布对矩阵的计算影响不大，

矩阵和向量的乘法

A为m∗n阶的矩阵，X为n∗1阶的矩阵，则Ax 为m∗1的列向量，记y⃗ =A⋅x⃗

由于n维列向量和n维空间的点一一对应，上式实际给出了从n维空间的点到m维空间的的线性变换。

旋转、平移

6.矩阵的秩

在m∗n的矩阵A中，任取k行k列，不改变这k2个元素在A中的次序，得到k阶方阵，称为矩阵A的k阶子式。

设在矩阵A中有一个不等于0的r阶子式D，且所有r+1阶子式全等于0（如果存在的话），那么D称为矩阵A的最高阶非零子式，r称为矩阵A的秩，记作R(A)=r

如果一个矩阵|A|≠0那么可以说这个矩阵式满秩的

n∗n的可逆矩阵，秩为n
矩阵的秩等于它的行列向量组的秩

6.1秩和线性方程组的解的关系

这里写图片描述

对于n元线性方程组Ax = b：

无解的充要条件是R(A)<R(A,b)
唯一解的充要条件是R(A)=R(A,b)=n
Ax= 0的只有零解的充要条件是R(A)=n
无穷解的充要条件是R(A)=R(A,b)<n
Ax= b有解的充要条件是R(A)=R(A,b)
Ax= 0的非零解的充要条件是R(A)<n

6.2向量组

向量b能由向量组A:a1,a2,...,am线性表示的充
要条件是矩阵A=(a1,a2,...am)的秩等于矩阵
B=(a1,a2,...am,b)的秩。

因为有解的条件是秩相等。

B=(a1,a2,...am,b) = (λ1a1,λ2a2,...λnam)

若向量组A与向量组B能相互线性表示，则称两个向量组等价。

6.3系数矩阵

将向量组A和B所构成的矩阵依次记做
A=(a1,a2,...,am)和B=(b1,b2,...,bn)，B组能由A组线性表示，即对每个向量bj，存在k1j,k2j,...kmj使得
$b j = k 1 j a 1 + k 2 j a 2 + \dots + k m j a m = (a 1 a 2 . . . a m) ⎛ ⎝ ⎜ ⎜ ⎜ ⎜ ⎜ k 1 j k 2 j ⋮ k m j ⎞ ⎠ ⎟ ⎟ ⎟ ⎟ ⎟$
从而得到**系数矩阵**K $(b 1 b 2 \dots b n) = (a 1 a 2 . . . a m) ⎛ ⎝ ⎜ ⎜ ⎜ ⎜ k 11 k 12 \dots k 1 n k 21 k 22 \dots k 2 n ⋮ k m 1 k m 2 \dots k m n ⎞ ⎠ ⎟ ⎟ ⎟ ⎟$

由此可知，若C=A×B，则矩阵C的列向量能由A的列向量线性表示，B即为这一表示的系数矩阵。

对偶的，行向量也是如此

向量组B: b1,b2,...,bn能由向量组A:a1,a2,...,am线性表示的充要条件是矩阵A=(a1,a2,...,am)的秩等于矩阵(A,B)=(a1,a2,...,am,b1,b2,...,bn)的秩，即：R(A)=R(A,B)。

7.正交阵

若n阶矩阵A满足ATA=I,称A为正交矩阵，简称正交阵。

A是正交阵的充要条件：A的列（行）向量都是单位向量，且两两正交。

A是正交阵，X为向量，则Ax称作正交变换。

正交变换不改变向量长度。

7.1特征值和特征向量

A是n阶矩阵，若数λ和n维非0列向量满足Ax=λx，那么，数称为A的特征向值，x称为A的对应于特征值的λ特征向量。

根据定义，立刻得到(A−λI)x=0，令关于λ的多项式|A−λI|为0，方程|A−λI|=0的根为A的特征值；将根λ0带入方程组(A−λI)x=0，求得到的非零解，即λ0对应的特征向量。

设n阶矩阵A=(aij)的特征值为λ1,λ2,...λn,则

λ1+λ2+...+λn=a11+a22+…+ann

λ1 λ2… λn=|A|

矩阵A的主行列式的元素和，称作矩阵A的迹

推论：

不同特征值对应的特征向量，线性无关。

实对称阵的特征值也是实数。

实对称阵不同的特征值的特征向量正交：

证明：

令是对称矩阵为A，它的两个不同的特征值λ1,λ2对应的特征向量分别是μ1,μ2；其中，λ1,λ2,μ1,μ2都是实数或是实向量。
- 则有：Aμ1=λ1μ1 , Aμ2=λ2μ2
- (Aμ1)T=(λ1μ1)T , 从而μT1A=λ1μT1对称阵转置还是本身
- 同乘μ2: μT1Aμ2=λ1μT1μ2
- μT1Aμ2=μT1(Aμ2)=μT1λ2μ2=λ2μT1μ2
- 所以：λ1μT1μ2=λ2μT1μ2
- 故：(λ1−λ2)μT1μ2=0
- 故λ1≠λ2 , 所以μT1μ2=0，所以μ1,μ2正交

####最终结论：
####设A为n阶对称阵，则必有正交阵P，使得

P - 1 A P = P T A P = Λ

#####

Λ是以A的n个特征值为对角元的对角阵。
#####改变还称为“合同变换”，A和

Λ互为合同矩阵。

7.2漂白/白化whitening

x= 这里写图片描述

计算观测数据x的n×n的对称阵的特征值和特征向量，用特征值形成对角阵D，特征向量形成正交阵U，则：x⋅xT=UTDU
- 解：令：x˜=UTD−0.5U⋅x
- 则：x˜⋅x˜T=(UTD−0.5U⋅x)(UTD−0.5U⋅x)T
- =(UTD−0.5U⋅x)(xTUTD−0.5U)对角阵D转置还是本身
- =UTD−0.5U⋅(xxT)UTD−0.5U
- =UTD−0.5U⋅UTDU⋅UTD−0.5U
- =1

8.正定阵

对于n阶方阵A，若任意n阶向量x，都有xTAx>0，则称A是正定阵。

由一阶推广而来：x⋅a⋅x=ax2>0−−>a>0

若条件变成xTAx≥0，则A称作半正定矩阵。

正定阵的判定：
- 对称阵A为正定阵；
- A的特征值都为正；
- A的顺序主子式大于0；

思考:对于任意m×n的矩阵A，证明ATA一定是半正定方阵。 —形成方阵

9.向量的导数

A为m×n的矩阵，x为n×1的列向量，则Ax为m×1的列向量，记y⃗ =A⋅x⃗

思考：∂y∂x= ?

Alt text

结论的直接推广：

\partial A x ⃗ \partial x ⃗ = A T

\partial A x ⃗ \partial x ⃗ T = A

\partial ( x T A ) \partial x ⃗ T = A

9.2标量对向量的导数

A为n×n的矩阵，x为n×1的列向量

记 y=x⃗ T⋅A⋅x⃗ （y没有箭头）

同理可得：∂y∂x=∂(x⃗ T⋅A⋅x⃗ )∂x⃗ =(AT+A)⋅x⃗

若A为对称阵，则有∂(x⃗ Ax⃗ )∂x⃗ =2Ax⃗

理论推导:

$A = ⎡ ⎣ ⎢ ⎢ ⎢ a 11 a 21 \dots a n 1 a 12 a 22 \dots a n 2 \dots \dots \dots \dots a 1 n a 2 n \dots a n n ⎤ ⎦ ⎥ ⎥ ⎥ x ⃗ = ⎛ ⎝ ⎜ ⎜ ⎜ ⎜ x 1 x 2 ⋮ x n ⎞ ⎠ ⎟ ⎟ ⎟ ⎟$
有 $x ⃗ T \cdot A \cdot x ⃗ = (x 1, x 2 . . . . . x n) \cdot (\sum j = 1 n a 1 j x j \sum j = 1 n a 2 j x j . . . \sum j = 1 n a n j x j) T$
=∑ni=1⟮⟮∑nj=1aijxj⟯xi⟯=∑ni=1∑nj=1aijxixj
则：∂(x⃗ T⋅A⋅x⃗ )∂x⃗ =⟮∑j=1aijxj⟯+⟮∑j=1aijxj⟯=∑nj=1(aij+aji)xj

也可以看成dax2dx=2ax同理dxTAxdx=2Ax如果A是对称阵的话。

9.3标量对方阵求导数

A为n×n的矩阵，|A|为A的行列式，试计算∂|A|∂A

解：

根据等式|A|=∑nj=1aij(−1)i+jMij

\partial | A | \partial A = \partial ( \sum n j = 1 a i j ( - 1 ) i + j M i j ) \partial a i j = (- 1) i + j M i j = A * j i

可以看出对方阵求导就是解A的伴随矩阵
从而：

∂|A|∂A=(A∗)T=|A|(A−1)T
- 根据

A⋅A∗=|A|⋅I，第二个等式成立。

1 0