机器学习笔记(三)矩阵和线性代数

来源:互联网 发布:tcp 服务端源码 编辑:程序博客网 时间:2024/06/05 13:30

@(Machine Learning)[线性代数]

1.行列式

  • 1×1方阵的行列式为该元素本身。
    A=(a11)
    |A|=a11
  • 2×2方阵,其行列式用主对角线元素乘积减去次对角线元素的乘积。
    A=(a11a21a12a22)

    |A|=a11a22a12a21
  • 3×3阶方阵
    A=a11a21a31a12a22a32a13a23a33

    三阶矩阵发现a12的对角线少一部分(也就是a23的右下部分缺失)。一种方法是copy三个完全一样的矩阵做补充。
    这里写图片描述

行列式计算方法是一样的:
|A|=a11a22a33+a12a23a31+a13a21a32a11a23a32a12a21a33a13a22a31

  • 另一种方式就是利用代数余子式来计算

    • 在一个n阶行列式A中,把(i,j)元素aij所在的第i行和第j列划去后,留下的n1阶方阵的行列式叫做元素aij的余子式,记作Mij
    • 代数余子式:Aij=(1)i+jMij
      注意:代数余子式是个数值!


      下图方框里计算的值便是a11a12的代数余子式M11,M12
      Alt text这里写图片描述

  • n阶的行列式等于它的任意一行(或列)的各元素与其对应的代数余子式乘积之和。

    • 对于任意一列
      jn,|A|=i=1naij(1)i+jMij
    • 对于任意一行
      in,|A|=j=1naij(1)i+jMij
    • 所以上面三阶方阵的行列式A就是:|A|=a11(a22a33a23a32)+a12(a21a33a23a31)+a13(a21a32a23a31)

2.伴随矩阵

对于n×n方阵的任意元素a_{ij}都有各自的代数余子式Aij=(1)i+jMij,构造n×n的方阵A:

A=A11A12...A1nA21A22...A2n............An1An2...Ann

  • A称为A的伴随矩阵
  • 注意:A12的位置和前面的是相反的,Aij位于A的第j行第i

3.方阵的逆AA=|A|I

由前面的结论

in,|A|=j=1naij(1)i+jMij

根据:
A=a11a21...an1a12a22...an2............a1na2n...ann <> A=A11A12...A1nA21A22...A2n............An1An2...Ann
- 两式相乘,其中A的第一行与A第一列相乘就是上面通式的a1j×M1j结果为|A|

所以

AA=|A|0...00|A|...0......|A|...00...|A|=|A|I=>A1=1|A|A

A1=1|A|A仅当A有逆的时候成立

4.范德蒙行列式Vandermonde

给定n个点,可以用(n1)阶的表达式把所有点都表示出来。
这里写图片描述

5.矩阵的乘法

Ams阶的矩阵,Bsn阶的矩阵,那么,C=ABmn阶的矩阵,其中

cij=k=1saijbkj

我们把矩阵乘法的过程想象成:
cij= 当前状态aij * 它下一刻的状态bkj
bkj就看作是一个状态转移矩阵

数学解释:
设一个初始概率分布π(只是一个向量)
- 第n+1代中处于第j个阶层的概率为:

π(Xn+1=j)=i=1kπ(Xn=i)P(Xn+1=j|Xn=i)

=>πn+1=πnP

全概率公式:
n代处于1,2...n个阶层 * 第i(1,2...n)层下第n+1代为j的改率 得到一个n+1代处于第j个阶层的概率

因此,矩阵P即为(条件)概率转移矩阵。
  • 第i行元素表示:在上一个状态为i时的分布概率。每一行元素的和为1.
这就可以看成矩阵乘法的一个解释。并且结论证
明,π的初始分布对矩阵的计算影响不大,

矩阵和向量的乘法

  • Amn阶的矩阵,Xn1阶的矩阵,则Axm1的列向量,记y⃗ =Ax⃗ 
  • 由于n维列向量和n维空间的点一一对应,上式实际给出了从n维空间的点到m维空间的的线性变换。
    • 旋转、平移

6.矩阵的秩

  • mn的矩阵A中,任取kk列,不改变这k2个元素在A中的次序,得到k阶方阵,称为矩阵Ak阶子式
  • 设在矩阵A中有一个不等于0r阶子式D,且所有r+1阶子式全等于0(如果存在的话),那么D称为矩阵A的最高阶非零子式,r称为矩阵A的秩,记作R(A)=r
    • 如果一个矩阵|A|0那么可以说这个矩阵式满秩的
    • nn的可逆矩阵,秩为n
      矩阵的秩等于它的行列向量组的秩

6.1秩和线性方程组的解的关系

这里写图片描述

对于n元线性方程组Ax = b:
  • 无解的充要条件是R(A)<R(A,b)
  • 唯一解的充要条件是R(A)=R(A,b)=n
  • Ax= 0的只有零解的充要条件是R(A)=n
  • 无穷解的充要条件是R(A)=R(A,b)<n
  • Ax= b有解的充要条件是R(A)=R(A,b)
  • Ax= 0的非零解的充要条件是R(A)<n

6.2向量组

向量b能由向量组A:a1,a2,...,am线性表示的充
要条件是矩阵A=(a1,a2,...am)的秩等于矩阵
B=(a1,a2,...am,b)的秩。

因为有解的条件是秩相等。

B=(a1,a2,...am,b) = (λ1a1,λ2a2,...λnam)

  • 若向量组A与向量组B能相互线性表示,则称两个向量组等价。

6.3系数矩阵

  • 将向量组A和B所构成的矩阵依次记做
    A=(a1,a2,...,am)B=(b1,b2,...,bn)B组能由A组线性表示,即对每个向量bj,存在k1j,k2j,...kmj使得
    bj=k1ja1+k2ja2++kmjam=(a1  a2...am)k1jk2jkmj
  • 从而得到**系数矩阵**K
    (b1  b2bn)=(a1  a2...am)k11  k12k1nk21  k22k2nkm1  km2kmn
由此可知,若C=A×B,则矩阵C的列向量能由A的列向量线性表示,B即为这一表示的系数矩阵。

对偶的,行向量也是如此

向量组B: b1,b2,...,bn能由向量组A:a1,a2,...,am线性表示的充要条件是矩阵A=(a1,a2,...,am)的秩等于矩阵(A,B)=(a1,a2,...,am,b1,b2,...,bn)的秩,即:R(A)=R(A,B)

7.正交阵

  • n阶矩阵A满足ATA=I,称A为正交矩阵,简称正交阵。
    • A是正交阵的充要条件:A的列(行)向量都是单位向量,且两两正交
  • A是正交阵,X为向量,则Ax称作正交变换。
    • 正交变换不改变向量长度。

7.1特征值和特征向量

A是n阶矩阵,若数λ和n维非0列向量满足Ax=λx,那么,数称为A的特征向值,x称为A的对应于特征值的λ特征向量。
  • 根据定义,立刻得到(AλI)x=0,令关于λ的多项式|AλI|为0,方程|AλI|=0的根为A的特征值;将根λ0带入方程组(AλI)x=0,求得到的非零解,即λ0对应的特征向量。
  • n阶矩阵A=(aij)的特征值为λ1,λ2,...λn,则
    • λ1+λ2+...+λn=a11+a22++ann
    • λ1  λ2 λn=|A|
      • 矩阵A的主行列式的元素和,称作矩阵A的迹

推论:

不同特征值对应的特征向量,线性无关。
实对称阵的特征值也是实数。


实对称阵不同的特征值的特征向量正交:
证明:

令是对称矩阵为A, 它的两个不同的特征值λ1,λ2对应的特征向量分别是μ1,μ2;其中,λ1,λ2,μ1,μ2都是实数或是实向量。
- 则有:Aμ1=λ1μ1 , Aμ2=λ2μ2
- (Aμ1)T=(λ1μ1)T , 从而μT1A=λ1μT1对称阵转置还是本身
- 同乘μ2: μT1Aμ2=λ1μT1μ2
- μT1Aμ2=μT1(Aμ2)=μT1λ2μ2=λ2μT1μ2
- 所以:λ1μT1μ2=λ2μT1μ2
- 故:(λ1λ2)μT1μ2=0
- 故λ1λ2 , 所以μT1μ2=0,所以μ1,μ2正交

####最终结论:
####设A为n阶对称阵,则必有正交阵P,使得

P1AP=PTAP=Λ

#####Λ是以A的n个特征值为对角元的对角阵
#####改变还称为“合同变换”,A和 Λ互为合同矩阵。

7.2漂白/白化whitening

x=这里写图片描述

计算观测数据x的n×n的对称阵的特征值和特征向量,用特征值形成对角阵D,特征向量形成正交阵U,则:xxT=UTDU
- 解:令:x˜=UTD0.5Ux
- 则:x˜x˜T=(UTD0.5Ux)(UTD0.5Ux)T
- =(UTD0.5Ux)(xTUTD0.5U)对角阵D转置还是本身
- =UTD0.5U(xxT)UTD0.5U
- =UTD0.5UUTDUUTD0.5U
- =1

8.正定阵

对于n阶方阵A,若任意n阶向量x,都有xTAx>0,则称A是正定阵。

  • 由一阶推广而来:xax=ax2>0>a>0
  • 若条件变成xTAx0,则A称作半正定矩阵。

正定阵的判定:
- 对称阵A为正定阵;
- A的特征值都为正;
- A的顺序主子式大于0;

思考:对于任意m×n的矩阵A,证明ATA一定是半正定方阵。 —形成方阵

9.向量的导数

Am×n的矩阵,xn×1的列向量,则Axm×1的列向量,记y⃗ =Ax⃗ 
思考:yx= ?

Alt text

结论的直接推广:

Ax⃗ x⃗ =AT

Ax⃗ x⃗ T=A

(xTA)x⃗ T=A

9.2标量对向量的导数

A为n×n的矩阵,xn×1的列向量
y=x⃗ TAx⃗  (y没有箭头)
同理可得:yx=(x⃗ TAx⃗ )x⃗ =(AT+A)x⃗ 
若A为对称阵,则有(x⃗ Ax⃗ )x⃗ =2Ax⃗ 
理论推导:

A=a11a21an1a12a22an2a1na2nann    x⃗ =x1x2xn

x⃗ TAx⃗ =(x1,x2.....xn)(j=1na1jxj j=1na2jxj ...j=1nanjxj)T

=ni=1nj=1aijxjxi=ni=1nj=1aijxixj
则:(x⃗ TAx⃗ )x⃗ =j=1aijxj+j=1aijxj=nj=1(aij+aji)xj

也可以看成dax2dx=2ax同理dxTAxdx=2Ax如果A是对称阵的话。

9.3标量对方阵求导数

A为n×n的矩阵,|A|为A的行列式,试计算|A|A
解:

根据等式|A|=nj=1aij(1)i+jMij

|A|A=(nj=1aij(1)i+jMij)aij=(1)i+jMij=Aji

可以看出对方阵求导就是解A的伴随矩阵
从而:|A|A=(A)T=|A|(A1)T
- 根据AA=|A|I,第二个等式成立。

1 0