线代回顾

来源:互联网 发布:阿里标题优化工具 编辑:程序博客网 时间:2024/05/16 11:53

  • Basic Concepts and Notation
    • Basic Notation
  • Matrix Multiplication
  • Operations and Properties
    • The Identity Matrix and Diagonal Matrices
    • The Transpose
    • Symmetric Matrices
    • The Trace
    • Norms
    • Linear Independence and Rank
    • The Inverse
    • Orthogonal Matrices
    • Range and Nullspace of a Matrix
    • The Determinant
    • Quadratic Forms and Positive Semidefinite Matrices
    • Eigenvalues and Eigenvectors
  • Matrix Calculus
    • The Gradient
    • The Hessian
    • Gradients and Hessians of Quadratic and Linear Functions
    • Least Squares
    • Gradients of the Determinant
    • Eigenvalues as Optimization

Basic Concepts and Notation

线性代数提供了表达线性等式的一种简明方法。比如如下方程:
4x15x2=13
2x1+3x2=9
在矩阵表示中,可以将这个系统表示为Ax=b,其中
A=[4253],b=[139]

Basic Notation

介绍了一些基本的表示。

Matrix Multiplication

介绍了矩阵乘法以及一些基本性质。

Operations and Properties

The Identity Matrix and Diagonal Matrices

单位矩阵(identity matrix)表示为IRnn,其除对角线上元素为1外,其余元素全为0。
对角线矩阵(diagonal matrix)表示为D=diag(d1,d2,...dn),其除对角线元素外,其余元素全为0。

The Transpose

矩阵的转置(transpose),将交换矩阵的行与列。给定一个矩阵ARmn,其转置ATRnm,元素为(AT)ij=Aji
性质:

  • (AT)T=A
  • (AB)T=BTAT
  • (A+B)T=AT+BT

Symmetric Matrices

对矩阵ARmn,如果A=AT则称其为对称(symmetric)。若A=AT称其为反对称(anti-symmetric)。
则对于任意ARnnA+AT是对称的,AAT是反对称的,且A可以表示为对称矩阵和反对称矩阵的和,A=12(A+AT)+12(AAT)
通常将所有大小为nn的对称矩阵表示为Sn

The Trace

对于一个方阵ARnn,其迹(trace)表示为tr(A)trA,为对角线的和。
trA=ni=1Aii
其性质如下:

  • 对于ARnn,trA=trAT
  • 对于A,BRnn,tr(A+B)=trA+trB
  • 对于ARnn,tR,tr(tA)=ttrA
  • 对于矩阵A,BAB是方阵,trAB=trBA
  • 对于矩阵A,B,CABC是方阵,则trABC=trBCA=trCAB。依此类推到更多矩阵。

Norms

一个向量的范数(norm)可以定义为任意一个满足如下性质的函数f:Rn>R

  1. 对于所有xRnf(x)0。(non-negativity)
  2. 当且仅当x=0f(x)=0。(definiteness)
  3. 对于所有xRntRf(tx)=|t|f(x)。(homogeneity)
  4. 对于所有x,yRnf(x+y)f(x)+f(y)。(triangle inequality)

lp范数:||x||p=(ni=1|xi|p)1/p。其中p1。当p=时,||x||=maxi|xi|

范数也可以定于与矩阵,比如frobenius范数,||A||F=mi=1nj=1A2ij=tr(ATA)

Linear Independence and Rank

对于一个向量集合x1,x2,...xnRm,如果其中没有一个向量可以表示为其余剩下的向量的线性组合,则称这个集合线性无关(linear independent)。相对的,如果如果其中的一个向量可以由余下的向量线性表示,则称其为线性相关(linearly dependent),即xn=n1i=1αixi

对于一个矩阵ARmn,其列的秩(column rank)为A中的列向量组成的任意线性无关的集合中,包含最多的向量个数。同理可得矩阵的行的秩(row rand)。对任意矩阵,其行秩等于列秩,因此总称为矩阵A的秩(rank),表示为rank(A)。其性质如下:

  • 对于ARmnrank(A)min(m,n)。如果rank(A)=min(m,n),称AA为满秩。
  • 对于A \in R^{m*n}ARmnrank(A)=rank(A^T)rank(A)=rank(AT)
  • 对于A \in R^{m*n},B\in R^{n*p}ARmn,BRnprank(AB)min(rank(A),rank(B))
  • 对于A,BRmnrank(A+B)rank(A)+rank(B)

The Inverse

矩阵ARnn的逆(inverse)表示为A1。且A1A=I=AA1
并非所有矩阵都有逆,非方阵就没有逆。但并非所有方阵都有逆。

对于逆存在的矩阵A,称其可逆(invertible)或非奇异(non-singular);逆不存在,称其不可逆(non-invertible)或奇异(singular)。

对于一个可逆矩阵A,其一定满秩。

对于非奇异矩阵A,BRnn,有如下性质:

  • (A1)1=A
  • (AB)1=B1A1
  • (A1)T=(AT)1,因此也写做AT

Orthogonal Matrices

对于一个向量xRn,如果||x||2=1,则称其为单位向量(normalized)。
对于两个向量x,yRn,如果xTy=0,则称其正交(orthogonal)。
对于一个方阵URnn,如果其所有的列两两正交,并且都为单位向量,则称这个矩阵为正交矩阵。并且可以得到UTU=I=UUT,更进一步U1=UT
在一个向量xRn上操作一个正交矩阵URnn不会改变向量的欧拉范数,||Ux||w=||x||2

Range and Nullspace of a Matrix

向量{x1,x2,...,xn}的张成子空间(span)表示为向量的线性组合,即span({x1,...xn})={v:v=ni=1αixi,αiR}
向量yRm在向量{x1,...,xn}的投影(projection)定义为向量vspan({x1,...xn}),其中vy有最小的欧拉范数距离,可以表示为Proj(y;{x1,...xn})=argminvspan({x1,...xn})||yv||2
矩阵ARmn的范围\空间(range\columnspace)为R(A)={vRmv=Ax,xRn}
假设A满秩,并且n<m,则向量yRm在矩阵空间上的投影为Proj(y;A)=argminvR(A)||yv||2=A(ATA)1ATy
这个方程几乎和最小二乘法推导出的一样。由投影的定义可知,其与最小二乘法的目标是一样的。
矩阵ARmn的零空间定义为N(A)={xRn:Ax=0}

The Determinant

方阵ARnn的行列式(determinant)定义为函数det:Rnn>R,记为|A|或者detA
行列式的性质有:

  • |I|=1
  • taT1aT2...aTm=t|A|
  • aT2aT1...aTm=|A|

对于ARnn,A/i,/j表示去掉矩阵A中的第i行和第j列。则|A|=ni=1(1)i+jaij|A/i,/j|
矩阵A的伴随矩阵(classical adjoint)记为adj(A)Rnn(adj(A))ij=(1)i+j|A/j,/i|。注意这里是去掉第j行第i列。
对于任何非奇异矩阵ARnnA1=1|A|adj(A)

Quadratic Forms and Positive Semidefinite Matrices

方阵ARnn,向量xRnxTAx称为二次型(quadratic form)。

正定(positive definite):对于一个对称矩阵ASn,如果xRn,xTAx>0,称为正定,记为A>0,Sn++

半正定(positive semi-definite):对于一个对称矩阵ASn,如果xRn,xTAx0,称为正定,记为A0,Sn+

负定(negative definite):对于一个对称矩阵ASn,如果xRn,xTAx<0,称为正定,记为A<0

半负定(negative semi-definite):对于一个对称矩阵ASn,如果xRn,xTAx0,称为正定,记为A0

未定义(indefinite),即不正定也不负定。

显然如果A正定,则A负定。正定矩阵和负定矩阵都可逆。

Eigenvalues and Eigenvectors

对于方阵ARnn,如果Ax=λx,x0,则称λC为特征值(eigenvalues),xCn为特征向量(eigenvectors)。
|(λIA)|=0可以求出所有的特征值λ,再带入特征值到(λIA)x=0,x0可以求出特征值λ所对应的特征向量x
其性质有:

  • trA=ni=1λi
  • |A|=ni=1λi
  • rank(A)A的非0特征值数。
  • 如果A非奇异,则1/λiA1的特征值。

Matrix Calculus

一些基本的矩阵微积分的定义。

The Gradient

假设f:Rmn>R是输入一个矩阵ARmn,输出一个实数的函数。则函数f的微分(gradient),为偏导的矩阵,定义为:
Af(A)Rmn,其中(Af(A))ij=f(A)Aij
有如下性质:

  • x(f(x)+g(x))=xf(x)+xg(x)
  • 对于tR,x(tf(x))=txf(x)

The Hessian

假设f:Rn>R是一个输入n维向量,输出实数的函数。
海森(Hessian)矩阵定义为:
2xf(x)Rnn
其中(2xf(x))ij=2f(x)xixj,Hessian矩阵是一个对称矩阵。

Gradients and Hessians of Quadratic and Linear Functions

xRnf(X)=bTx对一些已知的向量bRn,有f(x)=ni=1bixi,可得f(x)xk=xkni=1bixi=bk

对于二次函数f(x)=xTAx,ASn,我们有f(x)=ni=1nj=1Aijxixjf(x)xk=xkni=1nj=1Aijxixj=...=2ni=1Akixi

因此,可以总结如下:

  • xbTx=b
  • xxTAx=2Ax(if A symmetric)。
  • 2xxTAx=2A(if A symmetric)。

Least Squares

x=(ATA)1ATb

Gradients of the Determinant

由于|A|=ni=1(1)i+jAij|A/i,/j|,所以Aklni=1(1)i+jAij|A/i,/j|=(1)k+l|A/k,/l|=(adj(A))lk
A|A|=(adj(A))T=|A|AT

Eigenvalues as Optimization

有如下问题maxxRnxTAx,s.t.||x||22=1,ASn
由拉格朗日法,可得L(x,λ)=xTAxλxTx
xL(x,λ)=x(xTAxλxTx)=2ATx2λx=0。可以得到Ax=λx,这表示若xTx=1,可以最大化/最小化xTAx的是其特征向量A

1 0
原创粉丝点击