MIT 线性代数(28—30)读书笔记

来源:互联网 发布:国内外手游推荐知乎 编辑:程序博客网 时间:2024/05/29 06:49

第二十八讲:正定矩阵和最小值

本讲学习正定矩阵positive definite matrices,这个主题把整门课的知识融为一体,主元,行列式,特征值,不稳定性,新表达式xTAx。目标是:,为什么对正定矩阵感兴趣,最后给出几何上的解释,椭圆和正定性有关,双曲线与正定性无关。当极小值存在时,如何找出极小值应用。

1.正定矩阵

1.1正定性的判断

  • 1)特征值方法:λi>0

  • 2)行列式方法:所有顺序主子阵(leading principal submatrix)的行列式(即顺序主子式,leading principal minor)大于零;

  • 3)主元方法:矩阵消元后主元均大于零;

  • 4)新方法:xTAx>0x 是任意向量,除零向量外。
    大多数情况下使用4)来定义正定性,而用前三条来验证正定性。


我们仍然从二阶说起,有矩阵A=[abbd],判断其正定性有以下方法:
1.矩阵的所有特征值大于零则矩阵正定:λ1>0,λ2>0
2.矩阵的所有顺序主子阵(leading principal submatrix)的行列式(即顺序主子式,leading principal minor)大于零则矩阵正定:a>0, acb2>0
3.矩阵消元后主元均大于零:a>0, acb2a>0
4.xTAx>0

大多数情况下使用4来定义正定性,而用前三条来验证正定性。

1.2 最小值的判定及其几何意义


双曲线、抛物线、椭圆之间的联系与区别:
联系:它们都属于圆锥曲线;
区别:根本的差别在于它们的离心率e不同,抛物线的离心率e=1为常数,双曲线的离心率e>1,椭圆的离心率0<e<1。
e=a2+b2,a是长轴的长度,b是短轴的长度。

例如:
来计算一个例子:A=[266?],在?处填入多少才能使矩阵正定?

  • 1)来试试18,此时矩阵为A=[26618]detA=0,此时的矩阵成为半正定矩阵(positive semi-definite)。矩阵奇异,其中一个特征值必为0,从迹得知另一个特征值为20。矩阵的主元只有一个,为2
    计算xTAx,得
    [x1x2][26618][x1x2]=2x21+12x1x2+18x22

    这样我们得到了一个关于x1,x2的函数f(x1,x2)=2x21+12x1x2+18x22,这个函数不再是线性的,在本例中这是一个纯二次型(quadratic)函数,它没有线性部分、一次部分或更高次部分(Ax是线性的,但引入xT后就成为了二次型)。
    当?取18时,判定1、2、3都是

00

  • 2)我们可以先看“”的样子,令?=7,矩阵为A=[2667],二阶顺序主子式变为22,显然矩阵不是正定的,此时的函数为f(x1,x2)=2x21+12x1x2+7x22,如果取x1=1,x2=1则有f(1,1)=212+7<0

几何意义: 如果我们把z=2x2+12xy+7y2放在直角坐标系中,图像过原点z(0,0)=0,当y=0x=0x=y时函数为开口向上的抛物线,所以函数图像在某些方向上是正值;而在某些方向上是负值,比如x=y,所以函数图像是一个马鞍面(saddle),(0,0,0)点称为鞍点(saddle point),它在某些方向上是极大值点,而在另一些方向上是极小值点。(实际上函数图像的最佳观测方向是沿着特征向量的方向。)

  • 3)再来看一下“”的情形,令?=20,矩阵为A=[26620],行列式为detA=4,迹为trace(A)=22,特征向量均大于零,矩阵可以通过测试。此时的函数为f(x1,x2)=2x21+12x1x2+20x22,函数在除(0,0)外处处为正。

几何意义:我们来看看z=2x2+12xy+20y2的图像,式子的平方项均非负,所以需要两个平方项之和大于中间项即可,该函数的图像为抛物面(paraboloid)。在(0,0)点函数的一阶偏导数均为零,二阶偏导数均为正(马鞍面的一阶偏导数也为零,但二阶偏导数并不均为正,所以),函数在该点取极小值。

在微积分中,一元函数取极小值需要:

  • 一阶导数为零且二阶导数为正dudx=0,d2udx2>0

  • 在线性代数中我们遇到了了多元函数f(x1,x2,,xn),要取极小值需要二阶偏导数矩阵为正定矩阵

在本例中(即二阶情形),如果能用平方和的形式来表示函数,则很容易看出函数是否恒为正,f(x,y)=2x2+12xy+20y2=2(x+3y)2+2y2。另外,如果是上面的?=7的情形,则有f(x,y)=2(x+3y)211y2,如果是?=18的情形,则有f(x,y)=2(x+3y)2

如果令z=1,相当于使用z=1平面截取该函数图像,将得到一个椭圆曲线。另外,如果在?=7的马鞍面上截取曲线将得到一对双曲线。

再来看这个矩阵的消元,[26620]=[1301][2062],这就是A=LU,可以发现矩阵L中的项与配平方中未知数的系数有关,而主元则与两个平方项外的系数有关,这也就是为什么正数主元得到正定矩阵。

上面又提到二阶导数矩阵,对于二元函数取极小值需要(与一元函数类似):

  • 一阶偏导为0;

  • 对于二阶导数,这个矩阵型为[fxxfyxfxyfyy],显然,矩阵中的主对角线元素(纯二阶导数)必须为正,并且主对角线元素必须足够大来抵消混合导数的影响。同时还可以看出,因为二阶导数的求导次序并不影响结果,所以矩阵必须是对称的。

以此类推,现在我们就可以计算n×n阶矩阵了。

1.3 正定矩阵的拓展


接下来计算一个三阶矩阵,A=210121012,它是正定的吗?函数xTAx是多少?函数在原点去最小值吗?图像是什么样的?

  • 先来计算矩阵的顺序主子式,分别为2,3,4;再来计算主元,分别为2,32,43;计算特征值,λ1=22,λ2=2,λ3=2+2。(正定)

  • 计算xTAx=2x21+2x22+2x232x1x22x2x3

  • 图像是四维的抛物面,当我们在f(x1,x2,x3)=1处截取该面,将得到一个椭圆体。得到的图形则是一个扁的橄榄球,有一个长轴,另外两个轴相等,类似于一个矩阵有一重复的特征值,另一个不同(3 个特征值)。如果是球的话,那就是单位矩阵,所有的特征值相同。

我们将矩阵A(对称矩阵)分解为A=QΛQT,可以发现上面说到的各种元素都可以表示在这个分解的矩阵中,我们称之为(principal axis theorem),即特征向量说明主轴的方向、特征值说明主轴的长度

A=QΛQT是特征值相关章节中最重要的公式。

2. 本章总结


    • 1)特征值方法:λi>0

    • 2)行列式方法:所有顺序主子阵(leading principal submatrix)的行列式(即顺序主子式,leading principal minor)大于零;

    • 3)主元方法:矩阵消元后主元均大于零;

    • 4)新方法:xTAx>0x 是任意向量,除零向量外。
      大多数情况下使用4)来定义正定性,而用前三条来验证正定性。

  1. 最小值的判定:一阶偏导为0;二阶偏导大于0。

  2. 主轴定理:
    将矩阵A(对称矩阵)分解为A=QΛQT,可以发现上面说到的各种元素都可以表示在这个分解的矩阵中,我们称之为(principal axis theorem),即特征向量说明主轴的方向、特征值说明主轴的长度

第二十九讲:相似矩阵和若尔当形

在本讲的开始,先接着上一讲来继续说一说正定矩阵。

正定矩阵的逆矩阵有什么性质?

  • 我们将正定矩阵分解为A=SΛS1,引入其逆矩阵A1=SΛ1S1,我们知道正定矩阵的特征值均为正值,所以其逆矩阵的特征值也必为正值(即原矩阵特征值的倒数)所以,正定矩阵的逆矩阵也是正定的。

  • 如果A, B均为正定矩阵,那么A+B呢?
    我们可以从判定xT(A+B)x入手,根据条件有xTAx>0, xTBx>0,将两式相加即得到xT(A+B)x>0。所以正定矩阵之和也是正定矩阵。

  • 再来看有m×n矩阵A,则ATA(最早出现在最小二乘法)具有什么性质?
    我们在投影部分经常使用ATA,这个运算会得到一个对称矩阵,这个形式的运算用数字打比方就像是一个平方,用向量打比方就像是向量的长度平方,而对于矩阵,有ATA正定:在式子两边分别乘向量及其转置得到xTATAx,分组得到(Ax)T(Ax),相当于得到了向量Ax的长度平方,则|Ax|20。要保证模不为零,则需要Ax的零空间中仅有零向量,即A的各列线性无关(rank(A)=n)即可保证|Ax|2>0ATA正定。

  • 另外,在矩阵数值计算中,正定矩阵消元不需要进行“行交换”操作,也不必担心主元过小或为零,正定矩阵具有良好的计算性质。

接下来进入本讲的正题。

1. 相似矩阵


先列出定义:

矩阵A, B对于某矩阵M(可逆)满足B=M1AM时,称A, B互为相似矩阵。

1.对于在对角化一讲(第二十二讲)中学过的式子S1AS=ΛS是特征向量组成的矩阵),则有A相似于Λ

矩阵A 的所有相似矩阵里面,Λ是最好的,还有许多其他矩阵与A 相似。我们可以用任意的可逆矩阵M 代替S,都得到一个新的矩阵,这个新的矩阵与A 相似。那么A 与其他所有的相似矩阵的共同点是什么?

1.1两大性质

1

举个例子,A=[2112],容易通过其特征值得到相应的对角矩阵Λ=[3001],取M=[1041],则B=M1AM=[1041][2112][1041]=[21156]

我们来计算这几个矩阵的的特征值(利用迹与行列式的性质),λΛ=3, 1λA=3, 1λB=3, 1。 所以,相似矩阵有相同的特征值。

继续上面的例子,特征值为3, 1的这一族矩阵都是相似矩阵,如[3071][1073],其中最特殊的就是Λ

证明:
现在我们来证明这个性质,有Ax=λx, B=M1AM,第一个式子化为AMM1x=λx,接着两边同时左乘M1M1AMM1x=λM1x,进行适当的分组得(M1AM)M1x=λM1xBM1x=λM1xBM1=λM1x可以解读成矩阵B与向量M1x之积等于λ与向量M1x之积,也就是B的仍为λ,而特征向量变为M1x。 以上就是我们得到的一族特征值为3, 1的矩阵,它们具有相同的特征值。接下来看特征值重复时的情形。

2B=M1AMBMA

1.2当矩阵A有重复的特征值


特征值重复可能会导致特征向量短缺,来看一个例子,设λ1=λ2=4,写出具有这种特征值的矩阵中的两个[4004][4014]。其实,具有这种特征值的矩阵可以分为两族:

  • 第一族仅有一个矩阵[4004],它只与自己相似(因为M1[4004]M=4M1IM=4I=[4004],所以无论M如何取值该对角矩阵都只与自己相似);

  • 另一族就是剩下的诸如[4014]的矩阵,它们都是相似的。在这个“大家族”中,[4014]是“最好”的一个矩阵(右上角为1),称为

若尔当形在过去是线性代数的核心知识,但现在不是了(现在是下一讲的奇异值分解),因为它并不容易计算。

  • 继续上面的例子,我们在在出几个这一族的矩阵(若尔当认为它们并不是相似的,因为若尔当块大小不一样) [4014], [5113], [41704],我们总是可以构造出一个满足trace(A)=8, detA=16的矩阵,这个矩阵总是在这一个“家族”中。

2.若尔当形


再来看一个更加“糟糕”的矩阵:

矩阵0000100001000000,其特征值为四个零。很明显矩阵的秩为2,所以其零空间的维数为42=2,即该矩阵有两个特征向量。可以发现该矩阵在主对角线的上方有两个1,在对角线上每增加一个1,特征向量个个数就减少一个。

令一个例子,0000100000000010,从特征向量的数目看来这两个矩阵是相似的,其实不然。
若尔当认为第一个矩阵是由一个3×3的块与一个1×1的块组成的 0000100001000000,而第二个矩阵是由两个2×2矩阵组成的0000100000000010,这些分块被称为若尔当块。

  • 的定义型为:它只有一个重复的特征值,对角线上全是λi,下面是0,上面是1,它的对角线上都是同一个数,只有一个特征向量。

    Ji=λi1λi1λiλi

    它的对角线上只为同一个数,仅有一个特征向量。

  • J:由若尔当块构成的矩阵,特征值位于对角线上,对角线上方有若干个1,若尔当块的数量等于特征向量的个数,因为每一块对应于一个特征向量。

    J=J1J2Jd

  • :每个方阵A 都相似于一个若尔当阵J。如果方阵An 个互不相同的特征值,那么它是一个可对角化的矩阵,对应的若尔当阵就是对角阵ΛJ=Λd=n。(若尔当块的个数即为矩阵特征值的个数。)

所以每一个矩阵A都相似于一个若尔当矩阵,型为J=J1J2Jd。注意,对角线上方还有1。若尔当块的个数即为矩阵特征值的个数。

3.本章总结


  1. 正定矩阵的性质(a)A, B均为正定矩阵,那么A+BA1的情况;b)矩阵Am×n,秩为n,则ATA是否正定);
  2. 相似矩阵的2个性质和分类;
  3. 若尔当阵,若尔当矩阵,若尔当定理。

第三十讲:奇异值分解

本讲我们介绍将一个矩阵写为A=UΣVT,分解的因子分别为正交矩阵、对角矩阵、正交矩阵,与前面几讲的分解不同的是,这两个正交矩阵通常是不同的,使

1. A=UΣVT的推导


  • 在正定一讲中(第二十八讲)我们知道一个正定矩阵可以分解为A=QΛQT的形式,由于A对称性其特征向量是正交的,且其Λ矩阵中的元素皆为正,这就是正定矩阵的奇异值分解。在这种特殊的分解中,我们只需要一个正交矩阵Q就可以使等式成立。

  • 在对角化一讲中(第二十二讲),我们知道可对角化的矩阵能够分解为A=SΛST的形式,其中S的列向量由A的特征向量组成,但S并不是正交矩阵,所以这不是我们希望得到的奇异值分解。

我们先来回顾一下四个空间(Am×n 的矩阵):
这里写图片描述
这里写图片描述

接下来我们进行推导:

  • 1) Am×n 的矩阵,在行空间中找个典型变量,记为v1,然后变换到列空间的某向量,记为u1,有u1=Av1

这里写图片描述

那么这样的变换怎样合到一起,首先,这个行空间能找到一组正交基(格拉姆-施密特告诉我们以任意一组基开始,经过格拉姆-施密特正交化方法就可得到),但这组正交基经过A 变换后不一定能在列空间成为正交基,所以行空间中的正交基要找特殊的。考虑零空间,这些零空间体现在对角矩阵Σ中是0

Av变换过程中,我希望转换得到的正交单位向量,所以u1,u2..是单位正交基,同时v1,v2..也是单位正交基,Av1 等于u1 的一个倍数(可以理解为:在奇异值分解中,要找的是行空间的一组正交基,然后变换成列空间的一组正交基。现在要做的是,在A的列空间中找到一组特殊的正交基v1,v2,,vr,这组基在A的作用下可以转换为A的行空间中的一组正交基u1,u2,,ur)。这种转换关系写成矩阵形式就是:

A[v1 v2  vr]=[σ1u1 σ2u2  σrur]=[u1 u2  ur]σ1σ2σr(1)

Av1=σ1u1, Av2=σ2u2,,Avr=σrur,这些σ是缩放因子,表示在转换过程中有拉伸或压缩。而A的左零空间和零空间将体现在σ的零值中。

我们是想找:AV=UΣ,(对于正定矩阵,这里是AQ=QΣ)但是发现A,我们要找到对任意A都成立的一般形式。

  • 2)如果A 存在零空间,那么行空间是r 维,零空间是nr 维,我们同样可以取一组正交基。如果基零空间的向量为vr+1,...,vn,那么Avr+1 将得到零向量,得到对角阵Σ对角线下方有一些0。需要把整个Rn 空间的标准正交基完善成整个Rm 空间的标准正交基,Σ0

因此算上左零、零空间,我们同样可以对左零、零空间取标准正交基,然后可以把(1)写为:

A[v1 v2  vr vr+1  vm]=[u1 u2  ur ur+1  un]σ1σr[0](2)

  • v1, , vr是行空间的标准正交基;

  • u1, , ur是列空间的标准正交基;

  • vr+1, , vn是零空间的标准正交基;

  • ur+1, , um是左零空间的标准正交基。

Um×mΣm×nVTn×n

最终可以写为AV=UΣ,可以看出这十分类似对角化的公式,矩阵A被转化为对角矩阵Σ,我们也注意到U, V是两组不同的正交基。(在正定的情况下,U, V都变成了Q。)。进一步可以写作A=UΣV1,因为V是标准正交矩阵所以可以写为A=UΣVT

2.求解UV


  • VATA=VΣTUTUΣVT=VΣ2VT,得到的形式即:ATA=QΛQT,因此ATA 是一个正定矩阵,它的特征向量标准正交组成Q,特征值是σ2组成Λ。注意σAv=σu的伸缩因子,σ2ATA的特征值。σσ2 的正平方根。

  • UAAT=UΣVTVΣTUT=UΣ2UT,同样,形式即:AAT=QΛQT,因此AAT是一个正定矩阵,它的特征向量标准正交组成Q,特征值是σ2 组成Λ。注意σAv=σu 的伸缩因子,σ2
    AAT 的特征值。

因此,AATATA 是特征值相同,特征向量不同的相似矩阵。

3.奇异值分解


奇异值分解的定义:
在线性代数的四个子空间中选出合适的基,v1vr是行空间的标准正交基,用零空间的标准正交基vr+1vn 补充完整,u1ur是列空间的标准正交基,用左零空间的标准正交基ur+1um补充完整。A 乘以每一个v 对应一个u的方向,Avi=σiui,可将矩阵对角化A=UΣV1=UΣVT

例子1:
A=[4343],我们需要找到:

  • 行空间R2的标准正交基v1,v2
  • 列空间R2的标准正交基u1,u2
  • σ1>0,σ2>0

A=UΣVT中有两个标准正交矩阵需要求解,我们希望一次只解一个,如何先将U消去来求V
这个技巧会经常出现在长方形矩阵中:求ATA,这是一个对称正定矩阵(至少是半正定矩阵),于是有ATA=VΣTUTUΣVT,由于U是标准正交矩阵,所以UTU=I,而ΣTΣ是对角线元素为σ2的对角矩阵。
现在有ATA=Vσ1σ2σnVT,这个式子中V即是ATA的特征向量矩阵而Σ2是其特征值矩阵。

同理,我们只想求U时,用AAT消掉V即可。
我们来计算ATA=[4433][4343]=[257725],对于简单的矩阵可以直接观察得到特征向量ATA[11]=32[11], ATA[11]=18[11],化为单位向量有σ1=32, v1=1212, σ2=18, v2=1212

到目前为止,我们得到[4343]=[u?u?u?u?][320018]12121212

接下来继续求解U
AAT=UΣVTVΣTUT=UΣ2UT,求出AAT的特征向量即可得到U[4343][4433]=[320018],观察得AAT[10]=32[10], AAT[01]=18[01]

但是我们不能直接使用这一组特征向量,因为式子AV=UΣ明确告诉我们,一旦V确定下来,U也必须取能够满足该式的向量,所以此处Av2=[018]=u2σ2=[01]18,则u1=[10], u2=[01]。(这个问题在本讲的官方笔记中有详细说明。)

补充:AB的特征值与BA的特征值相同,证明来自Are the eigenvalues of AB equal to the eigenvalues of BA? (Citation needed!):
λ0vAB在特征值取λ时的的特征向量,则有Bv0,并有λBv=B(λv)=B(ABv)=(BA)Bv,所以BvBA在特征值取同一个λ时的特征向量。
再取AB的特征值λ=0,则0=detAB=detAdetB=detBA,所以λ=0也是BA的特征值,得证。

最终,我们得到[4343]=[1001][320018]12121212

例子2:
再做一个例子,A=[4836],这是个秩一矩阵,有零空间。A的行空间为[43]的倍数,A的列空间为[48]的倍数。

  • 标准化向量得 v1=[0.80.6], u1=15[12]

  • ATA=[4386][4836]=[80606045],由于A是秩一矩阵,则ATA也不满秩,所以必有特征值0,则另特征值一个由迹可知为125

  • 继续求零空间的特征向量,有v2=[0.60,8], u1=15[21]

最终得到[4836]=[1221][125000][0.80.60.60.8],其中下划线部分都是与零空间相关的部分。

  • v1, , vr是行空间的标准正交基;
  • u1, , ur是列空间的标准正交基;
  • vr+1, , vn是零空间的标准正交基;
  • ur+1, , um是左零空间的标准正交基。

通过将矩阵写为Avi=σiui形式,将矩阵对角化,向量u, v之间没有耦合,A乘以每个v都能得到一个相应的u

4.本章总结


1.

奇异值分解的定义:
在线性代数的四个子空间中选出合适的基,v1vr是行空间的标准正交基,用零空间的标准正交基vr+1vn 补充完整,u1ur是列空间的标准正交基,用左零空间的标准正交基ur+1um补充完整。A 乘以每一个v 对应一个u的方向,Avi=σiui,可将矩阵对角化A=UΣV1=UΣVT

2.

A[v1 v2  vr vr+1  vm]=[u1 u2  ur ur+1  un]σ1σr[0](2)

  • v1, , vr是行空间的标准正交基;

  • u1, , ur是列空间的标准正交基;

  • vr+1, , vn是零空间的标准正交基;

  • ur+1, , um是左零空间的标准正交基。
    Um×mΣm×nVTn×n

  1. 奇异值分解中VU的求解:
  • VATA=VΣTUTUΣVT=VΣ2VT,得到的形式即:ATA=QΛQT,因此ATA 是一个正定矩阵,它的特征向量标准正交组成Q,特征值是σ2组成Λ。注意σAv=σu的伸缩因子,σ2ATA的特征值。σσ2 的正平方根。

  • UAAT=UΣVTVΣTUT=UΣ2UT,同样,形式即:AAT=QΛQT,因此AAT是一个正定矩阵,它的特征向量标准正交组成Q,特征值是σ2 组成Λ。注意σAv=σu 的伸缩因子,σ2AAT 的特征值。

因此,AATATA 是特征值相同,特征向量不同的相似矩阵。

0 0
原创粉丝点击