MIT 线性代数(19—21)读书笔记

来源:互联网 发布:万博宣伟 知乎 编辑:程序博客网 时间:2024/06/17 23:50

第十九讲 行列式公式和代数余子式


1.行列式公式

上一讲中,我们从三个简单的性质扩展出了一些很好的推论,本讲将继续使用这三条基本性质:

  1. detI=1
  2. 交换行行列式变号;
  3. 对行列式的每一行都可以单独使用线性运算,其值不变。

我们使用这三条性质推导二阶方阵行列式:

acbd=ac0d+0cbd=ac00+a00d+0cb0+00bd=adbc

按照这个方法,我们继续计算三阶方阵的行列式,可以想到,我们保持第二、三行不变,将第一行拆分为个行列式之和,再将每一部分的第二行拆分为三部分,这样就得到九个行列式,再接着拆分这九个行列式的第三行,最终得到二十七个行列式。可以想象到,这些矩阵中有很多值为零的行列式,我们只需要找到不为零的行列式,求和即可。

a11a21a31a12a22a32a13a23a33=a11000a22000a33+a110000a320a230+0a210a120000a33+00a31a12000a230+0a21000a32a1300+00a310a220a1300
=a11a22a33a11a23a32a12a21a33+a12a23a31+a13a21a32a13a22a31(1)

同理,我们想继续推导出阶数更高的式子,按照上面的式子可知n阶行列式应该可以分解成n!个非零行列式(占据第一行的元素有n种选择,占据第二行的元素有n1种选择,以此类推得n!):

detA=n!±a1αa2βa3γanω,(α,β,γ,ω)=Pnn(2)

这个公式还不完全,接下来需要考虑如何确定符号:

001¯101¯101¯1001001¯

如上图矩阵所示:

  • 观察带有下划线的元素,它们的排列是(4,3,2,1),变为(1,2,3,4)需要两步操作,所以应取+正;
  • 观察带有上划线的元素,它们的排列是(3,2,1,4),变为(1,2,3,4)需要一步操作,所以应取负。
  • 观察其他元素,我们无法找出除了上面两种以外的排列方式,于是该行列式值为零,这是一个奇异矩阵。

可以是:用逆序数判断,即我们把全排列的顺序写出来,比如第一行我们选了第2列,第二行选第3列,第三行选第1列,那么序列就是231,逆序数就是从左到右遍历每一个数,统计右侧有几个数比自己小,这里231,2之后有一个,3之后也有一个,共二个,称此为偶排列,奇数次则为奇排列。偶排列时取正号,奇排列取负,原理在于对一个排列做一次交换后奇排列变偶排列,偶排列变奇排列,而123456…n是偶排列,必须为加。

2.代数余子式 cofactors


此处引入代数余子式(cofactor)的概念,它的作用是把n阶行列式化简为n1阶行列式。

于是我们把(1)式改写为:

a11(a22a33a23a32)+a12(a21a33a23a31)+a13(a21a32a22a31)
a11000a22a320a23a33+0a21a31a12000a23a33+0a21a310a22a32a1300

于是,我们可以定义aij的代数余子式:将原行列式的第i行与第j列抹去后得到的n1阶行列式记为Ciji+j+i+j

现在再来完善式子(2):将行列式A沿第一行展开:

detA=a11C11+a12C12++a1nC1n

到现在为止,我们了解了

  1. detA
  2. 使(2)n!
  3. 使

对于矩阵行列式的计算,消元的得到主元是一个很好的方法,与之相比行列式的展开公式较为复杂,而代数余子式的方法介于两者之间,它的核心想法是通过降阶来将原来的行列式展开成更简单的行列式。

计算例题: A4=1100111001110011=沿110111011100111011=10=1

可观察出周期为6:
这里写图片描述

3.总结


1.行列式展开的正负号;
2.计算行列式的三种方法;
3.代数余子式求解时的正负号。


第二十讲:克拉默法则、逆矩阵、体积

本讲主要介绍逆矩阵的应用。

1.求逆矩阵

我们从逆矩阵开始,对于二阶矩阵有[acbd]1=1adbc[dcba]。观察易得,系数项就是行列式的倒数,而矩阵则是由一系列代数余子式组成的。先给出公式:

A1=1detACT(1)

:
1. 矩阵外因子的分母是矩阵的行列式的值,而矩阵是“代数余子式矩阵”(cofactor matrix)C的转置,常被称为””.
2. 逆矩阵公式的一个好处就是,我们从中可以看到,当改变原矩阵中的一个元素时,给逆矩阵带来了怎样的变化。

证明:
观察这个公式是如何运作的,化简公式得ACT=(detA)I,写成矩阵形式有a11an1a12an2a1nannC11C12C1nCn1Cn2Cnn=Res
对于这两个矩阵的乘积,观察其结果的元素Res11=a11C11+a12C12++a1nC1n,这正是上一讲提到的将行列式按第一行展开的结果。同理,对Res22,,Resnn都有Resii=detA,即对角线元素均为detA
再来看非对角线元素:回顾二阶的情况,如果用第一行乘以第二行的代数余子式a11C21+a12C22,得到a(b)+ab=0。换一种角度看问题,a(b)+ab=0也是一个矩阵的行列式值,即As=[aabb]。将detAs按第二行展开,也会得到detAs=a(b)+ab,因为行列式有两行相等所以行列式值为零。
推广到n阶,我们来看元素Res1n=a11Cn1+a12Cn2++a1nCnn,该元素是第一行与最后一行的代数余子式相乘之积。这个式子也可以写成一个特殊矩阵的行列式,即矩阵As=a11a21ana1a11a12a22an12a12a1na2nan1na1n。计算此矩阵的行列式,将detAs按最后一行展开,也得到detAs=a11Cn1+a12Cn2++a1nCnn。同理,行列式As有两行相等,其值为零。
结合对角线元素与非对角线元素的结果,我们得到Res=detA000detA000detA,也就是(1)等式右边的(detA)I,得证。

2.求解Ax=b


因为我们现在有了逆矩阵的计算公式,所以对Ax=bx=A1b=1detACTb,这就是计算x的公式,即克莱默法则(Cramer’s rule)。即

:
1. 定义:对于可逆矩阵A,方程Ax=b必然有解x=A1b,将逆矩阵公式代入有:
x=1detACTb
2. 克莱默法则从另外一个角度来看,实际上x的分量为:
xi=detBidetA
其中矩阵Bi是向量b替代矩阵A的第j列所得到的新矩阵。

对2进行解析:

现在来观察x=1detACTb,我们将得到的解拆分开来,对x的第一个分量有x1=y1detA,这里y1是一个数字,其值为y1=b1C11+b2C21++bnCn1,每当我们看到数字与代数余子式乘之积求和时,都应该联想到求行列式,也就是说y1可以看做是一个矩阵的行列式,我们设这个矩阵为B1。所以有xi=detB1detA,同理有x2=detB2detAx3=detB3detA
B1是一个型为[ba2a3an]的矩阵,即将矩阵A的第一列变为b向量而得到的新矩阵。其实很容易看出,detB1可以沿第一列展开得到y1=b1C11+b2C21++bnCn1
一般的,有Bj=[a1a2aj1baj+1an],即将矩阵A的第j列变为b向量而得到的新矩阵。所以,对于解的分量有xi=detBidetA

这个公式虽然很漂亮,但是并不方便计算。因为
这里写图片描述
detB1=b1C11+b2C21++bnCn1使列向量CTb的第一个分量,也对应为列向量x的第一个分量。
矩阵Bj的行列式的数值是伴随矩阵CT的第j行与向量b点积的结果。此处我们用到了行列式的性质10。相比于消元法,采用克莱姆法则计算方程的解效率较低。所以克莱姆法则计算量太大,不适合编程,消元法可以很好的解决问题,matlab就是用消元法来求解的。

3.行列式的几何意义——体积(Volume)


三阶矩阵A 行列式的绝对值等于以矩阵A 行(列)向量为边所构成的平行六面体的体积。行列式的正负对应左手系和右手系。之前提到过行列式是将矩阵的信息压缩成一个数,可以将“体积”视为它压缩后给出的信息。

  1. 先提出命题:行列式的绝对值等于一个箱子的体积。
    来看三维空间中的情形,对于3阶方阵A,取第一行(a1,a2,a3),令其为三维空间中点A1的坐标,同理有点A2,A3。连接这三个点与原点可以得到三条边,使用这三条边展开得到一个平行六面体,detA就是该平行六面体的体积。

  2. 对于三阶单位矩阵,其体积为detI=1,此时这个箱子是一个单位立方体。这其实也证明了前面学过的行列式性质1。

  3. 于是我们想,如果能接着证明性质2、3即可证明体积与行列式的关系。
    对于行列式性质2,我们交换两行并不会改变箱子的大小,同时行列式的绝对值也没有改变,得证。
    1) 现在我们取矩阵A=Q,而Q是一个标准正交矩阵,此时这个箱子是一个立方体,可以看出其实这个箱子就是刚才的单位立方体经过旋转得到的。对于标准正交矩阵,有QTQ=I,等式两边取行列式得det(QTQ)=1=QT|Q|,而根据行列式性质10有QT=|Q|,所以=|Q|2=1,|Q|=±1
    2) 接下来在考虑不再是“单位”的立方体,即长方体。 假设Q矩阵的第一行翻倍得到新矩阵Q2,此时箱子变为在第一行方向上增加一倍的长方体箱子,也就是两个“标准正交箱子”在第一行方向上的堆叠。易知这个长方体箱子是原来体积的两倍,而根据行列式性质3.a有detQ2=detQ,于是体积也符合行列式的数乘性质。

二阶行列式是平行四边形的面积 。

  1. 我们来看二阶方阵的情形,a+acb+bd=acbd+acbd。在二阶情况中,行列式就是一个求平行四边形面积的公式,原来我们求由四个点(0,0),(a,b),(c,d),(a+c,b+d)围成的四边形的面积,需要先求四边形的底边长,再做高求解,现在只需要计算detA=adbc即可(更加常用的是求由(0,0),(a,b),(c,d)围成的三角形的面积,即12adbc)。
    2.这里写图片描述
    这里写图片描述

即:如果知道了歪箱子的顶点坐标,求面积(二阶情形)或体积(三阶情形)时,我们不再需要开方、求角度,只需要计算行列式的值就行了。

再多说两句我们通过好几讲得到的这个公式,在一般情形下,由点(x1,y1),(x2,y2),(x3,y3)围成的三角形面积等于12x1x2x3y1y2y3111,计算时分别用第二行、第三行减去第一行化简到第三列只有一个1(这个操作实际作用是将三角形移动到原点),得到12x1x2x1x3x1y1y2y1y3y1100,再按照第三列展开,得到三角形面积等于(x2x1)(y3y1)(x3x1)(y2y1)2

4.总结


1.矩阵的逆A1=1detACT

2.

:
1. 定义:对于可逆矩阵A,方程Ax=b必然有解x=A1b,将逆矩阵公式代入有:
x=1detACTb
2. 克莱默法则从另外一个角度来看,实际上x的分量为:
xi=detBidetA
其中矩阵Bi是向量b替代矩阵A的第j列所得到的新矩阵。

3.行列式的几何意义:2维为平行四边形面积,3维为立方体的面积。


第二十一讲:特征值和特征向量


1.特征值、特征向量的由来

给定矩阵A,矩阵A乘以向量x,就像是使用矩阵A作用在向量x上,最后得到新的向量Ax。在这里,矩阵A就像是一个函数,接受一个向量x作为输入,给出向量Ax作为输出。

在这一过程中,我们对一些特殊的向量很感兴趣,他们在输入(x)输出(Ax)的过程中始终保持同一个方向,这是比较特殊的,因为在大多情况下,Axx指向不同的方向。

在这种特殊的情况下,Ax平行于x,我们把满足这个条件的x成为(Eigen vector),而λA 。这个平行条件用方程表示就是:

Ax=λx(1)

  • 对这个式子,我们试着计算特征值为0的特征向量,此时有Ax=0,也就是特征值为0的特征向量应该位于A的零空间中。

λ=0

  • 我们再来看投影矩阵P=A(ATA)1AT的特征值和特征向量。
    这里写图片描述

    1. 用向量b乘以投影矩阵P得到投影向量Pb,在这个过程中,只有当b已经处于投影平面(即A的列空间)中时,Pbb才是同向的,此时b投影前后不变(Pb=1b)。即在投影平面中的所有向量都是投影矩阵的特征向量,而他们的特征值均为1

    2. 再来观察投影平面的法向量,也就是投影一讲中的e向量。我们知道对于投影,因为eC(A),所以Pe=0e,即特征向量e的特征值为0

P=A(ATA)1ATλ=1,0

  • 再多讲一个例子,二阶置换矩阵A=[0110],经过这个矩阵处理的向量,其元素会互相交换。即:交换向量[x1x2]变为[x2x1]的,即[x1x2]A=[x2x1]x1,x2为列向量,A为列向量线性组合的系数。交换后的[x2x1]是初始向量[x1x2]与一个因子的乘积。

    那么特征值为1的特征向量(即经过矩阵交换元素前后仍然不变)应该型为[11]

    特征值为1的特征向量(即经过矩阵交换元素前后方向相反)应该型为[11]

从例三可得出特征值的性质
1.对于一个n×n的矩阵,将会有n个特征值,而这些特征值的和与该矩阵对角线元素的和相同,因此我们把矩阵对角线元素称为矩阵的迹(trace)。

i=1nλi=i=1naii

2.对称矩阵,其特征向量互相垂直

1,1

在上面二阶转置矩阵的例子中,如果我们求得了一个特征值1,那么利用迹的性质,我们就可以直接推出另一个特征值是1

2
对称矩阵的特征向量正交:λ1λ2对是对称矩阵A=AT的两个不同的特征值,对应的特征向量分别为x1x2 。则有Ax1=λx1,左乘x2xT2Ax1=λ1xT2x1。而又有
xT2Ax1=xT2ATx1=(Ax2)Tx1=(λ2x2)Tx1=λ2xT2x1。因此有(λ1λ2)xT2x1=0,而两特征值不等,所以两特征向量正交。

2.求解Ax=λx


对于方程Ax=λx,有两个未知数,我们需要利用一些技巧从这一个方程中一次解出两个未知数,先移项得(AλI)x=0

观察(AλI)x=0,右边的矩阵相当于将A矩阵平移了λ个单位,而如果方程有解,则这个平移后的矩阵(AλI)一定是奇异矩阵,否则唯一的x必须为零向量,零向量是没有用的特征向量。

det(AλI)=0(2)

这样一来,方程中就没有x了,这个方程也叫作特征方程(characteristic equation)。有了特征值,代回(AλI)x=0,继续求(AλI)的零空间即可。

2.1 例1


现在计算一个简单的例子,A=[3113]

则计算det(AλI)=3λ113λ,也就是对角矩阵平移再取行列式。原式继续化简得(3λ)21=λ26λ+8=0,λ1=4,λ2=2。可以看到一次项系数6与矩阵的迹有关,常数项与矩阵的行列式有关。

继续计算特征向量,A4I=[1111],显然矩阵是奇异的(如果是非奇异说明特征值计算有误),解出矩阵的零空间x1=[11];同理计算另一个特征向量,A2I=[1111],解出矩阵的零空间x2=[11]

回顾前面转置矩阵的例子,对矩阵A=[0110]λ1=1,x1=[11],λ2=1,x2=[11]

看转置矩阵A与本例中的对称矩阵A有什么联系。

易得A=A+3I,两个矩阵特征值相同,而其特征值刚好相差3。也就是如果给一个矩阵加上3I,则它的特征值会加3,而特征向量不变。

所以可以得出结论:
1. 如果Ax=λx,则(A+3I)x=λx+3x=(λ+3)x,所以x还是原来的x,而λ变为λ+3
2. 特征值之和等于矩阵的迹;特征值之积等于矩阵的行列式。

i=1nλi=detA

3. 关于特征向量认识的误区:已知Ax=λx,Bx=αx,则有(A+B)x=(λ+α)x,当B=3I时,在上例中我们看到,确实成立,但是如果B为任意矩阵,则推论不成立,因为这两个式子中的特征向量x并不一定相同,所以两个式子的通常情况是Ax=λx,By=αy,它们也就无从相加了。

证明2:
在例1中有:det(A)=λ26λ+8=λ2trace(A)λ+det(A) 矩阵的迹等于特征值之和。
detAλI=0展开会得到λn阶多项式,多项式的解就是矩阵A的特征值。 根据多项式根与系数的关系,解之和(即特征值之和)等于λn1的系数。举例一元二次方程ax2+bx+c之求根公式是x1,2=b±b24ac2a,解之和x1+x2=ba,其中a=1,所以解之和为b
而行列式展开式(n阶多项式)中只有对角线的积这一项包含的λn1(其它项最高是n2 次方),而其系数为矩阵A 的迹。因此特征值之和与矩阵的迹相等。

2.2例2


再来看旋转矩阵的例子,旋转90的矩阵Q=[cos90sin90sin90cos90]=[0110](将每个向量旋转90,用Q表示因为旋转矩阵是正交矩阵中很重要的例子)。

根据上面提到特征值的一个性质:特征值之和等于矩阵的迹和特征值之积等于矩阵的行列式。则对于Q矩阵,有{λ1+λ2λ1λ2=0=1,再来思考特征值与特征向量的由来,哪些向量旋转90后与自己平行,于是遇到了麻烦,并没有这种向量,也没有这样的特征值来满足前面的方程组。

我们来按部就班的计算,det(QλI)=λ11λ=λ2+1=0,于是特征值为λ1=i,λ2=i,我们看到这两个值满足迹与行列式的方程组,即使矩阵全是实数,其特征值也可能不是实数,本例中即出现了一对共轭负数。

我们可以说:
1.如果矩阵越接近对称,那么特征值就是实数。如果矩阵越不对称,就像本例,QT=Q,这是一个反对称的矩阵,于是我得到了纯虚的特征值,这是极端情况,通常我们见到的矩阵是介于对称与反对称之间的。
2.实数特征值让特征向量伸缩而虚数让其旋转。

于是我们看到,对于好的矩阵(置换矩阵)有实特征值及正交的特征向量,对于不好的矩阵(90旋转矩阵)有纯虚的特征值。

2.3例3


再来看一个更糟的情况,A=[3013],这是一个三角矩阵,我们可以直接得出其特征值,即对角线元素。来看如何得到这一结论的:det(AλI)=3λ013λ=(3λ)2=0,于是λ1=3,λ2=3。而我们说这是一个糟糕的状况,在于它的特征向量。

带入特征值计算特征向量,带入λ1=3(AλI)x=[0010][x1x2]=[00],算出一个特征值x1=[10],当我们带入第二个特征值λ1=3时,我们无法得到另一个与x1线性无关的特征向量了。

而本例中的矩阵A是一个退化矩阵(degenerate matrix)。

一个退化矩阵,重复的特征值在特殊情况下可能导致特征向量的短缺。

这一讲我们看到了足够多的“不好”的矩阵,下一讲会介绍一般情况下的特征值与特征向量。

3. 总结


1.特征向量和特征值的由来;
2.3个例子得出的结论(对称矩阵、旋转矩阵、三角矩阵的特征值与特征向量的特点)。

0 0
原创粉丝点击