现在我们开始实质性的计算,它非常简单并且在随后的几篇文章里都会用到。特征向量对角化一个矩阵:
3、假设n×n矩阵有n个线性无关的特征向量,如果这些向量是矩阵S的列,那么S−1AS是一个对角矩阵Λ,A的特征值在Λ的对角线上:
S−1AS=Λ=⎡⎣⎢⎢⎢⎢⎢λ1λ2⋱λn⎤⎦⎥⎥⎥⎥⎥(1)
我们将S称作特征向量矩阵,Λ是特征值矩阵——这里使用大写的表示,因为小写的表示对角线上的特征值。
证明:将特征向量xi放在S的列上,按列计算AS的:
AS=A⎡⎣⎢|x1||x2|⋯|xn|⎤⎦⎥⎡⎣⎢|λ1x1||λ2x2|⋯|λnxn|⎤⎦⎥
然后技巧就是将最后一个矩阵分成两个矩阵的乘积SΛ:
⎡⎣⎢λ1x1λ2x2⋯λnxn⎤⎦⎥=⎡⎣⎢x1x2⋯xn⎤⎦⎥⎡⎣⎢⎢⎢⎢⎢λ1λ2⋱λn⎤⎦⎥⎥⎥⎥⎥
这里关键的一点是矩阵要写在右侧,如果Λ写在S前面,那么λ1将和第一行进行乘积,但我们想λ1出现在第一列,鉴于此,SΛ是正确的,所以
AS=SΛ,orS−1AS=Λ,orA=SΛS−1(2)
其中S是可逆的,因为假设它的列(特征向量)是无关的。
在给出实例和应用之前,我们给出四点说明。
注解1:如果矩阵A没有虫多特征值-λ1,…,λn是不同的,那么它的n个特征值自然是无关的,因此任何特征值不同的矩阵可以被对角化。
注解2:对角化矩阵S不是唯一的。因为特征向量x 乘以一个常数后依然是特征向量,于是用任何非零常数乘以S的列的到一个新的对角化矩阵S,多重特征值有更大的自由度。对于平凡的例子A=I,任何可逆矩阵S都能是S−1IS是对角矩阵(λ就是I),所有向量就是单位矩阵的特征向量。
注解3:其他矩阵S不会得出对角矩阵Λ。假设S的第一列是y,那么SΛ的第一列是λ1y,如果它和AS 的第一列相同,根据矩阵乘法它的第一列是Ay,那么y一定是特征向量,Ay=λ1y。S中特征向量的顺序和Λ中特征值的顺序自然是一样的。
注解4:并非所有的矩阵都有n个线性无关的特征向量,所以并非所有的矩阵都可以对角化。考虑病态矩阵的一个标准例子
A=[0010]
特的特征值是λ1=λ2=0,因为它是三角矩阵,并且对角元素为零:
det(A−λI)=det[−λ01−λ]=λ2
A的所有特征向量是向量(1,0)的倍数:
[0010]x=[00],orx=[c0]
λ=0是二重特征值——它的代数重数是2,但是几何重数是1——只有一个无关的特征向量,所以我们不能构建S。
对于A不能对角化,这里还有一个更直接的证明。因为λ1=λ2=0,Λ肯定是一个零矩阵,但是如果S−1AS=0,那么我们左乘S,右乘S−1,便得到A=0。但是A不等于0,所以S不可逆。
无法对角化的原因不是因为λ=0,而是λ1=λ2:
A=[3013]andA=[21−10]
他们的特征值是3,3和1,1,但是是奇异的!问题在于特征向量不完备,这里再强调一下:
A的对角化依赖于充分的特征向量。
A的逆依赖于非零特征值。
对角化和逆没有联系,由特征值给出的唯一信息是:只有在特征值重复的时候,对角化才会失败。但是不总是会失败,A=I的特征值就是重复的1,1,…,1,但是它已经是对角矩阵!这时候特征向量是完备的。
在特征值出现p次重复的时候,需要检验是否有p个无关的特征向量——也就是说,检验A−λI的秩为n−p,为了完成所有的想法,我们必须说明特征值不同的情况。
4、如果特征向量x1,…,xk对应不同的特征值λ1,…,λk,那么这些特征向量就是线性无关的。
首先假设k=2,并且x1,x2的组合是零:c1x1+c2x2=0,用A进行相乘,可以得到c1λ1x1+c2λ2x2=0,用此方程减去前面方程的λ2倍,可以消去向量x2:
c1(λ1−λ2)x1=0
因为λ1≠λ2并且x1≠0,我们得出c1=0,同样我们可以得到c2=0,所以两个向量是无关的;因为只有平凡组合才能得出零。
这个论证可以扩展到任意个特征向量的情况:如果某个组合产生零,那么用A 去乘然后减去原组合的λk倍,xk消失了,只留下x1,…,xk−1为零的组合。重复相同的步骤(这就是数学归纳法),最终我们会得到x1的倍数等于零,所以c1=0,从而每个ci=0,于是来自不同特征值的特征向量自然线性无关。
有n个不同特征值的矩阵可以被对角化,下面给出一个典型的例子。
对角化实例
这部分主要是S−1AS=A,特征向量矩阵S将A变成特征值矩阵Λ(对角的),现在我们来看一下投影和旋转矩阵。
例1:投影矩阵
⎡⎣⎢⎢12121212⎤⎦⎥⎥
特征值矩阵为
Λ=[1000]
将特征向量放入S的列中得:
S=[111−1]andAS=SΛ=[1100]
因此S−1AS=Λ。
例2:对于旋转而言,特征值不是很明显:
90∘旋转K=[01−10]
可以得出det(K−λI)=λ2+1。一个向量旋转后怎样才会保持方向不变呢?很显然,除了零向量外(然而它是没用的)不可能有向量如此,但是必须由特征值,我们必须求解du/dt=Ku,特征多项式λ2+1依然有两个根—— 但是这些根不是实值而已。
基于上面的提示,我们找到了出路,K的特征值是虚数,λ1=i,λ2=−i,从而看出特征值可以是非实的。这似乎很神奇,旋转九十度后他们乘以i或者−i:
(K−λ1I)x1=[−i1−1−i][yz]=[00]andx1=[1−i](K−λ2I)x2=[i1−1i][yz]=[00]andx1=[1i]
即便特征值是虚数,但他们是不同的并且特征值是无关的。将他们放到S中:
S=[1−i1i]andS−1KS=[i00−i]
我们面临着一个不可避免的事实,即使是实数矩阵,依然需要复数。如果实特征值很少,那么总是存在n个复特征值。(当虚部为零时,复数包括实数)如果R3,Rn中实特征向量很少时,我们就考虑C3,Cn,Cn空间包含有复元素的所有列向量并且长度,内积与正交有新的定义,但是确比Rn简单。
幂和乘 :Ak,AB
这里将解一个计算比较简单的情况。A2的特征值是λ21,…,λ2n,并且A的特征向量也是A2的特征向量,我们先从Ax=λx 开始,然后乘以A:
A2x=Aλx=λAx=λ2x(3)
因此λ2是A2的特征值,并且有相同的特征向量x。如果第一次乘以A后留下的x方向未变,那么第二次同样如此。
利用对角化可以得到相同的结论,将S−1AS=Λ平方:
(S−1AS)(S−1AS)=Λ2orS−1A2S=Λ2
矩阵A2被相同的S对角化,所以特征向量不变。特征值是原来的进行平方,这个结论对任意A的幂次都成立:
5、Ak的特征值是λk1,…,λkn并且A的每个特征向量依然是Ak的特征向量。当S对角化A时,它也对角化Ak:
λk=(S−1AS)(S−1AS)⋯(S−1AS)=S−1AkS(4)
除了第一个S−1和最后一个S外,每一个S−1都消掉一个S。
如果A是可逆的,这个规则也可以应用到它的逆上(幂k=−1),A−1的特征值是1/λi,这个结果即使未对角化也能看出来:
如果Ax=λx那么x=λA−1x并且1λx=A−1x
例3:如果K表示旋转90∘,那么K2 表示旋转180∘(也就是−I)并且K−1 表示旋转−90∘:
K=[01−10],K2=[−100−1],K−1=[0−110]
K的特征值是i,−i;他们的平方是-1和-1;他们的倒数是1/i=−i,1/(−i)=i,那么K4就是旋转360∘:
K4=[1001],Λ4=[i400(−i)4]=[1001]
对于两个矩阵的乘积,我们可能希望它与AB的特征值有关—— 但是事与愿违,尝试用同样的推理似乎非常诱人,可是一般情况下这不是真的。如果λ 是A的特征值,μ是B 的特征值,这里给出一个AB等于μλ的错误证明:
ABx=Aμx=μAx=μλx
错误的原因在于认为A,B有相同的特征向量x,一般情况下,他们是不相等的,这里我们给出两个特征值为0的矩阵:
AB=[0010][0100]=[1000]
A,B的特征向量完全不同。同理,A+B的特征值和λ+μ也没有关系。
上面错误的表明了哪些是对的,如果A,B的特征向量一样,那么特征值就是他们的乘积μλ。但是还有更重要的,这提供了一种识别A,B是否共享同一特征向量集合的方法,这在量子力学中是非常关键的问题。
6、当且仅当AB=BA时,对角化矩阵有相同的特征向量矩阵S。
证明:如果同样的S对角化得A=SΛ1S−1,B=SΛ2S−1,那么我们用两种顺序相乘得:
AB=SΛ1S−1SΛ2S−1=SΛ1Λ2S−1, BA=SΛ2S−1SΛ1S−1=SΛ2Λ1S−1
因为Λ1Λ2=Λ2Λ1(对角矩阵满足交换律),所以我们有AB=BA。
反过来,假设AB=BA,从Ax=λx开始,我们有
ABx=BAx=Bλx=λBx
所以x,Bx都是A的特征向量,他们共享λ。为了方便如果我们假设A的特征值是不同的——特征空间总是一维的——那么Bx肯定是x的倍数,换句或说x是B,A的特征向量。对于有相同特征值得证明有点长,这里从略。
海森伯格不确定性原则来非交换矩阵,像位置P和动量Q。 位置是对称的,动量是斜对称的并且他们都满足QP−PQ=I,不确定性原则直接来此施瓦兹不等式(Qx)T(Px)≤∥Qx∥∥Px∥:
∥x∥2=xTx=xT(QP−PQ)x≤2∥Qx∥∥Px∥
∥Qx∥/∥x∥与∥Px∥/∥x∥的乘积——动量和位置误差(当波函数是x时)——最小是12,我们无法让两者误差都变小,因为当我们试着度量粒子的位置时我们已经改变了它的动量。
最后我们回到A=SΛS−1,这个分解非常适合取A 的幂,我们用最简单的例子A2进行说明,在平方的情况下LU分解完全没办法,但是SΛS−1确非常完美,它的平方是SΛ2S−1并且特征向量不变。利用这些特征向量,我们将解决微分方程与差分方程。