漫步线性代数二十七——矩阵对角化

来源：互联网发布：firfox js隐藏div 编辑：程序博客网时间：2024/05/11 15:52

现在我们开始实质性的计算，它非常简单并且在随后的几篇文章里都会用到。特征向量对角化一个矩阵：

3、假设n×n矩阵有n个线性无关的特征向量，如果这些向量是矩阵S的列，那么S−1AS是一个对角矩阵Λ，A的特征值在Λ的对角线上：

S - 1 A S = Λ = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ λ 1 λ 2 ⋱ λ n ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ (1)

我们将S称作特征向量矩阵，Λ是特征值矩阵——这里使用大写的表示，因为小写的表示对角线上的特征值。

证明：将特征向量xi放在S的列上，按列计算AS的：

A S = A ⎡ ⎣ ⎢ | x 1 | | x 2 | \dots | x n | ⎤ ⎦ ⎥ ⎡ ⎣ ⎢ | λ 1 x 1 | | λ 2 x 2 | \dots | λ n x n | ⎤ ⎦ ⎥

然后技巧就是将最后一个矩阵分成两个矩阵的乘积SΛ：

⎡ ⎣ ⎢ λ 1 x 1 λ 2 x 2 \dots λ n x n ⎤ ⎦ ⎥ = ⎡ ⎣ ⎢ x 1 x 2 \dots x n ⎤ ⎦ ⎥ ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ λ 1 λ 2 ⋱ λ n ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥

这里关键的一点是矩阵要写在右侧，如果Λ写在S前面，那么λ1将和第一行进行乘积，但我们想λ1出现在第一列，鉴于此，SΛ是正确的，所以

A S = S Λ, o r S - 1 A S = Λ, o r A = S Λ S - 1 (2)

其中S是可逆的，因为假设它的列(特征向量)是无关的。

在给出实例和应用之前，我们给出四点说明。

注解1：如果矩阵A没有虫多特征值-λ1,…,λn是不同的，那么它的n个特征值自然是无关的，因此任何特征值不同的矩阵可以被对角化。

注解2：对角化矩阵S不是唯一的。因为特征向量x 乘以一个常数后依然是特征向量，于是用任何非零常数乘以S的列的到一个新的对角化矩阵S，多重特征值有更大的自由度。对于平凡的例子A=I，任何可逆矩阵S都能是S−1IS是对角矩阵(λ就是I)，所有向量就是单位矩阵的特征向量。

注解3：其他矩阵S不会得出对角矩阵Λ。假设S的第一列是y，那么SΛ的第一列是λ1y，如果它和AS 的第一列相同，根据矩阵乘法它的第一列是Ay，那么y一定是特征向量，Ay=λ1y。S中特征向量的顺序和Λ中特征值的顺序自然是一样的。

注解4：并非所有的矩阵都有n个线性无关的特征向量，所以并非所有的矩阵都可以对角化。考虑病态矩阵的一个标准例子

A = [0010]

特的特征值是λ1=λ2=0，因为它是三角矩阵，并且对角元素为零：

det (A - λ I) = det [- λ 0 1 - λ] = λ 2

A的所有特征向量是向量(1,0)的倍数：

[0010] x = [00], o r x = [c 0]

λ=0是二重特征值——它的代数重数是2，但是几何重数是1——只有一个无关的特征向量，所以我们不能构建S。

对于A不能对角化，这里还有一个更直接的证明。因为λ1=λ2=0，Λ肯定是一个零矩阵，但是如果S−1AS=0，那么我们左乘S，右乘S−1，便得到A=0。但是A不等于0，所以S不可逆。

无法对角化的原因不是因为λ=0，而是λ1=λ2：

A = [3013] a n d A = [21 - 1 0]

他们的特征值是3,3和1,1，但是是奇异的！问题在于特征向量不完备，这里再强调一下：

A的对角化依赖于充分的特征向量。
A的逆依赖于非零特征值。

对角化和逆没有联系，由特征值给出的唯一信息是：只有在特征值重复的时候，对角化才会失败。但是不总是会失败，A=I的特征值就是重复的1,1,…,1，但是它已经是对角矩阵！这时候特征向量是完备的。

在特征值出现p次重复的时候，需要检验是否有p个无关的特征向量——也就是说，检验A−λI的秩为n−p，为了完成所有的想法，我们必须说明特征值不同的情况。

4、如果特征向量x1,…,xk对应不同的特征值λ1,…,λk，那么这些特征向量就是线性无关的。

首先假设k=2，并且x1,x2的组合是零：c1x1+c2x2=0，用A进行相乘，可以得到c1λ1x1+c2λ2x2=0，用此方程减去前面方程的λ2倍，可以消去向量x2：

c 1 (λ 1 - λ 2) x 1 = 0

因为λ1≠λ2并且x1≠0，我们得出c1=0，同样我们可以得到c2=0，所以两个向量是无关的；因为只有平凡组合才能得出零。

这个论证可以扩展到任意个特征向量的情况：如果某个组合产生零，那么用A 去乘然后减去原组合的λk倍，xk消失了，只留下x1,…,xk−1为零的组合。重复相同的步骤(这就是数学归纳法)，最终我们会得到x1的倍数等于零，所以c1=0，从而每个ci=0，于是来自不同特征值的特征向量自然线性无关。

有n个不同特征值的矩阵可以被对角化，下面给出一个典型的例子。

对角化实例

这部分主要是S−1AS=A，特征向量矩阵S将A变成特征值矩阵Λ(对角的)，现在我们来看一下投影和旋转矩阵。

例1：投影矩阵

⎡ ⎣ ⎢ ⎢ 1 2 1 2 1 2 1 2 ⎤ ⎦ ⎥ ⎥

特征值矩阵为

Λ = [1000]

将特征向量放入S的列中得：

S = [11 1 - 1] and A S = S Λ = [1100]

因此S−1AS=Λ。

例2：对于旋转而言，特征值不是很明显：

90 \circ 旋 转 K = [01 - 1 0]

可以得出det(K−λI)=λ2+1。一个向量旋转后怎样才会保持方向不变呢？很显然，除了零向量外(然而它是没用的)不可能有向量如此，但是必须由特征值，我们必须求解du/dt=Ku，特征多项式λ2+1依然有两个根—— 但是这些根不是实值而已。

基于上面的提示，我们找到了出路，K的特征值是虚数，λ1=i,λ2=−i，从而看出特征值可以是非实的。这似乎很神奇，旋转九十度后他们乘以i或者−i：

(K - λ 1 I) x 1 = [- i 1 - 1 - i] [y z] = [00] and x 1 = [1 - i] (K - λ 2 I) x 2 = [i 1 - 1 i] [y z] = [00] and x 1 = [1 i]

即便特征值是虚数，但他们是不同的并且特征值是无关的。将他们放到S中：

S = [1 - i 1 i] and S - 1 K S = [i 0 0 - i]

我们面临着一个不可避免的事实，即使是实数矩阵，依然需要复数。如果实特征值很少，那么总是存在n个复特征值。(当虚部为零时，复数包括实数)如果R3,Rn中实特征向量很少时，我们就考虑C3,Cn，Cn空间包含有复元素的所有列向量并且长度，内积与正交有新的定义，但是确比Rn简单。

幂和乘 :Ak,AB

这里将解一个计算比较简单的情况。A2的特征值是λ21,…,λ2n，并且A的特征向量也是A2的特征向量，我们先从Ax=λx 开始，然后乘以A：

A 2 x = A λ x = λ A x = λ 2 x (3)

因此λ2是A2的特征值，并且有相同的特征向量x。如果第一次乘以A后留下的x方向未变，那么第二次同样如此。

利用对角化可以得到相同的结论，将S−1AS=Λ平方:

(S - 1 A S) (S - 1 A S) = Λ 2 o r S - 1 A 2 S = Λ 2

矩阵A2被相同的S对角化，所以特征向量不变。特征值是原来的进行平方，这个结论对任意A的幂次都成立：

5、Ak的特征值是λk1,…,λkn并且A的每个特征向量依然是Ak的特征向量。当S对角化A时，它也对角化Ak：

λ k = (S - 1 A S) (S - 1 A S) \dots (S - 1 A S) = S - 1 A k S (4)

除了第一个S−1和最后一个S外，每一个S−1都消掉一个S。

如果A是可逆的，这个规则也可以应用到它的逆上(幂k=−1)，A−1的特征值是1/λi，这个结果即使未对角化也能看出来：

如 果 A x = λ x 那 么 x = λ A - 1 x 并 且 1 λ x = A - 1 x

例3：如果K表示旋转90∘，那么K2 表示旋转180∘(也就是−I)并且K−1 表示旋转−90∘：

K = [01 - 1 0], K 2 = [- 1 0 0 - 1], K - 1 = [0 - 1 10]

K的特征值是i,−i；他们的平方是-1和-1；他们的倒数是1/i=−i,1/(−i)=i，那么K4就是旋转360∘:

K 4 = [1001], Λ 4 = [i 4 0 0 (- i) 4] = [1001]

对于两个矩阵的乘积，我们可能希望它与AB的特征值有关—— 但是事与愿违，尝试用同样的推理似乎非常诱人，可是一般情况下这不是真的。如果λ 是A的特征值，μ是B 的特征值，这里给出一个AB等于μλ的错误证明：

A B x = A μ x = μ A x = μ λ x

错误的原因在于认为A,B有相同的特征向量x，一般情况下，他们是不相等的，这里我们给出两个特征值为0的矩阵：

A B = [0010] [0100] = [1000]

A,B的特征向量完全不同。同理，A+B的特征值和λ+μ也没有关系。

上面错误的表明了哪些是对的，如果A,B的特征向量一样，那么特征值就是他们的乘积μλ。但是还有更重要的，这提供了一种识别A,B是否共享同一特征向量集合的方法，这在量子力学中是非常关键的问题。

6、当且仅当AB=BA时，对角化矩阵有相同的特征向量矩阵S。

证明：如果同样的S对角化得A=SΛ1S−1,B=SΛ2S−1，那么我们用两种顺序相乘得：

A B = S Λ 1 S - 1 S Λ 2 S - 1 = S Λ 1 Λ 2 S - 1, B A = S Λ 2 S - 1 S Λ 1 S - 1 = S Λ 2 Λ 1 S - 1

因为Λ1Λ2=Λ2Λ1(对角矩阵满足交换律)，所以我们有AB=BA。

反过来，假设AB=BA，从Ax=λx开始，我们有

A B x = B A x = B λ x = λ B x

所以x,Bx都是A的特征向量，他们共享λ。为了方便如果我们假设A的特征值是不同的——特征空间总是一维的——那么Bx肯定是x的倍数，换句或说x是B,A的特征向量。对于有相同特征值得证明有点长，这里从略。

海森伯格不确定性原则来非交换矩阵，像位置P和动量Q。位置是对称的，动量是斜对称的并且他们都满足QP−PQ=I，不确定性原则直接来此施瓦兹不等式(Qx)T(Px)≤∥Qx∥∥Px∥:

∥ x ∥ 2 = x T x = x T (Q P - P Q) x \leq 2 ∥ Q x ∥ ∥ P x ∥

∥Qx∥/∥x∥与∥Px∥/∥x∥的乘积——动量和位置误差(当波函数是x时)——最小是12，我们无法让两者误差都变小，因为当我们试着度量粒子的位置时我们已经改变了它的动量。

最后我们回到A=SΛS−1，这个分解非常适合取A 的幂，我们用最简单的例子A2进行说明，在平方的情况下LU分解完全没办法，但是SΛS−1确非常完美，它的平方是SΛ2S−1并且特征向量不变。利用这些特征向量，我们将解决微分方程与差分方程。

0 0