贡献者: addis; JierPeter
若已知矩阵 $ \boldsymbol{\mathbf{A}} $,我们把线性方程组
\begin{equation}
\boldsymbol{\mathbf{A}} \boldsymbol{\mathbf{v}} = \lambda \boldsymbol{\mathbf{v}}
\end{equation}
称为矩阵 $ \boldsymbol{\mathbf{A}} $ 的
本征方程.式中 $ \boldsymbol{\mathbf{A}} $ 是已知的,而 $\lambda$ 和 $ \boldsymbol{\mathbf{v}} $ 是未知的.显然,当 $ \boldsymbol{\mathbf{v}} = \boldsymbol{\mathbf{0}} $ 时方程恒成立,所以我们通常只对非零解感兴趣.也就是说,我们希望找到一些
非零矢量 $ \boldsymbol{\mathbf{v}} $,使得矩阵 $ \boldsymbol{\mathbf{A}} $ 乘以该矢量以后方向不变
1.对于每个这样的矢量,我们用一个标量 $\lambda$ 来描述其模长的改变.我们把这些矢量叫做
本征矢(eigen vector),把对应的 $\lambda$ 叫做
本征值(eigen value).有些教材也翻译成
特征矢和
特征值.本书中,eigen 译作 “本征”,而 characteristic 译作 “特征”.
几何意义
几何上来讲,实数矩阵对应的线性变换相当于把坐标网格做旋转、拉伸、翻折等操作.所以一般而言,一个非零矢量在变换后长度和方向都会改变.但也可能存在一些特殊的非零矢量,使得变换后只可能改变长度而不改变方向.这些矢量就是本征方程的解.注意这种几何理解仅适用于实数矩阵以及实数本征值和本征矢的解.
1. 求解本征方程
若令 $ \boldsymbol{\mathbf{I}} $ 为 $N\times N$ 的单位矩阵2,则本征方程移项后得到一个齐次方程组
\begin{equation}
( \boldsymbol{\mathbf{A}} - \lambda \boldsymbol{\mathbf{I}} ) \boldsymbol{\mathbf{v}} = \boldsymbol{\mathbf{0}}
\end{equation}
括号中的矩阵相当于把矩阵 $ \boldsymbol{\mathbf{A}} $ 的对角线上的元都减去 $\lambda$ 得到的方阵.要确保方程有非零解,只需令系数矩阵 $ \boldsymbol{\mathbf{A}} - \lambda \boldsymbol{\mathbf{I}} $ 不是满秩
的,即行列式为零
\begin{equation}
\left\lvert \boldsymbol{\mathbf{A}} - \lambda \boldsymbol{\mathbf{I}} \right\rvert = 0
\end{equation}
这是一个关于 $\lambda$ 的 $N$ 阶多项式,称为
特征多项式(characteristic polynomial).特征多项式必存在 $N$ 个复数根(包括重根),记为 $\lambda_i$($i = 1, 2\dots N$).将它们依次代入
式 2 ,就可以分别解出对应的本征矢.考虑到
式 2 是一个齐次方程,所以 $ \boldsymbol{\mathbf{A}} - \lambda_i \boldsymbol{\mathbf{I}} $ 的零空间(
定理 2 )中所有矢量都是本征矢,且零空间至少是一维的.我们把这个空间叫做 $\lambda_i$ 的
本征矢空间,是 $ \boldsymbol{\mathbf{v}} $ 所在的 $N$ 维矢量空间的子空间.所以 1. 任何本征矢乘以非零常数都是本征矢;2. 本征值相同的一组本征矢的任意线性组合都仍然是本征矢.
令 $\lambda_i$ 的本征矢空间的维度是 $n_i$,若 $n_i = 1$,我们说 $\lambda_i$ 是非简并(non-degenerate)的,若 $n_i > 1$ 就说 $\lambda_i$ 是 $n_i$ 重简并(degenerate)的,把 $n_i$ 叫做简并数(degeneracy).
例 1 二维矩阵的本征方程
给出任意二维实数矩阵
\begin{equation}
\boldsymbol{\mathbf{A}} = \begin{pmatrix}a & b \\ c & d\end{pmatrix}
\end{equation}
要求它的本征值和本征矢,其特正多项式(
式 3 )为
\begin{equation}
\begin{vmatrix}a-\lambda & b \\ c & d-\lambda\end{vmatrix} = (\lambda-a)(\lambda-d) - bc = 0
\end{equation}
解二次方程得两个本征值为
\begin{equation}
\lambda_\pm = \frac{(a + d) \pm \sqrt{(a-d)^2 + 4bc}}{2}
\end{equation}
复数域中必定存在两个根,包括重根.若要求本征值为实数,则需要另判别式(根号中的式子)大于零,否则本征方程无解.
本征矢为
\begin{equation}
\boldsymbol{\mathbf{v}} _\pm = C \begin{pmatrix}b\\ \lambda_\pm - a\end{pmatrix} = C \begin{pmatrix}\lambda_\pm - d\\ c\end{pmatrix}
\end{equation}
其中 $C$ 是任意非零常数.若两本征值相同,则只存在一个一维的本征矢空间,即一条直线.
定理 1
方阵 $ \boldsymbol{\mathbf{A}} $ 若存在两个不同的本征值 $\lambda_i, \lambda_j$,那么它们所对应的本征矢 $ \boldsymbol{\mathbf{v}} _i, \boldsymbol{\mathbf{v}} _j$ 不共线.
证明:可以用反证法.若共线,则 $ \boldsymbol{\mathbf{v}} _j = C \boldsymbol{\mathbf{v}} _i$,带入 $ \boldsymbol{\mathbf{A}} \boldsymbol{\mathbf{v}} _j = \lambda_j \boldsymbol{\mathbf{v}} _j$ 后消去 $C$ 得 $ \boldsymbol{\mathbf{A}} \boldsymbol{\mathbf{v}} _i = \lambda_j \boldsymbol{\mathbf{v}} _i$,这与 $ \boldsymbol{\mathbf{A}} \boldsymbol{\mathbf{v}} _i = \lambda_i \boldsymbol{\mathbf{v}} _i$ 矛盾.证毕.
可见,对于一般 $N$ 维方阵,若特征多项式不存在重根,则复数域中必有 $N$ 个线性无关的特征矢量,每个构成一维特征子空间的基底.若存在重根,则线性无关的本征矢的个数小于等于 $N$ 个.
2. 对角化与相似变换
求解矩阵的本征方程的过程有时候也叫做矩阵的对角化(diagonalization),原因如下:若 $N$ 维矩阵 $ \boldsymbol{\mathbf{A}} $ 存在 $N$ 个线性无关的本征矢(列矢量)$ \boldsymbol{\mathbf{v}} _i$,对应本征值 $\lambda_i$,如果把本征值按顺序组成对角矩阵 $ \boldsymbol{\mathbf{\Lambda}} $,把 $ \boldsymbol{\mathbf{v}} _i$ 按顺序从左到右组成方阵 $ \boldsymbol{\mathbf{P}} $,那么根据矩阵乘法的定义,$ \boldsymbol{\mathbf{A}} \boldsymbol{\mathbf{P}} $ 相当于分别计算 $ \boldsymbol{\mathbf{A}} \boldsymbol{\mathbf{v}} _i$ 再从左到右排成方阵.而 $ \boldsymbol{\mathbf{P}} \boldsymbol{\mathbf{\Lambda}} $ 相当于把 $\lambda_i \boldsymbol{\mathbf{v}} _i$ 从左到右排成方阵.二者应该相等,所以有
\begin{equation}
\boldsymbol{\mathbf{A}} \boldsymbol{\mathbf{P}} = \boldsymbol{\mathbf{P}} \boldsymbol{\mathbf{\Lambda}}
\end{equation}
由于方阵 $ \boldsymbol{\mathbf{P}} $ 是满秩
的(每列线性无关),必定存在逆矩阵 $ \boldsymbol{\mathbf{P}} ^{-1}$.两边右乘 $ \boldsymbol{\mathbf{P}} ^{-1}$ 或者左乘 $ \boldsymbol{\mathbf{P}} $ 得
\begin{equation}
\boldsymbol{\mathbf{A}} = \boldsymbol{\mathbf{P}} \boldsymbol{\mathbf{\Lambda}} \boldsymbol{\mathbf{P}} ^{-1}, \qquad
\boldsymbol{\mathbf{\Lambda}} = \boldsymbol{\mathbf{P}} ^{-1} \boldsymbol{\mathbf{A}} \boldsymbol{\mathbf{P}}
\end{equation}
这种从 $ \boldsymbol{\mathbf{A}} $ 和 $ \boldsymbol{\mathbf{\Lambda}} $ 之间的变换被称为
相似变换(similarity transform).如果能找到使 $ \boldsymbol{\mathbf{\Lambda}} $ 为对角矩阵的 $ \boldsymbol{\mathbf{P}} $ 就相当于解出了本征方程
式 1 ,这就是 “对角化” 名字的由来.
1. ^ “方向” 只是从几何矢量中沿用过来的一个习惯说法,注意式 1 中的所有量都可以是复数.两个矢量方向相同意味着一个矢量乘以标量(包括复数)可以得到另一个.
2. ^ 即对角线上的元为 1,其他元为 0,见 “矩阵”