矩阵指数

CyletixGPT-4GPT-5

简介

矩阵指数将标量指数运算扩展到矩阵. 在矩阵李群的语境下, 指数映射由幂级数定义, 与矩阵指数一致, 矩阵指数就是李群的指数映射 (Exponential Map), 是李群与李代数之间的桥梁.

定义

给定一个矩阵 $A$ , 其矩阵指数 $e^A$ 基于幂级数展开的定义:

e^A = \sum_{k=0}^{\infty} \frac{A^k}{k!}=I + A + \frac{A^2}{2!} + \frac{A^3}{3!} + \cdots

其中 $A^k$ 表示矩阵 $A$ 的 $k$ 次幂.
这个定义完全平行于实数指数函数, 因此称为"矩阵指数" .

李代数版本的描述

若 $A$ 属于某个矩阵李代数 $\mathfrak{g}$ , 那么:

\exp: \mathfrak{g} \to G, \quad \exp(A) = e^A

就是李群的指数映射. 例如:

$A\in\mathfrak{so}(3)$ → $\exp(A)\in SO(3)$
$A\in\mathfrak{su}(n)$ → $\exp(A)\in SU(n)$

几何意义

矩阵指数连接"无穷小变化" 和"有限变换" :

在李代数 $\mathfrak{g}$ 中, $A$ 表示"速度" 或"生成元" ;
在李群 $G$ 中, $e^A$ 表示"运动" 或"有限变换" .

直观地说:

**"求导操作在积分下变成指数操作" **
如果 $A$ 是一个"角速度矩阵" , 那么 $e^{tA}$ 表示"旋转 $t$ 秒后的姿态" .

在指数导数中:

e^{t\frac{d}{dx}}f(x) = f(x+t)

正是此思想的最简单实例:
导数算符 $\frac{d}{dx}$ (李代数元素) 通过指数映射生成平移 (李群元素) .

性质

幂级数收敛: 矩阵指数的级数在有限维矩阵上总是收敛.
与标量指数的关系: 如果 $A$ 是对角矩阵, 其矩阵指数等于对角元素的标量指数.
乘积性质: 对于一般矩阵 $A, B$ , 仅有在 $AB = BA$ 时, $e^A e^B = e^{A+B}$ 才成立.
特殊情况:
- 当 $A$ 为对称矩阵时, $e^A$ 是正定矩阵
- 当 $A$ 为反对称矩阵时, $e^A$ 是正交矩阵 $O(n)$ .

推导

由于计算矩阵指数首先需要计算若干个 $A$ 的 $n$ 次幂, 很容易想到对 $A$ 进行对角化. 为了理解为什么对角化能够将指数运算放到矩阵的对角线中, 我们需要从矩阵指数的定义和对角化的性质开始.

一个矩阵 $A$ 如果是可对角化的, 那么存在一个可逆矩阵 $P$ 和一个对角矩阵 $D$ , 使得:

A = PDP^{-1}

其中, $D$ 是一个对角矩阵, 其对角线元素是 $A$ 的特征值.
通过对角化, 矩阵 $A$ 的幂可以表示为:

A^k = (PDP^{-1})^k = (PDP^{-1}) \cdot (PDP^{-1}) \cdot \cdots \cdot (PDP^{-1})

其中有 $k$ 个 $PDP^{-1}$ .
矩阵乘法满足结合律, 因此可以先对部分括号内的矩阵相乘

(PDP^{-1})(PDP^{-1}) = P(DP^{-1}P)D P^{-1}.

由于 $P^{-1}P = I$ 是单位矩阵, 因此:

(PDP^{-1})^k = PD^kP^{-1}.

因此, 矩阵 $A$ 的指数可以表示为:

e^A = \sum_{k=0}^{\infty} \frac{A^k}{k!} = \sum_{k=0}^{\infty} \frac{(PDP^{-1})^k}{k!} = \sum_{k=0}^{\infty} \frac{PD^kP^{-1}}{k!}

矩阵乘法满足结合律, 而求和运算本质上是多次加法, 因此 $P$ 和 $P^{-1}$ 作为求和项的外部因子, 不会受到求和运算的影响, 可以将它们移到求和符号之外:

e^A = P \left( \sum_{k=0}^{\infty} \frac{D^k}{k!} \right) P^{-1}

对角矩阵 $D$ 的指数比较简单, 因为 $D$ 的幂 $D^k$ 也是一个对角矩阵, 其对角线元素是原对角线元素的幂:

D = \begin{pmatrix} \lambda_1 & 0 & \cdots & 0 \\ 0 & \lambda_2 & \cdots & 0 \\ \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & \cdots & \lambda_n \end{pmatrix}

D^k = \begin{pmatrix} \lambda_1^k & 0 & \cdots & 0 \\ 0 & \lambda_2^k & \cdots & 0 \\ \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & \cdots & \lambda_n^k \end{pmatrix}

因此,

\sum_{k=0}^{\infty} \frac{D^k}{k!} = \begin{pmatrix} \sum_{k=0}^{\infty} \frac{\lambda_1^k}{k!} & 0 & \cdots & 0 \\ 0 & \sum_{k=0}^{\infty} \frac{\lambda_2^k}{k!} & \cdots & 0 \\ \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & \cdots & \sum_{k=0}^{\infty} \frac{\lambda_n^k}{k!} \end{pmatrix} = \begin{pmatrix} e^{\lambda_1} & 0 & \cdots & 0 \\ 0 & e^{\lambda_2} & \cdots & 0 \\ \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & \cdots & e^{\lambda_n} \end{pmatrix}

即:

e^D = \begin{pmatrix} e^{\lambda_1} & 0 & \cdots & 0 \\ 0 & e^{\lambda_2} & \cdots & 0 \\ \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & \cdots & e^{\lambda_n} \end{pmatrix}

回到之前的矩阵指数表达式:

e^A = P \left( \sum_{k=0}^{\infty} \frac{D^k}{k!} \right) P^{-1} = P e^D P^{-1}

由于 $e^D$ 是一个对角矩阵, 其对角线元素是 $A$ 的特征值的指数, 因此 $e^A$ 可以通过对角化后在对角线上进行指数运算, 再通过相似变换回到原矩阵的基底上.

总结

若 $A$ 可对角化, 即 $A=PDP^{-1}$ , 则

e^A = P e^D P^{-1},

其中 $D=\operatorname{diag}(\lambda_i)$ ,

e^D = \operatorname{diag}(e^{\lambda_i}).

若 $A$ 不可对角化, 可使用 Jordan 标准形或帕德近似求解.

这一形式说明: 矩阵指数将"线性组合的幂" 转化为"特征值的指数" , 是矩阵对角化思想的自然延伸.

计算

计算矩阵指数的常见方法有以下几种:

1. 幂级数展开 (Power Series Expansion)

矩阵指数 $e^{A}$ 可以通过幂级数展开计算:

e^{A} = \sum_{k=0}^{\infty} \frac{A^k}{k!}

2. 对角化 (Diagonalization)

如果矩阵 $A$ 是对角化的, 即 $A = PDP^{-1}$ , 其中 $D$ 是对角矩阵, 则:

e^{A} = P e^{D} P^{-1}

其中 $e^{D}$ 是对角矩阵, 其对角元素是 $D$ 的对角元素的指数.

3. Jordan 标准形 (Jordan Canonical Form)

如果矩阵 $A$ 不能对角化, 但可以转换为 Jordan 标准形 $A = PJP^{-1}$ , 则:

e^{A} = P e^{J} P^{-1}

其中 $J$ 是 Jordan 标准形, $e^{J}$ 的计算稍微复杂, 但可以通过分块矩阵的方式计算.

4. 帕德近似 (Padé Approximation)

帕德近似是一种用有理函数逼近指数函数的方法, 可以在计算中取得很好的效果. 特别是在数值计算中, 帕德近似通常结合尺度和平方 (Scaling and Squaring) 方法来计算矩阵指数.

5. 数值算法

常用的数值算法包括 Scipy 和 Matlab 中提供的库函数. 例如在 Python 中, 可以使用 Scipy 库计算矩阵指数:

import numpy as np
from scipy.linalg import expm
A = np.array([[0, 1], [-1, 0]])
exp_A = expm(A)
print(exp_A)

这种方法已经对于大型矩阵优化了计算过程.

示例

计算矩阵 $A$ 的矩阵指数 $e^A$ . 其中

A = \begin{bmatrix} 0 & 1 \\ -1 & 0 \end{bmatrix}

幂级数展开
矩阵 $A$ 的幂具有以下规律:

A^1 = A, \quad A^2 = -I, \quad A^3 = -A, \quad A^4 = I.

根据这一周期性, 矩阵指数的级数可以分为偶数项和奇数项:

e^A = \left( I + \frac{A^2}{2!} + \frac{A^4}{4!} + \cdots \right) + \left( A + \frac{A^3}{3!} + \frac{A^5}{5!} + \cdots \right).

偶数项 (标量乘 $I$ ) 为:

\sum_{k=0}^{\infty} \frac{(-1)^k}{(2k)!} I = \cos(1) I.

奇数项 (标量乘 $A$ ) 为:

\sum_{k=0}^{\infty} \frac{(-1)^k}{(2k+1)!} A = \sin(1) A.

因此:

e^A = \cos(1) I + \sin(1) A.

对角化法
矩阵 $A$ 的特征值为 $\pm i$ , 可对角化(过程略):

A = P \begin{bmatrix} i & 0 \\ 0 & -i \end{bmatrix} P^{-1}.

矩阵指数为:

e^A = P \begin{bmatrix} e^i & 0 \\ 0 & e^{-i} \end{bmatrix} P^{-1}.

代入 $e^{i} = \cos(1) + i \sin(1)$ , 结果与幂级数展开方法一致.

李群李代数方法

设二维旋转矩阵

A=\begin{bmatrix}0 & 1\\-1 & 0\end{bmatrix}, \quad A^2=-I.

则

e^A = I + A + \frac{A^2}{2!} + \frac{A^3}{3!} + \cdots = \cos(1) I + \sin(1) A = \begin{bmatrix} \cos(1) & \sin(1)\\ -\sin(1) & \cos(1) \end{bmatrix}.

这是旋转群 $SO(2)$ 的一个元素, 说明 $A\in\mathfrak{so}(2)$ 的指数映射确实落在 $SO(2)$ 中.

应用

线性常微分方程的解: 对于形如 $\dot{x} = Ax$ 的线性常微分方程, 解可以写成 $x(t) = e^{At} x(0)$ , 其中 $e^{At}$ 是矩阵 $A$ 的指数矩阵.
控制理论: 在离散时间控制系统中, 状态转移可以用指数矩阵 $e^{A\Delta t}$ 表示: $x[k+1] = e^{A\Delta t} x[k]$ , 其中 $\Delta t$ 是时间步长.
量子力学: 单位时间演化算符可以用哈密顿算符的指数矩阵表示: $U(t) = e^{-iHt}.$
图像处理: 在计算机视觉中, 指数矩阵用于图像滤波和变换, 如高斯卷积, 谱滤波.
刚体运动与机器人学: $SO(3)$ , $SE(3)$ 的姿态更新.

总结

矩阵指数既是线性代数的工具, 又是李群的"指数映射" :

层次	数学对象	作用	示例
线性代数	矩阵 $A$	将幂级数定义推广至矩阵	$e^A$
李代数	无穷小生成元 $A\in\mathfrak{g}$	局部结构	$A$ 表示角速度或生成元
李群	光滑群 $G$	全局变换	$e^A\in G$
算符理论	导数算符 $\frac{d}{dx}$	平移算符	$e^{t\frac{d}{dx}}f(x)=f(x+t)$

因此, "矩阵指数" 是连接线性代数与微分几何的关键桥梁:
从局部导数出发, 经指数映射抵达全局变换.

链接到当前文件 4