变换不变性

来源：互联网发布：vb 注释符号编辑：程序博客网时间：2024/05/21 17:59

MIT大牛林达华

变换与不变是数学里面最令人神往的一对矛盾统一。所谓“变换不变性”，以不变刻画变化，其核心深刻反映了这种对偶的关系。

变换不变性贯彻于很多具体的数学领域之中，对它的全面讨论远非我力所能及。这篇文章只是讨论它的一个简单例子，希望通过一个小小的窗口管窥这个世界的奥妙。

何谓旋转？

这篇文章只想很初步地回答两个基本的问题

1. 什么叫做旋转(Rotation)？

2. 什么东西被旋转后是不变的（具有旋转不变性）？

为了简单起见，只考虑二维空间，它到高维的推广也并不特别困难。在代数上，所谓旋转，可以用下面的方程表达：

x’ = x cos(t) – y sin(t); y’ = x sin(t) + y cos(t)。

但是，这样一种表达并不能给人以直观的感觉。所以，我们还是回到几何本身来看待这个问题。什么东西旋转后是不变的呢？“东西”这个概念太模糊了，在数学上，我们讨论问题得首先指定一个范围，就是所谓“对象的集合”。这里，我们先考虑最简单的几何构造——点，我们讨论的全集就是整个二维空间的点集。那么上面的问题，就细化为“哪些点旋转后是不变的？” 答案是非常显而易见的，只有一点——就是原点。

这样，我们得到了对于旋转变换的第一个变换不变性：原点不变。可是，这么个条件太宽了，我们很容易找到别的变换，比如缩放，它也是原点不变的。因此，依靠单点的不变性在这里并不能非常有效地刻画变换的特点，我们需要更强大的对不变性的表达。

从“原点不变”到“圆不变”

于是，数学界从对一个点的变换，推广到对一个集合的变换。比如集合 X = {x1, x2,… }, 那么一个变换 T 施加到集合上，得到“变换后的集合”就是：T (X) = { T(x1), T(x2), … }。如果有 T(X) = X，我们说集合X是变换不变的。事实上，T(X) 和 X 只要包含相同的那堆元素就行了，每个单个的元素都允许被变化到另一点的。

这个推广看似简单，看是表达能力完全不在了一个层次上。比如，一个集合如果有n点的话，它就有2^n个子集，如果只考虑单点，我们只能看n个东西，而如果允许考虑子集的话，我们能看2^n个东西，传递的信息自然也丰富得多。

基于“集合的变换不变性”这个概念，我们可以找到这么一些点集——“以原点为圆心的圆”，它们是旋转不变的。“圆不变”比前面的“原点不变”进步了很多，已经在相当程度上刻画出了旋转的特性，最起码，刚才那个反例“缩放变换”被排除了。如果我们把变换限定为仿射变换（AffineTransform），那么我们已经基于“圆不变性”得到对旋转的严格定义：“旋转就是圆不变的彷射变换”。

“旋转不变的集合”并不仅仅是圆，事实上“不同半径的圆的任意并集”都是旋转不变的，反过来，任何旋转不变的集合都是圆的并集。这样，以“圆”为基(basis)，通过任意并集生成(generate)的集簇(collection of subsets)就对应于全部旋转不变的集合。

这里，我们得到了两个大集合：{所有旋转变换的集合}，{所有圆的集合}，这两个集合都分别同胚于一维实空间，总维数是2，等于原空间的维数——这个结果并非偶然，它其实就是李群论中变换空间，轨迹空间（商空间），和原空间的维数关系定理的一个特例。

我们把讨论的范围限定为仿射变换（包括了平移，旋转，拉伸，缩放和它们的各种合成变换）的情况下，圆不变完整地刻画了旋转变换。旋转（变换）和圆（不变性）构成了一对对偶。

从“旋转——圆”到“变换群——轨迹”

旋转对应于圆，这个我们甚至可以直接观察得到。但是，对于一般的变换呢，我们如何找它们的不变集？这需要把概念推广到：“变换群”和“轨迹”。

一个变换群，就是指一群可逆变换，对于“合成”是封闭的——群里面两个变换的合成必然还在群里。所以，旋转是一个变换群：因为旋转再旋转还是旋转。对于空间一点，把变换群中每个变换都对它施加一下，那么，就可以得到一个集合，叫做“轨迹”。比如旋转群，它（各种角度的旋转）施加于任意一点，就得到一个圆，那么圆就是旋转的轨迹。由于变换群对于合成的封闭性，可以证明，对于任何一个变换群，它施加于任何一点得到的轨迹是变换不变的。这样，我们从“旋转——圆”的对偶关系，进一步推广到了“变换群——轨迹”的对偶关系，从而我们获得了以轨迹刻画变换的方法，这通常比代数方法更为直观和具有更加鲜明的几何意义。

如果变换是自由的，“就是说不同的变换施加于同一点会有不同结果”，那么，变换群和所有轨迹组成的空间（商空间）具有一个结论：它们的维度之和等于原空间维度。这在一定意义上，反映出它们的关系是“互补”的。

概率分布的“变换不变性”

进一步的，我们刚才把变换的对象，从点推广到集合，得到了很多重要的观察。那么，这个事情还可以进一步延伸。假设说，我们有一个空间概率分布，就是一个点以一定的概率出现在空间各处，对这么一个随机点，施加一个变换，在变换后的时刻，得到的点依旧是一个空间分布，变换后的分布是由变换前的分布和变换本身共同决定的。我们也可以这么理解，我们“对整个分布”进行了变换，得到了新的分布。

哪些分布是“旋转不变呢”？就是说，分布旋转后还是同样的分布。我们很容易找到一些：比如标准高斯分布，圆盘里面的均匀分布，等等。为了更清楚地说明这个问题，我们需要更明确的条件。对于连续分布，有一个很容易得到但是很重要的结论：如果这个分布在所有的轨迹上都具相等的概率密度，那么，这个分布是变换不变的。特别的，如果一个分布在每个圆上都是等概率密度，那么这个分布旋转不变。

反过来，标准高斯分布对于一个变换是不变的，那么这个变换是不是必然是旋转呢？

以变换不变性为桥梁，我们可以发现概率分布和几何有着某种内在的联系。一直以来，我们讨论分布时，都关注它的代数形式，而事实上分布的几何形态同样蕴含着丰富的信息，也提供了不同的视角。变换不变性，则是探讨这个问题，从而建立概率论和几何学的联系的一个重要工具。

另外，在随机过程中，对于转移变换的变换不变性，对于描述过程的“各态历经性”(ergodicity)也有着密切的关系。

0 0