排序的最低时间复杂度为什么是O（nlogn）

来源：互联网发布：女粉丝yuki知乎编辑：程序博客网时间：2024/05/10 02:50

这个首先要明确一点，只用到比较的排序算法最低时间复杂度是O(nlogn)，而像桶排这样的只需要O(R)(R为桶的大小)
为了证明只用到比较的排序算法最低时间复杂度是O(nlogn)，首先要引入决策树。
首先决策树是一颗二叉树，每个节点表示元素之间一组可能的排序，它予以京进行的比较相一致，比较的结果是树的边。
先来说明一些二叉树的性质，令T是深度为d的二叉树，则T最多有2^片树叶。
具有L片树叶的二叉树的深度至少是logL。
所以，对n个元素排序的决策树必然有n!片树叶（因为n个数有n!种不同的大小关系），所以决策树的深度至少是log(n!)，即至少需要log(n!)次比较。
而
log(n!)=logn+log(n-1)+log(n-2)+...+log2+log1
>=logn+log(n-1)+log(n-2)+...+log(n/2)
>=(n/2)log(n/2)
>=(n/2)logn-n/2
=O(nlogn)
所以只用到比较的排序算法最低时间复杂度是O(nlogn)。

排序问题的计算复杂性

对排序算法计算时间的分析可以遵循若干种不同的准则，通常以排序过程所需要的算法步数作为度量，有时也以排序过程中所作的键比较次数作为度量。特别是当作一次键比较需要较长时间，例如，当键是较长的字符串时，常以键比较次数作为排序算法计算时间复杂性的度量。当排序时需要移动记录，且记录都很大时，还应该考虑记录的移动次数。究竟采用哪种度量方法比较合适要根据具体情况而定。在下面的讨论中我们主要考虑用比较的次数作为复杂性的度量。

为了对有n个元素的线性表进行排序，至少必须扫描线性表一遍以获取这n个元素的信息，因此排序问题的计算复杂性下界为Ω(n)。

如果我们对输入的数据不做任何要求，我们所能获得的唯一信息就是各个元素的具体的值，我们仅能通过比较来确定输入序列<a₁,a₂,..,a_n>的元素间次序。即给定两个元素a_i和a_j，通过测试a_i<a_j，a_i≤a_j,a_i=a_j,a_i≥a_j,a_i>a_j中的哪一个成立来确定a_i和a_j间的相对次序。这样的排序算法称为比较排序算法。下面我们讨论一下比较排序算法在最坏情况下至少需要多少次比较，即比较排序算法的最坏情况复杂性下界。

我们假设每次比较只测试a_i≤a_j，如果a_i≤a_j成立则a_i排在a_j前面，否则a_i排在a_j后面。任何一个比较排序算法可以描述为一串比较序列:

(a_i,a_j),(a_k,a_l),..,(a_m,a_n),...

表示我们首先比较(a_i,a_j)，然后比较(a_k,a_l)，...，比较(a_m,a_n)，...，直到我们获取了足够的信息可以确定所有元素的顺序。显而易见，如果我们对所有的元素两两进行一次比较的话(总共比较了C_n²次)，就一定可以确定所有元素的顺序。但是，如果我们运气足够好的话，我们可能不必对所有元素两两进行一次比较。比如说对于有三个元素a₁,a₂,a₃的线性表进行排序，如果我们先比较a₁和a₂，得到a₁≤a₂；然后比较a₂和a₃，得到a₂≤a₃；则不必比较a₁和a₃，因为根据偏序集的传递性，必有a₁≤a₃；但是如果a₂≥a₃，我们还必须比较a₁和a₃才能确定a₁和a₃的相对位置。如果我们适当的安排比较的次序的话，也可以减少比较的次数。这样我们可以用一棵二叉树表示比较的顺序，如下图所示：

该树的每一个非叶节点表示一次比较，每一根树枝表示一种比较结果，每一个叶节点表示一种排列顺序。这样的一棵二叉树叫做决策树，它用树枝表示了每次决策做出的选择。如此我们可以将任何一个比较排序算法用一棵决策树来表示。

请注意上图只表明了对三个元素的一种比较算法，这种比较算法依次比较(a₁,a₂)(a₂,a₃)(a₁,a₃)，一旦中间某步得到足够的信息就可以停止比较，但是当算法执行完后（三次比较后），一定可以确定三个元素间的次序。因此我们有理由将算法在最坏情况下的比较次数作为算法复杂性的度量，对于本例该算法在最坏情况下要进行C₃²=3次比较。

显然，一棵决策树中最高叶节点的高度就是该决策树对应的算法在最坏情况下所需的比较次数，而决策树中最低叶节点的高度就是该决策树对应的算法在最好情况下所需的比较次数。

我们的问题就变为：对于任意一棵决策树（任意一种比较排序算法），它的最高的树叶的高度是多少？这个高度就对应于比较排序算法所需的最多比较次数（在运气最坏的情况下）；换句话说，对于任何一个输入，该算法至少需要比较多少次就可以对元素进行排序。

我们发现，决策树的每个叶节点对应一个n个元素的排列，其中可能有重复的；但是由于决策树表明了所有可能遇到的情况，因而n个元素的所有排列都在决策树中出现过。n个元素共有n!种排列，即决策树的叶节点数目至少为n!。又因为一棵高度为h的二叉树（指二叉树的最高树叶高度为h）的叶节点数目最多为2^h个（这时正好是满二叉树，即每个非叶节点都有两个子节点），因此n!≤2^h，得到h≥log(n!)，其中log以2为底。根据Stirling公式有n!>(n/e)ⁿ，于是h>nlogn-nloge，即h=Ω(nlogn)。

这样我们就证明了对于任意一种利用比较来确定元素间相对位置的排序算法，其最坏情况下复杂性为Ω(nlogn)。

在下文中我们将讨论几种比较排序算法，其中快速排序在平均情况下复杂性为O(nlogn)，最坏情况下复杂性为O(n²)；堆排序和合并排序在最坏情况下复杂性为O(nlogn)，因此堆排序和合并排序是渐进最优的比较排序算法。

排序算法是否还能够改进呢？从前文我们知道，如果要改进排序算法的效率，就不能只利用比较来确定元素间相对位置。因此我们还需要知道元素的其他附加信息，光知道元素的大小信息是不够的。下文中我们介绍的计数排序，基数排序和桶排序是具有线性时间复杂性的排序算法，这些算法无一例外地对输入数据作了某些附加限制，从而增加已知的信息，因此可以不通过比较来确定元素间的相对位置。