跳跃链表

来源：互联网发布：sql select as 编辑：程序博客网时间：2024/06/18 04:44

跳跃列表（也称跳表）是一种随机化数据结构，基于并联的链表，其效率可比拟于二叉查找树（对于大多数操作需要O(logn)平均时间）。

基本上，跳跃列表是对有序的链表增加上附加的前进链接，增加是以随机化的方式进行的，所以在列表中的查找可以快速的跳过部分列表，因此得名。所有操作都以对数随机化的时间进行。

跳跃列表是按层建造的。底层是一个普通的有序链表。每个更高层都充当下面列表的“快速跑道”，这里在层i 中的元素按某个固定的概率 p (通常为0.5或0.25)出现在层 i+1 中。平均起来，每个元素都在 1/(1-p) 个列表中出现，而最高层的元素（通常是在跳跃列表前端的一个特殊的头元素）在 O(log_1/pn) 个列表中出现。

要查找一个目标元素，如上图所示，起步于头元素和顶层列表，并沿着每个链表搜索，直到到达小于或着等于目标的最后一个元素。通过跟踪起自目标直到到达在更高列表中出现的元素的反向查找路径，在每个链表中预期的步数显而易见是 1/p。所以查找的总体代价是 O((log_1/p n) / p)，当p 是常数时是 O(logn)。通过选择不同 p 值，就可以在查找代价和存储代价之间作出权衡。

插入和删除的实现非常像相应的链表操作，除了"高层"元素必须在多个链表中插入或删除之外。

跳跃列表不像某些传统平衡树数据结构那样提供绝对的最坏情况性能保证，因为用来建造跳跃列表的扔硬币方法总有可能（尽管概率很小）生成一个糟糕的不平衡结构。但是在实际中它工作的很好，随机化平衡方案比在平衡二叉查找树中用的确定性平衡方案容易实现。跳跃列表在并行计算中也很有用，这里的插入可以在跳跃列表不同的部分并行的进行，而不用全局的数据结构重新平衡。

这个期望步数为1/p不好理解，后来看了英文文档也不是特别懂，就是用公式推导出来的，相关文档见ftp://ftp.cs.umd.edu/pub/skipLists/skiplists.pdf

其中关键说法如下：

C(K)为爬到第K层所付出的代价，代价为在本层的代价，加上往下爬一层的代价，以（1-p）的概率在本层，以p的概率在下一层，这个公式看着迷糊……

最后就推导出了C(k) = k/p，极限为n/p，最低层的代价，然后后面引出平均期望代价就是平均层数/p,也就变成了上述O((log_1/p n) / p)。

还是很迷糊，还是记住吧……

其他资料也没有找到详细的讲解过程，只是有个结论而已

0 0