数据结构之线性结构（二，联合数组等）

来源：互联网发布：装饰设计软件下载编辑：程序博客网时间：2024/05/22 06:34

关键词：数据结构　联合数组　栈　队列　

数据结构之线性结构（二，联合数组等）

作者：冲出宇宙

时间：2006.10.24

修改：2006.11.3

3 联合数组(Associative array)

　　联合数组的别名有：Map,Hash,Dictionay, finite map, lookup table, index/index file。它是一个抽象数据结构，包含了一个key集合和一个value集合，每个key都对应一个value。它和数学中的函数十分相似，因为把key当做输入的话，value就是其输出。正因为这样，key和value之间的关系有的时候被认为是映射关系。比如，如果key="good"而它对应的value=3的话，我们说数组把good映射到了3上面。联合数组是基本数组的扩充形式，基本数组是把整数（索引）映射到值上面，而联合数组是把任何类型的数映射到值上面。
　　一般的说，它支持4种操作：
    1，Add: 加入一个新的key,value对；
    2，Reassign: 把一个旧的key绑定到一个新的value上面；
    3，Remove: 删除一个key,value对；
    4，Lookup: 查找一个key对应的value值。

　　联合数组通常用在查找十分频繁的地方，所以，其查找性能是现实它的时候需要优先考虑的。目前主要有3种实现办法：
    1，Hash table: 散列表是最常见的实现方式，其优点是查找快，缺点是占用空间多，未对key进行排序，设计一个好的一般hash算法比较困难。
    2，Self-balancing binary search tree: 平衡查找树也是一个很常用的办法，其优点是查找和插入都是o(logn)的复杂度，同时对多个key对应一个value的情况支持很好。
    3，Skip lists: 跳跃表主要的优点是插入和删除都是十分的快速，但是，其缺点是查找速度最差是o(n)，平均是o(logn)。

　　最简单的实现联合数组的办法是联合表（Associative lists），就是把key和value对用list链接在一起。目前来说，比较好的实现方法是Patricia Trees和Judy arrays，一般推荐使用这2种结构来实现联合表。
　　Multimap是联合数组的变形，它定义为每个key可以对应于多个value。

3.1 散列表(Hash table)

　　散列表也叫hash map，它是一种联合了keys和values的数据结构。它提供的最有效的基本操作是查找。这种操作是基于hash函数的。下图是一个把名字映射到电话号码上的散列表示意图：

　　散列表常被用来构建联合数组、集合和缓冲。无论表里面有多少元素，散列表提供常数的平均查找复杂度，这点和数组是一样的（虽然它比数组慢许多倍）。但是，最坏的情况下，查找一个元素可能花费o(n)的时间。
　　散列表对碰撞的处理有很多办法，但是，最常用的只有2种：链表和地址散列。在使用链表处理散列表碰撞的时候，hash值一样的key-value被串到同一个链表上。查找的时候，先根据hash值找到链表的头节点，然后顺序查找下去。图示的是链表方式的碰撞处理。

　　地址散列试图在出现冲突之后在数组中找到一个空闲位置放数据。有3种比较著名的找空闲位置的办法：
    1）线性探测。以一个固定的间隔步探测下一个空闲位置，这个间隔常常为1；
    2）多项式探测。间隔步的计算方式是多项式。
    3）2次hash。间隔步的计算方式是输入为记录的hash函数。
    图示是一个地址散列解决冲突的例子：

　　显然，散列表的性能和Hash函数的构造是紧密联系的，如何构造Hash函数是一个很大的问题，作者不久将单独写一篇文章谈论Hash函数。

3.2 跳跃表(Skip list)

　　　跳跃表是一个已经排序了的多层次链表，它由多个基本链表组成。第一层的链表包含了全部的元素,在第n层里面出现的元素在第n+1层出现的概率是p，这样就随机的构造出了多个层次的链表，最后那层的链表只有1个元素。　　　　　　　

　　下面是一个例子：
　　1: 1 --> 2 --> 3 --> 4 --> 5 --> 6 --> 7 --> 8 --> 9 --> 10
　　2: 1 --------> 3 --> 4 --------------> 7 --------> 9
　　3: 1---------------> 4 --------------------------> 9
　　4: 1
　　除了这种分层次的表示方法以外，一般跳跃表都表示成下面的样子：
　　|
　　|-------------------->|--------------------------------->|
　　|------------>| ----->|------------------------->|------>|
　　1 --> 2 --> 3 --> 4 --> 5 --> 6 --> 7 --> 8 --> 9 --> 10
　　这里，每个节点包含多个指针。
　　根据跳跃表的定义，第i层链表拥有N*p^i个节点，跳跃表包含的所有节点数为N/(1-p)个，每个节点在1/(1-p)个链表里面出现。
　　查找数据M的时候，首先查找最高层的链表，找到最后一个小于等于待查数据的节点node，然后从下一层节点里面的包含了和node包含的数据一样的节点开始查找。重复上述动作，直到找到为止。对于上面的例子，如果我们要查找8的话，首先查找第4层，止步的数据为1，继续查找第3层，中止的数据为4，查找第2层，从4开始，止步的数据为7，查找第1层，从7开始，止步的数据为8。查询结束。
　　插入数据和删除数据的操作很容易根据定义得到，只是他们可能都需要对多个链表进行操作。
　　性能方面，查找一个数据的耗费显然为o(logN)。
　　根据已有的比较结果，skip list性能不如B树，同时，作者宣称的skip list比AVL树在性能上好的说法引起了很多争议。但是，skip list应用在并行环境下的时候，具有不错的效果。

4 栈(Stack)

　　堆栈是一种暂时性的数据结构（抽象数据结构）。它在现代计算机中到处可见，俨然就是现代计算机的支撑者。堆栈是一种后进先出（也就是先进后出）的数据结构，其实现往往使用数组。
　　堆栈支持2种基本操作：进栈(Push)和出栈(Pop)。进栈的时候，把数据放到栈的顶端；出栈的时候，把数据从栈的顶端移走。一般来说，实现堆栈的结构还会支持下面2种操作：查看顶(Peek)和计算栈长(getLength)。

5 队列(Queue)

　　在计算机科学中，队列是一种包含了许多待处理的数据的结构。最有名的队列是先进先出(FIFO)队列，在这种队列中，先进入的数据会先被处理。先进先出队列支持2种基本操作：出列(Dequeue)和入队(Enqueue)。出列是把队列的头数据进行处理，而入队则是把新待处理数据加入到队列的末尾。当然，某些队列的实现还会支持查看头数据(Peek)和计算队列长度(getLength)这2种操作。
　　根据队列的定义，最常用来实现它的是链表。所以，队列一般都具有链表的时间和空间性质。

5.1 优先队列(Priority queue)

　　　优先队列和基本的队列唯一不同的地方在于：每个队列的元素都有一个优先度。同时，它支持3种操作：enqueue(包括优先度)、dequeue(把最高优先度的那个数据请出队列)和peek(查看最高优先度的那个数据)。
　　优先队列的实现是一个值得探讨的问题。最简单的说，我们可以维持一个队列数组，每个队列的优先度都一样，这样做的结果是，enqueue的速度很快，dequeue和peek的速度就十分慢了（因为我们要找到最大优先度的那个队列）。显然，使用平衡树就能够加快dequeue和peek的速度，它的3种操作的复杂度都是o(logn)。当优先度的取值范围比较小的时候，使用van Emde Boas树是更好的选择。各种Heap结构也可以用来构建优先队列。

6 双向队列(Deque)

　　双向队列是可以在前面或者后面加入或者删除数据的队列结构。它可以从2头出列和入队。

7 间隙缓冲(Gap buffer)

　　最早使用在emacs上面，它是一种用来存储大数组集合的结构，它提供了快速的插入和删除操作，前提是操作在当前位置附近发生。正因为这样，它在文本编辑器中使用很多。举例来说，现在一个缓冲保存了一大段文字，这段文字被划分为2部分：A和B。现在，A保存在缓冲的前面，而B保存在缓冲的后面，它们之间有一块空地方。假设鼠标指针在A和B之间，现在鼠标指针往后面移动，到达了一个新位置，这个新位置把B划分为C和D两部分，那么，gap buffer规则将会把C拷贝到A的后面，组成一个新的A。这样，现在缓冲的前面放的是新的A，后面放的是D，而它们之间是一块gap buffer区域（空白）。

　　虽然gap buffer对于快速插入小量数据十分有效，但当插入一块大数据的时候，gap buffer不得不拷贝大量的数据到新的缓冲去，这是很费时的操作。作为一种变形，可以把多个buffer串接起来(linked list)，利用分治方式加快操作。