哈希表

来源:互联网 发布:网络思想政治教育效果 编辑:程序博客网 时间:2024/04/29 10:43

哈希表的概念

哈希表(Hash Table)也叫散列表,是根据关键码值(Key Value)而直接进行访问的数据结构。它通过把关键码值映射到哈希表中的一个位置来访问记录,以加快查找的速度。这个映射函数就做散列函数,存放记录的数组叫做散列表。

以数据中每个元素的关键字K为自变量,通过散列函数H(k)计算出函数值,以该函数值作为一块连续存储空间的的单元地址,将该元素存储到函数值对应的单元中。

综上可知:哈希表查找的时间复杂度为O(1),对比其它的存储方式,效果非常明显。

哈希表如何处理冲突

数据多的情况下,可能会出现一个Key对应多个Value(称为哈希表的冲突),如何解决这个问题是实现哈希表的重点。

通过构造性能良好的哈希函数,可以减少冲突,但一般不可能完全避免冲突。创建哈希表和查找哈希表都会遇到冲突,两种情况下解决冲突的方法应该一致。常用解决冲突方法有以下四种:
* 开放寻址法
* 再散列法
* 链地址法(拉链法)
* 建立一个公共溢出区

  1. 开放定址法
    这种方法也称再散列法,其基本思想是:当关键字key的哈希地址p=H(key)出现冲突时,以p为基础,产生另一个哈希地址p1,如果p1仍然冲突,再以p为基础,产生另一个哈希地址p2,…,直到找出一个不冲突的哈希地址pi ,将相应元素存入其中。这种方法有一个通用的再散列函数形式:Hi=(H(key)+di)%m i=1,2,…,n,其中H(key)为哈希函数,m 为表长,di称为增量序列。增量序列的取值方式不同,相应的再散列方式也不同。主要有以下三种:
    (1) 线性探测再散列
    di=1,2,3,…,m-1
    这种方法的特点是:冲突发生时,顺序查看表中下一单元,直到找出一个空单元或查遍全表。
    (2)二次探测再散列
    di=12,-12,22,-22,…,k2,-k2 ( k<=m/2)
    这种方法的特点是:冲突发生时,在表的左右进行跳跃式探测,比较灵活。
    (3)伪随机探测再散列
    di=伪随机数序列。
    具体实现时,应建立一个伪随机数发生器,(如i=(i+p) % m),并给定一个随机数做起点。

  2. 再哈希法
    这种方法是同时构造多个不同的哈希函数:
    Hi=RH1(key),i=1,2,3,…,n.
    当哈希地址Hi=RH1(key)发生冲突时,再计算Hi=RH2(key)……,直到冲突不再产生。这种方法不易产生聚集,但增加了计算时间。

  3. 链地址法
    这种方法的基本思想是将所有哈希地址为i的元素构成一个称为同义词链的单链表,并将单链表的头指针存在哈希表的第i个单元中,因而查找、插入和删除主要在同义词链中进行。若选定的散列表长度为m,则可将散列表定义为一个由m个头指针组成的指针数组T[0..m-1]。凡是散列地址为i的结点,均插入到以T[i]为头指针的单链表中。T中各分量的初值均应为空指针。链地址法适用于经常进行插入和删除的情况。

例如,已知一组关键字(0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15),哈希表长度为15,哈希函数为:H(key)= key % 15,则用链地址法处理冲突的结果如图所示:
模型

拉链法的优点:
与开放定址法相比,拉链法有如下几个优点:
(1)拉链法处理冲突简单,且无堆积现象,即非同义词决不会发生冲突,因此平均查找长度较短;

(2)由于拉链法中各链表上的结点空间是动态申请的,故它更适合于造表前无法确定表长的情况;

(3)开放定址法为减少冲突,要求装填因子α较小,故当结点规模较大时会浪费很多空间。而拉链法中可取α≥1,且结点较大时,拉链法中增加的指针域可忽略不计,因此节省空间;

(4)在用拉链法构造的散列表中,删除结点的操作易于实现。只要简单地删去链表上相应的结点即可。而对开放地址法构造的散列表,删除结点不能简单地将被删结点的空间置为空,否则将截断在它之后填入散列表的同义词结点的查找路径。这是因为各种开放地址法中,空地址单元(即开放地址)都是查找失败的条件。 因此在用开放地址法处理冲突的散列表上执行删除操作,只能在被删结点上做删除标记,而不能真正删除结点。

拉链法的缺点:
拉链法的缺点是:指针需要额外的空间,故当结点规模较小时,开放定址法较为节省空间,而若将节省的指针空间用来扩大散列表的规模,可使装填因子变小,这又减少了开放定址法中的冲突,从而提高平均查找速度。

4、建立公共溢出区
这种方法的基本思想是:将哈希表分为基本表和溢出表两部分,凡是和基本表发生冲突的元素,一律填入溢出表.(注意:在这个方法里面是把元素分开两个表来存储)

哈希表冲突解决方案的选择

冲突太多了怎么办?
当冲突太多的时候,我们一般采用的方法时拉链法,采用拉链法的原因是动态申请空间,至于优点在上面已经阐述了.冲突太多的时候会产生堆积状态,我们将H(key)相同的关键字都统一放到一个链里,当出现冲突的时候我们就把该元素接在链表后面,这样可以避免产生堆积现象,缩短平均查找长度.

当数据表太小,而数据太多的时候怎么办?
当数据表太小数据太多可以通过建立一个溢出表,专门用来存放哈希表中放不下的记录.

0 0
原创粉丝点击