哈希表算法

来源：互联网发布：rs485接口是网络接口吗编辑：程序博客网时间：2024/05/07 08:31

以上讨论的查找方法，由于数据元素的存储位置与关键码之间不存在确定的关系，因此，查找时，需要进行一系列对关键码的查找比较，即“查找算法”是建立在比较的基础上的，查找效率由比较一次缩小的查找范围决定。理想的情况是依据关键码直接得到其对应的数据元素位置，即要求关键码与数据元素间存在一一对应关系，通过这个关系，能很快地由关键码得到对应的数据元素位置。

例如：11个元素的关键码分别为 18，27，1，20，22，6，10，13，41，15，25。选取关键码与元素位置间的函数为f(key)=key　mod　11

1．通过这个函数对11个元素建立查找表如下：

2．查找时，对给定值kx依然通过这个函数计算出地址，再将kx与该地址单元中元素的关键码比较，若相等，查找成功。
哈希表与哈希方法：选取某个函数，依该函数按关键码计算元素的存储位置，并按此存放；查找时，由同一个函数对给定值kx计算地址，将kx与地址单元中元素关键码进行比，确定查找是否成功，这就是哈希方法(杂凑法)；哈希方法中使用的转换函数称为哈希函数(杂凑函数)；按这个思想构造的表称为哈希表(杂凑表)。
　　对于n个数据元素的集合，总能找到关键码与存放地址一一对应的函数。若最大关键为m，可以分配m个数据元素存放单元，选取函数f(key)=key即可，但这样会造成存储空间的很大浪费，甚至不可能分配这么大的存储空间。通常关键码的集合比哈希地址集合大得多，因而经过哈希函数变换后，可能将不同的关键码映射到同一个哈希地址上，这种现象称为冲突(Collision)，映射到同一哈希地址上的关键码称为同义词。可以说，冲突不可能避免，只能尽可能减少。所以，哈希方法需要解决以下两个问题：
1．构造好的哈希函数
（1）所选函数尽可能简单，以便提高转换速度。
（2）所选函数对关键码计算出的地址，应在哈希地址集中大致均匀分布，以减少空间
浪费。
2．制定解决冲突的方案。

构造哈希函数的常用方法
一、直接定址法
Hash(key)=a·key+b　　(a、b为常数)
即取关键码的某个线性函数值为哈希地址，这类函数是一一对应函数，不会产生冲突，但要求地址集合与关键码集合大小相同，因此，对于较大的关键码集合不适用。

例如：关键码集合为{100，300，500，700，800，900}，选取哈希函数为
Hash(key)=key/100，则存放如下：

二、除留余数法
Hash(key)=key　mod　p　　(p是一个整数)
　　即取关键码除以p的余数作为哈希地址。使用除留余数法，选取合适的p很重要，若哈希表表长为m，则要求p≤m，且接近m或等于m。p一般选取质数，也可以是不包含小于20质因子的合数。
三、数字分析法
设关键码集合中，每个关键码均由m位组成，每位上可能有r种不同的符号。
【例】若关键码是4位十进制数，则每位上可能有十个不同的数符0～9，所以r=10。

【例】若关键码是仅由英文字母组成的字符串，不考虑大小写，则每位上可能有26种不同的字母，所以r=26。
数字分析法根据r种不同的符号，在各位上的分布情况，选取某几位，组合成哈希地址。所选的位应是各种符号在该位上出现的频率大致相同。

【例7.8】有一组关键码如下：
3　4　7　0　5　2　4　　第1、2位均是“3和4”，第3位也只有
3　4　9　1　4　8　7　　“7、8、9”，因此，这几位不能用，余
3　4　8　2　6　9　6　　下四位分布较均匀，可作为哈希地址选用。
3　4　8　5　2　7　0　　若哈希地址是两位，则可取这四位中的任
3　4　8　6　3　0　5　　意两位组合成哈希地址，也可以取其中两
3　4　9　8　0　5　8　　位与其它两位叠加求和后，取低两位作哈
3　4　7　9　6　7　1　　希地址。
3　4　7　3　9　　9
─────────────
①　②　③　④　⑤　⑥　⑦
四、平方取中法
对关键码平方后，按哈希表大小，取中间的若干位作为哈希地址。

处理冲突的方法
一、开放定址法
　　所谓开放定址法，即是由关键码得到的哈希地址一旦产生了冲突，也就是说，该地址已经存放了数据元素，就去寻找下一个空的哈希地址，只要哈希表足够大，空的哈希地址总能找到，并将数据元素存入。
找空哈希地址方法很多，下面介绍三种：
1．线性探测法
Hi=(Hash(key)+di)　mod　m　　(　1≤i　<　m )
其中：
Hash(key)为哈希函数
m为哈希表长度
di　为增量序列1，2，……，m-1，且di=i

【例】关键码集为 {47，7，29，11，16，92，22，8，3}，哈希表表长为11，
Hash(key)=key　mod　11，用线性探测法处理冲突，建表如下：

47、7、11、16、92均是由哈希函数得到的没有冲突的哈希地址而直接存入的；
Hash(29)=7，哈希地址上冲突，需寻找下一个空的哈希地址：
由H1=(Hash(29)+1)　mod　11=8，哈希地址8为空，将29存入。另外，22、8同样在哈希地址上有冲突，也是由H1找到空的哈希地址的；
而Hash(3)=3，哈希地址上冲突，由
H1=(Hash(3)+1)　mod　11=4　　仍然冲突；
H2=(Hash(3)+2)　mod　11=5　　仍然冲突；
H3=(Hash(3)+3)　mod　11=6　　找到空的哈希地址，存入。
　　线性探测法可能使第i个哈希地址的同义词存入第i+1个哈希地址，这样本应存入第i+1个哈希地址的元素变成了第i+2个哈希地址的同义词，……，因此，可能出现很多元素在相邻的哈希地址上“堆积”起来，大大降低了查找效率。为此，可采用二次探测法，或双哈希函数探测法，以改善“堆积”问题。
2．二次探测法
Hi=(Hash(key)±di)　mod　m
其中：
Hash(key)为哈希函数
m为哈希表长度，m要求是某个4k+3的质数(k是整数)

仍以上例用二次探测法处理冲突，建表如下：

对关键码寻找空的哈希地址只有3这个关键码与上例不同，
Hash(3)=3，哈希地址上冲突，由
H1=(Hash(3)+12)　mod　11=4　　仍然冲突；
H2=(Hash(3)-12)　mod　11=2　　找到空的哈希地址，存入。
3．双哈希函数探测法
Hi=(Hash(key)+i*ReHash(key))　mod　m　　(i=1，2，……，m-1)
其中：
Hash(key)，ReHash(key)是两个哈希函数，
m为哈希表长度
双哈希函数探测法，先用第一个函数Hash(key)对关键码计算哈希地址，一旦产生地址冲突，再用第二个函数ReHash(key)确定移动的步长因子，最后，通过步长因子序列由探测函数寻找空的哈希地址。
比如，Hash(key)=a时产生地址冲突，就计算ReHash(key)=b，则探测的地址序列为
H1=(a+b)　mod　m，H2=(a+2b)　mod　m，……，Hm-1=(a+(m-1)b)　mod　m

二、链地址法
　　设哈希函数得到的哈希地址域在区间[0，m-1]上，以每个哈希地址作为一个指针，指向一个链，即分配指针数组ElemType　*eptr[m]；建立m个空链表，由哈希函数对关键码转
换后，映射到同一哈希地址i的同义词均加入到*eptr[i]指向的链表中。

【例】关键码序列为47,7,29,11,16,92,22,8,3,50,37,89,94,21，哈希函数为
Hash(key)=key　mod　11
用拉链法处理冲突，建表如图9.21。图9.21拉链法处理冲突时的哈希表(向链表中插入元素均在表头进行)
三．建立一个公共溢出区
设哈希函数产生的哈希地址集为[0，m-1]，则分配两个表：
一个基本表ElemType　base_tbl[m]；每个单元只能存放一个元素；
一个溢出表ElemType　over_tbl[k]；只要关键码对应的哈希地址在基本表上产生冲突，则所有这样的元素一律存入该表中。查找时，对给定值kx通过哈希函数计算出哈希地址i，先与基本表的base_tbl[i]单元比较，若相等，查找成功；否则，再到溢出表中进行查找。

哈希表的查找分析
　　哈希表的查找过程基本上和造表过程相同。一些关键码可通过哈希函数转换的地址直接找到，另一些关键码在哈希函数得到的地址上产生了冲突，需要按处理冲突的方法进行查找。在介绍的三种处理冲突的方法中，产生冲突后的查找仍然是给定值与关键码进行比较的过程。所以，对哈希表查找效率的量度，依然用平均查找长度来衡量。
　　查找过程中，关键码的比较次数，取决于产生冲突的多少，产生的冲突少，查找效率就高，产生的冲突多，查找效率就低。因此，影响产生冲突多少的因素，也就是影响查找效率的因素。影响产生冲突多少有以下三个因素：
1．哈希函数是否均匀；　
2．处理冲突的方法；　
3．哈希表的装填因子。
　　分析这三个因素，尽管哈希函数的“好坏”直接影响冲突产生的频度，但一般情况下，我们总认为所选的哈希函数是“均匀的”，因此，可不考虑哈希函数对平均查找长度的影响。就线性探测法和二次探测法处理冲突的例子看，相同的关键码集合、同样的哈希函数，但在数据元素查找等概率情况下，它们的平均查找长度却不同：
线性探测法的平均查找长度ASL=(5×1+3×2+1×4)/9=5/3
二次探测法的平均查找长度ASL=(5×1+3×2+1×2)/9=13/9
填入表中的元素个数
哈希表的装填因子定义为：α=────────────
哈希表的长度
　　α是哈希表装满程度的标志因子。由于表长是定值，α与“填入表中的元素个数”成正比，所以，α越大，填入表中的元素较多，产生冲突的可能性就越大；α越小，填入表中的元素较少，产生冲突的可能性就越小。
　　实际上，哈希表的平均查找长度是装填因子α的函数，只是不同处理冲突的方法有不同的函数。以下给出几种不同处理冲突方法的平均查找长度：

哈希方法存取速度快，也较节省空间，静态查找、动态查找均适用，但由于存取是随机的，因此，不便于顺序查找。

0 0