查找:哈希表

来源:互联网 发布:京东疯狂的美工倒计时 编辑:程序博客网 时间:2024/06/04 18:53

概念

哈希表(Hash table,也叫散列表), 是根据关键码值(Key value)而直接进行访问的数据结构。也就是说,它通过把关键码值映射到表中一个位置来访问记录,以加快查找的速度。这个映射函数叫做散列函数,存放记录的数组叫做散列表。

—存储位置 = f(关键字),其中f为哈希函数。

优点:就是把数据的存储和查找消耗的时间大大降低,几乎可以看成是常数时间(时间复杂度:О(1));而代价仅仅是消耗比较多的内存。然而在当前可利用内存越来越多的情况下,用空间换时间的做法是值得的。

算法 运行时间 备注 顺序查找 О(n) 适用于数组及链表,关键字可无序 对折查找 О(log2n) 适用于数组,关键字有序 哈希查找 О(1) 计算哈希地址,直接查找元素(常量时间)

哈希表的特性:

  1. 最适合的求解问题是查找与给定值相等的记录。
  2. 不适合同样的关键字对应多条记录的情况,如使用关键字“男”去查找某个同学。
  3. 不适合范围查找,比如查找班级18~22岁的同学。

哈希表的构造:

既然哈希表的查找功能这么的强大,那我们怎么构建一个好的哈希表呢?

构建时要遵守以下原则:(我们总不能把一手好牌打烂吧)

  1. 计算简单。哈希函数的计算时间(指的是产生地址的时间),不应该超过其他查找技术与关键字比较的时间。
  2. 地址分布均匀。尽量让哈希地址均匀分布在存储空间中,这样可以使空间有效的利用。

构造方法:

  1. 直接定址法

    f(key)= a*key + b (其中a,b均为常数)
    这种哈希函数优点是比较简单、均匀,也不会产生冲突,但是需要事先知道关键字的分布情况,适合查找表比较小且连续的情况。在实际中并不常用。

  2. 数字分析法

    这里写图片描述
    可以使用关键字的一部分来计算哈希存储的位置,比如手机号码的后几位(或者反转、左移右移等变换)。
    通常适用于处理关键字位数比较大的情况,如果事先知道关键字的分布且关键字的若干位分布均匀,就可以考虑用这种方法。

  3. 除留余数法

    f(key)=key mod p (p<=m),m为哈希表长度,mod是取模(求余数)的意思。事实上,如果p选得不好,就很容易出现同义冲突的情况:这里写图片描述
    如上图所示,选择p=11,就会出现key=12、144的冲突。
    根据经验,若哈希表表长为m,通常p为小于或者等于表长的最小质数或不包含小于20质因子的合数。

总结:

从刚才的除留余数法可以看出,设计再好的哈希函数也不可能完全避免冲突(key1!=key2,但是f(key1)=f(key2)),下面介绍几种常用的避免冲突方法。

处理冲突的方法

如图所示,我先给一个原始数据图,下面将会结合下面的例子给大家详细讲解
这里写图片描述

  1. 开放定址法

    • 线性探测再散列:
      该方法是一旦发生冲突,就去寻找下一个空的哈希地址,只要哈希表足够大,空的哈希地址总能找到,并将其记录存入。
      fi(key)=(f(key)+di) mod m (di=1,2,3……m-1),m为哈希表长度
      如下图所示:
      这里写图片描述

    • 二次探测法:
      fi(key)=(f(key)+di) mod m (di=1^2, -1^2, 2^2, -2^2……q^2, -q^2, q<=m/2)
      增加平方项,主要是为了不让关键字都集中在某一块区域,避免不同的关键字争夺一个地址的情况。
      这里写图片描述

    • 随机探测法:
      fi(key)=(f(key)+di) mod m (di是一个随机数列)
      di使用随机函数计算而来,是前面方法的改进。

    总结
    这个只是单纯的看,是不行的,你只是看到,有三个数据在按一定的算法(也就是mod 11 取余)散列到数组上的时候,看到有三个数据产生冲突啦。那么为了让这些数据更好的全部都能落在这个数组上,更好的利用这个数组,不浪费空间,就要去充分利用未分配到数据的数组上的其他位置。那么这就是解决冲突的需求。线性探测法:刚刚开始的时候,数据未冲突的时候,都按照取余的结果挨个按自己的取余结果,可以理解为你上学分班时候,你选座位。当你要去的座位,没人选的时候,你就坐上去,然后这个位置就被选过了,下次如果还有人和你一样,也选了这个座位,那么,他就冲突了。按照线性探测法的做法是:他本来是要坐你的位置的,但是,你已经坐了,那么,他只能以你为基准,查看你的座位的下一个,如果没人就坐下,如果有人,继续找下一个。当他也坐下来之后,后面再来的。发现自己的位置,被这个冲突的哥们占位了,那么,没办法,只能按刚刚那哥们的做法,继续找自己的位置。直到这个班级的所有位置都有人坐,那就OK。对应到这hashmap上就是 把这个数组的所有位置都给占满咯。这个线性探测和平方探测的区别就是在冲突的哥们找自己的位置的差别,一个是挨个查找;一个是高级点,或+n的平方,或-n的平方。都是为了占满教室的位置。

  2. 链地址法
    将所有关键字为同义词的记录存储在一个单链表中,在哈希表中只存所有同义词子表的指针。
    这里写图片描述
    如上图所示,取12为除数,进行除留余数法,无论存在多少冲突,都只是在当前位置给单链表增加节点而已。

代码实现:

1, 首先定义一些哈希表的结构,以及一些相关的常数。

#define SUCCESS 1#define UNSUCCESS 0#define HASHSIZE 12  //定义哈希表长为数组的长度#define NULLKEY -32768typedef struct{    int *elem;  //数据元素存储的基址,动态分配数组    int count;}HashTable;int m = 0;

2, 对哈希表进行初始化

Status InitHashTable(HashTable *H){    int i;    m = HASHSIZE;    H->count = m;    H->elem = (int *)malloc(m*sizeof(int));    for (i = 0; i < m; i++)        H->elem[i] = NULLKEY;    return OK;}

3,定义哈希函数(为插入时计算地址),这里可以根据不同的情况更换算法

int Hash(int key){    return key % m; //这里使用的是除留余数法}

4,对哈希表进行插入操作

void InsertHash(HashTable *H, int key){    int addr = Hash(key); //根据关键字求取地址    while (H->elem[addr] != NULLKEY) //如果不为空,有冲突出现        addr = (addr + 1) % m; //这里使用开放定址法的线性探测    H->elem[addr] = key; //直到有空位后插入}

5,通过哈希表进行关键字的查找过程,如下所示

Status SearchHash(HashTable H, int key, int *addr){    *addr = Hash(key);  //求取哈希地址    while (H.elem[*addr] != key) //如果不为空,则存在冲突    {        *addr = (*addr + 1) % m;  //开发定址法的线性探测        if (H.elem[*addr] == NULLKEY || *addr == Hash(key))            return UNSUCCESS; //关键字不存在    }    return SUCCESS; //查找成功返回}
原创粉丝点击