Hash表分析以及Java实现

来源：互联网发布：暗黑三数据挖掘员编辑：程序博客网时间：2024/05/08 09:33

　　一。 Hash表概念

　　在查找表中我们已经说过，在Hash表中，记录在表中的位置和其关键字之间存在着一种确定的关系。这样我们就能预先知道所查关键字在表中的位置，从而直接通过下标找到记录。使ASL趋近与0.

　　1) 哈希(Hash)函数是一个映象，即：将关键字的集合映射到某个地址集合上，它的设置很灵活，只要这个地址集合的大小不超出允许范围即可；

　　2) 由于哈希函数是一个压缩映象，因此，在一般情况下，很容易产生“冲突”现象，即： key1? key2，而 f (key1) = f(key2)。

　　3). 只能尽量减少冲突而不能完全避免冲突，这是因为通常关键字集合比较大，其元素包括所有可能的关键字，而地址集合的元素仅为哈希表中的地址值

　　在构造这种特殊的“查找表” 时，除了需要选择一个“好”(尽可能少产生冲突)的哈希函数之外；还需要找到一种“处理冲突” 的方法。

　　二 . Hash构造函数的方法，及适用范围

　　直接定址法

　　数字分析法

　　平方取中法

　　折叠法

　　除留余数法

　　随机数法

　　（1）直接定址法：

　　哈希函数为关键字的线性函数，H(key) = key 或者 H(key) = a ? key + b

　　此法仅适合于：地址集合的大小 = = 关键字集合的大小，其中a和b为常数。

　　（2）数字分析法：

　　假设关键字集合中的每个关键字都是由 s 位数字组成 (u1, u2, …, us)，分析关键字集中的全体，并从中提取分布均匀的若干位或它们的组合作为地址。

　　此法适于:能预先估计出全体关键字的每一位上各种数字出现的频度。

　　（3）平方取中法：

　　以关键字的平方值的中间几位作为存储地址。求“关键字的平方值” 的目的是“扩大差别” ，同时平方值的中间各位又能受到整个关键字中各位的影响。

　　此法适于:关键字中的每一位都有某些数字重复出现频度很高的现象。

　　（4）折叠法：

　　将关键字分割成若干部分，然后取它们的叠加和为哈希地址。两种叠加处理的方法：移位叠加:将分割后的几部分低位对齐相加；间界叠加:从一端沿分割界来回折叠，然后对齐相加。

　　此法适于：关键字的数字位数特别多。

　　（5）除留余数法：

　　设定哈希函数为:H(key) = key MOD p ( p≤m )，其中， m为表长，p 为不大于 m 的素数，或是不含 20 以下的质因子

　　（6）随机数法：

　　设定哈希函数为:H(key) = Random(key)其中，Random 为伪随机函数

　　此法适于：对长度不等的关键字构造哈希函数。

　　实际造表时，采用何种构造哈希函数的方法取决于建表的关键字集合的情况(包括关键字的范围和形态)，以及哈希表长度（哈希地址范围），总的原则是使产生冲突的可能性降到尽可能地小。

　　三. Hash处理冲突方法，各自特征

　　“处理冲突” 的实际含义是：为产生冲突的关键字寻找下一个哈希地址。

　　开放定址法

　　再哈希法

　　链地址法

　　（1）开放定址法：

　　为产生冲突的关键字地址 H(key) 求得一个地址序列： H0, H1, H2, …, Hs 1≤s≤m-1，Hi = ( H(key) +di ) MOD m，其中： i=1, 2, …, s，H(key)为哈希函数;m为哈希表长;

　　（2）链地址法：

　　将所有哈希地址相同的记录都链接在同一链表中。

　　（3）再哈希法：

　　方法：构造若干个哈希函数，当发生冲突时，根据另一个哈希函数计算下一个哈希地址，直到冲突不再发生。即：Hi=Rhi(key) i=1,2,……k，其中：Rhi——不同的哈希函数，特点：计算时间增加

　　四. Hash查找过程

　　对于给定值 K,计算哈希地址 i = H(K)，若 r[i] = NULL 则查找不成功，若 r[i].key = K 则查找成功，否则 “求下一地址 Hi” ，直至r[Hi] = NULL (查找不成功) 或r[Hi].key = K (查找成功) 为止。

　　五. 实现一个使用Hash存数据的场景-------Hash查找算法，插入算法

　　假设我们要设计的是一个用来保存中南大学所有在校学生个人信息的数据表。因为在校学生数量也不是特别巨大(8W?)，每个学生的学号是唯一的,因此，我们可以简单的应用直接定址法，声明一个10W大小的数组，每个学生的学号作为主键。然后每次要添加或者查找学生，只需要根据需要去操作即可。

　　但是，显然这样做是很脑残的。这样做系统的可拓展性和复用性就非常差了，比如有一天人数超过10W了？如果是用来保存别的数据呢？或者我只需要保存20条记录呢？声明大小为10W的数组显然是太浪费了的。

　　如果我们是用来保存大数据量（比如银行的用户数，4大的用户数都应该有3-5亿了吧？），这时候我们计算出来的HashCode就很可能会有冲突了，我们的系统应该有“处理冲突”的能力，此处我们通过挂链法“处理冲突”。

　　如果我们的数据量非常巨大，并且还持续在增加，如果我们仅仅只是通过挂链法来处理冲突，可能我们的链上挂了上万个数据后，这个时候再通过静态搜索来查找链表，显然性能也是非常低的。所以我们的系统应该还能实现自动扩容，当容量达到某比例后，即自动扩容，使装载因子保存在一个固定的水平上。

　　综上所述，我们对这个Hash容器的基本要求应该有如下几点：

　　满足Hash表的查找要求（天天爱养生www.ttays.com）

　　能支持从小数据量到大数据量的自动转变（自动扩容）

　　使用挂链法解决冲突

　　好了，既然都分析到这一步了，咱就闲话少叙，直接开始上代码吧。

　　Java代码

　　package cn.javamzd.collection.search;

　　public class MyMap<K, V> {

　　private int size;// 当前容量

　　private static int INIT_CAPACITY = 16;// 默认容量

　　private Entry<K, V>[] container;// 实际存储数据的数组对象

　　private static float LOAD_FACTOR = 0.75f;// 装载因子

　　private int max;// 能存的最大的数=capacity*factor

　　// 自己设置容量和装载因子的构造器

　　public MyMap(int init_Capaticy, float load_factor) {

　　if (init_Capaticy < 0)

　　throw new IllegalArgumentException("Illegal initial capacity: "

　　+ init_Capaticy);

　　if (load_factor <= 0 || Float.isNaN(load_factor))

　　throw new IllegalArgumentException("Illegal load factor: "

　　+ load_factor);

　　this.LOAD_FACTOR = load_factor;

　　max = (int) (init_Capaticy * load_factor);

　　container = new Entry[init_Capaticy];

　　}

0 0