海量数据处理 ——hash算法

来源：互联网发布：答题软件编辑：程序博客网时间：2024/05/18 10:58

http://blog.csdn.net/jiaomeng/article/details/1511269

http://blog.csdn.net/jiaomeng/article/details/1508555

时间换空间

Key的取值范围通常很大并且分布不均，哈希函数的目的就是将key映射到分布相对均匀且较小的整数集合。从很大的集合到较小的集合，从分布不均到分布均匀，这是哈希函数的两个基本特点。对于哈希函数的使用者来说，哈希函数既有随机性，又有确定性。随机性是指给定一个key，哈希函数的使用者完全不能预测这个key到底会被映射到哪个整数；确定性是指给定一个key，同一个哈希函数总会将它映射到同一个整数。

哈希函数的随机性保证了其对输入key的加密特性。通常情况下，哈希函数的输出值能够唯一标识输入的key，因此就像现实世界中的“指纹”能够唯一标识一个人一样，哈希函数的输出值也被叫做“数字指纹”（digital fingerprint）。当然，这只是哈希函数期望达到的境界，理论上由于哈希函数将大集合映射到了小集合，碰撞的可能一定存在。最近，山东大学的王小云教授（已经被挖到了清华）就破解了国际上流行的MD5和SHA-1两大哈希算法，在密码界引起了轩然大波。实际上，破解的过程就是进行碰撞攻击（collision attack），从而找到两个key映射到同一输出值的情况，这样就可以伪造数字指纹。

哈希函数的输出值能够唯一标识一个key，这本身就反映了哈希函数的确定性。在哈希表中，哈希函数被用来生成key的存储地址，正是由于确定性的存在，使得存储后的查找成为可能。哈希表最大的特点，就是它不随数据量的增大而速度变慢，因为记忆数据存储位置的任务交给了哈希函数。每一次查找数据的时间都是恒定的，即哈希函数的计算时间（不考虑碰撞的情况下）。这里我们可以看到哈希函数另一大作用：作为存储信息的载体。

Dictionary是一种抽象数据类型，用来存储可以用键值（key）索引的数据项，基本的操作包括插入、查找和删除。它是一个相对比较广义的概念，并没有规定具体的实现，比如在底层用什么数据结构存储数据项。因此，只要存储的每一个数据项是一对(key, value)，并可以用key索引到这一项，就可以将这样的数据类型称为Dictionary。

Direct-address Tables和Hash Tables都是Dictionary的具体实现方式。Direct-address Tables其实就是普通的数组，数组的第k项只被用来存储键值为k的数据项。显然，要应用这种数据结构必须给每一个可能的键值预留一个数组项，因此它只适用于键值的集合比较小的情况。虽然Direct-address Tables看起来比较浪费内存，但也有它的优点：插入、查找和删除操作的时间复杂度为O(1)。

Hash Tables是Dictionary的一种有效实现，它解决了Direct-address Tables在键值集合比较大的情况下不适用的问题。假设U表示所有可能的键值的集合，K表示实际要存储的键值的集合。在|U|远远大于|K|的时候，Hash Tables只分配和|K|大小成比例的数据表项，然后通过哈希函数将K映射到各个表项中。Hash Tables通过将取值范围很大的键值映射到较小的集合中，极大地节省了存储空间，但同时引入了碰撞（Collision）的因素，即几个键值映射到同一表项的情况。由于处理碰撞而增加的复杂度，常常使查找或删除等操作的时间复杂度不再为O(1)，在最差的情况下甚至为O(n)（n = |K|）。但在实际中，通过选择合适的哈希函数，上述操作的时间复杂度常常能控制在接近O(1)。 ---- 如IP地址范围过大，hash到不同的hash表