海量数据处理 ——hash算法

来源:互联网 发布:答题软件 编辑:程序博客网 时间:2024/05/18 10:58

http://blog.csdn.net/jiaomeng/article/details/1511269

http://blog.csdn.net/jiaomeng/article/details/1508555


时间换空间

Key的取值范围通常很大并且分布不均,哈希函数的目的就是将key映射到分布相对均匀且较小的整数集合。从很大的集合到较小的集合,从分布不均到分布均匀,这是哈希函数的两个基本特点。对于哈希函数的使用者来说,哈希函数既有随机性,又有确定性。随机性是指给定一个key,哈希函数的使用者完全不能预测这个key到底会被映射到哪个整数;确定性是指给定一个key,同一个哈希函数总会将它映射到同一个整数。
 
哈希函数的随机性保证了其对输入key的加密特性。通常情况下,哈希函数的输出值能够唯一标识输入的key,因此就像现实世界中的“指纹”能够唯一标识一个人一样,哈希函数的输出值也被叫做“数字指纹”(digital fingerprint)。当然,这只是哈希函数期望达到的境界,理论上由于哈希函数将大集合映射到了小集合,碰撞的可能一定存在。最近,山东大学的王小云教授(已经被挖到了清华)就破解了国际上流行的MD5和SHA-1两大哈希算法,在密码界引起了轩然大波。实际上,破解的过程就是进行碰撞攻击(collision attack),从而找到两个key映射到同一输出值的情况,这样就可以伪造数字指纹。
 
哈希函数的输出值能够唯一标识一个key,这本身就反映了哈希函数的确定性。在哈希表中,哈希函数被用来生成key的存储地址,正是由于确定性的存在,使得存储后的查找成为可能。哈希表最大的特点,就是它不随数据量的增大而速度变慢,因为记忆数据存储位置的任务交给了哈希函数。每一次查找数据的时间都是恒定的,即哈希函数的计算时间(不考虑碰撞的情况下)。这里我们可以看到哈希函数另一大作用:作为存储信息的载体。

Dictionary是一种抽象数据类型,用来存储可以用键值(key)索引的数据项,基本的操作包括插入、查找和删除。它是一个相对比较广义的概念,并没有规定具体的实现,比如在底层用什么数据结构存储数据项。因此,只要存储的每一个数据项是一对(key, value),并可以用key索引到这一项,就可以将这样的数据类型称为Dictionary。

 

Direct-address Tables和Hash Tables都是Dictionary的具体实现方式。Direct-address Tables其实就是普通的数组,数组的第k项只被用来存储键值为k的数据项。显然,要应用这种数据结构必须给每一个可能的键值预留一个数组项,因此它只适用于键值的集合比较小的情况。虽然Direct-address Tables看起来比较浪费内存,但也有它的优点:插入、查找和删除操作的时间复杂度为O(1)。

 

Hash Tables是Dictionary的一种有效实现,它解决了Direct-address Tables在键值集合比较大的情况下不适用的问题。假设U表示所有可能的键值的集合,K表示实际要存储的键值的集合。在|U|远远大于|K|的时候,Hash Tables只分配和|K|大小成比例的数据表项,然后通过哈希函数将K映射到各个表项中。Hash Tables通过将取值范围很大的键值映射到较小的集合中,极大地节省了存储空间,但同时引入了碰撞(Collision)的因素,即几个键值映射到同一表项的情况。由于处理碰撞而增加的复杂度,常常使查找或删除等操作的时间复杂度不再为O(1),在最差的情况下甚至为O(n)(n = |K|)。但在实际中,通过选择合适的哈希函数,上述操作的时间复杂度常常能控制在接近O(1)。  ---- 如IP地址范围过大,hash到不同的hash表


原创粉丝点击