HashMap使用经验(下)

来源:互联网 发布:centos 任务管理器 编辑:程序博客网 时间:2024/06/05 21:06

对于任意给定的对象,只要它的hashCode()返回值相同,那么程序调用hash(int h)方法所计算得到的Hash码值总是相同的。接下来程序会调用indexFor(int h, int length)方法来计算该对象应该保存在table数组的哪个索引处。indexFor(inth, int length)方法的代码如清单3-48所示。

代码清单3-48 HashMap的indexFor方法源代码

static int indexFor(int h, int length)   

{   

    return h &(length-1);   

}

这个方法非常巧妙,它总是通过h&(table.length-1)来得到该对象的保存位置,而HashMap底层数组的长度总是2的n次方,当length总是2的倍数时,h&(length-1)是一个非常巧妙的设计:假设 h=5,length=16,那么h&length-1将得到5;如果h=6,length=16,那么h&length-1将得到6,如果h=15,length=16,那么h&length-1将得到15;但是当h=16时,length=16时,那么h&length-1将得到0了;当h=17时,length=16时,那么h&length-1是1,这样保证计算得到的索引值总是位于table数组的索引之内。

根据上面3-46所示的put方法源代码可以看出,当程序试图将一个key-value对放入HashMap中时,程序首先根据该key的hashCode()返回值决定该Entry的存储位置,如果两个 Entry的key的hashCode()返回值相同,那它们的存储位置相同。如果这两个Entry的key通过 equals比较返回true,新添加Entry的Value将覆盖集合中原有Entry的Value,但key不会被覆盖。如果这两个Entry的key通过equals比较返回false,新添加的Entry将与集合中原有Entry形成Entry链,而且新添加的Entry位于Entry链的头部。

当向HashMap中添加key-value对,由其key的hashCode()返回值决定该key-value对(就是Entry对象)的存储位置。当两个Entry对象的key的hashCode()返回值相同时,将由key通过eqauls()比较值决定是采用覆盖行为(返回true),还是产生Entry链(返回false)。

清单3-46所示代码中也调用了addEntry(hash,key, value, i);方法,addEntry是HashMap提供的一个包访问权限的方法,该方法仅用于添加一个key-value 对。代码如清单3-49所示。

代码清单3-49 HashMap的addEntry方法源代码

void addEntry(int hash, K key, V value, int bucketIndex)

{

    // 获取指定 bucketIndex 索引处的 Entry

    // table是一个普通数组,每个数组都有一个固定的长度,这个数组的长度就是HashMap的容量。

    Entry<K,V> e =table[bucketIndex];     //

    // 将新创建的 Entry 放入 bucketIndex 索引处,并让新的 Entry 指向原来的 Entry

    table[bucketIndex] = newEntry<K,V>(hash, key, value, e);

    // 如果 Map 中的 key-value 对的数量超过了极限

    //Size变量用于保存该 HashMap 中所包含的 key-value 对的数量。

    //threshold变量包含了HashMap能容纳的key-value对的极限,它的值等于HashMap的容量乘以负载因子(load factor)。

    //当size++>= threshold时,HashMap 会自动调用resize方法扩充HashMap的容量。每扩充一次,HashMap 的容量就增大一倍。

    if (size++ >=threshold)

        // 把 table 对象的长度扩充到 2 倍

        resize(2 *table.length);

}

系统总是将新添加的Entry对象放入table数组的bucketIndex索引处,如果bucketIndex索引处已经有了一个Entry对象,那新添加的Entry对象指向原有的Entry对象(产生一个Entry链),如果bucketIndex索引处没有Entry对象,那么通过代码Entry<K,V>e=table[bucketIndex];确保e变量是null,也就是新放入的Entry对象指向Null,也就是没有产生Entry链。

当HashMap的每个bucket里存储的Entry只是单个Entry,也就是没有通过指针产生Entry链时,此时的HashMap具有最好的性能。当程序通过key取出对应value时,系统只要先计算出该key的hashCode()返回值,再根据该hashCode返回值找出该key在table数组中的索引,然后取出该索引处的Entry,最后返回该key对应的value即可。HashMap类的get(K key)方法代码如清单3-50所示。

代码清单3-50 HashMap的get方法源代码

public V get(Object key)   

{   

 // 如果 key 是 null,调用getForNullKey 取出对应的 value   

 if (key == null)   

     returngetForNullKey();   

 // 根据该 key 的 hashCode 值计算它的 hash 码

 int hash =hash(key.hashCode());   

 // 直接取出 table 数组中指定索引处的值,

 for (Entry<K,V> e =table[indexFor(hash, table.length)];   

     e != null;   

     // 搜索该 Entry 链的下一个 Entr   

     e = e.next)         // ①

 {   

     Object k;   

     // 如果该 Entry 的 key 与被搜索 key 相同

     if (e.hash == hash&& ((k = e.key) == key   

         ||key.equals(k)))   

         return e.value;   

 }   

 return null;   

}

如果HashMap的每个bucket里只有一个Entry时,HashMap可以根据索引、快速地取出该 bucket里的Entry。在发生“Hash冲突”的情况下,单个bucket里存储的不是一个Entry,而是一个Entry链,系统只能必须按顺序遍历每个Entry,直到找到想搜索的Entry为止——如果恰好要搜索的Entry位于该Entry链的最末端(该Entry是最早放入该bucket中),那系统必须循环到最后才能找到该元素。

归纳起来简单地说,HashMap在底层将key-value当成一个整体进行处理,这个整体就是一个Entry对象。HashMap底层采用一个Entry[]数组来保存所有的key-value对,当需要存储一个 Entry对象时,会根据Hash算法来决定其存储位置;当需要取出一个Entry时,也会根据Hash算法找到其存储位置,直接取出该Entry。

当创建HashMap时,有一个默认的负载因子(load factor),其默认值为0.75,这是时间和空间成本上一种折衷,增大负载因子可以减少Hash表(就是那个Entry数组)所占用的内存空间,但会增加查询数据的时间开销,而查询是最频繁的的操作(HashMap的get()与put()方法都要用到查询);减小负载因子会提高数据查询的性能,但会增加 Hash表所占用的内存空间。

综上所述,我们可以在创建HashMap时根据实际需要适当地调整load factor的值,如果程序比较关心空间开销、内存比较紧张,可以适当地增加负载因子,如果程序比较关心时间开销,内存比较宽裕则可以适当的减少负载因子。通常情况下,程序员无需改变负载因子的值。

如果开始就知道HashMap会保存多个key-value对,可以在创建时就使用较大的初始化容量,如果HashMap中Entry的数量一直不会超过极限容量(capacity* load factor),HashMap就无需调用resize()方法重新分配table数组,从而保证较好的性能。当然,开始就将初始容量设置太高可能会浪费空间(系统需要创建一个长度为capacity的Entry数组),因此创建HashMap时初始化容量设置也需要小心对待。

从上面的源代码分析可以得出,HashMap的高性能需要以下3点来提供保证。

(1)提供高效的Hash算法;

(2)提供高效的算法,保证Hash值到内存地址(数组索引)的映射速度;

(3)根据内存地址(数组索引)可以直接取得对应的值。

此外,能够不用Map就不要用了吧,当我们想遍历一个用键值对形式保存的Map时,下面两种方式其实效率都不高,如清单3-51所示。

代码清单3-51 map循环代码

for (K key : map.keySet()) {

    V value : map.get(key);

}

for (Entry<K, V> entry : map.entrySet()) {

    K key = entry.getKey();

    V value =entry.getValue();

}


感兴趣的朋友可以扫二维码关注公众号——麦克叔叔每晚十点说,一起交流学习。

原创粉丝点击