JDK1.8源码阅读系列之三：HashMap

来源：互联网发布：招商加盟行业网络推广编辑：程序博客网时间：2024/06/06 16:52

一、HashMap概述:
HashMap是Java程序员使用频率最高的用于映射(键值对)处理的数据类型。随着JDK（Java Developmet Kit）版本的更新，JDK1.8对HashMap底层的实现进行了优化，采用数组+链表+红黑树实现，当链表长度超过阈值（8）时，将链表转换为红黑树，这样大大减少了查找时间。

二、HashMap数据结构:

说明：上图很形象的展示了HashMap的数据结构（数组+链表+红黑树），桶中的结构可能是链表，也可能是红黑树，红黑树的引入是为了提高效率。

三、HashMap源码分析：

3.1类的继承关系

public class HashMap<K,V> extends AbstractMap<K,V> implements Map<K,V>, Cloneable, Serializable

　可以看到HashMap继承自父类（AbstractMap），实现了Map、Cloneable、Serializable接口。其中，Map接口定义了一组通用的操作；Cloneable接口则表示可以进行拷贝，在HashMap中，实现的是浅层次拷贝，即对拷贝对象的改变会影响被拷贝的对象；Serializable接口表示HashMap实现了序列化，即可以将HashMap对象保存至本地，之后可以恢复状态。

3.2 类的属性

// 默认的初始容量是16static final int DEFAULT_INITIAL_CAPACITY = 1 << 4;   // 最大容量static final int MAXIMUM_CAPACITY = 1 << 30; // 默认的填充因子static final float DEFAULT_LOAD_FACTOR = 0.75f;// 当桶(bucket)上的结点数大于这个值时会转成红黑树static final int TREEIFY_THRESHOLD = 8; // 当桶(bucket)上的结点数小于这个值时树转链表static final int UNTREEIFY_THRESHOLD = 6;// 桶中结构转化为红黑树对应的table的最小大小static final int MIN_TREEIFY_CAPACITY = 64;// 存储元素的数组，总是2的幂次倍transient Node<k,v>[] table; // 存放具体元素的集,用于迭代元素transient Set<map.entry<k,v>> entrySet;// 存放元素的个数，注意这个不等于数组的长度。transient int size;// 每次扩容和更改map结构的计数器transient int modCount;   // 临界值 当实际大小(容量*填充因子)超过临界值时，会进行扩容int threshold;// 填充因子final float loadFactor;

3.3 Node链表的实现

static class Node<K,V> implements Map.Entry<K,V> {    final int hash;    final K key;    V value;    Node<K,V> next;    Node(int hash, K key, V value, Node<K,V> next) {        this.hash = hash;        this.key = key;        this.value = value;        this.next = next;    }    public final K getKey()        { return key; }    public final V getValue()      { return value; }    public final String toString() { return key + "=" + value; }    public final int hashCode() {        return Objects.hashCode(key) ^ Objects.hashCode(value);    }    public final V setValue(V newValue) {        V oldValue = value;        value = newValue;        return oldValue;    }    public final boolean equals(Object o) {        if (o == this)            return true;        if (o instanceof Map.Entry) {            Map.Entry<?,?> e = (Map.Entry<?,?>)o;            if (Objects.equals(key, e.getKey()) &&                Objects.equals(value, e.getValue()))                return true;        }        return false;    }}

　可以看到，node中包含一个next变量，这个就是链表的关键点，hash结果相同的元素就是通过这个next进行关联的。

3.4 TreeNode红黑树的实现

static final class TreeNode<K,V> extends LinkedHashMap.Entry<K,V> {    TreeNode<K,V> parent;  // red-black tree links    TreeNode<K,V> left;    TreeNode<K,V> right;    TreeNode<K,V> prev;    // needed to unlink next upon deletion    boolean red;    TreeNode(int hash, K key, V val, Node<K,V> next) {        super(hash, key, val, next);    }......  }

红黑树比链表多了四个变量，parent父节点、left左节点、right右节点、prev上一个同级节点，红黑树内容较多，有兴趣的可以自行百度，不在赘述。

3.5 构造函数

(1) HashMap(int, float)型构造函数

public HashMap(int initialCapacity, float loadFactor) {    // 初始容量不能小于0，否则报错    if (initialCapacity < 0)        throw new IllegalArgumentException("Illegal initial capacity: " +                                            initialCapacity);    // 初始容量不能大于最大值，否则为最大值    if (initialCapacity > MAXIMUM_CAPACITY)        initialCapacity = MAXIMUM_CAPACITY;    // 填充因子不能小于或等于0，不能为非数字    if (loadFactor <= 0 || Float.isNaN(loadFactor))        throw new IllegalArgumentException("Illegal load factor: " +                                            loadFactor);    // 初始化填充因子                                            this.loadFactor = loadFactor;    // 初始化threshold大小    this.threshold = tableSizeFor(initialCapacity);    }

说明：tableSizeFor(initialCapacity)返回大于initialCapacity的最小的二次幂数值。

static final int tableSizeFor(int cap) {    int n = cap - 1;    n |= n >>> 1;    n |= n >>> 2;    n |= n >>> 4;    n |= n >>> 8;    n |= n >>> 16;    return (n < 0) ? 1 : (n >= MAXIMUM_CAPACITY) ? MAXIMUM_CAPACITY : n + 1;}

这里又涉及到一个算法，通过给定的大小cap，计算大于等于cap的最小的2的幂数。连续5次右移运算乍一看没有什么意思，但仔细一想2进制都是0和1啊，这就有问题了，第一次右移一位，就表示但凡是1的位置右边的一位都变成了1，第二次右移两位，上次已经把有1的位置都变成连续两个1了，是不是感觉很神奇，如此下来5次运算正好将int的32位都转了个遍，以最高的一个1的位置为基准将后面所有位数都变为1，然后在进行n+1，不就变成了2的幂数。这里还有一点要注意的是第一行的cap-1，这是因为如果cap本身就是2的幂数，会出现结果是cap的2倍的情况，会浪费空间。

（2） HashMap(int)型构造函数

   public HashMap(int initialCapacity) {    // 调用HashMap(int, float)型构造函数    this(initialCapacity, DEFAULT_LOAD_FACTOR);  }

（3）HashMap()型构造函数。

public HashMap() {    // 初始化填充因子    this.loadFactor = DEFAULT_LOAD_FACTOR; }

（4）HashMap(Map<? extends K>)型构造函数。

public HashMap(Map<? extends K, ? extends V> m) {    // 初始化填充因子    this.loadFactor = DEFAULT_LOAD_FACTOR;    // 将m中的所有元素添加至HashMap中    putMapEntries(m, false);}

说明：putMapEntries(Map<? extends K, ? extends V> m, boolean evict)函数将m的所有元素存入本HashMap实例中。

    final void putMapEntries(Map<? extends K, ? extends V> m, boolean evict) {    int s = m.size();    if (s > 0) {        // 判断table是否已经初始化        if (table == null) { // pre-size            // 未初始化，s为m的实际元素个数            float ft = ((float)s / loadFactor) + 1.0F;            int t = ((ft < (float)MAXIMUM_CAPACITY) ?                    (int)ft : MAXIMUM_CAPACITY);            // 计算得到的t大于阈值，则初始化阈值            if (t > threshold)                threshold = tableSizeFor(t);        }        // 已初始化，并且m元素个数大于阈值，进行扩容处理        else if (s > threshold)            resize();        // 将m中的所有元素添加至HashMap中        for (Map.Entry<? extends K, ? extends V> e : m.entrySet()) {            K key = e.getKey();            V value = e.getValue();            putVal(hash(key), key, value, false, evict);        }    }}

3.6 put实现

public V put(K key, V value) {    return putVal(hash(key), key, value, false, true);}    final V putVal(int hash, K key, V value, boolean onlyIfAbsent,                   boolean evict) {    Node<K,V>[] tab; Node<K,V> p; int n, i;    // table未初始化或者长度为0，进行扩容    if ((tab = table) == null || (n = tab.length) == 0)        n = (tab = resize()).length;    // (n - 1) & hash 确定元素存放在哪个桶中，桶为空，新生成结点放入桶中(此时，这个结点是放在数组中)    if ((p = tab[i = (n - 1) & hash]) == null)        tab[i] = newNode(hash, key, value, null);    // 桶中已经存在元素    else {        Node<K,V> e; K k;        // 比较桶中第一个元素(数组中的结点)的hash值相等，key相等        if (p.hash == hash &&            ((k = p.key) == key || (key != null && key.equals(k))))                // 将第一个元素赋值给e，用e来记录                e = p;        // hash值不相等，即key不相等；为红黑树结点        else if (p instanceof TreeNode)            // 放入树中            e = ((TreeNode<K,V>)p).putTreeVal(this, tab, hash, key, value);        // 为链表结点        else {            // 在链表最末插入结点            for (int binCount = 0; ; ++binCount) {                // 到达链表的尾部                if ((e = p.next) == null) {                    // 在尾部插入新结点                    p.next = newNode(hash, key, value, null);                    // 结点数量达到阈值，转化为红黑树                    if (binCount >= TREEIFY_THRESHOLD - 1) // -1 for 1st                        treeifyBin(tab, hash);                    // 跳出循环                    break;                }                // 判断链表中结点的key值与插入的元素的key值是否相等                if (e.hash == hash &&                    ((k = e.key) == key || (key != null && key.equals(k))))                    // 相等，跳出循环                    break;                // 用于遍历桶中的链表，与前面的e = p.next组合，可以遍历链表                p = e;            }        }        // 表示在桶中找到key值、hash值与插入元素相等的结点        if (e != null) {             // 记录e的value            V oldValue = e.value;            // onlyIfAbsent为false或者旧值为null            if (!onlyIfAbsent || oldValue == null)                //用新值替换旧值                e.value = value;            // 访问后回调            afterNodeAccess(e);            // 返回旧值            return oldValue;        }    }    // 结构性修改    ++modCount;    // 实际大小大于阈值则扩容    if (++size > threshold)        resize();    // 插入后回调    afterNodeInsertion(evict);    return null;}final void treeifyBin(Node<K,V>[] tab, int hash) {    //将链表转换为红黑树    int n, index; Node<K,V> e;    if (tab == null || (n = tab.length) < MIN_TREEIFY_CAPACITY)    //如果map的容量小于64（默认值），会调用resize扩容，不会转换为红黑树        resize();    else if ((e = tab[index = (n - 1) & hash]) != null) {        TreeNode<K,V> hd = null, tl = null;        do {            TreeNode<K,V> p = replacementTreeNode(e, null);    //Node转换为TreeNode            if (tl == null)                hd = p;            else {                p.prev = tl;                tl.next = p;            }            tl = p;        } while ((e = e.next) != null);        if ((tab[index] = hd) != null)                hd.treeify(tab);        //调用TreeNode的树排序方法    }}

这里重点说两点：

索引的计算：
在计算索引时，这个值必须在[0,length]这个左闭右开的区间中，基于这个条件，比如默认的table长度为16，代入公式 (n 1) & hash，结果必然是存在于[0,length]区间范围内。这里还有个小技巧，在容量一定是2^n的情况下，h & (length 1) == h % length，这里之所以使用位运算，我想也是因为位运算直接由计算机处理，效率要高过%运算。
转化红黑树：
在put方法中，逻辑是链表长度大于（TREEIFY_THRESHOLD -1）时，就转化为红黑树，实际情况这只是初步判断，在转化的方法treeifyBin()方法中会进行二次校验，当tab.length

3.7 HashMap中使用的hash算法

static final int hash(Object key) {    int h;    return (key == null) ? 0 : (h = key.hashCode()) ^ (h >>> 16);}

这个hash先将key右移了16位，然后与key进行异或。由于 int 只有 32 位，无符号右移 16 位相当于把高位的一半移到低位：

举个栗子：

这样可以避免只靠低位数据来计算哈希时导致的冲突，计算结果由高低位结合决定，可以避免哈希值分布不均匀。而且，采用位运算效率更高。

这里还涉及到put方法中的另一次&操作，

tab[i = (n - 1) & hash]

tab既是table，n是map集合的容量大小，hash是上面方法的返回值。因为通常声明map集合时不会指定大小，或者初始化的时候就创建一个容量很大的map对象，所以这个通过容量大小与key值进行hash的算法在开始的时候只会对低位进行计算，虽然容量的2进制高位一开始都是0，但是key的2进制高位通常是有值的，因此先在hash方法中将key的hashCode右移16位在与自身异或，使得高位也可以参与hash，更大程度上减少了碰撞率。

3.8 resize实现

final Node<K,V>[] resize() {    Node<K,V>[] oldTab = table;    int oldCap = (oldTab == null) ? 0 : oldTab.length;  // 获取原HashMap数组的长度。    int oldThr = threshold;  // 扩容临界值    int newCap, newThr = 0;      if (oldCap > 0) {         // 超过最大值就不再扩充了        if (oldCap >= MAXIMUM_CAPACITY) {               threshold = Integer.MAX_VALUE;            return oldTab;        }        // 没超过最大值，就扩充为原来的2倍        else if ((newCap = oldCap << 1) < MAXIMUM_CAPACITY && oldCap >= DEFAULT_INITIAL_CAPACITY)            newThr = oldThr << 1; // double threshold    }    else if (oldThr > 0) // initial capacity was placed in threshold        newCap = oldThr;    else {               // zero initial threshold signifies using defaults        newCap = DEFAULT_INITIAL_CAPACITY;        newThr = (int)(DEFAULT_LOAD_FACTOR * DEFAULT_INITIAL_CAPACITY);    }    // 计算新的resize上限    if (newThr == 0) {        float ft = (float)newCap * loadFactor;        newThr = (newCap < MAXIMUM_CAPACITY && ft < (float)MAXIMUM_CAPACITY ?                (int)ft : Integer.MAX_VALUE);    }    threshold = newThr;    @SuppressWarnings({"rawtypes","unchecked"})    Node<K,V>[] newTab = (Node<K,V>[])new Node[newCap];    table = newTab;    // 遍历桶，然后对桶中的每个元素进行重新hash    if (oldTab != null) {        for (int j = 0; j < oldCap; ++j) {            Node<K,V> e;            if ((e = oldTab[j]) != null) {                oldTab[j] = null;  // 原table地址释放               // 单节点处理                if (e.next == null)                     newTab[e.hash & (newCap - 1)] = e;  // 重新hash放入新table中                // 红黑树处理                else if (e instanceof TreeNode)                    ((TreeNode<K,V>)e).split(this, newTab, j, oldCap);                else { // preserve order                    // 长链表处理                    Node<K,V> loHead = null, loTail = null;                    Node<K,V> hiHead = null, hiTail = null;                    Node<K,V> next;                    do {                        next = e.next;                        // 新表是旧表的两倍容量，以下把单链表拆分为高位链表、低位链表                        if ((e.hash & oldCap) == 0) {  // 低位链表，注意与的对象是oldCap，而不是 oldCap-1                            if (loTail == null)                                loHead = e;                            else                                loTail.next = e;                            loTail = e;                        }                        else {   // 高位链表                            if (hiTail == null)                                hiHead = e;                            else                                hiTail.next = e;                            hiTail = e;                        }                    } while ((e = next) != null);                    // 低位链表保持原索引放入新table中                    if (loTail != null) {                        loTail.next = null;                        newTab[j] = loHead;                    }                    // 高位链表放入新table中，索引=原索引+oldCap                    if (hiTail != null) {                        hiTail.next = null;                        newTab[j + oldCap] = hiHead;                    }                }            }        }    }    return newTab;}

从resize() 的实现中可以看出，在扩容时，针对table，如果桶的位置是单节点链表，那么index =（hash & (newTab.length - 1)），直接放入新表。红黑树另外处理。若是多节点链表，会产生高低和低位链表，即：hash & length=0为低位链表、hash & length=length为高位链表。低位链表保持原索引放入新table中，高位链表index=oldTab.index + oldTab.length = hash & (newTab.length-1)。

为什么要分高低位链表?，试想若是全部都使用index =（hash & (newTab.length - 1)）计算，此时因为是基于下标存储，从而导致在index冲突的情况下，多元素链表的追加出现额外的时间（寻址等）或空间（辅助参数、结构等）上的开销。分高低位链表，相比先保存好数据再寻找追加效率更好，也是极好的优化技巧。

3.9 get实现

public V get(Object key) {    Node<K,V> e;    return (e = getNode(hash(key), key)) == null ? null : e.value;}final Node<K,V> getNode(int hash, Object key) {    Node<K,V>[] tab; Node<K,V> first, e; int n; K k;    if ((tab = table) != null && (n = tab.length) > 0 && (first = tab[(n - 1) & hash]) != null) {        // 直接命中        if (first.hash == hash && // always check first node                    ((k = first.key) == key || (key != null && key.equals(k))))            return first;        // 未命中        if ((e = first.next) != null) {            // 在树中查找            if (first instanceof TreeNode)                return ((TreeNode<K,V>)first).getTreeNode(hash, key);            // 在链表中查找            do {                if (e.hash == hash && ((k = e.key) == key || (key != null && key.equals(k))))                    return e;            } while ((e = e.next) != null);        }    }    return null;}

4.0 remove实现

public V remove(Object key) {    Node<K,V> e;    return (e = removeNode(hash(key), key, null, false, true)) == null ? null : e.value;}final Node<K,V> removeNode(int hash, Object key, Object value, boolean matchValue, boolean movable) {    Node<K,V>[] tab; Node<K,V> p; int n, index;    if ((tab = table) != null && (n = tab.length) > 0 && (p = tab[index = (n - 1) & hash]) != null) {        Node<K,V> node = null, e; K k; V v;        // 直接命中        if (p.hash == hash && ((k = p.key) == key || (key != null && key.equals(k))))            node = p;        else if ((e = p.next) != null) {            // 红黑树中查找            if (p instanceof TreeNode)                node = ((TreeNode<K,V>)p).getTreeNode(hash, key);            else {                // 链表中查找                do {                    if (e.hash == hash && ((k = e.key) == key || (key != null && key.equals(k)))) {                        node = e;                        break;                    }                    p = e;                } while ((e = e.next) != null);            }        }        // 命中后删除        if (node != null && (!matchValue || (v = node.value) == value || (value != null && value.equals(v)))) {            if (node instanceof TreeNode)                ((TreeNode<K,V>)node).removeTreeNode(this, tab, movable);            else if (node == p)                tab[index] = node.next;  // 链表首元素删除            else                p.next = node.next;  //多元素链表节点删除            ++modCount;            --size;            afterNodeRemoval(node);            return node;        }    }    return null;}

4.1 containsKey实现

public boolean containsKey(Object key) {    return getNode(hash(key), key) != null; }

4.2 containsValue实现

public boolean containsValue(Object value) {    Node<K,V>[] tab; V v;    if ((tab = table) != null && size > 0) {        // table遍历        for (int i = 0; i < tab.length; ++i) {            // 多元素链表遍历            for (Node<K,V> e = tab[i]; e != null; e = e.next) {                if ((v = e.value) == value || (value != null && value.equals(v)))                    return true;            }        }    }    return false;}

四、总结：

（1）为什么需要负载因子？

加载因子存在的原因，还是因为要减缓哈希冲突，例如：默认初始桶为16，或等到满16个元素才扩容，某些桶里可能就会有多个元素了。所以加载因子默认为0.75，也就是说大小为16的HashMap，扩容临界值threshold=0.75*16=12,到了第13个元素，就会扩容成32。

（2）加载因子减小？

在构造函数里，设定小一点的加载因子,比如0.5，甚至0.25。
若是一个长期存在的Map,并且key不固定，那可以适当加大初始大小，同时减少加载因子，降低冲突的机率，也能减少寻址的时间。用空间来换时间，这时也是值得的。

（3）初始化时是否定义容量？

通过以上源码分析，每次扩容都需要重创建桶数组、链表、数据转换等，所以扩容成本还是挺高的，若初始化时能设置准确或预估出需要的容量，即使大一点，用空间来换时间，有时也是值得的。

（4） String型的Key设计优化？

如果无法保证无冲突而且能用==来对比，那就尽量搞短点，试想一个个字符的equals都是需要花时间的。顺序型的Key,如：k1、k2、k3...k50,这种key的hashCode是数字递增，冲突的可能性实在太小。

for(int i=0;i<100;i++){    System.out.println(key+".hashCode="+key.hashCode());}结果：K0.hashCode = 2373K1.hashCode = 2374K2.hashCode = 2375K3.hashCode = 2376K4.hashCode = 2377... ...

0 0