深入源码分析HashSet

来源：互联网发布：如何评价宋思明知乎编辑：程序博客网时间：2024/05/20 06:52

前面我们花了一定的篇幅学习了HashMap的一些底层原理，以及简单了解了HashSet和HashMap两种集合的渊源，现在我们从HashSet源码入手，来学习HashSet更细节的地方。

对于HashSet而言，它是基于HashMap实现的。HashSet底层采用HashMap来保存元素，因此HashSet底层其实比较简单。

package java.util;public class HashSet<E>    extends AbstractSet<E>    implements Set<E>, Cloneable, java.io.Serializable{    static final long serialVersionUID = -5024744406713321676L;    // HashSet是通过map(HashMap对象)保存内容的    private transient HashMap<E,Object> map;    // 定义一个虚拟的Object PRESENT是向map中插入key-value对应的value    // 因为HashSet中只需要用到key，而HashMap是key-value键值对；    // 所以，向map中添加键值对时，键值对的值固定是PRESENT    private static final Object PRESENT = new Object();    // 默认构造函数 底层创建一个HashMap    public HashSet() {        // 调用HashMap的默认构造函数，创建map        map = new HashMap<E,Object>();    }    // 带集合的构造函数    public HashSet(Collection<? extends E> c) {        // 创建map。        // 为什么要调用Math.max((int) (c.size()/.75f) + 1, 16)，从 (c.size()/.75f) + 1 和 16 中选择一个比较大的树呢？                // 首先，说明(c.size()/.75f) + 1        //   因为从HashMap的效率(时间成本和空间成本)考虑，HashMap的加载因子是0.75。        //   当HashMap的“阈值”(阈值=HashMap总的大小*加载因子) < “HashMap实际大小”时，        //   就需要将HashMap的容量翻倍。        //   所以，(c.size()/.75f) + 1 计算出来的正好是总的空间大小。        // 接下来，说明为什么是 16 。        //   HashMap的总的大小，必须是2的指数倍。若创建HashMap时，指定的大小不是2的指数倍；        //   HashMap的构造函数中也会重新计算，找出比“指定大小”大的最小的2的指数倍的数。        //   所以，这里指定为16是从性能考虑。避免重复计算。        map = new HashMap<E,Object>(Math.max((int) (c.size()/.75f) + 1, 16));        // 将集合(c)中的全部元素添加到HashSet中        addAll(c);    }    // 指定HashSet初始容量和加载因子的构造函数    public HashSet(int initialCapacity, float loadFactor) {        map = new HashMap<E,Object>(initialCapacity, loadFactor);    }    // 指定HashSet初始容量的构造函数    public HashSet(int initialCapacity) {        map = new HashMap<E,Object>(initialCapacity);    }    HashSet(int initialCapacity, float loadFactor, boolean dummy) {        map = new LinkedHashMap<E,Object>(initialCapacity, loadFactor);    }    // 返回HashSet的迭代器    public Iterator<E> iterator() {        // 实际上返回的是HashMap的“key集合的迭代器”        return map.keySet().iterator();    }   //调用HashMap的size()方法返回Entry的数量，得到该Set里元素的个数    public int size() {        return map.size();    }   //调用HashMap的isEmpty()来判断HaspSet是否为空   //HashMap为null。对应的HashSet也为空    public boolean isEmpty() {        return map.isEmpty();    }    //调用HashMap的containsKey判断是否包含指定的key    //HashSet的所有元素就是通过HashMap的key来保存的    public boolean contains(Object o) {        return map.containsKey(o);    }    // 将元素(e)添加到HashSet中，也就是将元素作为Key放入HashMap中    public boolean add(E e) {        return map.put(e, PRESENT)==null;    }    // 删除HashSet中的元素(o)，其实是在HashMap中删除了以o为key的Entry    public boolean remove(Object o) {        return map.remove(o)==PRESENT;    }     //清空HashMap的clear方法清空所有Entry    public void clear() {        map.clear();    }    // 克隆一个HashSet，并返回Object对象    public Object clone() {        try {            HashSet<E> newSet = (HashSet<E>) super.clone();            newSet.map = (HashMap<E, Object>) map.clone();            return newSet;        } catch (CloneNotSupportedException e) {            throw new InternalError();        }    }    // java.io.Serializable的写入函数    // 将HashSet的“总的容量，加载因子，实际容量，所有的元素”都写入到输出流中    private void writeObject(java.io.ObjectOutputStream s)        throws java.io.IOException {        // Write out any hidden serialization magic        s.defaultWriteObject();        // Write out HashMap capacity and load factor        s.writeInt(map.capacity());        s.writeFloat(map.loadFactor());        // Write out size        s.writeInt(map.size());        // Write out all elements in the proper order.        for (Iterator i=map.keySet().iterator(); i.hasNext(); )            s.writeObject(i.next());    }    // java.io.Serializable的读取函数    // 将HashSet的“总的容量，加载因子，实际容量，所有的元素”依次读出    private void readObject(java.io.ObjectInputStream s)        throws java.io.IOException, ClassNotFoundException {        // Read in any hidden serialization magic        s.defaultReadObject();        // Read in HashMap capacity and load factor and create backing HashMap        int capacity = s.readInt();        float loadFactor = s.readFloat();        map = (((HashSet)this) instanceof LinkedHashSet ?               new LinkedHashMap<E,Object>(capacity, loadFactor) :               new HashMap<E,Object>(capacity, loadFactor));        // Read in size        int size = s.readInt();        // Read in all elements in the proper order.        for (int i=0; i<size; i++) {            E e = (E) s.readObject();            map.put(e, PRESENT);        }    }}

从上述HashSet源代码可以看出，它其实就是一个对HashMap的封装而已。所有放入HashSet中的集合元素实际上由HashMap的key来保存，而HashMap的value则存储了一个PRESENT，它是一个静态的Object对象。

HashSet的绝大部分方法都是通过调用HashMap的方法来实现的，因此HashSet和HashMap两个集合在实现本质上是相同的。

根据HashMap的一个特性: 将一个key-value对放入HashMap中时，首先根据key的hashCode()返回值决定该Entry的存储位置，如果两个key的hash值相同，那么它们的存储位置相同。如果这个两个key的equalus比较返回true。那么新添加的Entry的value会覆盖原来的Entry的value，key不会覆盖。因此,如果向HashSet中添加一个已经存在的元素，新添加的集合元素不会覆盖原来已有的集合元素。

现在我们通过一个实际的例子来看看是否真正理解了HashMap和HashSet存储元素的细节:

class Name{    private String first;    private String last;    public Name(String first, String last)     {        this.first = first;        this.last = last;    }    public boolean equals(Object o)     {        if (this == o)        {            return true;        }        if (o.getClass() == Name.class)        {            Name n = (Name)o;            return n.first.equals(first)                && n.last.equals(last);        }        return false;    }}public class HashSetTest{    public static void main(String[] args)     {        Set<Name> s = new HashSet<Name>();        s.add(new Name("abc", "123"));        System.out.println(            s.contains(new Name("abc", "123")));    } }

上面程序中向HashSet里添加了一个new Name(“abc”,”123”)对象之后，立即通过程序判断该HashSet里是否包含一个new Name(“abc”,”123”)对象。粗看上去，很容易以为该程序会输出true。

实际上会输出false。因为HashSet判断两个对象相等的标准是想通过hashCode()方法计算出其hash值，当hash值相同的时候才继续判断equals()方法。而如上程序我们并没有重写hashCode()方法。所以两个Name类的hash值并不相同，因此HashSet会把其当成两个对象来处理。

所以，当我们要将一个类作为HashMap的key或者存储在HashSet的时候。通过重写hashCode()和equals(Object object)方法很重要，并且保证这两个方法的返回值一致。当两个类的hashCode()返回一致时，应该保证equasl()方法也返回true。当给上述Name类增加如下方法:

public void hashCode(){return first.hashCode()+last.hashCode();}

此时我们测试的方法会返回true。

0 0