【Java集合源码剖析】Java集合框架

来源：互联网发布：找不到windows hello 编辑：程序博客网时间：2024/06/06 01:56

Java集合工具包位于Java.util包下，包含了很多常用的数据结构，如数组、链表、栈、队列、集合、哈希表等。学习Java集合框架下大致可以分为如下五个部分：List列表、Set集合、Map映射、迭代器（Iterator、Enumeration）、工具类（Arrays、Collections）。

Java集合类的整体框架如下：

从上图中可以看出，集合类主要分为两大类：Collection和Map。

Collection是List、Set等集合高度抽象出来的接口，它包含了这些集合的基本操作，它主要又分为两大部分：List和Set。

List接口通常表示一个列表（数组、队列、链表、栈等），其中的元素可以重复，常用实现类为ArrayList和LinkedList，另外还有不常用的Vector。另外，LinkedList还是实现了Queue接口，因此也可以作为队列使用。

Set接口通常表示一个集合，其中的元素不允许重复（通过hashcode和equals函数保证），常用实现类有HashSet和TreeSet，HashSet是通过Map中的HashMap实现的，而TreeSet是通过Map中的TreeMap实现的。另外，TreeSet还实现了SortedSet接口，因此是有序的集合（集合中的元素要实现Comparable接口，并覆写Compartor函数才行）。

我们看到，抽象类AbstractCollection、AbstractList和AbstractSet分别实现了Collection、List和Set接口，这就是在Java集合框架中用的很多的适配器设计模式，用这些抽象类去实现接口，在抽象类中实现接口中的若干或全部方法，这样下面的一些类只需直接继承该抽象类，并实现自己需要的方法即可，而不用实现接口中的全部抽象方法。

Map是一个映射接口，其中的每个元素都是一个key-value键值对，同样抽象类AbstractMap通过适配器模式实现了Map接口中的大部分函数，TreeMap、HashMap、WeakHashMap等实现类都通过继承AbstractMap来实现，另外，不常用的HashTable直接实现了Map接口，它和Vector都是JDK1.0就引入的集合类。

Iterator是遍历集合的迭代器（不能遍历Map，只用来遍历Collection），Collection的实现类都实现了iterator()函数，它返回一个Iterator对象，用来遍历集合，ListIterator则专门用来遍历List。而Enumeration则是JDK1.0时引入的，作用与Iterator相同，但它的功能比Iterator要少，它只能再Hashtable、Vector和Stack中使用。

Arrays和Collections是用来操作数组、集合的两个工具类，例如在ArrayList和Vector中大量调用了Arrays.Copyof()方法，而Collections中有很多静态方法可以返回各集合类的synchronized版本，即线程安全的版本，当然了，如果要用线程安全的结合类，首选Concurrent并发包下的对应的集合类。

Java的集合大致可分为：Set、List和Map三种体系:

Set代表无序、不可重复的集合；

List代表有序、重复的集合；

而Map则代表具有映射关系的集合。

从JDK1.5以后，Java集合又增加了Queue体系集合，代表一种队列集合实现

Java的集合类主要由两个接口派生而出：Collection和Map

Set接口

Set集合是不允许包含相同的元素的，是根据equals()来判断是否是同一对象的

HashSet是Set接口的典型实现，HashSet是按Hash算法来存储集合中的元素的，因此具有很好的存取和查找性能。

HashSet有以下特点：

不能保证元素的排序顺序

不是同步的

集合元素值可以为null

存入一个新元素，要判断是否已经存在的标准是两个对象通过equals()比较相等，并且两个对象的hashCode()方法返回值也相等。如果需要某个类的对象保存到HashSet集合中，重写这个类的equals方法和hashCode方法时，应该尽量保证两个对象通过equals比较结果跟hashCode返回结果一致（hashCode的对象的放置位置，而equals是判断两个对象是否的同一个，如果hashCode一样，但是equals不同，则会出现两个不同的元素放同一个位置，反过来的情况更加糟糕）

LinkedHashSet则是继承了HashSet的子类，使用的是链表结构。也是根据hashCode值来决定元素存储位置，但它同时使用链表维护元素的次序，但是由于要维护元素的插入顺序，故性能略低于HashSet的性能

TreeSet采用红黑树的数据结构对元素进行排序。默认情况下是升序的自然排序，也可以定制排序。当加入一个对象进TreeSet集合中时，TreeSet调用该对象的compareTo(Object obj)方法与容器中的其他对象比较大小，然后根据红黑树算法决定它的存储位置。

EnumSet的集合元素也是有序的，是以枚举值在Enum类内的定义顺序来决定集合元素的顺序。在内部以位向量的形式存储所以EnumSet对象占用内存很小，而且运行效率很好。尤其是进行批量操作时。

总结：

如何选择HashSet和TreeSet，HashSet的性能总是比TreeSet好（特别是最常用的添加、查询元素等操作），因为TreeSet需要额外的红黑树算法来维护集合元素的次序。只有当需要一个保持排序的Set时，才应该使用TreeSet，否则都应该使用HashSet。而HashSet的子类LinkedHashSet，对普通的插入、删除操作，LinkedHashSet比HashSet要稍微慢一点（维护链表开销），但是遍历会更快

EnumSet是所有Set实现类中性能最好的。

以上都不是线程安全的，如果多线程访问，可以用Collections工具类的synchronizedSortedSet方法来“包装”该Set集合。此操作最好在创建时进行，如

[java] view plaincopy
SortedSet s = Collections.synchronizedSortedSet(new TreeSet(...));  

List接口

List集合代表一个有序集合，默认是按照元素的添加顺序设置元素的索引

ArrayList、Vector和LinkedList

（1）ArrayList：实现：默认创建一个大小为10的Object数组，每次add的时候，有一个minCapacity变量，每次都加1，然后和Object数组的大小比较，如果大于则将当前的Object数组值赋值给一个数组对象，接着产生一个新的数组的容量值（此值计算方法为当前数组大小*1.5+1，如果还小于minCapacity那么就以minCapacity作为新的容量值），得到这个容量值后调用Arrays.copyOf来生成新的数组对象，如果想调整增加策略，可继承ArrayList，并覆盖ensureCapacity方法

补充：

其中的Arrays.coryOf是这样实现的，首先创建一个新的数组，该数组对象的类型和之前ArrayList中元素的类型一致的，在这里JDK做了小优化，在创建完新的数组之后调用System.arraycopy通过native方法将之前数组中的对象复制到新的数组中

ArrayList还提供了add(int,E)方法，跟add()方法的区别是将当前数组对象进行一次复制，即将目前的index及其后的数据往后挪动一位，故要多付出一次复制数组的代价

（2）Vector是线程安全的，和ArrayList一样是采用Object数组实现的，Vector()调用也创建一个大小为10的Object数组，并将capacityIncrement设置为0，但是add的时候是不一样的，Vector的add方法加了synchronized关键字，而且当容量不够时进行扩容的策略不一样，Vector的策略是：如果容量不够，那么如果capcacityIncrement大于0，则将Object数组的大小扩为现有size+capcacityIncrement，如果capcacityIncrement小于0，则Object数组的大小扩为现有size的两倍。

（3）LinkedList是基于双向链表机制，add是使用头插法.

LinkedList:链表实现, 增删快, 查找慢
由于LinkedList:在内存中的地址不连续,需要让上一个元素记住下一个元素.所以每个元素中保存的有下一个元素的位置.虽然也有角标,但是查找的时候,需要从头往下找,显然是没有数组查找快的.但是,链表在插入新元素的时候,只需要让前一个元素记住新元素,让新元素记住下一个元素就可以了.所以插入很快.由于链表实现, 增加时只要让前一个元素记住自己就可以, 删除时让前一个元素记住后一个元素, 后一个元素记住前一个元素. 这样的增删效率较高。但查询时需要一个一个的遍历, 所以效率较低。

Map接口:

Map是映射，跟前面的Set和List有本质的区别。
散列图HashMap，

链式散列图LinkedHashMap，

树形图TreeHashMap是映射的3种实现，

从名字上来说，有了上述Set的3种实现的分析，这个也是类似的。
HashMap：效率高
LikedHashMap：按照添加顺序存储，可以按添加顺序取出
TreeHashMap：排序性

0 0