【Java集合源码剖析】Java集合框架

来源:互联网 发布:找不到windows hello 编辑:程序博客网 时间:2024/06/06 01:56

    Java集合工具包位于Java.util包下,包含了很多常用的数据结构,如数组、链表、栈、队列、集合、哈希表等。学习Java集合框架下大致可以分为如下五个部分:List列表、Set集合、Map映射、迭代器(Iterator、Enumeration)、工具类(Arrays、Collections)。

  Java集合类的整体框架如下:


从上图中可以看出,集合类主要分为两大类:Collection和Map。

  Collection是List、Set等集合高度抽象出来的接口,它包含了这些集合的基本操作,它主要又分为两大部分:List和Set。

    List接口通常表示一个列表(数组、队列、链表、栈等),其中的元素可以重复,常用实现类为ArrayList和LinkedList,另外还有不常用的Vector。另外,LinkedList还是实现了Queue接口,因此也可以作为队列使用。

    Set接口通常表示一个集合,其中的元素不允许重复(通过hashcode和equals函数保证),常用实现类有HashSet和TreeSet,HashSet是通过Map中的HashMap实现的,而TreeSet是通过Map中的TreeMap实现的。另外,TreeSet还实现了SortedSet接口,因此是有序的集合(集合中的元素要实现Comparable接口,并覆写Compartor函数才行)。

    我们看到,抽象类AbstractCollection、AbstractList和AbstractSet分别实现了Collection、List和Set接口,这就是在Java集合框架中用的很多的适配器设计模式,用这些抽象类去实现接口,在抽象类中实现接口中的若干或全部方法,这样下面的一些类只需直接继承该抽象类,并实现自己需要的方法即可,而不用实现接口中的全部抽象方法。

    Map是一个映射接口,其中的每个元素都是一个key-value键值对,同样抽象类AbstractMap通过适配器模式实现了Map接口中的大部分函数,TreeMap、HashMap、WeakHashMap等实现类都通过继承AbstractMap来实现,另外,不常用的HashTable直接实现了Map接口,它和Vector都是JDK1.0就引入的集合类。

    Iterator是遍历集合的迭代器(不能遍历Map,只用来遍历Collection),Collection的实现类都实现了iterator()函数,它返回一个Iterator对象,用来遍历集合,ListIterator则专门用来遍历List。而Enumeration则是JDK1.0时引入的,作用与Iterator相同,但它的功能比Iterator要少,它只能再Hashtable、Vector和Stack中使用。

    Arrays和Collections是用来操作数组、集合的两个工具类,例如在ArrayList和Vector中大量调用了Arrays.Copyof()方法,而Collections中有很多静态方法可以返回各集合类的synchronized版本,即线程安全的版本,当然了,如果要用线程安全的结合类,首选Concurrent并发包下的对应的集合类。

         Java的集合大致可分为:SetListMap三种体系:

       Set代表无序、不可重复的集合;

       List代表有序、重复的集合;

       而Map则代表具有映射关系的集合。

      从JDK1.5以后,Java集合又增加了Queue体系集合,代表一种队列集合实现

Java的集合类主要由两个接口派生而出:Collection和Map




Set接口

Set集合是不允许包含相同的元素的,是根据equals()来判断是否是同一对象

HashSet是Set接口的典型实现,HashSet是按Hash算法来存储集合中的元素的,因此具有很好的存取和查找性能。

HashSet有以下特点:

不能保证元素的排序顺序

不是同步

集合元素值可以为null

存入一个新元素,要判断是否已经存在的标准是两个对象通过equals()比较相等,并且两个对象的hashCode()方法返回值也相等。如果需要某个类的对象保存到HashSet集合中,重写这个类的equals方法和hashCode方法时,应该尽量保证两个对象通过equals比较结果跟hashCode返回结果一致(hashCode的对象的放置位置,而equals是判断两个对象是否的同一个,如果hashCode一样,但是equals不同,则会出现两个不同的元素放同一个位置,反过来的情况更加糟糕)

LinkedHashSet则是继承了HashSet的子类,使用的是链表结构。也是根据hashCode值来决定元素存储位置,但它同时使用链表维护元素的次序,但是由于要维护元素的插入顺序,故性能略低于HashSet的性能

TreeSet采用红黑树的数据结构对元素进行排序。默认情况下是升序的自然排序,也可以定制排序。当加入一个对象进TreeSet集合中时,TreeSet调用该对象的compareTo(Object obj)方法与容器中的其他对象比较大小,然后根据红黑树算法决定它的存储位置。

EnumSet的集合元素也是有序的,是以枚举值在Enum类内的定义顺序来决定集合元素的顺序。在内部以位向量的形式存储所以EnumSet对象占用内存很小,而且运行效率很好。尤其是进行批量操作时。

总结:

如何选择HashSet和TreeSet,HashSet的性能总是比TreeSet好(特别是最常用的添加、查询元素等操作),因为TreeSet需要额外的红黑树算法来维护集合元素的次序。只有当需要一个保持排序的Set时,才应该使用TreeSet,否则都应该使用HashSet。而HashSet的子类LinkedHashSet,对普通的插入、删除操作,LinkedHashSet比HashSet要稍微慢一点(维护链表开销),但是遍历会更快

EnumSet是所有Set实现类中性能最好的。

以上都不是线程安全的,如果多线程访问,可以用Collections工具类的synchronizedSortedSet方法来“包装”该Set集合。此操作最好在创建时进行,如

[java] view plaincopy
  1. SortedSet s = Collections.synchronizedSortedSet(new TreeSet(...));  

List接口

List集合代表一个有序集合,默认是按照元素的添加顺序设置元素的索引

ArrayList、Vector和LinkedList

(1)ArrayList:实现:默认创建一个大小为10Object数组,每次add的时候,有一个minCapacity变量,每次都加1,然后和Object数组的大小比较,如果大于则将当前的Object数组值赋值给一个数组对象,接着产生一个新的数组的容量值(此值计算方法为当前数组大小*1.5+1,如果还小于minCapacity那么就以minCapacity作为新的容量值),得到这个容量值后调用Arrays.copyOf来生成新的数组对象,如果想调整增加策略,可继承ArrayList,并覆盖ensureCapacity方法

补充:

其中的Arrays.coryOf是这样实现的,首先创建一个新的数组,该数组对象的类型和之前ArrayList中元素的类型一致的,在这里JDK做了小优化,在创建完新的数组之后调用System.arraycopy通过native方法将之前数组中的对象复制到新的数组中

ArrayList还提供了add(int,E)方法,跟add()方法的区别是将当前数组对象进行一次复制,即将目前的index及其后的数据往后挪动一位,故要多付出一次复制数组的代价

(2)Vector线程安全的,和ArrayList一样是采用Object数组实现的,Vector()调用也创建一个大小为10Object数组,并将capacityIncrement设置为0,但是add的时候是不一样的,Vector的add方法加了synchronized关键字,而且当容量不够时进行扩容的策略不一样,Vector的策略是:如果容量不够,那么如果capcacityIncrement大于0,则将Object数组的大小扩为现有size+capcacityIncrement,如果capcacityIncrement小于0,则Object数组的大小扩为现有size的两倍

(3)LinkedList是基于双向链表机制,add是使用头插法.

    LinkedList:链表实现, 增删快, 查找慢
   由于LinkedList:在内存中的地址不连续,需要让上一个元素记住下一个元素.所以每个元素中保存的有下一个元素的位置.虽然也有角标,但是查找的时候,需要从头往下找,显然是没有数组查找快的.但是,链表在插入新元素的时候,只需要让前一个元素记住新元素,让新元素记住下一个元素就可以了.所以插入很快.由于链表实现, 增加时只要让前一个元素记住自己就可以, 删除时让前一个元素记住后一个元素, 后一个元素记住前一个元素. 这样的增删效率较高。但查询时需要一个一个的遍历, 所以效率较低。

Map接口:

Map是映射,跟前面的Set和List有本质的区别。
散列图HashMap,

链式散列图LinkedHashMap,

树形图TreeHashMap是映射的3种实现,

从名字上来说,有了上述Set的3种实现的分析,这个也是类似的。
HashMap:效率高
LikedHashMap:按照添加顺序存储,可以按添加顺序取出
TreeHashMap:排序性





0 0
原创粉丝点击