JavaSE 集合框架(6)-深入HashMap
来源:互联网 发布:虚拟解剖软件优势 编辑:程序博客网 时间:2024/05/18 01:44
HashMap作为面试中被问道频率最高的问题,这篇文章就已面试的角度来说明HashMap的底层原理。
1.“你用过HashMap吗?” “什么是HashMap?你为什么用到它?”
几乎每个人都会回答“是的”,然后回答HashMap的一些特性,譬如HashMap可以接受null键值和值,而Hashtable则不能;HashMap是非synchronized;HashMap很快;以及HashMap储存的是键值对等等。这显示出你已经用过HashMap,而且对它相当的熟悉。
2.“你知道HashMap的工作原理吗?” “你知道HashMap的get()方法的工作原理吗?”
一些面试者可能可以给出答案,“HashMap是基于hashing的原理,我们使用put(key, value)存储对象到HashMap中,使用get(key)从HashMap中获取对象。当我们给put()方法传递键和值时,我们先对键调用hashCode()方法,返回的hashCode用于找到bucket位置来储存Entry对象。”这里关键点在于指出,HashMap是在bucket中储存键对象和值对象,作为Map.Entry。这一点有助于理解获取对象的逻辑。如果你没有意识到这一点,或者错误的认为仅仅只在bucket中存储值的话,你将不会回答如何从HashMap中获取对象的逻辑。这个答案相当的正确,也显示出面试者确实知道hashing以及HashMap的工作原理。
3.“HashMap 什么时候开辟bucket数组占用内存?”
答案是第一次 put 时,而不是第一次new的时候。
4.HashMap 默认bucket数组多大?
答案是16,这个很简单。
5.如果new HashMap<>(19),bucket数组多大?
答案是32,很多面试者到这里就答不上来了,HashMap 的 bucket 数组大小一定是2的幂,如果 new 的时候指定了容量且不是2的幂,实际容量会是最接近(大于)指定容量的2的幂,比如 new HashMap<>(19),比19大且最接近的2的幂是32,实际容量就是32。
6.“当两个对象的hashcode相同会发生什么?”
一些面试者会回答因为hashcode相同,所以两个对象是相等的,HashMap将会抛出异常,或者不会存储它们。然后面试官可能会提醒他们有equals()和hashCode()两个方法,并告诉他们两个对象就算hashcode相同,但是它们可能并不相等。一些面试者可能就此放弃,而另外一些还能继续挺进,他们回答“因为hashcode相同,所以它们的bucket位置相同,‘碰撞’会发生。因为HashMap使用链表存储对象,这个Entry(包含有键值对的Map.Entry对象)会存储在链表中。如果key相同,则新的value值会覆盖旧的value值,如果key不同,则会插入到链中。”
//HashMap中的put方法源码 public V put(K key, V value) { if (key == null) return putForNullKey(value); //null总是放在数组的第一个链表中 int hash = hash(key.hashCode()); int i = indexFor(hash, table.length); //遍历链表 for (Entry<K,V> e = table[i]; e != null; e = e.next) { Object k; //如果key在链表中已存在,则替换为新value if (e.hash == hash && ((k = e.key) == key || key.equals(k))) { V oldValue = e.value; e.value = value; e.recordAccess(this); return oldValue; } } modCount++; addEntry(hash, key, value, i); return null; }
7.“如果两个键的hashcode相同,你如何获取值对象?”
面试者会回答:当我们调用get()方法,HashMap会使用键对象的hashcode找到bucket位置,找到bucket位置之后,会调用keys.equals()方法去找到链表中正确的节点,最终找到要找的值对象。完美的答案!
许多情况下,面试者会在这个环节中出错,因为他们混淆了hashCode()和equals()方法。因为在此之前hashCode()屡屡出现,而equals()方法仅仅在获取值对象的时候才出现。一些优秀的开发者会指出使用不可变的、声明作final的对象,并且采用合适的equals()和hashCode()方法的话,将会减少碰撞的发生,提高效率。不可变性使得能够缓存不同键的hashcode,这将提高整个获取对象的速度,使用String,Interger这样的wrapper类作为键是非常好的选择。
//HashMap get方法 public V get(Object key) { if (key == null) return getForNullKey(); int hash = hash(key.hashCode()); //先定位到数组元素,再遍历该元素处的链表 for (Entry<K,V> e = table[indexFor(hash, table.length)]; e != null; e = e.next) { Object k; if (e.hash == hash && ((k = e.key) == key || key.equals(k))) return e.value; } return null;}
8.“如果HashMap的大小超过了负载因子(load factor)定义的容量,怎么办?”
除非你真正知道HashMap的工作原理,否则你将回答不出这道题。默认的负载因子大小为0.75,也就是说,当一个map填满了75%的bucket时候,和其它集合类(如ArrayList等)一样,将会创建原来HashMap大小的两倍的bucket数组,来重新调整map的大小,并将原来的对象放入新的bucket数组中。这个过程叫作rehashing,因为它调用hash方法找到新的bucket位置。这时,需要创建一张新表,将原表的映射到新表中。
9.“你了解重新调整HashMap大小存在什么问题吗?”
你可能回答不上来,这时面试官会提醒你当多线程的情况下,可能产生条件竞争(race condition)。
当重新调整HashMap大小的时候,确实存在条件竞争,因为如果两个线程都发现HashMap需要重新调整大小了,它们会同时试着调整大小。在调整大小的过程中,存储在链表中的元素的次序会反过来,因为移动到新的bucket位置的时候,HashMap并不会将元素放在链表的尾部,而是放在头部,这是为了避免尾部遍历(tail traversing)。如果条件竞争发生了,那么就死循环了。这个时候,你可以质问面试官,为什么这么奇怪,要在多线程的环境下使用HashMap呢?
10.“针对HashMap中某个Entry链太长,查找的时间复杂度可能达到O(n),怎么优化?”
Entry[]的长度一定后,随着map里面数据的越来越长,这样同一个index的链就会很长,HashMap里面设置一个因子,随着map的size越来越大,Entry[]会以一定的规则加长长度。目前在jdk1.8中,采用了新的红黑树的结构来实现,当链表的数量大于8的时,就会将冲突的节点保存在红黑树里。
void addEntry(int hash, K key, V value, int bucketIndex) { Entry<K,V> e = table[bucketIndex]; table[bucketIndex] = new Entry<K,V>(hash, key, value, e); //参数e, 是Entry.next //如果size超过threshold,则扩充table大小。再散列 if (size++ >= threshold) resize(2 * table.length);}
更多的关于HashMap的问题:
为什么String, Interger这样的wrapper类适合作为键? String, Interger这样的wrapper类作为HashMap的键是再适合不过了,而且String最为常用。因为String是不可变的,也是final的,而且已经重写了equals()和hashCode()方法了。其他的wrapper类也有这个特点。不可变性是必要的,因为为了要计算hashCode(),就要防止键值改变,如果键值在放入时和获取时返回不同的hashcode的话,那么就不能从HashMap中找到你想要的对象。不可变性还有其他的优点如线程安全。如果你可以仅仅通过将某个field声明成final就能保证hashCode是不变的,那么请这么做吧。因为获取对象的时候要用到equals()和hashCode()方法,那么键对象正确的重写这两个方法是非常重要的。如果两个不相等的对象返回不同的hashcode的话,那么碰撞的几率就会小些,这样就能提高HashMap的性能。
我们可以使用自定义的对象作为键吗? 这是前一个问题的延伸。当然你可能使用任何对象作为键,只要它遵守了equals()和hashCode()方法的定义规则,并且当对象插入到Map中之后将不会再改变了。如果这个自定义对象时不可变的,那么它已经满足了作为键的条件,因为当它创建之后就已经不能改变了。
我们可以使用CocurrentHashMap来代替Hashtable吗?这是另外一个很热门的面试题,因为ConcurrentHashMap越来越多人用了。我们知道Hashtable是synchronized的,但是ConcurrentHashMap同步性能更好,因为它仅仅根据同步级别对map的一部分进行上锁。ConcurrentHashMap当然可以代替HashTable,但是HashTable提供更强的线程安全性。
我个人很喜欢这个问题,因为这个问题的深度和广度,也不直接的涉及到不同的概念。让我们再来看看这些问题设计哪些知识点:
1.Hashing的概念
2.HashMap中解决碰撞的方法
3.equals()和hashCode()的应用,以及它们在HashMap中的重要性
4.不可变对象的好处
5.HashMap多线程的条件竞争
6.重新调整HashMap的大小
总结
HashMap的工作原理
HashMap基于hashing原理,我们通过put()和get()方法储存和获取对象。当我们将键值对传递给put()方法时,它调用键对象的hashCode()方法来计算hashcode,让后找到bucket位置来储存值对象。当获取对象时,通过键对象的equals()方法找到正确的键值对,然后返回值对象。HashMap使用链表来解决碰撞问题,当发生碰撞了就调用equlas方法比较Key,如果key相同就会覆盖掉以前的value,如果Key不相同对象将会储存在链表的头节点中。也就是说数组中存储的是最后插入的元素。 HashMap在每个链表节点中储存键值对对象。
当两个不同的键对象的hashcode相同时会发生什么? 它们会储存在同一个bucket位置的链表中。键对象的equals()方法用来找到键值对。
- JavaSE 集合框架(6)-深入HashMap
- JavaSE 集合框架(7)-深入ArrayList
- JavaSE 集合框架(8)- 深入LinkedList
- JavaSE 集合框架(3)- Map集合 HashMap LinkedHashMap
- JavaSE 集合框架(5)-HashMap和HashSet的区别
- JavaSE 集合框架(4)
- 深入集合框架之HashMap源码剖析
- JavaSE 集合框架(2)- Set集合
- JavaSE 集合框架(9)- ConcurrentHashMap
- javaSE实战--(API)中的集合框架
- JAVASE之集合框架
- JAVASE----09----集合框架
- JavaSE集合框架总结
- javaSE--集合框架
- 集合框架-集合的嵌套遍历(HashMap嵌套HashMap)
- java基础之集合框架--HashMap深入理解及应用
- JavaSE入门学习37:Java集合框架之Map接口及其实现类HashMap和TreeMap
- java集合框架中HashMap源码(基于JDK1.6)
- 日期推迟算法,工作日顺延
- Vue基础之Class和Style绑定
- json序列化,反序列化;以及java.io.Serializable序列化;即json中说的序列化,和java.io.Serializable序列化,两者的区别
- iOS 半透明控制器
- oracle用户权限、profile及角色的…
- JavaSE 集合框架(6)-深入HashMap
- C#修改文件或文件夹的权限,为指定用户、用户组添加完全控制权限
- JDBC为什么要使用PreparedStatemen…
- Oracle存储过程调用带参的存储过程
- JS正则表达式入门,看这篇就够了
- HSL 色相 饱和度 明度
- Html / Js 校验
- 真Unity3d_C#基本语法1
- curl 发送from-data 和 参数(如何用-F 代替 -d)