java 中hashcode 与 equals的关系

来源：互联网发布：go编程语言编辑：程序博客网时间：2024/05/01 08:01

java 中hashcode 与 equals的关系

先来看能表明hashcode和equals的关系的几句话：

equals()相等的两个对象，hashcode()一定相等；

equals()不相等的两个对象，却并不能证明他们的hashcode()不相等。

反过来：

hashcode()不等，一定能推出equals()也不等；

hashcode()相等，equals()可能相等，也可能不等。

我觉得这样表达两者之间的关系，对程序员来说起不到一点作用，充其量在考试时能做对题目。

我尝试用下边的方法解释两者之间的关系。

首先，应该知道什么是hash表，假如有：10，11，13，14，18，22，27这几个数字，hash算法的目的就是快速的为每个数字分区，存入相应的分区后，以后找起来能更快速。

那么假设hash算法对5取余数，那么数字10，余数0，放在0的位置，数字11，余数1，放在1的位置，其余一次类推。结果如上图所示。

在java中hash算法主要用在集合上，如hashset，hashmap。

我们都知道set有一个特性，就是可与用于过滤相同值的操作，有点类似与SQL中distinct关键字一样。相同的对象，在第2次add进hashset中，由于两次add的是相同的对象，所以，第二次的add未起作用。

如果当前set中已经有1万个不同对象了，那么再添加一个对象时，该怎么判断？判断1万次是否已经含有将要添加到set中的值？显然不会那么做。用什么方法比较才能快速的比较出新添加的数据是不是Set中已经有的数据呢？那么这就用到了hashcode。

再将每一个对象插入hashset之前，首先先算出该对象的hashcode，将要存入hashset的对象只跟具有相同hashcode的元素进行equals比较。此处的hashcode可以对应上图的0，1，2，3，4.

现在依次add3个数字，分别是13，18，27，我们把他们看成3个对象，他们的hashcode都等于3（假设hashcode的算法是数字对5取余的话），所以都应放入3区域，而且他们3个经过equals比较是不相等的，所以3个数字都逐次的存入3区域了。

假如再add一下18的话，首先算hashcode，等于3，然后去3对应的区域将每个元素都用equals比较一遍，显然已经有18了，所以18不再被添加如hashset。这样通过先算出hashcode，然后将要做比较的范围缩小了（再次添加的18，只需和3区域的13、18、27比较），是不是加快速度了呢？

现在，对照图片我们很容易理解文章开头说的那几句话。

1.equals()相等的两个对象，hashcode()一定相等；

两次添加18，他们是相等的对象，肯定能推出hashcode相等，正因为有了hashcode相等这

个事实，所以才有了第2次的18被分配到3区域与原来的18比较的机会。

2.equals()不相等的两个对象，却并不能证明他们的hashcode()不相等。

对照数字13，18，27。

13和18，27是互不相等的对象，但是hashcode却相等

那么，如果我们的hashcode的算法如果变了呢？比如：我覆盖了Object的hashcode和equals方法，先前的hashcode的算法和我现在hashcode的算法不同时，会出现什么样的情况呢？

java的hashCode方法首先，想要明白hashCode的作用，你必须要先知道Java中的集合。总的来说，Java中的集合（Collection）有两类，一类是List，再有一类是Set。你知道它们的区别吗？前者集合内的元素是有序的，元素可以重复；后者元素无序，但元素不可重复。那么这里就有一个比较严重的问题了：要想保证元素不重复，可两个元素是否重复应该依据什么来判断呢？这就是Object.equals方法了。但是，如果每增加一个元素就检查一次，那么当元素很多时，后添加到集合中的元素比较的次数就非常多了。也就是说，如果集合中现在已经有1000个元素，那么第1001个元素加入集合时，它就要调用1000次equals方法。这显然会大大降低效率。     于是，Java采用了哈希表的原理。哈希算法也称为散列算法，是将数据依特定算法直接指定到一个地址上。如果详细讲解哈希算法，那需要更多的文章篇幅，我在这里就不介绍了。初学者可以这样理解，hashCode方法实际上返回的就是对象存储的物理地址（实际上并不是真正的在内存的物理地址，不过可以这样理解）。     这样一来，当集合要添加新的元素时，先调用这个元素的hashCode方法，就一下子能定位到它应该放置的物理位置上。如果这个位置上没有元素，它就可以直接存储在这个位置上，不用再进行任何比较了；如果这个位置上已经有元素了，就调用它的equals方法与新元素进行比较，相同的话就不存了，不相同就散列其它的地址。所以这里存在一个冲突解决的问题。这样一来实际调用equals方法的次数就大大降低了，几乎只需要一两次。     所以， Java对于eqauls方法和hashCode方法是这样规定的：1、如果两个对象相同，那么它们的hashCode值一定要相同；2、如果两个对象的hashCode相同，它们并不一定相同     上面说的对象相同指的是用eqauls方法比较。     你当然可以不按要求去做了，但你会发现，相同的对象可以出现在Set集合中。同时，增加新元素的效率会大大下降。如果你改写了equal()方法，令两个实际不是一个对象的两个实例在逻辑上相等了，但是hashcode却是不等。　　　　所以要记得改写hashcode。　　　　不改写会带来什么后果呢？当然，比如你在用hashmap,hashtable之类的设计hashcode的类的时候，就会出麻烦了。　　　　至于如何改写一个hashcode，这就有好有坏了，看各人的功底了。现在还有专门的人在研究优秀的hash算法。也就是说 List 是一个有序的、可重复的对象容器接口，Set是一个无序的、不可重复的对象容器接口 。后面都讲了 Set 是如何实现不重复的 ：为了避免多次重复的使用 equal 方法带来的系统负担 ，set 首先调用hashCode 方法来检测 是否被占用 如果被占用 然后调用 equal 方法判断被占用的是否相同