java 中hashcode 与 equals的关系

来源:互联网 发布:go编程语言 编辑:程序博客网 时间:2024/05/01 08:01

java 中hashcode 与 equals的关系

先来看能表明hashcode和equals的关系的几句话:

equals()相等的两个对象,hashcode()一定相等;

equals()不相等的两个对象,却并不能证明他们的hashcode()不相等。

反过来:

hashcode()不等,一定能推出equals()也不等;

hashcode()相等,equals()可能相等,可能不等。

我觉得这样表达两者之间的关系,对程序员来说起不到一点作用,充其量在考试时能做对题目。

我尝试用下边的方法解释两者之间的关系。

        首先,应该知道什么是hash表,假如有:10,11,13,14,18,22,27这几个数字,hash算法的目的就是快速的为每个数字分区,存入相应的分区后,以后找起来能更快速。

        那么假设hash算法对5取余数,那么数字10,余数0,放在0的位置,数字11,余数1,放在1的位置,其余一次类推。结果如上图所示。

       在java中hash算法主要用在集合上,如hashset,hashmap。

        我们都知道set有一个特性,就是可与用于过滤相同值的操作,有点类似与SQL中distinct关键字一样。相同的对象,在第2次add进hashset中,由于两次add的是相同的对象,所以,第二次的add未起作用。

       如果当前set中已经有1万个不同对象了,那么再添加一个对象时,该怎么判断?判断1万次是否已经含有将要添加到set中的值?显然不会那么做。用什么方法比较才能快速的比较出新添加的数据是不是Set中已经有的数据呢?那么这就用到了hashcode。

       再将每一个对象插入hashset之前,首先先算出该对象的hashcode,将要存入hashset的对象只跟具有相同hashcode的元素进行equals比较。此处的hashcode可以对应上图的0,1,2,3,4.

       现在依次add3个数字,分别是13,18,27,我们把他们看成3个对象,他们的hashcode都等于3(假设hashcode的算法是数字对5取余的话),所以都应放入3区域,而且他们3个经过equals比较是不相等的,所以3个数字都逐次的存入3区域了。

       假如再add一下18的话,首先算hashcode,等于3,然后去3对应的区域将每个元素都用equals比较一遍,显然已经有18了,所以18不再被添加如hashset。这样通过先算出hashcode,然后将要做比较的范围缩小了(再次添加的18,只需和3区域的13、18、27比较),是不是加快速度了呢?

        现在,对照图片我们很容易理解文章开头说的那几句话。

        1.equals()相等的两个对象,hashcode()一定相等;       

                两次添加18,他们是相等的对象,肯定能推出hashcode相等,正因为有了hashcode相等这

                个事实,所以才有了第2次的18被分配到3区域与原来的18比较的机会。

        2.equals()不相等的两个对象,却并不能证明他们的hashcode()不相等。

                对照数字13,18,27。  

               13和18,27是互不相等的对象,但是hashcode却相等

        那么,如果我们的hashcode的算法如果变了呢?比如:我覆盖了Object的hashcode和equals方法,先前的hashcode的算法和我现在hashcode的算法不同时,会出现什么样的情况呢?

 

 

 

      

java的hashCode方法首先,想要明白hashCode的作用,你必须要先知道Java中的集合。总的来说,Java中的集合(Collection)有两类,一类是List,再有一类是Set。你知道它们的区别吗?前者集合内的元素是有序的,元素可以重复;后者元素无序,但元素不可重复。那么这里就有一个比较严重的问题了:要想保证元素不重复,可两个元素是否重复应该依据什么来判断呢?这就是Object.equals方法了。但是,如果每增加一个元素就检查一次,那么当元素很多时,后添加到集合中的元素比较的次数就非常多了。也就是说,如果集合中现在已经有1000个元素,那么第1001个元素加入集合时,它就要调用1000次equals方法。这显然会大大降低效率。     于是,Java采用了哈希表的原理。哈希算法也称为散列算法,是将数据依特定算法直接指定到一个地址上。如果详细讲解哈希算法,那需要更多的文章篇幅,我在这里就不介绍了。初学者可以这样理解,hashCode方法实际上返回的就是对象存储的物理地址(实际上并不是真正的在内存的物理地址,不过可以这样理解)。     这样一来,当集合要添加新的元素时,先调用这个元素的hashCode方法,就一下子能定位到它应该放置的物理位置上。如果这个位置上没有元素,它就可以直接存储在这个位置上,不用再进行任何比较了;如果这个位置上已经有元素了,就调用它的equals方法与新元素进行比较,相同的话就不存了,不相同就散列其它的地址。所以这里存在一个冲突解决的问题。这样一来实际调用equals方法的次数就大大降低了,几乎只需要一两次。     所以, Java对于eqauls方法和hashCode方法是这样规定的:1、如果两个对象相同,那么它们的hashCode值一定要相同;2、如果两个对象的hashCode相同,它们并不一定相同     上面说的对象相同指的是用eqauls方法比较。     你当然可以不按要求去做了,但你会发现,相同的对象可以出现在Set集合中。同时,增加新元素的效率会大大下降。如果你改写了equal()方法,令两个实际不是一个对象的两个实例在逻辑上相等了,但是hashcode却是不等。    所以要记得改写hashcode。    不改写会带来什么后果呢?当然,比如你在用hashmap,hashtable之类的设计hashcode的类的时候,就会出麻烦了。    至于如何改写一个hashcode,这就有好有坏了,看各人的功底了。现在还有专门的人在研究优秀的hash算法。也就是说 List 是一个有序的、可重复的对象容器接口,Set是一个无序的、不可重复的对象容器接口 。后面都讲了 Set 是如何实现不重复的 :为了避免多次重复的使用 equal 方法带来的系统负担 ,set 首先调用hashCode 方法来检测 是否被占用 如果被占用 然后调用 equal 方法判断被占用的是否相同

 

       

原创粉丝点击