1.JDK成长记7:3张搞懂HashMap底层原理!源码
2.Java 容器详解:使用与案例
3.idea debug进入HashMap源码时传参不正确?
4.Java面试问题:HashMap的源码底层原理
5.原创|如果懂了HashMap这两点,面试就没问题了
6.结合源码探究HashMap初始化容量问题
JDK成长记7:3张搞懂HashMap底层原理!源码
一句话讲,源码 HashMap底层数据结构,源码JDK1.7数组+单向链表、源码哭笑脸源码JDK1.8数组+单向链表+红黑树。源码
在看过了ArrayList、源码LinkedList的源码底层源码后,相信你对阅读JDK源码已经轻车熟路了。源码除了List很多时候你使用最多的源码还有Map和Set。接下来我将用三张图和你一起来探索下HashMap的源码底层核心原理到底有哪些?
首先你应该知道HashMap的核心方法之一就是put。我们带着如下几个问题来看下图:
如上图所示,源码put方法调用了putVal方法,源码之后主要脉络是源码:
如何计算hash值?
计算hash值的算法就在第一步,对key值进行hashCode()后,对hashCode的值进行无符号右移位和hashCode值进行了异或操作。为什么这么做呢?其实涉及了很多数学知识,简单的说就是尽可能让高和低位参与运算,可以减少hash值的冲突。
默认容量和扩容阈值是多少?
如上图所示,很明显第二步回调用resize方法,获取到默认容量为,这个在源码里是1<<4得到的,1左移4位得到的。之后由于默认扩容因子是0.,所以两者相乘就是扩容大小阈值*0.=。之后就分配了一个大小为的Node[]数组,作为Key-Value对存放的数据结构。
最后一问题是,如何进行hash寻址的?
hash寻址其实就在数组中找一个位置的意思。用的算法其实也很简单,就是用数组大小和hash值进行n-1&hash运算,这个操作和对hash取模很类似,只不过这样效率更高而已。hash寻址后,就得到了一个位置,可以把key-value的Node元素放入到之前创建好的Node[]数组中了。
当你了解了上面的三个原理后,你还需要掌握如下几个问题:
还是老规矩,看如下图:
当hash值计算一致,比如当hash值都是时,Key-Value对的Node节点还有一个next指针,会以单链表的形式,将冲突的节点挂在数组同样位置。这就是数据结构中所提到解决hash 的冲突方法之一:单链法。当然还有探测法+rehash法有兴趣的人可以回顾《数据结构和算法》相关书籍。
但是当hash冲突严重的时候,单链法会造成原理链接过长,导致HashMap性能下降,因为链表需要逐个遍历性能很差。所以JDK1.8对hash冲突的算法进行了优化。当链表节点数达到8个的时候,会自动转换为红黑树,自平衡的一种二叉树,有很多特点,比如区分红和黑节点等,具体大家可以看小灰算法图解。红黑树的遍历效率是O(logn)肯定比单链表的O(n)要好很多。
总结一句话就是,hash冲突使用单链表法+红黑树来解决的。
上面的图,核心脉络是四步,源码具体的就不粘出来了。当put一个之后,map的size达到扩容阈值,就会触发rehash。你可以看到如下具体思路:
情况1:如果数组位置只有一个值:使用新的容量进行rehash,即e.hash & (newCap - 1)
情况2:如果数组位置有链表,根据 e.hash & oldCap == 0进行判断,结果为0的使用原位置,否则使用index + oldCap位置,放入元素形成新链表,这里不会和情况1新的容量进行rehash与运算了,index + oldCap这样更省性能。
情况3:如果数组位置有红黑树,根据split方法,同样根据 e.hash & oldCap == 0进行树节点个数统计,如果个数小于6,将树的结果恢复为普通Node,否则使用index + oldCap,手机chrome源码调整红黑树位置,这里不会和新的容量进行rehash与运算了,index + oldCap这样更省性能。
你有兴趣的话,可以分别画一下这三种情况的图。这里给大家一个图,假设都出发了以上三种情况结果如下所示:
上面源码核心脉络,3个if主要是校验了一堆,没做什么事情,之后赋值了扩容因子,不传递使用默认值0.,扩容阈值threshold通过tableSizeFor(initialCapacity);进行计算。注意这里只是计算了扩容阈值,没有初始化数组。代码如下:
竟然不是大小*扩容因子?
n |= n >>> 1这句话,是在干什么?n |= n >>> 1等价于n = n | n >>>1; 而|表示位运算中的或,n>>>1表示无符号右移1位。遇到这种情况,之前你应该学到了,如果碰见复杂逻辑和算法方法就是画图或者举例子。这里你就可以举个例子:假设现在指定的容量大小是,n=cap-1=,那么计算过程应该如下:
n是int类型,java中一般是4个字节,位。所以的二进制: 。
最后n+1=,方法返回,赋值给threshold=。再次注意这里只是计算了扩容阈值,没有初始化数组。
为什么这么做呢?一句话,为了提高hash寻址和扩容计算的的效率。
因为无论扩容计算还是寻址计算,都是二进制的位运算,效率很快。另外之前你还记得取余(%)操作中如果除数是2的幂次方则等同于与其除数减一的与(&)操作。即 hash%size = hash & (size-1)。这个前提条件是除数是2的幂次方。
你可以再回顾下resize代码,看看指定了map容量,第一次put会发生什么。会将扩容阈值threshold,这样在第一次put的时候就会调用newCap = oldThr;使得创建一个容量为threshold的数组,之后从而会计算新的扩容阈值newThr为newCap*0.=*0.=。也就是说map到了个元素就会进行扩容。
除了今天知识,技能的成长,给大家带来一个金句甜点,结束我今天的分享:坚持的三个秘诀之一目标化。
坚持的秘诀除了上一节提到的视觉化,第二个秘诀就是目标化。顾名思义,就是需要给自己定立一个目标。这里要提到的是你的目标不要定的太高了。就比如你想要增加肌肉,给自己定了一个目标,每天5组,每次个俯卧撑,你看到自己胖的身形或者海报,很有刺激,结果开始前两天非常厉害,干劲十足,特别奥利给。但是第三天,你想到要个俯卧撑,你就不想起床,就算起来,可能也会把自己撅死过去......其实你的目标不要一下子定的太大,要从微习惯开始,比如我媳妇从来没有做过俯卧撑,就让她每天从1个开始,不能多,我就怕她收不住,做多了。一开始其实从习惯开始,先变成习惯,再开始慢慢加量。量太大养不成习惯,量小才能养成习惯。很容易做到才能养成,道破天机源码你想想是不是这个道理?
所以,坚持的第二个秘诀就是定一个目标,可以通过小量目标,养成微习惯。比如每天你可以读五分钟书或者5分钟成长记,不要多,我想超过你也会睡着了的.....
最后,大家可以在阅读完源码后,在茶余饭后的时候问问同事或同学,你也可以分享下,讲给他听听。
Java 容器详解:使用与案例
深入解析Java的容器世界:探索、实践与案例 Java的容器,如同一个精致的工具箱,承载着数据和对象的管理。与C++的STL类相比,Java Collection Framework (JCF) 提供了更为丰富的功能和灵活性。让我们一起探索这个框架,理解Collection和Map的核心概念,以及它们在实际项目中的应用。一、Java容器概览
Collection:数据集合的基石
Set
TreeSet:基于红黑树,支持有序操作,但查找速度略慢于HashSet。
HashSet:基于哈希表,快速查找,但元素顺序不可预测。
LinkedHashSet:集合了HashSet的查找速度,同时保持插入顺序。
List
ArrayList:动态数组,随机访问高效,如Vector但线程不安全。
LinkedList:双向链表,支持顺序和批量操作,可作为栈、队列或双向队列。
PriorityQueue:基于堆结构,用于优先级队列。
Map:键值对的存储空间
TreeMap:红黑树实现,有序存储。
HashMap:哈希表,快速查找,不保证顺序。
ConcurrentHashMap:线程安全的HashMap,性能优于 Hashtable。
LinkedHashMap:链表和哈希表结合,支持顺序和LRU策略。
二、设计模式的应用
Java容器巧妙地运用了设计模式,如迭代器模式。Collection接口的iterator()方法生成一个Iterator,让我们能够遍历集合中的元素,从JDK 1.5开始,foreach语句让遍历变得更简洁。三、源码解析实战
让我们通过ArrayList和Vector的源码,了解它们的内部结构和关键操作,如ArrayList的动态扩容、删除和序列化机制。同时,学习Vector的同步机制和CopyOnWriteArrayList的读写分离特性。四、容器的内存优化与选择
理解不同容器的内存管理策略,如LinkedList的链表结构、HashMap的拉链法和WeakHashMap的弱引用,对内存敏感和性能要求高的场景尤为重要。CopyOnWriteArrayList在读多写少场景中表现出色,但需要权衡内存消耗和数据一致性。五、总结与建议
掌握Java容器不仅是入门,深入理解其内部原理和算法是提升编程技能的关键。通过查阅API和源码,亲手实现容器,能让你在实际开发中游刃有余。选择合适的容器,根据项目需求定制数据结构,将极大提升代码质量和效率。 学习Java容器,让我们在数据管理的简单 ping 源码旅程中更加自信和熟练。idea debug进入HashMap源码时传参不正确?
我测试了下面的代码:分别在这四个位置打了断点以监控程序的运行情况,debug后,进入第一次断点的位置为:
与题主说的情况一致,而没有进入我的第一个断点进行输出,而后F9:
发现还是在put文件,经多次F9之后,可以看出来,其实java的jvm在启动的时候,在底层也自行调用的put方法,将jvm所需要的一些动态库、jar包put到某个map之中,具体是哪个map看不出来。要等到jvm底层将所有东西准备好后,才进行main函数。
jvm准备需要put多少次我就不数了,现在我先把put的断点取消,让程序debug到我的第一个断点处:
这个时候将put方法打上断点,F9发现:
奇怪的key值增加了,它将我的classes编译目录丢进去了,继续F9,和上一步差不多,再再次F9,终于来了:
继续F9,终于到达了我的第二个断点:
继续F9,这次没有put奇怪的东西了:
继续:
最后:
然后程序退出:
综上,jvm在启动的时候会在程序背后隐式地将一些配置啊什么的通过put方法放到某些地方,不用关心,你遇到的情况是正常的也是正确的
Java面试问题:HashMap的底层原理
JDK1.8中HashMap的put()和get()操作的过程
put操作:
①首先判断数组是否为空,如果数组为空则进行第一次扩容(resize)
②根据key计算hash值并与上数组的长度-1(int index = key.hashCode()&(length-1))得到键值对在数组中的索引。
③如果该位置为null,则直接插入
④如果该位置不为null,则判断key是否一样(hashCode和equals),如果一样则直接覆盖value
⑤如果key不一样,则判断该元素是否为 红黑树的节点,如果是,则直接在 红黑树中插入键值对
⑥如果不是 红黑树的节点,则就是 链表,遍历这个 链表执行插入操作,如果遍历过程中若发现key已存在,直接覆盖value即可。
如果 链表的长度大于等于8且数组中元素数量大于等于阈值,则将 链表转化为 红黑树,(先在 链表中插入再进行判断)
如果 链表的长度大于等于8且数组中元素数量小于阈值,则先对数组进行扩容,不转化为 红黑树。
⑦插入成功后,判断数组中元素的个数是否大于阈值(threshold),超过了就对数组进行扩容操作。
get操作:
①计算key的hashCode的值,找到key在数组中的位置
②如果该位置为null,就直接返回null
③否则,根据equals()判断key与当前位置的值是否相等,如果相等就直接返回。
④如果不等,再判断当前元素是否为树节点,如果是树节点就按 红黑树进行查找。
⑤否则,按照 链表的方式进行查找。
3.HashMap的扩容机制
4.HashMap的初始容量为什么是?
1.减少hash碰撞 (2n ,=2^4)
2.需要在效率和内存使用上做一个权衡。这个值既不能太小,也不能太大。
3.防止分配过小频繁扩容
4.防止分配过大浪费资源
5.HashMap为什么每次扩容都以2的整数次幂进行扩容?
因为Hashmap计算存储位置时,使用了(n - 1) & hash。只有当容量n为2的幂次方,n-1的二进制会全为1,位运算时可以充分散列,避免不必要的哈希冲突,所以扩容必须2倍就是为了维持容量始终为2的幂次方。
6.HashMap扩容后会重新计算Hash值吗?
①JDK1.7
JDK1.7中,HashMap扩容后,所有的key需要重新计算hash值,然后再放入到新数组中相应的位置。
②JDK1.8
在JDK1.8中,HashMap在扩容时,需要先创建一个新数组,然后再将旧数组中的数据转移到新数组上来。
此时,旧数组中的数据就会根据(e.hash & oldCap),数据的hash值与扩容前数组的长度进行与操作,根据结果是tp model 源码否等于0,分为2类。
1.等于0时,该节点放在新数组时的位置等于其在旧数组中的位置。
2.不等于0时,该节点在新数组中的位置等于其在旧数组中的位置+旧数组的长度。
7.HashMap中当 链表长度大于等于8时,会将 链表转化为 红黑树,为什么是8?
如果 hashCode 分布良好,也就是 hash 计算的结果离散好的话,那么 红黑树这种形式是很少会被用到的,因为各个值都均匀分布,很少出现 链表很长的情况。在理想情况下, 链表长度符合泊松分布,各个长度的命中概率依次递减,当长度为 8 的时候,概率仅为 0.。这是一个小于千万分之一的概率,通常我们的 Map 里面是不会存储这么多的数据的,所以通常情况下,并不会发生从 链表向 红黑树的转换。
8.HashMap为什么线程不安全?
1.在JDK1.7中,当并发执行扩容操作时会造成死循环和数据丢失的情况。
在JDK1.7中,在多线程情况下同时对数组进行扩容,需要将原来数据转移到新数组中,在转移元素的过程中使用的是头插法,会造成死循环。
2.在JDK1.8中,在并发执行put操作时会发生数据覆盖的情况。
如果线程A和线程B同时进行put操作,刚好这两条不同的数据hash值一样,并且该位置数据为null,所以这线程A、B都会通过判断,将执行插入操作。
假设一种情况,线程A进入后还未进行数据插入时挂起,而线程B正常执行,从而正常插入数据,然后线程A获取CPU时间片,此时线程A不用再进行hash判断了,问题出现:线程A会把线程B插入的数据给覆盖,发生线程不安全。
9.为什么HashMapJDK1.7中扩容时要采用头插法,JDK1.8又改为尾插法?
JDK1.7的HashMap在实现resize()时,新table[ ]的列表队头插入。
这样做的目的是:避免尾部遍历。
避免尾部遍历是为了避免在新列表插入数据时,遍历到队尾的位置。因为,直接插入的效率更高。
对resize()的设计来说,本来就是要创建一个新的table,列表的顺序不是很重要。但如果要确保插入队尾,还得遍历出 链表的队尾位置,然后插入,是一种多余的损耗。
直接采用队头插入,会使得 链表数据倒序。
JDK1.8采用尾插法是避免在多线程环境下扩容时采用头插法出现死循环的问题。
.HashMap是如何解决哈希冲突的?
拉链法(链地址法)
为了解决碰撞,数组中的元素是单向 链表类型。当 链表长度大于等于8时,会将 链表转换成 红黑树提高性能。
而当 链表长度小于等于6时,又会将 红黑树转换回单向 链表提高性能。
.HashMap为什么使用 红黑树而不是B树或 平衡二叉树AVL或二叉查找树?
1.不使用二叉查找树
二叉 排序树在极端情况下会出现线性结构。例如:二叉 排序树左子树所有节点的值均小于根节点,如果我们添加的元素都比根节点小,会导致左子树线性增长,这样就失去了用树型结构替换 链表的初衷,导致查询时间增长。所以这是不用二叉查找树的原因。
2.不使用 平衡二叉树
平衡二叉树是严格的平衡树, 红黑树是不严格平衡的树, 平衡二叉树在插入或删除后维持平衡的开销要大于 红黑树。
红黑树的虽然查询性能略低于 平衡二叉树,但在插入和删除上性能要优于 平衡二叉树。
选择 红黑树是从功能、性能和开销上综合选择的结果。
3.不使用B树/B+树
HashMap本来是数组+ 链表的形式, 链表由于其查找慢的特点,所以需要被查找效率更高的树结构来替换。
如果用B/B+树的话,在数据量不是很多的情况下,数据都会“挤在”一个结点里面,这个时候遍历效率就退化成了 链表。
.HashMap和Hashtable的异同?
①HashMap是⾮线程安全的,Hashtable是线程安全的。
Hashtable 内部的⽅法基本都经过 synchronized 修饰。
②因为线程安全的问题,HashMap要⽐Hashtable效率⾼⼀点。
③HashMap允许键和值是null,而Hashtable不允许键或值是null。
HashMap中,null 可以作为键,这样的键只有 ⼀个,可以有 ⼀个或多个键所对应的值为 null。
HashTable 中 put 进的键值只要有 ⼀个 null,直接抛出 NullPointerException。
④ Hashtable默认的初始 大小为,之后每次扩充,容量变为原来的2n+1。
HashMap默认的初始 大⼩为,之后每次扩充,容量变为原来的2倍。
⑤创建时如果给定了容量初始值,那么 Hashtable 会直接使⽤你给定的 ⼤⼩, ⽽ HashMap 会将其扩充为2的幂次⽅ ⼤⼩。
⑥JDK1.8 以后的 HashMap 在解决哈希冲突时当 链表⻓度 大于等于8时,将 链表转化为红⿊树,以减少搜索时间。Hashtable没有这样的机制。
Hashtable的底层,是以数组+ 链表的形式来存储。
⑦HashMap的父类是AbstractMap,Hashtable的父类是Dictionary
相同点:都实现了Map接口,都存储k-v键值对。
.HashMap和HashSet的区别?
HashSet 底层就是基于 HashMap 实现的。(HashSet 的源码⾮常⾮常少,因为除了 clone() 、 writeObject() 、 readObject() 是 HashSet ⾃⼰不得不实现之外,其他⽅法都是直接调用 HashMap 中的⽅法)
1.HashMap实现了Map接口,HashSet实现了Set接口
2.HashMap存储键值对,HashSet存储对象
3.HashMap调用put()向map中添加元素,HashSet调用add()方法向Set中添加元素。
4.HashMap使用键key计算hashCode的值,HashSet使用对象来计算hashCode的值,在hashCode相等的情况下,使用equals()方法来判断对象的相等性。
5.HashSet中的元素由HashMap的key来保存,而HashMap的value则保存了一个静态的Object对象。
.HashSet和TreeSet的区别?
相同点:HashSet和TreeSet的元素都是不能重复的,并且它们都是线程不安全的。
不同点:
①HashSet中的元素可以为null,但TreeSet中的元素不能为null
②HashSet不能保证元素的排列顺序,TreeSet支持自然 排序、定制 排序两种 排序方式
③HashSet底层是采用 哈希表实现的,TreeSet底层是采用 红黑树实现的。
④HashSet的add,remove,contains方法的时间复杂度是 O(1),TreeSet的add,remove,contains方法的时间复杂度是 O(logn)
.HashMap的遍历方式?
①通过map.keySet()获取key,根据key获取到value
②通过map.keySet()遍历key,通过map.values()遍历value
③通过Map.Entry(String,String) 获取,然后使用entry.getKey()获取到键,通过entry.getValue()获取到值
④通过Iterator
原创|如果懂了HashMap这两点,面试就没问题了
HashMap在后端面试中经常被问及,比如默认初始容量、加载因子和线程安全性等问题。通常,这些问题能对答如流,表明对HashMap有较好的理解。然而,近期团队的技术分享中,我从两个角度获得了一些新见解,现在分享给大家。
首先,让我们探讨如何找到比初始容量值大的最小的2的幂次方整数。通常,使用默认构造器时,HashMap的初始容量为,加载因子为0.。这样做可能导致在数据量大时频繁进行扩容,影响性能。因此,通常会预估容量并使用带容量的构造器创建。通过分析源码,我们可以得知HashMap数组部分长度范围为[0,2^]。要找到比初始容量大的最小的2的幂次方整数,我们需重点关注tableSizeFor方法。此方法巧妙地设计,当输入的容量本身为2的整数次幂时,返回该容量;否则,返回比输入容量大的最小2的整数次幂。此设计旨在确保容量始终为2的整数次幂,从而优化哈希操作,避免哈希冲突。在获取key对应的数组下标时,通过key的哈希值与数组长度-1进行与运算,这种方法依赖于容量为2的整数次幂的特性,以确保哈希值的分散性。
容量为2的整数次幂的关键在于,它允许通过与运算高效地定位key对应的数组下标。容量不是2的整数次幂时,与运算后的哈希值可能会导致位数为0的冲突,影响数据定位的准确性。tableSizeFor方法在计算过程中,首先对输入的容量进行-1操作,以避免容量本身就是2的整数次幂时,计算结果为容量的2倍。接着,通过连续的移位与或操作,找到比输入容量大的最小的2的整数次幂。这种方法确保了内存的有效利用,避免了不必要的扩容。
下面,让我们通过一个示例来详细解释算法中的移位与或操作。假设初始容量n为一个位的整数,例如:n = xxx xxxxxxxx xxxxxxxx xxxxxxxx(x表示该位上是0还是1,具体值不关心)。首先,执行n |= n >> 1操作,用n本身与右移一位后的n进行或操作,可以将n的最高位的1及其紧邻的右边一位置为1。接下来,重复此操作,进行n |= n >> 2、n |= n >> 4、n |= n >> 8和n |= n >> 。最后,将n与最大容量进行比较,如果大于等于2^,则返回最大容量;否则,返回n + 1,找到比n大的最小的2的整数次幂。
在实践中,这确保了在给定容量范围内高效地找到合适的容量值。例如,输入时,输出为,即比大的最小的2的整数次幂。
接下来,我们探讨HashMap在处理key时进行哈希处理的特殊操作。在执行put操作时,首先对key进行哈希处理。在源码中,可以看到执行了(h = key.hashCode()) ^ (h >> )的操作。这个操作将key的hashCode值与右移位后的值进行异或操作,将哈希值的高位和低位混合计算,以生成更离散的哈希值。通过演示,我们可以发现,当三个不同的key生成的hashCode值的低位完全相同、高位不同时,它们在数组中的下标会相同,导致哈希冲突。通过异或操作,我们解决了这个问题,使得经过哈希处理后的key能被更均匀地分布在数组中,提高了数据的分散性,减少了哈希冲突。
总结来说,这两个点揭示了HashMap在容量和哈希处理上的一些巧妙设计,这些设计提高了数据结构的效率和性能。理解这些原理不仅有助于解决面试问题,还能在实际工作中借鉴这些思想,优化数据存储和访问效率。希望我的讲解能帮助大家掌握这两个知识点,如有任何疑问,欢迎留言或私聊。通过深入研究和实践,我们可以更好地理解和利用HashMap这一强大的数据结构。
结合源码探究HashMap初始化容量问题
探究HashMap初始化容量问题
在深入研究HashMap源码时,有一个问题引人深思:为何在知道需要存储n个键值对时,我们通常会选择初始化容量为capacity = n / 0. + 1?
本文旨在解答这一疑惑,适合具备一定HashMap基础知识的读者。请在阅读前,思考以下问题:
让我们通过解答这些问题,逐步展开对HashMap初始化容量的深入探讨。
源码探究
让我们从实际代码出发,通过debug逐步解析HashMap的初始化逻辑。
举例:初始化一个容量为9的HashMap。
执行代码后,我们发现初始化容量为,且阈值threshold设置为。
解析
通过debug,我们首先关注到构造方法中的初始化逻辑。注意到,初始化阈值时,实际调用的是`tabliSizeFor(int n)`方法,它返回第一个大于等于n的2的幂。例如,`tabliSizeFor(9)`返回,`tabliSizeFor()`返回,`tabliSizeFor(8)`返回8。
继续解析
在构造方法结束后,我们通过debug继续追踪至`put`方法,直至`putVal`方法。
在`putVal`方法中,我们发现当第一次调用`put`时,table为null,从而触发初始化逻辑。在初始化过程中,关键在于`resize()`方法中对新容量`newCap`的初始化,即等于构造方法中设置的阈值`threshold`()。
阈值更新
在初始化后,我们进一步关注`updateNewThr`的代码逻辑,发现新的阈值被更新为新容量乘以负载因子,即 * 0.。
案例分析
举例:初始化一个容量为8的HashMap。
解答:答案是8,因为`tableSizeFor`方法返回大于等于参数的2的幂,而非严格大于。
扩容问题
举例:当初始化容量为时,放入9个不同的entry是否会引发扩容。
解答:不会,因为扩容条件与阈值有关,当map中存储的键值对数量大于阈值时才触发扩容。根据第一问,初始化容量是,阈值为 * 0. = 9,我们只放了9个,因此不会引起扩容。
容量选择
举例:已知需要存储个键值对,如何选择合适的初始化容量。
解答:初始化容量的目的是减少扩容次数以提高效率并节省空间。选择容量时,应考虑既能防止频繁扩容又能充分利用空间。具体选择取决于实际需求和预期键值对的数量。
总结
通过本文的探讨,我们深入了解了HashMap初始化容量背后的逻辑和原因。希望这些解析能够帮助您更深入地理解HashMap的内部工作原理。如果您对此有任何疑问或不同的见解,欢迎在评论区讨论。
最后,如有帮助,欢迎点赞分享。
ConcurrentHashMap确实很复杂,这样学源码才简单
ConcurrentHashMap相较于HashMap在实现上更为复杂,主要涉及多线程环境下的并发安全、同步和锁的概念。虽然HashMap的原理主要围绕数组、链表、哈希碰撞和扩容,但在多线程场景下,这些知识还不够,需要对并发和同步有深入理解。
在实际编程中,HashMap经常被使用,而ConcurrentHashMap的使用频率却相对较低,这使得学习它的门槛变高。学习ConcurrentHashMap之前,关键在于理解HashMap的基本实现,特别是它在非线程安全情况下的操作,如数组初始化和putVal()方法。
HashMap的线程不安全问题主要表现在数组的懒加载和带if判断的put操作上,这可能导致数据一致性问题。为了解决这些问题,像HashTable和Collections.synchronizedMap()通过synchronized关键字加锁,但会导致性能下降。ConcurrentHashMap引入了CAS(Compare And Swap)技术,比如在initTable()方法中,通过volatile修饰的成员变量保证了数组初始化的线程安全。
ConcurrentHashMap在数组初始化、下标为空时使用CAS,而在有冲突时切换到synchronized,降低了锁的粒度,以提高效率。扩容是ConcurrentHashMap的难点,需要处理新旧数组的同步迁移问题,通过helpTransfer()方法和transfer()方法来确保线程安全。
总结来说,学习ConcurrentHashMap不仅是对HashMap知识的扩展,更是进入并发编程世界的重要一步。面试时,如果只问基本数据结构,那可能只需要了解HashMap;但若深入到ConcurrentHashMap,就涉及到了并发编程的核心技术,如CAS、同步和锁的管理。
concurrenthashmap1.8源码如何详细解析?
ConcurrentHashMap在JDK1.8的线程安全机制基于CAS+synchronized实现,而非早期版本的分段锁。
在JDK1.7版本中,ConcurrentHashMap采用分段锁机制,包含一个Segment数组,每个Segment继承自ReentrantLock,并包含HashEntry数组,每个HashEntry相当于链表节点,用于存储key、value。默认支持个线程并发,每个Segment独立,互不影响。
对于put流程,与普通HashMap相似,首先定位至特定的Segment,然后使用ReentrantLock进行操作,后续过程与HashMap基本相同。
get流程简单,通过hash值定位至segment,再遍历链表找到对应元素。需要注意的是,value是volatile的,因此get操作无需加锁。
在JDK1.8版本中,线程安全的关键在于优化了put流程。首先计算hash值,遍历node数组。若位置为空,则通过CAS+自旋方式初始化。
若数组位置为空,尝试使用CAS自旋写入数据;若hash值为MOVED,表示需执行扩容操作;若满足上述条件均不成立,则使用synchronized块写入数据,同时判断链表或转换为红黑树进行插入。链表操作与HashMap相同,链表长度超过8时转换为红黑树。
get查询流程与HashMap基本一致,通过key计算位置,若table对应位置的key相同则返回结果;如为红黑树结构,则按照红黑树规则获取;否则遍历链表获取数据。
HashMap实现原理一步一步分析(1-put方法源码整体过程)
本文分享了HashMap内部的实现原理,重点解析了哈希(hash)、散列表(hash table)、哈希码(hashcode)以及hashCode()方法等基本概念。
哈希(hash)是将任意长度的输入通过散列算法转换为固定长度输出的过程,建立一一对应关系。常见算法包括MD5加密和ASCII码表。
散列表(hash table)是一种数据结构,通过关键码值映射到表中特定位置进行快速访问。
哈希码(hashcode)是散列表中对象的存储位置标识,用于查找效率。
Object类中的hashCode()方法用于获取对象的哈希码值,以在散列存储结构中确定对象存储地址。
在存储字母时,使用哈希码值对数组大小取模以适应存储范围,防止哈希碰撞。
HashMap在JDK1.7中使用数组+链表结构,而JDK1.8引入了红黑树以优化性能。
HashMap内部数据结构包含数组和Entry对象,数组用于存储Entry对象,Entry对象用于存储键值对。
在put方法中,首先判断数组是否为空并初始化,然后计算键的哈希码值对数组长度取模,用于定位存储位置。如果发生哈希碰撞,使用链表解决。
本文详细介绍了HashMap的存储机制,包括数组+链表的实现方式,以及如何处理哈希碰撞。后续文章将继续深入探讨HashMap的其他特性,如数组长度的优化、多线程环境下的性能优化和红黑树的引入。
HashMap 的初始值和最大值和扩容因子
HashMap 初始化默认值为。你可以通过构造函数自定义初始值。
最大值为1<<,这个值表示2的次方。在HashMap的源码注释中有明确说明。
理解左移操作符<<是关键,它执行二进制左移操作。例如,1 << x 等同于2的x次方。
当存储元素超过最大值时,HashMap会强制将数组大小capacity设置为最大值。
初始化和扩容时,数组大小capacity被限制在两个地方:通过tableSizeFor()函数设置为2的幂次,不超过最大值;或在容量翻倍时,设置为1 << ,但实际容量为Integer.MAX_VALUE避免整型溢出。
加载因子,即扩容因子,决定何时进行扩容。比如,加载因子为0.5,初始化容量为时,当元素数达到8个,HashMap会进行扩容。加载因子为0.时,考虑性能与容量平衡。
以上参数在JDK源代码中定义,是使用HashMap的基础。