HashMap源码阅读(1)- 初始值、数据结构、hash计算

最近有被问及HashMap的相关问题,不得不再阅读源码,刨根问底。

1)初始值

我们平常使用Map的时候,创建的时候都是Map<String,Object> map = new HashMap<String,Object>();那么HashMap的默认大小是多少呢?查看源码,发现这么一段:

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

/**

* The default initial capacity - MUST be a power of two.

*/

static final int DEFAULT_INITIAL_CAPACITY = 1 << 4; // aka 16

/**

* The load factor used when none specified in constructor.

*/

static final float DEFAULT_LOAD_FACTOR = 0.75f;

/**

* Constructs an empty <tt>HashMap</tt> with the default initial capacity

* (16) and the default load factor (0.75).

*/

public HashMap() {

this(DEFAULT_INITIAL_CAPACITY, DEFAULT_LOAD_FACTOR);

}

由此可见,HashMap的初始化大小默认是16,当然,它也提供带参构造参数,允许我们指定初始化时创建的空间大小。我们一般会在明确知道需要创建HashMap的大小空间时使用待参构造函数,这样做有两个好处:1.当我们需要空间大小小于16时,指定空间大小可以节省内存; 2.当我们需要空间大小大于16时,指定空间可以一次创建足够空间,防止在使用的时候进行扩容而造成的性能消耗。然而,并不是说刚好指定capacity=size就是好的,更多的情况是,我们只会画蛇添足。为什么?后文为你揭晓。

另外,说到扩容,上述代码片段中又DEFAULT_LOAD_FACTOR参数,该参数的作用又是什么?此处先卖个关子,后文“扩容”中将详细讲解。

2)存储结构

它的底层是使用什么数据结构存储的呢?且看如下代码:

1

2

3

4

5

6

7

8

9

/**

* An empty table instance to share when the table is not inflated.

*/

static
final
Entry<?,?>[]
EMPTY_TABLE
=
{};

/**

* The table, resized as necessary. Length MUST Always be a power of two.

*/

transient
Entry<K,V>[]
table
=
(Entry<K,V>[])
EMPTY_TABLE;

如代码中所示,HashMap使用的是Entry类型的数据结构作为内存存储结构,而Entry实现自Map.Entry接口,除了含有Map.Entry的基本的get,put,hash等方法外,Entry的成员变量使得Entry看起来和我们熟悉的某种数据结构非常相像,如下:

1

2

3

4

5

6

7

static class Entry<K,V> implements Map.Entry<K,V> {

final K key;

V value;

Entry<K,V> next;

int hash;

//....此处省略其他代码

}

没错,Entry的结构和我们所熟悉的链表结构一模一样,其除了包含key,value,hash等基本属性之外 ,还包含了一个Entry类型的next属性,这不正是我们在链表中学习到的“next指针”么。HashMap为何会为Entry定义这样的结果设计呢?这就要讲到hash碰撞问题了。在此之前,我们先看看HashMap中的hash计算和索引,以便提前了解hash碰撞所需知识。

3)hash计算、索引

HashMap中有final int hash(Object k)函数对传入的key进行神奇的位运算从而计算出hash值,这里的神奇运算笔者还没搞懂,各位读者先压栈先,哪天等笔者搞懂了再分享博客和链接。此处我们仅简单地知道:HashMap的hash运算通过位运算实现。

上文中我们提到HashMap的底层存储结构是数组,而数据如何存放到数据中,靠的当然是hash计算。最简单的hash有取模散列,即对hash值除以hash数组的长度求余数,从而得到该数据的存储地址。上述通过位运算得到的hash值显然不能直接定位到某个key-value在HashMap中的存储地址,细看HashMap中其实是提供了indexFor这样一个函数用于key-value的索引计算:

1

2

3

4

5

6

7

/**

* Returns index for hash code h.

*/

static
int
indexFor(int
h,
int
length)
{

//
assert Integer.bitCount(length) == 1 : "length must be a non-zero power of 2";

return
h
&
(length-1);

}

由代码可见,HashMap提供的indexFor实际上是讲hash值和hash存储数据长度-1进行与预算,从而得到该key的下标index。为什么与预算之后,得到的数值一定是在hash数组长度之内的呢?此问题读者可简单写两组二进制值进行与运算即可解答。在此,我们回想到笔者在文章开头提到的:并不是说刚好指定capacity=size就是好的 ,实际上,在HashMap的源码中有注释标明,HashMap的capacity应该设置为2的n次幂。why?

原理其实很简单,从indexFor函数可以看出,所有的index都会和length-1相关,假设我们设置Map<String,Object> map = new HashMap<String,Object>(5); 则在indexFor的运算过程中,length=5,所以length-1的值是4,而4的二进制结果是100,当我们将任何二进制数与100进行与运算时,我们能得到的结果只有两种:0和100,所以这就导致了在capacity=5的HashMap中,我们能使用到的存储地址永远只有0和4,这就导致我们的创建的另外3个地址一致浪费,并且,这在很大情况下提高了hash碰撞的可能性。

那么,为什么2的n次幂能解决这些问题呢?假设我们设置capacity=8 (2的3次幂), 则length=8,所以length-1=7,而7的二进制值是1111,所以,此后的indexFor运算结果可以是0-7之间任何一个值,这就使得HashMap内整个Entry数组都可以被使用。

为了防止程序员在写代码的过程中错误地定义HashMap的初始值大小,HashMap在其内置的函数中提供了inflateTable方法,该方法旨在将capacity提到2的n次幂大小:

1

2

3

4

5

6

7

8

9

10

11

12

/**

* Inflates the table.

*/

private
void
inflateTable(int
toSize)
{

//
Find a power of 2 >= toSize

int
capacity
=
roundUpToPowerOf2(toSize);

//
计算阀值用于扩容

threshold
=
(int)
Math.min(capacity
*
loadFactor,
MAXIMUM_CAPACITY
+
1);

table
=
new
Entry[capacity];

initHashSeedAsNeeded(capacity);

}

在clone,put,putAll的方法中都首先调用了整个inflateTable函数。(注:笔者使用的是jdk1.7,其他版本的jdk实现方式可能有所不同)

本文先介绍到此,关于HashMap的hash碰撞(冲突)和扩容相关放到下一篇文章中。

本文连接:HashMap源码阅读(1)- 初始值、数据结构、hash计算

本文作者:vick

转载请注明:http://www.iyowei.cn/2015/03/hashmap-initial-struct/

时间: 2024-08-03 08:06:58

HashMap源码阅读(1)- 初始值、数据结构、hash计算的相关文章

HashMap源码阅读(2)- 碰撞(冲突)与扩容

上次在 HashMap源码阅读(1)- 初始值.数据结构.hash计算一文中描述了hashMap的初始大小,底层存储结构,以及哈希值计算和index计算,本文将接着上文,继续深入了解HashMap中hash碰撞和扩容问题 1)hash碰撞 谈hash,不得不提的当然是hash碰撞的问题,所谓hash碰撞,简单地说即由不同的key所计算出相同的hash值.笔者才疏学浅,所掌握的解决hash碰撞的方式有以下几种: 1.开放地址法: 当冲突发生时,使用某种探查(亦称探测)技术在散列表中形成一个探查(测

HashMap 源码阅读

目录 HashMap 源码阅读 Map 接口 数据结构 initialCapacity 和 loadFactor hash() 方法 resize() 查找 getNode() 方法 遍历 fast-fail 和 modCount 新增和更新 putVal() 方法 putMapEntries() 方法 删除 removeNode() 方法 总结 HashMap 源码阅读 之前读过一些类的源码,近来发现都忘了,再读一遍整理记录一下.这次读的是 JDK 11 的代码,贴上来的源码会去掉大部分的注释

Java Jdk1.8 HashMap源码阅读笔记一

最近在工作用到Map等一系列的集合,于是,想仔细看一下其具体实现. 一.结构 public class HashMap<K,V> extends AbstractMap<K,V> implements Map<K,V>, Cloneable, Serializable 1.抽象类AbstractMap public abstract class AbstractMap<K,V> implements Map<K,V> 该类实现了Map接口,具体结

Java Jdk1.8 HashMap源码阅读笔记二

三.源码阅读 3.元素包含containsKey(Object key) /** * Returns <tt>true</tt> if this map contains a mapping for the * specified key. * * @param key The key whose presence in this map is to be tested * @return <tt>true</tt> if this map contains

hashMap 源码解读理解实现原理和hash冲突

hashMap 怎么说呢. 我的理解是 外表是一个set 数组,无序不重复 . 每个set元素是一个bean ,存着一对key value 看看代码吧 package test; import java.util.HashMap; import java.util.Map.Entry; public class HashMaptest { public static void main(String[] args) { HashMap<String, String> map = new Has

HashMap源码阅读

本文内容来自于HashMap的源码内容,作为学习的记录. HashMap是一种存储key-value对的对象.每个map不能包含重复的key,每个key至多映射一个value.我们可以看到HashMap实现自Map接口,继承自AbstractMap类. public class HashMap<K,V> extends AbstractMap<K,V> implements Map<K,V>, Cloneable, Serializable { //HashMap的默认

HashMap源码阅读分析(JDK1.8)

HashMap是JDK提供的经典容器之一,最近刚好时间充裕,于是自己看了一遍hashMap的源码实现,不同版本的JDK,HashMap的实现方式有所不同,本文主要针对JDK1.8的源码进行分析,至于各版本实现方式的不同,本文不做讨论,下面直接开始. 一.hash函数分析 map的put方法,首先调用的就是hash函数,返回key的hash值,其函数方法如下: static final int hash(Object key) { int h; return (key == null) ? 0 :

HashMap源码阅读笔记——HashMap的实现原理浅析

在java8发布以前,HashMap的实现简单来说就是一个Node数组,通过hash算法尽可能的分散了元素的位置,当一个位置有超过一个元素时,用链表的形式将元素进行连接.在java8中HashMap的实现形式有了一些改动,其中比较重要的一点就是链表的阈值,当链表的长度大于等于7时,会将这个位置的链表转换为红黑树的形式,如下图. 在来说说hash算法,HashMap中使用的算法如下 static final int hash(Object key) { int h; return (key ==

HashMap源码阅读笔记——常量与构造方法

DEFAULT_INITIAL_CAPACITY = 16 Node数组的默认长度 MAXIMUM_CAPACITY = 1073741824 Node数组的最大长度 DEFAULT_LOAD_FACTOR = 0.75F 负载因子,调控控件与冲突率的因数 TREEIFY_THRESHOLD = 8 链表转换为树的阈值,超过这个长度的链表会被转换为红黑树 UNTREEIFY_THRESHOLD = 6 当进行resize操作时,小于这个长度的树会被转换为链表 MIN_TREEIFY_CAPACI