HashMap源码阅读（1）- 初始值、数据结构、hash计算

最近有被问及HashMap的相关问题，不得不再阅读源码，刨根问底。

1）初始值

我们平常使用Map的时候，创建的时候都是Map<String,Object> map = new HashMap<String,Object>();那么HashMap的默认大小是多少呢？查看源码，发现这么一段：

/**

* The default initial capacity - MUST be a power of two.

static final int DEFAULT_INITIAL_CAPACITY = 1 << 4; // aka 16

/**

* The load factor used when none specified in constructor.

static final float DEFAULT_LOAD_FACTOR = 0.75f;

/**

* Constructs an empty <tt>HashMap</tt> with the default initial capacity

* (16) and the default load factor (0.75).

public HashMap() {

this(DEFAULT_INITIAL_CAPACITY, DEFAULT_LOAD_FACTOR);

}

由此可见，HashMap的初始化大小默认是16，当然，它也提供带参构造参数，允许我们指定初始化时创建的空间大小。我们一般会在明确知道需要创建HashMap的大小空间时使用待参构造函数，这样做有两个好处：1.当我们需要空间大小小于16时，指定空间大小可以节省内存; 2.当我们需要空间大小大于16时，指定空间可以一次创建足够空间，防止在使用的时候进行扩容而造成的性能消耗。然而，并不是说刚好指定capacity=size就是好的，更多的情况是，我们只会画蛇添足。为什么？后文为你揭晓。

另外，说到扩容，上述代码片段中又DEFAULT_LOAD_FACTOR参数，该参数的作用又是什么？此处先卖个关子，后文“扩容”中将详细讲解。

2）存储结构

它的底层是使用什么数据结构存储的呢？且看如下代码：

/**

* An empty table instance to share when the table is not inflated.

static
final
Entry<?,?>[]
EMPTY_TABLE
=
{};

/**

* The table, resized as necessary. Length MUST Always be a power of two.

transient
Entry<K,V>[]
table
=
(Entry<K,V>[])
EMPTY_TABLE;

如代码中所示，HashMap使用的是Entry类型的数据结构作为内存存储结构，而Entry实现自Map.Entry接口，除了含有Map.Entry的基本的get,put,hash等方法外，Entry的成员变量使得Entry看起来和我们熟悉的某种数据结构非常相像，如下：

static class Entry<K,V> implements Map.Entry<K,V> {

final K key;

V value;

Entry<K,V> next;

int hash;

//....此处省略其他代码

}

没错，Entry的结构和我们所熟悉的链表结构一模一样，其除了包含key，value，hash等基本属性之外，还包含了一个Entry类型的next属性，这不正是我们在链表中学习到的“next指针”么。HashMap为何会为Entry定义这样的结果设计呢？这就要讲到hash碰撞问题了。在此之前，我们先看看HashMap中的hash计算和索引，以便提前了解hash碰撞所需知识。

3）hash计算、索引

HashMap中有final int hash(Object k)函数对传入的key进行神奇的位运算从而计算出hash值，这里的神奇运算笔者还没搞懂，各位读者先压栈先，哪天等笔者搞懂了再分享博客和链接。此处我们仅简单地知道：HashMap的hash运算通过位运算实现。

上文中我们提到HashMap的底层存储结构是数组，而数据如何存放到数据中，靠的当然是hash计算。最简单的hash有取模散列，即对hash值除以hash数组的长度求余数，从而得到该数据的存储地址。上述通过位运算得到的hash值显然不能直接定位到某个key-value在HashMap中的存储地址，细看HashMap中其实是提供了indexFor这样一个函数用于key-value的索引计算：

/**

* Returns index for hash code h.

static
int
indexFor(int
h,
int
length)
{

//
assert Integer.bitCount(length) == 1 : "length must be a non-zero power of 2";

return
h
&
(length-1);

}

由代码可见，HashMap提供的indexFor实际上是讲hash值和hash存储数据长度-1进行与预算，从而得到该key的下标index。为什么与预算之后，得到的数值一定是在hash数组长度之内的呢？此问题读者可简单写两组二进制值进行与运算即可解答。在此，我们回想到笔者在文章开头提到的：并不是说刚好指定capacity=size就是好的，实际上，在HashMap的源码中有注释标明，HashMap的capacity应该设置为2的n次幂。why?

原理其实很简单，从indexFor函数可以看出，所有的index都会和length-1相关，假设我们设置Map<String,Object> map = new HashMap<String,Object>(5); 则在indexFor的运算过程中，length=5，所以length-1的值是4，而4的二进制结果是100，当我们将任何二进制数与100进行与运算时，我们能得到的结果只有两种：0和100，所以这就导致了在capacity=5的HashMap中，我们能使用到的存储地址永远只有0和4，这就导致我们的创建的另外3个地址一致浪费，并且，这在很大情况下提高了hash碰撞的可能性。

那么，为什么2的n次幂能解决这些问题呢？假设我们设置capacity=8 （2的3次幂），则length=8，所以length-1=7,而7的二进制值是1111，所以，此后的indexFor运算结果可以是0-7之间任何一个值，这就使得HashMap内整个Entry数组都可以被使用。

为了防止程序员在写代码的过程中错误地定义HashMap的初始值大小，HashMap在其内置的函数中提供了inflateTable方法，该方法旨在将capacity提到2的n次幂大小：

/**

* Inflates the table.

private
void
inflateTable(int
toSize)
{

//
Find a power of 2 >= toSize

int
capacity
=
roundUpToPowerOf2(toSize);

//
计算阀值用于扩容

threshold
=
(int)
Math.min(capacity
*
loadFactor,
MAXIMUM_CAPACITY
+
1);

table
=
new
Entry[capacity];

initHashSeedAsNeeded(capacity);

}

在clone，put，putAll的方法中都首先调用了整个inflateTable函数。（注：笔者使用的是jdk1.7，其他版本的jdk实现方式可能有所不同）

本文先介绍到此，关于HashMap的hash碰撞（冲突）和扩容相关放到下一篇文章中。

本文连接：HashMap源码阅读（1）- 初始值、数据结构、hash计算

本文作者：vick

转载请注明：http://www.iyowei.cn/2015/03/hashmap-initial-struct/

时间： 2024-10-11 02:59:02

HashMap源码阅读（1）- 初始值、数据结构、hash计算

1）初始值

2）存储结构

3）hash计算、索引

HashMap源码阅读（1）- 初始值、数据结构、hash计算的相关文章

HashMap源码阅读（2）- 碰撞（冲突）与扩容

HashMap 源码阅读

Java Jdk1.8 HashMap源码阅读笔记一

Java Jdk1.8 HashMap源码阅读笔记二

hashMap 源码解读理解实现原理和hash冲突

HashMap源码阅读

HashMap源码阅读分析（JDK1.8）

HashMap源码阅读笔记——HashMap的实现原理浅析

HashMap源码阅读笔记——常量与构造方法