HashMap中确定数组位置为什么要用hash进行扰动

HashMap数据存储的过程先根据key获得hash值,通过 (n - 1) & hash 判断当前元素存放的位置(这里的 n 指的是数组的长度),如果当前位置存在元素的话,就判断该元素与要存入的元素的 hash 值以及 key 是否相同,如果相同的话,直接覆盖,不相同就通过拉链法解决冲突。

其中,jdk1.8中扰动函数hash的源码:

static final int hash(Object key) {
    int h;
    // key.hashCode():返回散列值也就是hashcode
    // ^ :按位异或
    // >>>:无符号右移,忽略符号位,空位都以0补齐
    return (key == null) ? 0 : (h = key.hashCode()) ^ (h >>> 16);
}

其中看到在获得hash值时将key的hashCode异或上其无符号右移16位,Hashmap这么做原因:

防止一些实现比较差的 hashCode() 方法,使用扰动函数之后可以减少碰撞,进一步降低hash冲突的几率

打个比方, 当我们的数组长度n为16的时候,哈希码(字符串“abcabcabcabcabc”的key对应的哈希码)对(16-1)与操作,对于多个key生成的hashCode,只要哈希码的后4位为0,不论不论高位怎么变化,最终的结果均为0。 如下图所示:

1954974080(HashCode) 111 0100 1000 0110 1000 1001 1000 0000
2^4-1=15(length-1) 000 0000 0000 0000 0000 0000 0000 1111
&运算 000 0000 0000 0000 0000 0000 0000 0000

而加上高16位异或低16位的“扰动函数”后,结果如下:

原HashCode 1954974080 111 0100 1000 0110 1000 1001 1000 0000
(>>>16)无符号右移16位 29830 000 0000 0000 0000 0111 0100 1000 0110
^(异或)运算 1955003654 111 0100 1000 0110 1111 1101 0000 0110
2^4-1=15(length-1) 15 000 0000 0000 0000 0000 0000 0000 1111
&(与)运算 6 000 0000 0000 0000 0000 0000 0000 0110

可以看到: 扰动函数优化前:1954974080 % 16 = 1954974080 & (16 - 1) = 0 扰动函数优化后:1955003654 % 16 = 1955003654 & (16 - 1) = 6 很显然,减少了碰撞的几率。

参考:https://zhuanlan.zhihu.com/p/76735726

原文地址:https://www.cnblogs.com/MWCloud/p/11380160.html

时间: 2024-10-08 04:56:26

HashMap中确定数组位置为什么要用hash进行扰动的相关文章

关于hashMap中 计算hashCode的逻辑推理(二)

hashMap中,为了使元素在数组中尽量均匀的分布,所以使用取模的算法来决定元素的位置.如下: 1 //方法一: 2 static final int hash(Object key){//jdk1.8 3 int h; 4 return (key == null) ? 0 : h = key.hashCode() ^ (h >>> 16); 5 } 6 //方法二: 7 static int indexFor(int h,int length){//低版本的源码 8 return h

JDK1.8 HashMap中put源码分析

一.存储结构      在JDK1.8之前,HashMap采用桶+链表实现,本质就是采用数组+单向链表组合型的数据结构.它之所以有相当快的查询速度主要是因为它是通过计算散列码来决定存储的位置.HashMap通过key的hashCode来计算hash值,不同的hash值就存在数组中不同的位置,当多个元素的hash值相同时(所谓hash冲突),就采用链表将它们串联起来(链表解决冲突),放置在该hash值所对应的数组位置上.结构图如下:     图中,紫色部分代表哈希表,也称为哈希数组,数组中每个元素

如果两个对象具有相同的哈希码,但是不相等的,它们可以在HashMap中同时存在吗?

----答案是 可以 原因: 在hashmap中,由于key是不可以重复的,他在判断key是不是重复的时候就判断了hashcode这个方法,而且也用到了equals方法. 这里不可以重复是说equals和hashcode只要有一个不等就可以了. 一.当我们向一个set.HashMap.HashSet.HashTable集合中添加某个元素,集合会首先调用该对象的hashCode方法, 这样就可以直接定位它所存储的位置,若该处没有其他元素,则直接保存.若该处已经有元素存在,就调用equals方法来匹

HashMap 中的容量与扩容实现,细致入微,值的一品!

前言 开心一刻 巴闭,你的脚怎么会有味道,我要闻闻看是不是好吃的,嗯~~爸比你的脚臭死啦!! …… 高手过招,招招致命 JDK1.8 中 HashMap 的底层实现,我相信大家都能说上来个 一二,底层数据结构 数组 + 链表(或红黑树) ,源码如下 /** * 数组 */ transient Node<K,V>[] table; /** * 链表结构 */ static class Node<K,V> implements Map.Entry<K,V> { final

HashMap中的resize问题

在jdk1.8中,hashMap的resize()函数做了相应的调整,尤其是对于在buckets的链表中,官方给出的该resize()函数主要在两种情况下使用: 初始化的时候 将哈希表扩容成之前的两倍时 下面首先看初始化时,实际的resize()函数做了哪些工作: final Node<K,V>[] resize() { Node<K,V>[] oldTab = table; int oldCap = 0 ; int oldThr = threshold; int newCap,

C++中字符数组和字符串string

字符数组 C++中字符数组用char str[]可以用来表示一个字符串. (1)   数组的大小和字符串的长度. 数组的大小一定要大于字符串的长度,因为系统会自动补上一个'\0'作为字符串的结束标志.当然对于未初始化的也补'\0'. #include <iostream> #include <string> using namespace std; int main() { char str[11] = "I am happy"; // 系统会自动补上'\0'空

C语言中对数组名取地址

在C/C++中,数组名相当于一个指针,指向数组的首地址.这里"相当于"不代表等于,数组名和指针还是有很多区别的,这个在<C陷阱与缺陷>里有详尽的讲述.而这里要说的是对于数组名取地址的这么一个操作. 如果声明有如下数组: int arr[5]; 那么,&arr这个操作得到了什么值呢? 如果简单的认为arr就是一个指向数组首地址的指针的话,那么很自然会想到&arr得到的是一个指向存放arr这个指针的指针,也就是一个二级指针,然而事实却并不是这样. 观察以下代码:

java中有关数组或集合的起始位详解

在jdbc连接数据库时,起始位都是从1开始的 例如:Class.forName("com.mysql.jdbc.Driver"); conn=DriverManager.getConnection("jdbc:mysql://localhost:3306/mybatis", "root", "ms"); String sql="SELECT * FROM users WHERE NAME=?"; pstm=

在Java中判断数组中包含某个元素的几种方式的比较

闲来无事,将java中判断数组中包含某个元素的几种方式的速度进行对比,直接上代码 talk is cheap, show you the code package test.contain.lishaojie; import java.util.Arrays;import java.util.HashSet;import java.util.Set; public class TestContain { /** * @param args */ public static void main(S