Java中Map相关的快速查找算法与唯一性(转载)

原文地址:http://blog.csdn.net/chuyuqing/article/details/19629229

在对《Set和hashCode()》的一篇原创文章写完后,由于对自己的一些论断产生了模糊和怀疑,因此又对Set进行了一些研究,形成本篇。

在Set的使用场景中,我们不外乎看中了她存储数据的唯一性,即不能存储重复值,这在某些应用场合下是很必要的一个特性。那么从更深一层来考虑,Set究竟如何使数据不重复的呢?从另一个层面来考虑,她又如何确保在验证数据是否重复过程中的快速性呢?假设存储在Set中的数据有很多条,很普通的一个实现是每放入Set一个值value1,便提取Set中已有的多条数据跟该value1值进行对比,若相同,则不允许放入,反之则放入。运气好的话,迭代到几个元素之后便能够判断该值是否重复,否则,将会迭代所有已有的值。若是该Set中已经存储了上万条的数据,或者十几万条的数据?

一篇网文《Set是如何实现没有重复元素的?》一文给出了答案,该文内容翔实,说理性强,论据充分,是一篇难得的好文,在此感谢作者。尤其它指出了在Set的实现中,使用了Map的key唯一性来确保Set的值不重复(众所周知,Map中的key是唯一的),有兴趣的可以去查看一下。

那么,Map中的key又是如何确保重复验证的快速性及key值的唯一性呢?

放心,这难不倒聪明的java的创造者们。他们巧妙地利用了Hash算法来实现并达到这一目的。那么Hash又是什么?

Hash算法又称为散列算法,其实Hash算法产生的目的很单纯,其发明的目的是提高海量数据的查找速度。举个实例更能说明问题:

假设数据表中有N个无序的字符串(例如:中文人名),给你一个字符串,请迅速找到它在数据表中的序号。
最笨的方法是逐个比较的方式来查找。查找时间是O(N),简单说最后的情况是比较N次。

hash 表能够加快查找速度。使用hash表首先要申请一个定长的指针数组。通过在建立数据表时通过特定的计算公式(hash散列函数)计算出每个字符串对应的一个数值(就是将不固定长度的字符串转换成一个固定长度的数值或索引值)。而后把此数值作为数组下标,把此字符串在数据表的序号保存在此数组元素中(可以扩展到保存一个对象实例指针)。将来想查找某字符串对应位置时,只需要通过hash散列函数计算出字符串对应的值就可以直接知道此字符串的序号等信息了。
这样查找时间是O(1)了。因为不需要查找了,知道数组下标就能访问数组相应元素了,而元素中保存的就是序号等信息。

不妨给你一个直观的比方吧:

张三,给你个任务,你到山东省东营区去找一下一个叫做“李四”的人吧。张三很老实,说了声是就走了,三个月后回来,终于找着了那个叫做李四的人。他后来跟我们说,他采用了遍历的手法,即挨家挨户的去问,去找。

而将这个任务分配给王五的时候,王五说,老板,你给个确切的地址吧。老板说:山东省东营市东营区xx街道办事处xx社区xx号。结果不到一天时间,王五便找着了。

这也许就是hash查找算法与普通查找算法的区别。

通过查看HashMap的源代码证实,该HashMap确实采用了Hash算法来提高查找key的速度,并且使用了equals()来判断是否重复,有代码为证:

hash:

static int hash(int h) {
 h ^= (h >>> 20) ^ (h >>> 12);
 return h ^ (h >>> 7) ^ (h >>> 4);
 }

put:

public V put(K key, V value) {
 if (key == null)
 return putForNullKey(value);
 int hash = hash(key.hashCode());
 int i = indexFor(hash,table.length);
 for (Entry<</SPAN>K,V> e = table[i];e != null; e = e.next) {
 Objectk;
 if (e.hash == hash && ((k = e.key) == key || key.equals(k))) {
 VoldValue = e.value;
 e.value = value;
 e.recordAccess(this);
 return oldValue;
 }
 }

modCount++;
 addEntry(hash,key, value, i);
 return null;
 }

HashMap的put原理是这样的:
1、首先对key采用hashCode()方法进行散列化,就是将key转换生成一个int值,相同的key肯定会生成相同的int值,并对该int值进行hash计算得到hash值。
2、通过hash值得到Entry数组的下标,然后通过该下标,得到已经存入的数据,将已经存入的数据的key和hash进行比对,若相同证明是重复,则忽略。
3、若不相同,则通过addentry()方法将数据存入该数组的下标中,同时存入的还有key、hash值。

用一句话说来就是,通过待存入的key的hash值计算出数组的下标,并根据该下标提取已经存入的值,将两者进行比对,若相同则忽略,不同则put进去。

现在知道为什么Map中的key是唯一性的原因了吧?这与Map在put时兢兢业业检查的努力是分不开的。

假设有一个key为1,value为"zhangSan",经过hash之后成为101,那么这个101就作为数组的下标,然后将hash=101、key=1及value="zhangSan"的值封装成实体对象存放到该数组的101下标处。因为不同的key会产生不同的hash值,这也是为什么HashMap不排序的原因!

get:

public V get(Object key) {
 if (key == null)
 return getForNullKey();
 int hash = hash(key.hashCode());
 for (Entry<</SPAN>K,V> e = table[indexFor(hash,table.length)];
 e != null;
 e = e.next) {
 Objectk;
 if (e.hash == hash && ((k = e.key) == key || key.equals(k)))
 return e.value;
 }
 return null;
 }

那么通过key提取值时,当然先要通过该key计算出hash值来,再通过这个hash值作为下标提取出对应的实体对象所容纳的value来。
同时加了必要的判断来确保提取出正确的数值来。

哈哈,在一个确定的城市里,领到了一个确定的门牌号,相比在茫茫人海中漫无目的的捞针,知道为何提取数据如何之快了吧!

Java中Map相关的快速查找算法与唯一性(转载)

时间: 2025-01-01 14:00:40

Java中Map相关的快速查找算法与唯一性(转载)的相关文章

浅析Java中Map与HashMap,Hashtable,HashSet的区别(转载)

HashMap和Hashtable两个类都实现了Map接口,二者保存K-V对(key-value对):HashSet则实现了Set接口,性质类似于集合 HashTable和HashMap区别 第一,继承的父类不同.Hashtable继承自Dictionary类,而HashMap继承自AbstractMap类.但二者都实现了Map接口. public class Hashtable<K,V>extends Dictionary<K,V>implements Map<K,V>

JAVA算法1——连通性问题之快速查找算法

假设现在有一个整数对序列,每个整数对代表某周类型的对象,我们用P-Q对表示"P链接到Q".我们假设这种关系具有传递性,即如果p链接到q,而q又连接到r,则p连接到r. 下面的程序是一个简单算法的实现,这个算法是解决连通性问题的快速查找算法.该算法的基础是一个整数数组,当且仅当第p个数组元素和第q个数组元素是相等的,则p与q是相连的.我们把第i个元素初始化为i(0 ≤i≤N).要完成p和q的合并操作,需要搜索整个数组,把所有与第p个数组元素相同的元素全部改为第q个数组元素的值. publ

java中Map,List与Set的区别

java中Map,List与Set的区别 目录(?)[+] Set,List,Map的区别 java集合的主要分为三种类型: Set(集) List(列表) Map(映射) 要深入理解集合首先要了解下我们熟悉的数组: 数组是大小固定的,并且同一个数组只能存放类型一样的数据(基本类型/引用类型),而JAVA集合可以存储和操作数目不固定的一组数据. 所有的JAVA集合都位于 java.util包中! JAVA集合只能存放引用类型的的数据,不能存放基本数据类型. 简单说下集合和数组的区别:(参考文章:

探究Java中Map类

Map以按键/数值对的形式存储数据,和数组非常相似,在数组中存在的索引,它们本身也是对象.       Map的接口       Map---实现Map       Map.Entry--Map的内部类,描述Map中的按键/数值对.       SortedMap---扩展Map,使按键保持升序排列           关于怎么使用,一般是选择Map的子类,而不直接用Map类.       下面以HashMap为例.       public     static     void     ma

《算法C语言实现》————快速-查找算法(quick-find algorithm)

算法基础是一个整型数组,当且仅当第p个元素和第q个元素相等时,p和q时连通的.初始时,数组中的第i个元素的值为i,0<=i<N,为实现p与q的合并操作,我们遍历数组,把所有名为p的元素值改为q.我们也可以选择另外一种方式,把所有名为q的元素改为p. 这个程序从标准输入读取小于N的非负整数对序列(对p-q表示"把对象β 连接到q"),并且输出还未连通的输入对.程序中使用数组id,每个元素表示一个对象,且具有以下性质,当且仅当p和q时连通的,id[p]和id[q]想等.为简化起

java中map有哪些

java为数据结构中的映射定义了一个接口java.util.Map;它有四个实现类,分别是HashMap Hashtable LinkedHashMap 和TreeMap Map主要用于存储健值对,根据键得到值,因此不允许键重复(重复了覆盖了),但允许值重复. Hashmap 是一个最常用的Map,它根据键的HashCode 值存储数据,根据键可以直接获取它的值,具有很快的访问速度,遍历时,取得数据的顺序是完全随机的.HashMap最多只允许一条记录的键为Null;允许多条记录的值为 Null;

Java中的HashCode(1)之hash算法基本原理

Java中的HashCode(1)之hash算法基本原理 2012-11-16 14:58:59     我来说两句      作者:woshixuye 收藏    我要投稿 一.为什么要有Hash算法 Java中 的集合有两类,一类是List,一类是Set.List内的元素是有序的,元素可以重复.Set元素无序,但元素不可重复.要想保证元素不重复,两个元素 是否重复应该依据什么来判断呢?用Object.equals方法.但若每增加一个元素就检查一次,那么当元素很多时,后添加到集合中的元素比较的

【Socket编程】Java中网络相关API的应用

Java中网络相关API的应用 一.InetAddress类 InetAddress类用于标识网络上的硬件资源,表示互联网协议(IP)地址. InetAddress类没有构造方法,所以不能直接new出一个对象: InetAddress类可以通过InetAddress类的静态方法获得InetAddress的对象: 1 InetAddress.getLocalHost();//获取本地对象 2 InetAddress.getByName("");//获取指定名称对象 主要方法使用: 1 /

java中数组的三种排序算法

Java中的数组主要有三种排序算法,分别是冒泡排序算法.选择排序算法和插入排序算法. 冒泡排序算法 从数组中首元素开始和其他元素逐个比较,若其中一个元素比其小(或大),就交换首元素与其位置. 选择排序算法 插入排序算法 "我想你只是输在心软,不够卑鄙." 原文地址:https://www.cnblogs.com/yanggb/p/12105421.html