浅谈 GetHashCode

我们知道,System.Object 类是 .NET Framework 中所有类的最终基类,它是类型层次结构的根,并为派生类提供低级别服务。通常不要求类声明从 Object 的继承,因为继承是隐式的。因为 .NET Framework 中的所有类均从 Object 派生,所以 Object 类中定义的每个方法可用于系统中的所有对象。派生类可以而且确实重写这些方法中的某些,其中包括:

  • Equals — 支持对象间的比较。
  • Finalize — 在自动回收对象之前执行清理操作。
  • GetHashCode — 生成一个与对象的值相对应的数字以支持哈希表的使用。
  • ToString — 生成描述类的实例的可读文本字符串。

现在,我们就来谈谈这个 GetHashCode 方法:

public virtual int GetHashCode()

GetHashCode 方法适用于哈希算法和诸如哈希表之类的数据结构。

GetHashCode 方法的默认实现不保证针对不同的对象返回唯一值。而且,.NET Framework 不保证 GetHashCode 方法的默认实现以及它所返回的值在不同版本的 .NET Framework 中是相同的。因此,在进行哈希运算时,该方法的默认实现不得用作唯一对象标识符。

GetHashCode 方法可以由派生类型重写。值类型必须重写此方法,以提供适合该类型的哈希函数和在哈希表中提供有用的分布。为了获得最佳结果,哈希代码必须基于实例字段或属性(而非静态字段或属性)的值。

哈希函数用于快速生成一个与对象的值相对应的数字(哈希代码)。哈希函数通常是特定于每个 Type 的,而且,必须至少使用一个实例字段作为输入。

哈希函数必须具有以下特点:

  • 如果两个对象的比较结果相等,则每个对象的 GetHashCode 方法都必须返回同一个值。但是,如果两个对象的比较结果不相等,则这两个对象的 GetHashCode 方法不一定返回不同的值。
  • 一个对象的 GetHashCode 方法必须总是返回同一个哈希代码,但前提是没有修改过对象状态,对象状态用来确定对象的 Equals 方法的返回值。请注意,这仅适用于应用程序的当前执行,再次运行该应用程序时可能会返回另一个哈希代码。
  • 为了获得最佳性能,哈希函数必须为所有输入生成随机分布。

例如,String 类提供的 GetHashCode 方法的实现为相同的字符串值返回相同的哈希代码。因此,如果两个 String 对象表示相同的字符串值,则它们返回相同的哈希代码。另外,该方法使用字符串中的所有字符生成相当随机的分布式输出,即使当输入集中在某些范围内时(例如,许多用户可能有只包含低位 128
个 ASCII 字符的字符串,即使字符串可以包含 65,535 个 Unicode 字符中的任何字符)。

对于 Object 的派生类,当且仅当此派生类将值相等性定义为引用相等并且类型不是值类型时,GetHashCode 方法才可以委托给 Object.GetHashCode 实现。

在类上提供好的哈希函数可以显著影响将这些对象添加到哈希表的性能。在具有好的哈希函数实现的哈希表中,搜索元素所用的时间是固定的(例如运算复杂度为 O(1) 的运算)。而在具有不好的哈希函数实现的哈希表中,搜索性能取决于哈希表中的项数(例如运算复杂度为 O(n) 的运算,其中的 n 是哈希表中的项数)。哈希函数的计算成本也必须不高

GetHashCode 方法的实现必须不会导致循环引用。例如,如果 ClassA.GetHashCode 调用 ClassB.GetHashCode,ClassB.GetHashCode 必须不直接或间接调用 ClassA.GetHashCode。

GetHashCode 方法的实现必须不引发异常

重写 GetHashCode 的派生类还必须重写 Equals,以保证被视为相等的两个对象具有相同的哈希代码。

好了,引用了 MSDN 技术资源库中的一大段内容后,让我们来看看具体的例子吧。

首先,让我们用 .NET Reflector 来看看 .NET Framework 4.0 中 System.Object.GetHashCode 的实现吧。

[TargetedPatchingOptOut("Performance critical to inline across NGen image boundaries")]
public virtual int GetHashCode()
{
  return System.Runtime.CompilerServices.RuntimeHelpers.GetHashCode(this);
}

而 RuntimeHelpers.GetHashCode 是一个外部的静态方法,如下所示:

namespace System.Runtime.CompilerServices
{
  public static class RuntimeHelpers
  {
    [MethodImpl(MethodImplOptions.InternalCall), SecuritySafeCritical]
    public static extern int GetHashCode(object o);
  }
}

这样线索就断了。如果那位朋友知道 RuntimeHelpers.GetHashCode 方法的具体实现是什么的话,麻烦在评论中指出,谢谢。

我们现在来看看 .NET Framework 4.0 中 System.String.GetHashCode 的实现吧。

[ReliabilityContract(Consistency.WillNotCorruptState, Cer.MayFail), SecuritySafeCritical]
public override unsafe int GetHashCode()
{
  fixed (char* str = ((char*)this))
  {
    char* chPtr = str;
    int num = 0x15051505;
    int num2 = num;
    int* numPtr = (int*)chPtr;
    for (int i = this.Length; i > 0; i -= 4)
    {
      num = (((num << 5) + num) + (num >> 0x1b)) ^ numPtr[0];
      if (i <= 2) break;
      num2 = (((num2 << 5) + num2) + (num2 >> 0x1b)) ^ numPtr[1];
      numPtr += 2;
    }
    return (num + (num2 * 0x5d588b65));
  }
}

可以看出,这里使用了 unsafe 的指针,我想是为了“哈希函数的计算成本也必须不高”,因为使用指针会更快一点。

再来看看 .NET Framework 3.5 中 System.Numeric.BigInteger.GetHashCode 的实现吧。

[Serializable, StructLayout(LayoutKind.Sequential), Immutable, ComVisible(false)]
internal struct BigInteger : IFormattable, IEquatable<BigInteger>, IComparable<BigInteger>, IComparable
{
  private readonly short _sign;
  private readonly uint[] _data;

  public override int GetHashCode()
  {
    if (this._sign == 0) return 0;
    return (int)this._data[0];
  }
}

严格来说,这个 GetHashCode 方法其实是不合格的,违反了“为了获得最佳性能,哈希函数必须为所有输入生成随机分布”这一原则,因为它只取 BigInteger 的 _data 数组中的第一个元素,忽略了数组中的其他元素。我猜想,这是因为在 .NET Framework 3.5 中,BigInteger 是 internal 的,别人不可能使用,而 Microsoft 的 Base Class Libraray
团队自己也没有使用 BigInteger.GetHashCode 方法,所以就随便实现一个啦。

现在来看看 .NET Framework 4.0 中 System.Numerics.BigInteger.GetHashCode 的实现吧。

[Serializable, StructLayout(LayoutKind.Sequential)]
public struct BigInteger : IFormattable, IComparable, IComparable<BigInteger>, IEquatable<BigInteger>
{
  internal int _sign;
  internal uint[] _bits;

  public override int GetHashCode()
  {
    if (this._bits == null) return this._sign;
    int num = this._sign;
    int index = Length(this._bits);
    while (--index >= 0) num = NumericsHelpers.CombineHash(num, (int)this._bits[index]);
    return num;
  }

  internal static int Length(uint[] rgu)
  {
    int length = rgu.Length;
    return (rgu[length - 1] != 0) ? length : (length - 1);
  }
}

internal static class NumericsHelpers
{
  public static int CombineHash(int n1, int n2)
  {
    return (int)CombineHash((uint)n1, (uint)n2);
  }

  public static uint CombineHash(uint u1, uint u2)
  {
    return (((u1 << 7) | (u1 >> 0x19)) ^ u2);
  }
}

在 .NET Framework 4.0 中,BigInteger 变成了 public 的,所以不能随便实现一个 GetHashCode 方法了。

我于 2008-07-13 发表过一篇随笔“浅谈 BigInteger”,其中的 Skyiv.Numeric.BigInteger.GetHashCode 方法如下所示:

sealed class BigInteger : IEquatable<BigInteger>, IComparable<BigInteger>
{
  sbyte sign;  // 符号,取值:-1, 0, 1。
  byte[] data; // 字节数组以 100 为基,字节数组中第一个元素存储的数字是最高有效位。

  public override int GetHashCode()
  {
    int hash = sign;
    foreach (int n in data) hash ^= n;
    return hash;
  }
}

这个 GetHashCode 方法也不太合格。原因是……,你们自己猜吧。我现在要实现一个新的 GetHashCode 方法,如下所示:

public override int GetHashCode()
{
  int n = sign;
  for (int i = data.Length - 1; i >= 0; i -= 4)
  {
    int m = data[i];
    if (i > 0) m |= (data[i - 1] << 8);
    if (i > 1) m |= (data[i - 2] << 16);
    if (i > 2) m |= (data[i - 3] << 24);
    n = m ^ (n + (n << 5) + (n >> 0x1b));
  }
  return n * 0x5d588b65;
}

各位朋友认为这个新的 GetHashCode 方法是否合格呢?

版权声明:本文为博主http://www.zuiniusn.com原创文章,未经博主允许不得转载。

时间: 2024-08-05 15:10:38

浅谈 GetHashCode的相关文章

.net中对象序列化技术浅谈

.net中对象序列化技术浅谈 2009-03-11 阅读2756评论2 序列化是将对象状态转换为可保持或传输的格式的过程.与序列化相对的是反序列化,它将流转换为对象.这两个过程结合起来,可以轻松地存储和传输数 据.例如,可以序列化一个对象,然后使用 HTTP 通过 Internet 在客户端和服务器之间传输该对象.反之,反序列化根据流重新构造对象.此外还可以将对象序列化后保存到本地,再次运行的时候可以从本地文件 中“恢复”对象到序列化之前的状态.在.net中有提供了几种序列化的方式:二进制序列化

浅谈——页面静态化

现在互联网发展越来越迅速,对网站的性能要求越来越高,也就是如何应对高并发量.像12306需要应付上亿人同时来抢票,淘宝双十一--所以,如何提高网站的性能,是做网站都需要考虑的. 首先网站性能优化的方面有很多:1,使用缓存,最传统的一级二级缓存:2,将服务和数据库分开,使用不同的服务器,分工更加明确,效率更加高:3,分布式,提供多台服务器,利用反向代理服务器nginx进行反向代理,将请求分散开来:4,数据库的读写分离,不同的数据库,将读操作和写操作分开,并实时同步即可:5,分布式缓存,使用memc

单页应用SEO浅谈

单页应用SEO浅谈 前言 单页应用(Single Page Application)越来越受web开发者欢迎,单页应用的体验可以模拟原生应用,一次开发,多端兼容.单页应用并不是一个全新发明的技术,而是随着互联网的发展,满足用户体验的一种综合技术. SEO 一直以来,搜索引擎优化(SEO)是开发者容易忽略的部分.SEO是针对搜索(Google.百度.雅虎搜索等)在技术细节上的优化,例如语义.搜索关键词与内容相关性.收录量.搜索排名等.SEO也是同行.市场竞争常用的的营销手段.Google.百度的搜

浅谈html标签

浅谈html各常用标签用法 标题标签:<h1>-<h6>来表示,使标题字体变粗. <br />换行标记 <hr />水平分隔符 &nbsp空格符 &copy版权符 <a href>a标签超链接 href可接链接地址 <p>段落标签<blockquote>引用标签及可用做缩进 <table>表格中的<ul>无序列表<ol>有序列表<dl>自定义列表<row

浅谈二维中的树状数组与线段树

一般来说,树状数组可以实现的东西线段树均可胜任,实际应用中也是如此.但是在二维中,线段树的操作变得太过复杂,更新子矩阵时第一维的lazy标记更是麻烦到不行. 但是树状数组在某些询问中又无法胜任,如最值等不符合区间减法的询问.此时就需要根据线段树与树状数组的优缺点来选择了. 做一下基本操作的对比,如下图. 因为线段树为自上向下更新,从而可以使用lazy标记使得矩阵的更新变的高校起来,几个不足就是代码长,代码长和代码长. 对于将将矩阵内元素变为某个值,因为树状数组自下向上更新,且要满足区间加法等限制

[nRF51822] 14、浅谈蓝牙低功耗(BLE)的几种常见的应用场景及架构(科普类干货)

蓝牙在短距离无线通信领域占据举足轻重的地位—— 从手机.平板.PC到车载设备, 到耳机.游戏手柄.音响.电视, 再到手环.电子秤.智能医疗器械(血糖仪.数字血压计.血气计.数字脉搏/心率监视器.数字体温计.耳温枪.皮肤水分计等), 再到智能家居等领域均占有一席之地. 而蓝牙低功耗(BLE)是在蓝牙4.0协议上修改以适用低功耗应用场景的一种蓝牙协议. 随着上一股智能消费类电子大潮的到来,BLE的各种应用也像雨后春笋般在市场上铺开. 如果想 紧跟蓝牙协议的最新动态 ,可以在https://www.b

浅谈C++容器动态内存管理的优化

在信息学竞赛中,C++的容器的用途非常广泛,但经常因常数过大而超时.怎样才能提高它们的效率呢? 我们知道,容器是存储同一类对象的对象,既然"对象"我们无法改变,那么我们只能从"存储"入手,不难想到,不同容器在实现上的根本区别是它们对应着不同的内存组织方式,内存管理无疑是这种实现的核心,所以优化内存管理是加快容器效率的最好途径之一. 一.内存分配器简介 怎样才能优化内存管理呢?很简单,C++为我们提供了这样的接口,我们可以通过自定义容器模板中的最后一个allocato

张小龙浅谈微信公众平台的意义

腾讯高级副总裁张小龙表示:微信公众平台,就是在移动互联网时代,让企业和个人以更简捷的形式提供服务给有需要的人. 张小龙浅谈微信公众平台的意义,布布扣,bubuko.com

浅谈数据库系统中的cache(转)

http://www.cnblogs.com/benshan/archive/2013/05/26/3099719.html 浅谈数据库系统中的cache(转) Cache和Buffer是两个不同的概念,简单的说,Cache是加速"读",而buffer是缓冲"写",前者解决读的问题,保存从磁盘上读出 的数据,后者是解决写的问题,保存即将要写入到磁盘上的数据.在很多情况下,这两个名词并没有严格区分,常常把读写混合类型称为buffer cache,本文后续的论述中,统一