Hash哈希(一)

Hash哈希(一)

  哈希是大家比较常见一个词语,在编程中也经常用到,但是大多数人都是知其然而不知其所以然,再加上这几天想写一个一致性哈希算法,突然想想对哈希也不是很清楚,所以,抽点时间总结下Hash知识。本文参考了很多博文,感谢大家的无私分享。

基本概念

  Hash,一般翻译做“散列”,也有直接音译为“哈希”的。那么哈希函数的是什么样的?大概就是 value = hash(key),我们希望key和value之间是唯一的映射关系。

  大家使用的最多的就是哈希表(Hash table,也叫散列表),是根据关键码值(Key value)而直接进行访问的数据结构,通过把关键码值映射到表中一个位置来访问记录,以加快查找的速度,这个映射函数叫做哈希函数或散列函数。

  实际中的Hash主要有两种应用:加密和压缩。在加密方面,Hash哈希是把一些不同长度的信息转化成杂乱的128位的编码,这些编码值叫做HASH值,最广泛应用的Hash算法有MD4、MD5、SHA1。在压缩方面,Hash哈希是指把一个大范围映射到一个小范围,往往是为了节省空间,使得数据容易保存。

Hash的特点

  主要原理就是把大范围映射到小范围,因此输入范围必须和小范围相当或者比它更小,否则增加冲突。

  Hash函数逼近单向函数,所以可以用来对数据进行加密。(单项函数:如果某个函数在给定输入的时候,很容易计算出其结果来;而当给定结果的时候,很难计算出输入来)

  不同的应用对Hash函数有着不同的要求:用于加密的Hash函数主要考虑它和单项函数的差距,而用于查找的Hash函数主要考虑它映射到小范围的冲突率。

Hash算法

  Hash的产生方式大体可以分为三种基本方法:加法、乘法和移位。

  加法哈希是通过遍历数据中的元素然后每次对某个初始值进行加操作,其中加的值和这个数据的一个元素相关。

/********************************
 *加法哈希
 *@key   输入字符串
 *@prime 素数
 ********************************/
int additiveHash(string key, int prime)
{
    int hash, i;
    for(hash = key.length(), i = 0; i < key.length(); ++i)
    {
        hash += int(key.at(i));
    }
    return (hash%prime);
}

  乘法哈希是通过遍历数据中的元素然后每次对初始值进行乘法操作,其中乘的值无需和数据有关系。

/********************************
 *乘法哈希
 *@key   输入字符串
 *@prime 素数
 ********************************/
int bernstein(string key)
{
    int hash, i;
    for(hash = 0, i = 0; i < key.length(); ++i)
    {
        hash = 33*hash + int(key.at(i));
    }
    return hash;
}

/********************************
 *32位FNV算法(乘法)
 *@key   输入字符串
 *@prime 素数
 ********************************/
int M_SHIFT = 0;
int M_MASK = 0x8765fed1;
int FNVHash(string key)
{
    int hash = (int)2166136261L;
    for(int i = 0; i < key.length(); ++i)
    {
        hash = (hash * 16777619)^int(key.at(i));
    }
    if(M_SHIFT == 0)
        return hash;
    return (hash ^ (hash >> M_SHIFT)) & M_MASK;
}

  在JAVA中,哈希函数使用的就是乘法哈希:

/**
 * JAVA自己带的算法
 */
public static int java(String str) {
    int h = 0;
    int off = 0;
    int len = str.length();
    for (int i = 0; i < len; i++)
    {
        h = 31 * h + str.charAt(off++);
    }
    return h;
}

  移位哈希是通过遍历数据中的元素然后每次对初始值进行移位操作。

/********************************
 *旋转哈希(移位)
 *@key   输入字符串
 *@prime 素数
 ********************************/
int rotatingHash(string key, int prime)
{
    int hash, i;
    for(hash = key.length(), i = 0; i < key.length(); ++i)
    {
        hash = (hash << 4)^(hash >> 28)^int(key.at(i));
    }
    return (hash%prime);
}

  实际情况下,很多哈希函数都是包含加法、乘法和移位操作来实现的,例如MD5。

问题

  为什么prime的取值是素数? 有科学依据么? 有待验证

    有人是这样说的取素数,可以降低碰撞的概率。但是并没有很好的说明原因,如果哪位有想法希望能留下您的想法,分享给大家。

时间: 2024-10-07 09:36:03

Hash哈希(一)的相关文章

上传图片用图片文件的对象hash哈希值判断图片是否一样,避免重复提交相同的图片到服务器中

/// <summary> /// 上传企业logo /// </summary> /// <returns></returns> public ActionResult UploadLogo(string comid) { HttpFileCollection files = System.Web.HttpContext.Current.Request.Files; if (files.Count == 0) return Json("没有没文件

Hash(哈希)

一.基本概念 Hash,一般翻译做"散列",也有直接音译为"哈希"的,就是把任意长度的输入(又叫做预映射, pre-image),通过散列算法,变换成固定长度的输出,该输出就是散列值.这种转换是一种压缩映射,也就是,散列值的空间通常远小于输入的空间,不同的输入可能会散列成相同的输出,所以不可能从散列值来唯一的确定输入值.简单的说就是一种将任意长度的消息压缩到某一固定长度的消息摘要的函数. 散列表(Hash table,也叫哈希表),是根据关键码值(Key value

Hash哈希(二)一致性Hash(C++实现)

一致性Hash 一致性哈希算法在1997年由麻省理工学院提出的一种分布式哈希(DHT)实现算法,设计目标是为了解决因特网中的热点(Hot spot)问题,经常用于分布式.负载均衡等. 原理 一致哈希是一种特殊的哈希算法.在使用一致哈希算法后,哈希表中平均只需要对 个关键字重新映射,其中 是关键字的数量,是映射节点数量.然而在传统的哈希表中,添加或删除一个映射节点的几乎需要对所有关键字进行重新映射. 原来的映射大概是这样的,如下图,没当加入或删除一个新的节点可能都会造成每个节点的映射发生变化,如果

hash哈希长度扩展攻击解析(记录一下,保证不忘)

起因 这是 ISCC 上的一道题目,抄 PCTF 的,并且给予了简化.在利用简化过的方式通过后,突然想起利用哈希长度扩展攻击来进行通关.哈希长度扩展攻击是一个很有意思的东西,利用了 md5.sha1 等加密算法的缺陷,可以在不知道原始密钥的情况下来进行计算出一个对应的 hash 值. 这里是 ISCC 中题目中的 admin.php 的算法: $auth = false; if (isset($_COOKIE["auth"])) { $auth = unserialize($_COOK

hash哈希

我复习的时候,突然发现没写过hash算法,惊讶!!!赶紧补一下. 把字符串看成base进制的数.Hash值比较就是为了判断是否有相同的字符串.(base是自己定义的大于26的质数,个人认为大一点比较好) 下面是代码 void hash(char a[],int p) { int l = strlen(a); unsigned long long tot; for(int i = 0;i < l;i++) tot = (tot * base) + a[i]; //base = 131 data[p

基本数据结构—Hash哈希

理论概念 这玩意一直都是个好东西,但是我总觉得玄学的一批.今天借着专题学习的劲头,把Hash好好梳理一下. 定义/作用 哈希这东西应该都不陌生.将复杂的信息映射到一个容易维护的值域之内.那么Hash函数就有点类似于一个映射关系.通过这个函数来产生一个关键值(Key),通过关键值与值(value)的对应关系,制作一个对应表.即哈希表(Hash table).他可以实现通过Key快速的查找Value. 那么其最大作用也就显而易见.查重.也就是说,查找当前的值是否已经存在.难点在于,如何去产生这个对应

查找算法(7)--Hash search--哈希查找

1.哈希查找 (1)什么是哈希表(Hash) 我们使用一个下标范围比较大的数组来存储元素.可以设计一个函数(哈希函数, 也叫做散列函数),使得每个元素的关键字都与一个函数值(即数组下标)相对应,于是用这个数组单元来存储这个元素:也可以简单的理解为,按照关键字为每一个元素"分类",然后将这个元素存储在相应"类"所对应的地方.但是,不能够保证每个元素的关键字与函数值是一一对应的,因此极有可能出现对于不同的元素,却计算出了相同的函数值,这样就产生了"冲突&quo

BZOJ 2761: [JLOI2011]不重复数字 hash哈希

题目就不贴了 点我看题 题意:这题题意很简明,就是给一个序列,把序列里相同的删掉,然后输出,按原数列顺序. 思路:这题之前QZZ和ZN大神犇叫我去做,辣时还不会hash,就留着了.最近某夏令营学会了hash就回来写. 就是很简单的hash裸题. 我的hash就是把数字的每一位加起来然后累乘再膜. 从夏令营中涨了姿势,hash可以选择不判重,然后直接通过多hash的方法减少碰撞概率. QAQ...刚开始以为3hash就够了,最后5hash才水过去.QAQ注意输出格式,行末没空格. 1 const

HASH 哈希处理完数据导致数据集第一行数据缺失

IF _N_=1 THEN DO; DCL HASH H(ORDERED:'YES'); H.DEFINEKEY('VAR1'); H.DEFINEDATA(VAR2); H.DEFINEDONE(); CALL MISSING(VAR1,VAR2); END; HASH处理完数据集,导致第一条观测缺失,可能的原因是CALL MISSING()中放入了key变量,而数据集中有跟KEY同名的变量,且CALL MISSING()的作用是对变量缺失的处理,故结果可能=导致数据集第一条观测缺失