字符串匹配(hash算法）

hash函数对大家来说不陌生吧？

而这次我们就用hash函数来实现字符串匹配。

首先我们会想一下二进制数。

对于任意一个二进制数，我们将它化为10进制的数的方法如下（以二进制数1101101为例）：

hash用的也是一样的原理，为每一个前缀（也可以后缀，笔者习惯1 base，所以喜欢用前缀来计算，Hash[i] = Hash[i - 1] * x + s[i](其中1 < i <= n,Hash[0] = 0)。

一般地，

而对于l - r区间的hash值，则为：

但是如果n很大呢？那样不是会溢出了吗？

因此我们把hash值储存在unsigned long long里面，那样溢出时，会自动取余2的64次方，but这样可能会使2个不懂串的哈希值相同，但这样的概率极低（不排除你的运气不好）。

因此我们可以通过Hash值来比较两个字符串是否相等。

给出多项式hash的处理：

typedef unsigned long long ull;
const int N = 100000 + 5;
const ull base = 163;
char s[N];
ull hash[N];

void init(){//处理hash值
    p[0] = 1;
    hash[0] = 0;
    int n = strlen(s + 1);
   for(int i = 1; i <=100000; i ++)p[i] =p[i-1] * base;
   for(int i = 1; i <= n; i ++)hash[i] = hash[i - 1] * base + (s[i] - ‘a‘);
}

ull get(int l, int r, ull g[]){//取出g里l - r里面的字符串的hash值
    return g[r] - g[l - 1] * p[r - l + 1];
}

我们来看到题目吧：传送门

题目大意:

是有一份文件，前面是密文，后面是原文，但那个人接到这个文件后不知道中间从哪里开始是原文，所以你要帮忙还原一下，如果后面原文比密文少，你就将它补全, 第一行是密文转换格式，例如第二个样例表示将q翻译成a,w翻译成b。

思路：

我们只要先把密文都翻译成明文，然后去比较原来的字符串的后缀和翻译之后的字符串前缀的最长匹配长度就行（注：最长匹配的长度不能超过原长的一半）

hash水题（附AC代码）：

#include <cstdio>
#include <cstring>
#include <algorithm>
using namespace std;
typedef unsigned long long ull;
const int N = 100000 + 5;
const ull base = 163;
ull Hash1[N], Hash2[N], p[N];

char s[N], t[30], r[N];

int T;

int c[30];

void init(){
    p[0] = 1;
   for(int i = 1; i <=100000; i ++)p[i] =p[i-1] * base;
}

ull get(int l, int r, ull g[]){
    return g[r] - g[l - 1]*p[r - l + 1];
}

void work(){
    for(int i = 0; i < 26; i ++) c[t[i] - ‘a‘] = i;
    //puts(r+1);
    int n = strlen(s + 1);
    Hash1[0] = Hash2[0] = 0;
    for(int i = 1; i <= n; i ++){
        Hash1[i] = Hash1[i - 1] * base + (s[i] - ‘a‘);
        Hash2[i] = Hash2[i - 1] * base + (c[s[i] - ‘a‘]);
    }
    int ans = n;
    for(int i = n; i < n * 2; i ++){
        if(i & 1) continue;
        int tmp = i / 2;
        int len =n - tmp;
        ull s1 = get(1, len, Hash2);
        ull s2 = get(n - len + 1, n, Hash1);
        if(s1 == s2){
            ans = tmp;
            break;
        }
        //printf("%llu %llu\n", s1, s2);
    }
    //printf("ans = %d\n", ans);
    for(int i = 1; i <= ans; i ++)printf("%c", s[i]);
    for(int i = 1; i <= ans; i ++)printf("%c", c[s[i]-‘a‘] + ‘a‘);
    puts("");
}

int main(){
    scanf("%d", &T);
    init();
    while(T--){
        scanf("%s%s", t, s + 1);
        work();
    }
    return 0;
}

时间： 2024-07-30 12:46:20

字符串匹配(hash算法）的相关文章

一个关于字符串匹配的算法题目

有这样一个算法题目假设这有一个各种字母组成的字符串,假设这还有另外一个字符串,而且这个字符串里的字母数相对少一些.从算法是讲, 什么方法能最快的查出所有短字符串里的字母在长字符串里都有? 比如,如果是下面两个字符串: String 1: ABCDEFGHLMNOPQRS String 2: DCGSRQPOM 答案是true,所有在string2里的字母string1也都有.如果是下面两个字符串: String 1: ABCDEFGHLMNOPQRS String 2: DCGSRQPOZ 答

字符串匹配sunday算法c++实现（转）

转载于http://blog.csdn.net/eqmcc/article/details/8205249 sunday.h #include <cstdlib> #include <string> #include <iostream> #include <map> #ifndef _SUNDAYDLL_H_ #define _SUNDAYDLL_H_ using namespace std; class Sunday{ public: Sunday(st

字符串匹配问题 ---- 算法导论读书笔记

字符串匹配是一个很常见的问题,可以扩展为模式的识别,解决字符串问题的思想被广泛地应用.介绍四种解决该问题的办法,包括:最朴素的遍历法,Rabin-Karp算法,自动机机匹配,Knuth-Morris-Pratt算法即耳熟能详的KMP. 在一开始,先对时间复杂度做出一个总扩(从大到小):[1]朴素法:O( (n-m+1)m ):[2]Rabin-Karp:预处理:O(m),匹配:最坏O( (n-m+1)m ),但是平均和实际中比这个好得多:[3]自动机:预处理O(m|Σ|),匹配O(n):[4]K

字符串匹配常见算法（BF，RK，KMP，BM，Sunday）

今日了解了一下字符串匹配的各种方法. 并对sundaysearch算法实现并且单元. 字符串匹配算法,是在实际工程中经常遇到的问题,也是各大公司笔试面试的常考题目.此算法通常输入为原字符串(string)和子串(pattern),要求返回子串在原字符串中首次出现的位置.比如原字符串为"ABCDEFG",子串为"DEF",则算法返回3.常见的算法包括:BF(Brute Force,暴力检索).RK(Robin-Karp,哈希检索).KMP(教科书上最常见算法).BM(

字符串匹配KMP算法C++代码实现

看到了一篇关于<字符串匹配的KMP算法>(见下文)的介绍,地址:http://www.ruanyifeng.com/blog/2013/05/Knuth%E2%80%93Morris%E2%80%93Pratt_algorithm.html,这篇博客对KMP算法的解释很清晰,但缺点是没有代码的实现.所以本人根据这位大神的思路写了一下算法的C++实现. C++代码如下: #include <iostream> #include<string.h> using namesp

字符串匹配--kmp算法原理整理

kmp算法原理:求出P0···Pi的最大相同前后缀长度k: 字符串匹配是计算机的基本任务之一.举例,字符串"BBC ABCDAB ABCDABCDABDE",里面是否包含另一个字符串"ABCDABD"? 许多算法可以完成这个任务,Knuth-Morris-Pratt算法(简称KMP)是最常用的之一. KMP算法搜索如下: 1.首先,字符串"BBC ABCDAB ABCDABCDABDE"的第一个字符与搜索词"ABCDABD"的

字符串匹配暴力算法与字符串匹配的KMP算法

声明:先看一下阮一峰的网络日志关于字符串的KMP算法的讲解.本文图片均引用于这篇日志. 在先前的笔试中遇到了关于字符串匹配的问题,一时脑袋卡壳没写好算法.现在就来分析分析暴力算法和KMP算法各自原理,以及代码实现,之间差异,并且总结一下好算法的一般思路. =========================================================================== 各自原理: 暴力算法: 1. 我们把长的字符串做为一个文本字符串,命名为strText,把

字符串匹配 - KMP算法

首先大致的学习一下有限自动机字符匹配算法,然后在讨论KMP算法. 有限自动机一个有限自动机M是一个五元组(Q,q0,A,Σ,δ),其中: Q是状态的集合, q0∈Q是初始状态, A是Q的字集,是一个接受状态集合, Σ是一个有限的输入字母表, δ是一个从Q×Σ到Q的函数,叫做转移函数. 下面定义几个相关函数: φ(w)是M在扫描字符串w后终止时的状态.函数φ有下列递归关系定义:φ(ε) = q0,φ(wa) = δ(φ(w),a), σ(x)是x的后缀中,关于P的最长前缀的长度. 字符串匹配自动

字符串匹配——朴素算法、KMP算法

字符串匹配(string match)是在实际工程中经常会碰到的问题,通常其输入是原字符串(String)和子串(又称模式,Pattern)组成,输出为子串在原字符串中的首次出现的位置.通常精确的字符串搜索算法包括朴素搜索算法,KMP, BM(Boyer Moore), sunday, robin-karp 以及 bitap.下面分析朴素搜索算法和KMP这两种方法并给出其实现.假设原字符T串长度N,子串P长度为M. 1.NAIVE-STRING-MATCHING. 朴素算法,该方法又称暴力搜索,