结合双数组Trie的AC自动机算法

  结合双数组Trie的AC自动机算法是一种相对比较快的词匹配算法,常见于分词系统用于分词,本文准备用伪代码结合实例的形式来讲解一下该匹配算法的实现原理

构建步骤:

  1.Trie树的构建

首先直观感受一下Trie树:

插入模式串 ball、bat、doll、dork、dorm、do、send、sense之后形成的trie树

trie树分三步:插入(构建)、查找、删除

插入:

1.输入一个模式串 String
2.如果该模式串已经存在于树中,则跳转 8.如果不存在,跳转3
3.设置当前节点为根节点
4.对String的每一个字符i循环:
    判断当前节点的子节点是否存在此字符,如果存在,则设置当前节点为该节点的子节点;否则创建一个新节点,该节点所对应的字符为String的当前字符;    i = i+1    记录当前字符所经过的模式串的数目为原始数目加一; 5.记录结尾字符为结束字符6.end

查找

1.输入一个字符串 String
2.设置当前节点为根节点;
3.循环字符串String的每一个字符i:
      如果String的当前字符为最后一个字符,同时节点判断为end节点,则跳至 步骤4;如果节点判断为非end节点,则跳至步骤5;
      如果String字符串的下一个字符为当前节点的子节点,则将当前节点设置为当前节点带有i字符的子节点;如果不存在 跳至步骤5;
      i=i+1;
4.返回 成功
5.返回 失败
6.end 

删除

1.输入删除字符串String
2.搜索该字符串,如果不存在,则跳至节点4
3.设定当前节点为root节点
3.对于String的每一个字符i:
         如果字符i为root节点的子节点(必然是,已经搜索过了),判断如果当前count=1;移除该节点;跳至5;
         判断当前节点,如果i为end节点,将当前节点的最终节点属性设为false跳至5;
         如果当前节点count>1,将当前节点的count-1,将当前节点的字符i的子节点设为当前节点
         i=i+1
4.返回失败
5.返回成功
6.end
时间: 2024-10-14 09:02:25

结合双数组Trie的AC自动机算法的相关文章

AC自动机算法及模板

关于AC自动机 AC自动机:Aho-Corasickautomation,该算法在1975年产生于贝尔实验室,是著名的多模匹配算法之一.一个常见的例子就是给出n个单词,再给出一段包含m个字符的文章,让你找出有多少个单词在文章里出现过.要搞懂AC自动机,先得有模式树(字典树)Trie和KMP模式匹配算法的基础知识.AC自动机算法分为3步:构造一棵Trie树,构造失败指针和模式匹配过程. 简单来说,AC自动机是用来进行多模式匹配(单个主串,多个模式串)的高效算法. AC自动机的构造过程 使用Aho-

AC自动机算法详解

首先简要介绍一下AC自动机:Aho-Corasick automation,该算法在1975年产生于贝尔实验室,是著名的多模匹配算法之一.一个常见的例子就是给出n个单词,再给出一段包含m个字符的文章,让你找出有多少个单词在文章里出现过.要搞懂AC自动机,先得有模式树(字典树)Trie和KMP模式匹配算法的基础知识.AC自动机算法分为3步:构造一棵Trie树,构造失败指针和模式匹配过程.     如果你对KMP算法和了解的话,应该知道KMP算法中的next函数(shift函数或者fail函数)是干

AC自动机算法

AC自动机简介:  首先简要介绍一下AC自动机:Aho-Corasick automation,该算法在1975年产生于贝尔实验室,是著名的多模匹配算法之一.一个常见的例子就是给出n个单词,再给出一段包含m个字符的文章,让你找出有多少个单词在文章里出现过.要搞懂AC自动机,先得有字典树Trie和KMP模式匹配算法的基础知识.KMP算法是单模式串的字符匹配算法,AC自动机是多模式串的字符匹配算法. AC自动机的构造: 1.构造一棵Trie,作为AC自动机的搜索数据结构. 2.构造fail指针,使当

双数组Trie树(DoubleArrayTrie)Java实现

http://www.hankcs.com/program/java/%E5%8F%8C%E6%95%B0%E7%BB%84trie%E6%A0%91doublearraytriejava%E5%AE%9E%E7%8E%B0.html 双数组Trie树(DoubleArrayTrie)是一种空间复杂度低的Trie树,应用于字符区间大的语言(如中文.日文等)分词领域. 双数组Trie (Double-Array Trie)结构由日本人JUN-ICHI AOE于1989年提出的,是Trie结构的压缩

双数组Trie的一种实现

An Implementation of Double-Array Trie 双数组Trie的一种实现 原文:http://linux.thai.net/~thep/datrie/datrie.html 引文:http://quweiprotoss.blog.163.com/blog/static/4088288320091120112155178/ Contents What is Trie? What Does It Take to Implement a Trie? Tripple-Arr

杭电ACM1277——全文检索~~AC自动机算法

题目的意思:给你一篇文章,再给你T个字符串,判断这T个字符串有哪些在文章中出现过. 由于文章很大,普通的方法必定超时,所以需要用 AC自动机算法. AC自动机算法是多模匹配算法之一,主要是用于在一篇文章中,找出给定的N个单词在这篇文章中出现的个数. AC自动机算法,我也是刚刚学习,主要是在建立字典树的基础上,增加了失败指针,提高了匹配的效率.而且最难的是失败指针的建立. 它的优点是:最大限度地减少无谓的字符串比较,查询效率比哈希表高. 对于AC自动机算法,可以参考大神的博客:点击打开链接 里面有

Ansj分词双数组Trie树实现与arrays.dic词典格式

http://www.hankcs.com/nlp/ansj-word-pairs-array-tire-tree-achieved-with-arrays-dic-dictionary-format.html arrays.dic是一个双数组Trie树格式的词典,用文本的形式储存了索引,字串,base,check,status与词性. 一个直观的图示: index就是base数组中的下标. term是词的当前状态,不一定代表一个词,如“一举一”是“一举一动”的前缀. base是base数组的值

转载 - AC自动机算法

出处:http://blog.csdn.net/niushuai666/article/details/7002823 AC自动机简介:  首先简要介绍一下AC自动机:Aho-Corasick automation,该算法在1975年产生于贝尔实验室,是著名的多模匹配算法之一.一个常见的例子就是给出n个单词,再给出一段包含m个字符的文章,让你找出有多少个单词在文章里出现过.要搞懂AC自动机,先得有字典树Trie和KMP模式匹配算法的基础知识.KMP算法是单模式串的字符匹配算法,AC自动机是多模式

HDU-1251 统计难题(Trie、AC自动机)

统计难题 Time Limit: 4000/2000 MS (Java/Others)    Memory Limit: 131070/65535 K (Java/Others)Total Submission(s): 44119    Accepted Submission(s): 15817 Problem Description Ignatius最近遇到一个难题,老师交给他很多单词(只有小写字母组成,不会有重复的单词出现),现在老师要他统计出以某个字符串为前缀的单词数量(单词本身也是自己的