trie树--详解

前几天学习了并查集和trie树,这里总结一下trie。     本文讨论一棵最简单的trie树,基于英文26个字母组成的字符串,讨论插入字符串、判断前缀是否存在、查找字符串等基本操作;至于trie树的删除单个节点实在是少见,故在此不做详解。

l        Trie原理

Trie的核心思想是空间换时间。利用字符串的公共前缀来降低查询时间的开销以达到提高效率的目的。

l        Trie性质

好多人说trie的根节点不包含任何字符信息,我所习惯的trie根节点却是包含信息的,而且认为这样也方便,下面说一下它的性质 (基于本文所讨论的简单trie树)

1.    字符的种数决定每个节点的出度,即branch数组(空间换时间思想)

2.    branch数组的下标代表字符相对于a的相对位置

3.    采用标记的方法确定是否为字符串。

4.    插入、查找的复杂度均为O(len),len为字符串长度

l        Trie的示意图

如图所示,该trie树存有abc、d、da、dda四个字符串,如果是字符串会在节点的尾部进行标记。没有后续字符的branch分支指向NULL

l        TrieTrie的优点举例

已知n个由小写字母构成的平均长度为10的单词,判断其中是否存在某个串为另一个串的前缀子串。下面对比3种方法:

1.    最容易想到的:即从字符串集中从头往后搜,看每个字符串是否为字符串集中某个字符串的前缀,复杂度为O(n^2)。

2.    使用hash:我们用hash存下所有字符串的所有的前缀子串。建立存有子串hash的复杂度为O(n*len)。查询的复杂度为O(n)* O(1)= O(n)。

3.    使用trie:因为当查询如字符串abc是否为某个字符串的前缀时,显然以b,c,d....等不是以a开头的字符串就不用查找了。所以建立trie的复杂度为O(n*len),而建立+查询在trie中是可以同时执行的,建立的过程也就可以成为查询的过程,hash就不能实现这个功能。所以总的复杂度为O(n*len),实际查询的复杂度只是O(len)。

解释一下hash为什么不能将建立与查询同时执行,例如有串:911,911456输入,如果要同时执行建立与查询,过程就是查询911,没有,然后存入9、91、911,查询911456,没有然后存入9114、91145、911456,而程序没有记忆功能,并不知道911在输入数据中出现过。所以用hash必须先存入所有子串,然后for循环查询。

而trie树便可以,存入911后,已经记录911为出现的字符串,在存入911456的过程中就能发现而输出答案;倒过来亦可以,先存入911456,在存入911时,当指针指向最后一个1时,程序会发现这个1已经存在,说明911必定是某个字符串的前缀,该思想是我在做pku上的3630中发现的,详见本文配套的“入门练习”。

l        Trie的简单实现(插入、查询)

 1
 2  #include <iostream>
 3  using namespace std;
 4
 5  const int branchNum = 26; //声明常量
 6  int i;
 7  struct Trie_node
 8  {
 9     bool isStr; //记录此处是否构成一个串。
10     Trie_node *next[branchNum];//指向各个子树的指针,下标0-25代表26字符
11    Trie_node():isStr(false)
12     {
13         memset(next,NULL,sizeof(next));
14     }
15 };
16
17 class Trie
18 {
19 public:
20     Trie();
21     void insert(const char* word);
22     bool search(char* word);
23     void deleteTrie(Trie_node *root);
24 private:
25     Trie_node* root;
26 };
27
28 Trie::Trie()
29 {
30     root = new Trie_node();
31 }
32
33 void Trie::insert(const char* word)
34 {
35     Trie_node *location = root;
36     while(*word)
37     {
38         if(location->next[*word-‘a‘] == NULL)//不存在则建立
39         {
40             Trie_node *tmp = new Trie_node();
41             location->next[*word-‘a‘] = tmp;
42         }
43         location = location->next[*word-‘a‘]; //每插入一步,相当于有一个新串经过,指针要向下移动
44         word++;
45     }
46     location->isStr = true; //到达尾部,标记一个串
47 }
48
49 bool Trie::search(char *word)
50 {
51     Trie_node *location = root;
52     while(*word && location)
53     {
54         location = location->next[*word-‘a‘];
55         word++;
56     }
57     return(location!=NULL && location->isStr);
58 }
59
60 void Trie::deleteTrie(Trie_node *root)
61 {
62     for(i = 0; i < branchNum; i++)
63     {
64         if(root->next[i] != NULL)
65         {
66             deleteTrie(root->next[i]);
67         }
68     }
69     delete root;
70 }
71
72 void main() //简单测试
73 {
74     Trie t;
75     t.insert("a");
76     t.insert("abandon");
77     char * c = "abandoned";
78     t.insert(c);
79     t.insert("abashed");
80     if(t.search("abashed"))
81         printf("true\n");
82 }

入门练习 :PKU POJ 3630解题报告

转自:Cherish_yimi (http://www.cnblogs.com/cherish_yimi/)

时间: 2024-10-25 21:55:00

trie树--详解的相关文章

查找(二)简单清晰的B树、Trie树详解

查找(二) 散列表 散列表是普通数组概念的推广.由于对普通数组可以直接寻址,使得能在O(1)时间内访问数组中的任意位置.在散列表中,不是直接把关键字作为数组的下标,而是根据关键字计算出相应的下标. 使用散列的查找算法分为两步.第一步是用散列函数将被查找的键转化为数组的一个索引. 我们需要面对两个或多个键都会散列到相同的索引值的情况.因此,第二步就是一个处理碰撞冲突的过程,由两种经典解决碰撞的方法:拉链法和线性探测法. 散列表是算法在时间和空间上作出权衡的经典例子. 如果没有内存限制,我们可以直接

Trie树详解(转)

特别声明 本文只是一篇笔记类的文章,所以不存在什么抄袭之类的. 以下为我研究时参考过的链接(有很多,这里我只列出我记得的): Trie(字典树)的应用--查找联系人 trie树 Trie树:应用于统计和排序 牛人源码,研究代码来源 1.字典树的概念 字典树,因为它的搜索快捷的特性被单词搜索系统使用,故又称单词查找树.它是一种树形结构的数据结构.之所以快速,是因为它用空间代替了速度. 2.字典树的特点: 字典树有三个基本性质: 1.根节点不包含字符,除根节点外每一个节点都只包含一个字符2.从根节点

B树、Trie树详解

查找(二) 散列表 散列表是普通数组概念的推广.由于对普通数组可以直接寻址,使得能在O(1)时间内访问数组中的任意位置.在散列表中,不是直接把关键字作为数组的下标,而是根据关键字计算出相应的下标. 使用散列的查找算法分为两步.第一步是用散列函数将被查找的键转化为数组的一个索引. 我们需要面对两个或多个键都会散列到相同的索引值的情况.因此,第二步就是一个处理碰撞冲突的过程,由两种经典解决碰撞的方法:拉链法和线性探测法. 散列表是算法在时间和空间上作出权衡的经典例子. 如果没有内存限制,我们可以直接

Trie树详解

1. 概述 Trie树,又称字典树,单词查找树或者前缀树,是一种用于快速检索的多叉树结构,如英文字母的字典树是一个26叉树,数字的字典树是一个10叉树.Trie一词来自retrieve,发音为/tri:/ “tree”,也有人读为/tra?/ “try”.Trie树可以利用字符串的公共前缀来节约存储空间.如下图所示,该trie树用10个节点保存了6个字符串tea,ten,to,in,inn,int: 在该trie树中,字符串in,inn和int的公共前缀是“in”,因此可以只存储一份“in”以节

《ACM/ICPC 算法训练教程》读书笔记 之 数据结构(线段树详解)

依然延续第一篇读书笔记,这一篇是基于<ACM/ICPC 算法训练教程>上关于线段树的讲解的总结和修改(这本书在线段树这里Error非常多),但是总体来说这本书关于具体算法的讲解和案例都是不错的. 线段树简介 这是一种二叉搜索树,类似于区间树,是一种描述线段的树形数据结构,也是ACMer必学的一种数据结构,主要用于查询对一段数据的处理和存储查询,对时间度的优化也是较为明显的,优化后的时间复杂为O(logN).此外,线段树还可以拓展为点树,ZWK线段树等等,与此类似的还有树状数组等等. 例如:要将

线段树详解 (原理,实现与应用)

线段树详解 By 岩之痕 目录: 一:综述 二:原理 三:递归实现 四:非递归原理 五:非递归实现 六:线段树解题模型 七:扫描线 八:可持久化 (主席树) 九:练习题 一:综述 假设有编号从1到n的n个点,每个点都存了一些信息,用[L,R]表示下标从L到R的这些点. 线段树的用处就是,对编号连续的一些点进行修改或者统计操作,修改和统计的复杂度都是O(log2(n)). 线段树的原理,就是,将[1,n]分解成若干特定的子区间(数量不超过4*n),然后,将每个区间[L,R]都分解为 少量特定的子区

字典树详解

字典树概述    字典树,又称单词查找树,Trie树,是一种树形结构,是一种哈希树的变种.典型应用是用于统计,排序和保存大量的字符串(但不仅限于字符串),所以经常被搜索引擎系统用于文本词频统计.它的优点是:利用字符串的公共前缀来减少查询时间,最大限度地减少无谓的字符串比较,查询效率比哈希树高. 例题: NKOJ 1934 外地人     你考入大城市沙坪坝的学校, 但是沙坪坝的当地人说着一种很难懂的方言, 你完全听不懂. 幸好你手中有本字典可以帮你. 现在你有若干个听不懂的方言需要查询字典.输入

Merkle Patricia Tree (MPT) 树详解

1.    介绍 Merkle Patricia Tree(简称MPT树,实际上是一种trie前缀树)是以太坊中的一种加密认证的数据结构,可以用来存储所有的(key,value)对.以太坊区块的头部包括一个区块头,一个交易的列表和一个uncle区块的列表.在区块头部包括了交易的hash树根,用来校验交易的列表.在p2p网络上传输的交易是一个简单的列表,它们被组装成一个叫做trie树的特殊数据结构,来计算根hash.值得注意的是,除了校验区块外,这个数据结构并不是必须的,一旦区块被验证正确,那么它

组播学习笔记(五)源树+共享树详解

一.组播路由表主要内容: 1.源 2.目的 3.入接口 4.RPF接口 5.RPF邻居 二.pim协议 pim(协议无关协议),此处协议无关是指单播协议无关,PIM可以基于任意单播协议工作.注意,组播是基于单播进行工作的,虽有组播表但是最终是查找单播路由表寻找出口. IP协议号为103 不必发送组播更新,通过hello和hold,join报文来维持邻居关系,因此开销小. hello时间30s,发向224.0.0.13(所有开启pim的功能的交换机都会监听此地址) hold时间:3.5*30s=1