Trie(字典树)的侃侃

Trie是什么 ?

字典树 : 见名知意(在树上进行查询)。
         跟字典相关的必定与查询有密切的关系,
         查询就需要一定的媒介作为支撑,树就为这种查询提供支撑。

Trie做什么 ?

实现字符串快速检索的多叉树结构。
常见的字符串转化:小写字母或者大写字母组成的字符串,数字组成的字符串,01编码组成的字符串。

Trie有什么 ?

Trie 的每个节点都拥有若干个字符指针,就是说每个节点有多个子节点,通俗一点就是相当于古代
的大少爷可以有多个妻子。

Trie干什么 ?

1、插入(将一个字符串插入到字典树上)
2、检索(检索一个字符串 S 在Trie 上是否存在)

侃了这么多,看看这货到底是个啥 ?

假设有单词 : cab , cef , da 这样三个单词,那么这样三个单词组成的图是什么样的呢 ?
看下图 : (通常还要在末尾进行标记一下,表示到字符串的末尾)

怎么实现这个玩意呢 ?

插入 :
像每个单词拼写一样,单词的开头就相当于是我们的根,从根节点出发,向儿子节点前进。
在向下走的过程中,看有没有当前这个字符的节点,如果有这个节点,就顺着这个节点继续
往下走,如果没有这个节点,就在这个节点之下再创建一个节点。
拿一个例子来说:
比如上图的 cab 和 cef, 先插入第一个字符串,从根节点出发,第一个字符是 c,我们发
现没有这个字符的节点,所以创建一个节点,将指针节点进行指向,然后一直向下移动,知道
字符串结尾。再插入第二个字符串,先检测第一个字符是否存在,我们发现存在,所以不用
创建,直接向下移动指针节点即可。
可以发现:
一个节点最多可以有26个孩子。
检索:
只需要将字符串遍历一遍,顺着根节点下来看这条路径上是否有不存在的值,即 0,如果
没有到末尾就发现有 0 ,说明这个字符串不存在,反之即存在。

Code :

插入:


void insert(char str[]) {
    int len = strlen(str),p = 0;                        // p 作为根节点从 0 开始
    for(int i = 0; i < len; i ++) {
        int ch = str[i] - 'a';
        if(trie[p][ch] == 0) trie[p][ch] = ++ idx;  // 创建新的节点
        p = trie[p][ch];                            // 指针移动
    }
    End[p] = true;                                      // 在末尾进行标记
    return ;
}

检索:

bool query(char str[]) {
    int len = strlen(str),p = 0;
    for(int i = 0; i < len; i ++ ){
        int ch = str[i] - '0';
        if(trie[p][ch] != 0) {
            p = trie[p][ch];
        } else {
            break;                            // 及时跳出
        }
    }
    return true;
}

Example: 前缀统计

        题目链接: https://www.acwing.com/problem/content/144/
        题目描述:给定N个字符串S1,S2…SN,接下来进行M次询问,每次询问给定一个字符串T,求S1~SN中有多少个字符串是T的前缀。
                输入字符串的总长度不超过106,仅包含小写字母。
                输入格式
                第一行输入两个整数N,M。
                接下来N行每行输入一个字符串Si。
                接下来M行每行一个字符串T用以询问。
                输出格式
                对于每个询问,输出一个整数表示答案。
                每个答案占一行。
                输入样例:
                    3 2
                    ab
                    bc
                    abc
                    abc
                    efg
                输出样例:
                    2
                    0

析题得说: 统计每个字符串出现的个数即可,用一个cnt[]数组记录每个字符串出现的个数,然后进行检索要处理的字符串,累加结果(模板题)

AC代码:


#include <cstdio>
#include <string>
#include <cstring>
#include <iostream>
#include <algorithm>

using namespace std;

const int SIZE = 1e6 + 10;

int trie[SIZE][26],cnt[SIZE];
char str[SIZE];
int n,m,idx = 0;

int main(void) {
    void insert();
    int query();
    scanf("%d%d",&n,&m);
    for(int i = 1; i <= n; i ++) {
        scanf("%s",str);
        insert();
    }
    while(m --) {
        scanf("%s",str);
        printf("%d\n",query());
    }
    return 0;
} 

void insert() {
    int p = 0;
    for(int i = 0; i < strlen(str); i ++) {
        int ch = str[i] - 'a';
        if(trie[p][ch] == 0) trie[p][ch] = ++ idx;
        p = trie[p][ch];
    }
    cnt[p] ++;                            // 统计该字符串的个数
    return ;
}

int query() {
    int p = 0,res = 0;
    for(int i = 0 ; i < strlen(str); i ++) {
        int ch = str[i] - 'a';
        if(trie[p][ch] != 0) {
            p = trie[p][ch];
            res += cnt[p];           // 将以该字符结尾的数量累加,最后结果就是前缀字符串的数量
        } else {
            break;
        }
    }
    return res;
}

原文地址:https://www.cnblogs.com/prjruckyone/p/12241602.html

时间: 2024-10-08 18:49:57

Trie(字典树)的侃侃的相关文章

DFA和trie字典树实现敏感词过滤(python和c语言)

现在做的项目都是用python开发,需要用做关键词检查,过滤关键词,之前用c语言做过这样的事情,用字典树,蛮高效的,内存小,检查快. 到了python上,第一想法是在pip上找一个基于c语言的python字典树模块,可惜没找到合适的,如果我会用c写python模块的话,我就自己写一个了,可惜我还不具备这个能力, 只能用python写了,性能差一点就差点吧,内存多一点也无所谓了. 用搜索引擎看CSDN上的网友的用python实现的DFA,再参照自己以前用c语言写过的字典树,有些不大对,就自己写了一

Trie 字典树 删除操作

字典树的删除操作: 1 没找到直接返回 2 找到叶子节点的时候,叶子节点的count标志清零,代表不是叶子节点了 3 如果当前节点没有其他孩子节点的时候,可以删除这个节点 判断是否需是叶子节点,就检查叶子节点的count标志就可以了. 判断是否有其他孩子节点就需要循环26个节点了,如果都为空,那么就没有其他孩子节点了. #include <stdio.h> #include <stdlib.h> #include <iostream> #include <vect

Trie字典树 动态内存

Trie字典树 1 #include "stdio.h" 2 #include "iostream" 3 #include "malloc.h" 4 #include "string.h" 5 6 using namespace std; 7 8 #define MAX_SIZE 26 9 10 typedef struct Trie{ 11 char val; 12 bool isword; 13 struct Trie*

萌新笔记——C++里创建 Trie字典树(中文词典)(插入、查找、遍历、导入、导出)(上)

写了一个词典,用到了Trie字典树. 写这个词典的目的,一个是为了压缩一些数据,另一个是为了尝试搜索提示,就像在谷歌搜索的时候,打出某个关键字,会提示一串可能要搜索的东西. 首先放上最终的结果: input: 1 编程入门 2 编程软件 3 编程学习 4 编程学习网站 output: 1 char : 件 2 word : 编程软件 3 char : 习 4 word : 编程学习 5 char : 网 6 word : 编程学习网 7 char : 门 8 word : 编程入门 其实这里不应

算法导论:Trie字典树

1. 概述 Trie树,又称字典树,单词查找树或者前缀树,是一种用于快速检索的多叉树结构,如英文字母的字典树是一个26叉树,数字的字典树是一个10叉树. Trie一词来自retrieve,发音为/tri:/ “tree”,也有人读为/tra?/ “try”. Trie树可以利用字符串的公共前缀来节约存储空间.如下图所示,该trie树用10个节点保存了6个字符串pool.prize.preview.prepare.produce.progress 在该trie树中,字符串preview,prepa

trie/字典树几题

以后有好多次看到这地方就过去了, 未亲自实践过. 不过今晚看了一下,感觉trie的思想还算是比较基础的. 感觉这一个链接讲的不错:http://www.cnblogs.com/BeyondAnyTime/archive/2012/07/16/2592838.html 顺便水了几道题. 具体列表可见:http://vjudge.net/contest/view.action?cid=47036#overview A:水题啦. 稍微理解下trie就能写出来了. 附个自己写的代码,还是用LRJ书上的非

【oiClass1502】查单词(Trie字典树)

题目描述 全国英语四级考试就这样如期来了,可是小y依然没有做好充分准备.为了能够大学毕业,可怜的小y决定作弊.小y费尽心机,在考试的时候夹带了一本字典进考场,但是现在的问题是,考试的时候可能有很多的单词要查,小y能不能来得及呢? 输入 第一行一个整数N,表示字典中一共有多少个单词(N<=10000).接下来每两行表示一个单词,其中:第一行是一个长度<=100的字符串,表示这个单词,全部小写字母,单词不会重复.第二行是一个整数,表示这个单词在字典中的页码.接下来是一个整数M,表示要查的单词数(M

LeetCode 208.实现Trie(字典树) - JavaScript

??Blog :<LeetCode 208.实现Trie(字典树) - JavaScript> 实现一个 Trie (前缀树),包含 insert, search, 和 startsWith 这三个操作. Trie trie = new Trie(); trie.insert("apple"); trie.search("apple"); // 返回 true trie.search("app"); // 返回 false trie.

Trie 字典树

1.UVa 1401 Remember the Word 题意:给出n个字符串集合,问其有多少种组合方式形成目标字符串. 思路:对n个字符串集合建立Trie树,保存每个结点的字符串的顺序编号.然后对这棵树查找目标字符串每一个后缀的前缀字符串,累加. 1 #include<cstdio> 2 #include<cstring> 3 #include<algorithm> 4 #include<iostream> 5 #include<vector>