双数组Trie树(DoubleArrayTrie)Java实现

http://www.hankcs.com/program/java/%E5%8F%8C%E6%95%B0%E7%BB%84trie%E6%A0%91doublearraytriejava%E5%AE%9E%E7%8E%B0.html

双数组Trie树(DoubleArrayTrie)是一种空间复杂度低的Trie树,应用于字符区间大的语言(如中文、日文等)分词领域。

双数组Trie (Double-Array Trie)结构由日本人JUN-ICHI AOE于1989年提出的,是Trie结构的压缩形式,仅用两个线性数组来表示Trie树,该结构有效结合了数字搜索树(Digital Search Tree)检索时间高效的特点和链式表示的Trie空间结构紧凑的特点。双数组Trie的本质是一个确定有限状态自动机(DFA),每个节点代表自动机的一个状态,根据变量不同,进行状态转移,当到达结束状态或无法转移时,完成一次查询操作。在双数组所有键中包含的字符之间的联系都是通过简单的数学加法运算表示,不仅提高了检索速度,而且省去了链式结构中使用的大量指针,节省了存储空间。

——《基于双数组Trie树算法的字典改进和实现》

我看了几篇论文,发现中文里也就上面这篇质量最好,英文当属这篇双数组Trie的一种实现。不过我并不打算按论文的腔调摘抄理论,而是准备借助开源的 darts-java 写点代码分析与笔记,如果能帮到你,实属意外。

darts-java 是对 Taku Kudo 桑的 C++ 版 Double Array Trie 的 Java 移植,代码精简,只有一个Java文件,十分优美。

写一段测试代码


1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33

34

35

36

37

38

39

40

41

42

43

44

45

46

47

48

49

50

51

52

53

54

55

56

57

58

59

60

61

62

package com.hankcs;

import darts.DoubleArrayTrie;

import java.io.*;

import java.util.*;

/**

 * @author hankcs

 */

public class Main

{

    public static void main(String[] args) throws IOException

    {

        BufferedReader reader = new BufferedReader(new FileReader("./data/small.dic"));

        String line;

        List<String> words = new ArrayList<String>();

        Set<Character> charset = new HashSet<Character>();

        while ((line = reader.readLine()) != null)

        {

            words.add(line);

            // 制作一份码表debug

            for (char c : line.toCharArray())

            {

                charset.add(c);

            }

        }

        reader.close();

        // 这个字典如果要加入新词必须按字典序,参考下面的代码

//        Collections.sort(words);

//        BufferedWriter writer = new BufferedWriter(new FileWriter("./data/sorted.dic", false));

//        for (String w : words)

//        {

//            writer.write(w);

//            writer.newLine();

//        }

        System.out.println("字典词条:" + words.size());

        {

            String infoCharsetValue = "";

            String infoCharsetCode = "";

            for (Character c : charset)

            {

                infoCharsetValue += c.charValue() + "    ";

                infoCharsetCode += (int)c.charValue() + " ";

            }

            infoCharsetValue += ‘\n‘;

            infoCharsetCode += ‘\n‘;

            System.out.print(infoCharsetValue);

            System.out.print(infoCharsetCode);

        }

        DoubleArrayTrie dat = new DoubleArrayTrie();

        System.out.println("是否错误: " + dat.build(words));

        System.out.println(dat);

        List<Integer> integerList = dat.commonPrefixSearch("一举成名天下知");

        for (int index : integerList)

        {

            System.out.println(words.get(index));

        }

    }

}

其中small.dic是一个微型的词典:


1

2

3

4

5

6

一举

一举一动

一举成名

一举成名天下知

万能

万能胶

输出:


1

2

3

4

5

6

7

字典词条:6

胶    名    动    知    下    成    举    一    能    天    万    

33014 21517 21160 30693 19979 25104 20030 19968 33021 22825 19975 

是否错误: 0

一举

一举成名

一举成名天下知

Trie树的构造与双数组的构造

双数组Trie树归根结底还是属于Trie树,所以免不了有一颗树的构造过程。不过这棵树并没有保存下来,而是边构造树边维护双数组,双数组的信息足以表示整棵树。比如对于上面的例子,首先建立一个空的root节点:

Node{code=0, depth=0, left=0, right=6}

其中code指的是字符的编码,在Java中是双字节,depth是深度,left及right表示这个节点在字典中的索引范围。

比如:

然后按照字典序插入所有的字串节点:

其中绿色节点为空字符,代表从根节点到此节点的路径上的所有节点构成一个词,整个的构建顺序是:

在darts-java中,使用了两个数组base和check来维护Trie树,它们的下标以及值都代表着一个确定的状态。base储存当前的状态以供状态转移使用,check验证字串是否由同一个状态转移而来并且当check为负的时候代表字串结束。(PS 双数组Tire树的具体实现有多种,有的实现将base为负作为状态的结束,大同小异。)

假定有字符串状态s,当前字符串状态为t,假定t加了一个字符c就等于状态tc,加了一个字符x等于状态tx,那么有

base[t] + c = base[tc]

base[t] + x = base[tx]

check[tc] = check[tx]

可见,在单词“一举一动”中,虽然有两个“一”,但它们的前一个状态不同,所以对应的状态分别为“一”和“一举一”,在base数组中的下标不一样。

在每个节点插入的过程中会修改这两个数组,具体说来:

1、初始化root节点base[0] = 1; check[0] = 0;

2、对于每一群兄弟节点,寻找一个begin值使得check[begin + a1...an]  == 0,也就是找到了n个空闲空间,a1…an是siblings中的n个节点对应的code。


1

2

3

4

5

6

7

        int pos = siblings.get(0).code;

        while (true)

        {

            pos++;

            begin = pos - siblings.get(0).code; // 当前位置离第一个兄弟节点的距离

            ……

        }

3、然后将这群兄弟节点的check设为check[begin + a1...an] = begin;很显然,叶子节点i的check[i]的值一定等于i,因为它是兄弟节点中的第一个,并且它的code为0。


1

check[begin + siblings.get(i).code] = begin;

4、接着对每个兄弟节点,如果它没有孩子,也就是上图除root外的绿色节点(叶子节点),令其base为负值;否则为该节点的子节点的插入位置(也就是begin值),同时插入子节点(迭代跳转到步骤2)。


1

2

3

4

5

6

7

8

9

10

            if (fetch(siblings.get(i), new_siblings) == 0)  // 无子节点,也就是叶子节点,代表一个词的终止且不为其他词的前缀

            {

                base[begin + siblings.get(i).code] = -siblings.get(i).left - 1;

                ……

            }

            else

            {

                int h = insert(new_siblings);   // dfs

                base[begin + siblings.get(i).code] = h;

            }

这里给出这个例子的base check值以及码表,下表中×代表空


1

2

3

4

5

6

7

8

9

10

码表:

   胶    名    动    知    下    成    举    一    能    天    万    

33014 21517 21160 30693 19979 25104 20030 19968 33021 22825 19975 

DoubleArrayTrie{

char =      ×    一    万     ×    举     ×    动     ×     下    名    ×    知      ×     ×    能    一    天    成    胶

i    =      0 19970 19977 20032 20033 21162 21164 21519 21520 21522 30695 30699 33023 33024 33028 40001 44345 45137 66038

base =      1     2     6    -1 20032    -2 21162    -3     5 21519    -4 30695    -5    -6 33023     3  1540     4 33024

check=      0     1     1 20032     2 21162     3 21519  1540     4 30695     5 33023 33024     6 20032 21519 20032 33023

size=66039, allocSize=2097152, key=[一举, 一举一动, 一举成名, 一举成名天下知, 万能, 万能胶], keySize=6, progress=6, nextCheckPos=33024, error_=0}

前缀查询

定义当前状态p = base[0] = 1。按照字符串char的顺序walk:

如果base[p] == check[p] && base[p] < 0 则查到一个词;

然后状态转移,增加一个字符  p = base[char[i-1]] + char[i] + 1 。加1是为了与null节点区分开。

如果转移后base[char[i-1]] == check[base[char[i-1]] + char[i] + 1],那么下次p就从base[base[char[i-1]] + char[i] + 1]开始。

结合例子看可能更清楚:


1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

字典词条:6

胶    名    动    知    下    成    举    一    能    天    万    

33014 21517 21160 30693 19979 25104 20030 19968 33021 22825 19975 

是否错误: 0

DoubleArrayTrie{

char =     ×    一    万    ×    举    ×    动    ×    下    名    ×    知    ×    ×    能    一    天    成    胶

i    =      0 19970 19977 20032 20033 21162 21164 21519 21520 21522 30695 30699 33023 33024 33028 40001 44345 45137 66038

base =      1     2     6    -1 20032    -2 21162    -3     5 21519    -4 30695    -5    -6 33023     3  1540     4 33024

check=      0     1     1 20032     2 21162     3 21519  1540     4 30695     5 33023 33024     6 20032 21519 20032 33023

size=66039, allocSize=2097152, key=null, keySize=6, progress=6, nextCheckPos=33024, error_=0}

i       =      0     0     1     1     2     2     3     3     4     4     5     5     6     6

b       =      1     1     2     2 20032 20032     4     4 21519 21519  1540  1540     5     5

p       =      1 19970     2 20033 20032 45137     4 21522 21519 44345  1540 21520     5 30699

base[p] =      1     2     0 20032    -1     4     0 21519    -3  1540     0     5     0 30695

check[p]=      0     1     0     2 20032 20032     0     4 21519 21519     0  1540     0     5

一举

一举成名

一举成名天下知

稍微解释下

初始空 base[0] = 1, p = 1;

转移 p = base[0] + {char[一] = 19968} + 1 = 1 + 19968 + 1 = 19970,                检查base[19970]!=0说明有“一”这个字符。

而  base[base[19970]] = base[2] = 0 说明没遇到词尾

转移 p = base[19970] + {char[举] = 20030} + 1 = 2 + 20030 + 1 = 20033,            检查base[20033]!=0说明有“举”这个字符。

而  base[base[20033]] = base[20032] = -1 && base[20032] == check[20032] 说明遇到一个词尾,即查出“一举”

转移 p = base[20033] + {char[成] = 25104} + 1 = 20032 + 25104+ 1 = 45137,         检查base[45137]!=0说明有“成”这个字符。

……

目录

转载请注明:码农场 » 双数组Trie树(DoubleArrayTrie)Java实现

时间: 2024-11-01 14:19:52

双数组Trie树(DoubleArrayTrie)Java实现的相关文章

Ansj分词双数组Trie树实现与arrays.dic词典格式

http://www.hankcs.com/nlp/ansj-word-pairs-array-tire-tree-achieved-with-arrays-dic-dictionary-format.html arrays.dic是一个双数组Trie树格式的词典,用文本的形式储存了索引,字串,base,check,status与词性. 一个直观的图示: index就是base数组中的下标. term是词的当前状态,不一定代表一个词,如“一举一”是“一举一动”的前缀. base是base数组的值

Trie 树 及Java实现

来源于英文“retrieval”.   Trie树就是字符树,其核心思想就是空间换时间. 举个简单的例子.   给你100000个长度不超过10的单词.对于每一个单词,我们要判断他出没出现过,如果出现了,第一次出现第几个位置.这题当然可以用hash来,但是我要介绍的是trie树.在某些方面它的用途更大.比如说对于某一个单词,我要询问它的前缀是否出现过.这样hash就不好搞了,而用trie还是很简单. 现在回到例子中,如果我们用最傻的方法,对于每一个单词,我们都要去查找它前面的单词中是否有它.那么

结合双数组Trie的AC自动机算法

结合双数组Trie的AC自动机算法是一种相对比较快的词匹配算法,常见于分词系统用于分词,本文准备用伪代码结合实例的形式来讲解一下该匹配算法的实现原理 构建步骤: 1.Trie树的构建 首先直观感受一下Trie树: 插入模式串 ball.bat.doll.dork.dorm.do.send.sense之后形成的trie树 trie树分三步:插入(构建).查找.删除 插入: 1.输入一个模式串 String 2.如果该模式串已经存在于树中,则跳转 8.如果不存在,跳转3 3.设置当前节点为根节点 4

双数组Trie的一种实现

An Implementation of Double-Array Trie 双数组Trie的一种实现 原文:http://linux.thai.net/~thep/datrie/datrie.html 引文:http://quweiprotoss.blog.163.com/blog/static/4088288320091120112155178/ Contents What is Trie? What Does It Take to Implement a Trie? Tripple-Arr

中文分词系列(二) 基于双数组Tire树的AC自动机

秉着能偷懒就偷懒的精神,关于AC自动机本来不想看的,但是HanLp的源码中用户自定义词典的识别是用的AC自动机实现的.唉-没办法,还是看看吧 AC自动机理论 Aho Corasick自动机,简称AC自动机,要学会AC自动机,我们必须知道什么是Trie,也就是字典树.Trie树,又称单词查找树或键树,是一种树形结构,是一种哈希树的变种.典型应用是用于统计和排序大量的字符串(但不仅限于字符串),所以经常被搜索引擎系统用于文本词频统计.它的优点是:最大限度地减少无谓的字符串比较,查询效率比哈希表高.之

BZOJ 2251 2010Beijing WC 外星联络 后缀数组/Trie树

题目大意 给出一个字符串,问这个字符串中出现过1次以上的子串的个数,按照子串的字典序输出. 思路 由于数据范围过小,这个题有两个解法. 基本的想法就是用后缀数组来进行后缀的排序,之后按照height数组扫就可以了.应该是挺快的. 但是注意到数据范围只有3000,因此我们只需要弄出所有的后缀拿出来建立一颗后缀Trie树就行了.最后DFS一次树种的所有节点. CODE SuffixArray #include <cstdio> #include <cstring> #include &

Trie树的java实现

leetcode 地址: https://leetcode.com/problems/implement-trie-prefix-tree/description/ 难度:中等 描述:略 解题思路: Trie树 也就是字典查找树,是一种能够实现在一个字符串集中实现快速查找和匹配的多叉树结构,关于Trie树的深入分析我就不展开了,因为我自己也理解的不深刻^_^,这里只给出Trie树的定义,以及常用的应用场景,然后给出一个简单的java实现,当然代码简洁性和性能上有很大的优化空间. 首先,Trie树

java trie树 压缩空间版本

最近一直在加强自己在数据结构和算法的理解,这不,最近碰到了一个帖子,收藏起来. 收藏自:http://www.hankcs.com/program/java/双数组trie树doublearraytriejava实现.html 双数组Trie树(DoubleArrayTrie)是一种空间复杂度低的Trie树,应用于字符区间大的语言(如中文.日文等)分词领域. 双数组Trie (Double-Array Trie)结构由日本人JUN-ICHI AOE于1989年提出的,是Trie结构的压缩形式,仅

字典树Trie树

一.字典树 字典树--Trie树,又称为前缀树(Prefix Tree).单词查找树或键树,是一种多叉树结构. 上图是一棵Trie树,表示了关键字集合{"a", "to", "tea", "ted", "ten", "i", "in", "inn"} .从上图可以归纳出Trie树的基本性质: 1. 根节点不包含字符,除根节点外的每一个子节点都包含一