java实现的Trie树数据结构

最近在学习的时候,经常看到使用Trie树数据结构来解决问题,比如“ 有一个1G大小的一个文件,里面每一行是一个词,词的大小不超过16字节,内存限制大小是1M。返回频数最高的100个词。”
该如何解决? 有一种方案就是使用Trie树加 排序实现 。

什么是Trie 树呢?也就是常说的字典树,网上对此讲得也很多,简单补充一下个人理解: 它实际上相当于把单词的公共部分给拎出来,这样一层一层往上拎直到得到每个节点都是不可分的最小单元!

比如网上一个例子

一组单词,inn, int, at, age, adv, ant, 我们可以得到下面的Trie:

这里的节点上存的是一个单词,实际上,每个节点走过的路径就是该节点代表的单词!其它不多扯了~~~

Trie树有什么好处呢

它是一种非常快的单词查询结构,当然,对于单词去重统计也是非常好的选择! 比如搜索引擎的关键词联想功能很好的一种选择就是使用Trie树了!比如你输入了in,通过上面的图我们应该提示inn和int ,这样可以轻松实现! 另外,对于单词出现的频率统计, 以及查找公共前缀等问题,都可以很好的解决! 本文不是讲理论,只是给出用java自己实现的Trie树数据结构,其中实现了插入、查找、遍历、单词联想(找公共前缀)等基本功能,
其它功能大家可以自己添加~~~~

以下是Trie树类:

package com.algorithms;

import java.util.HashMap;
import java.util.Map;

public class Trie_Tree{

	/**
	 * 内部节点类
	 * @author "zhshl"
	 * @date	2014-10-14
	 *
	 */
	private class Node{
		private int dumpli_num;////该字串的重复数目,  该属性统计重复次数的时候有用,取值为0、1、2、3、4、5……
		private int prefix_num;///以该字串为前缀的字串数, 应该包括该字串本身!!!!!
		private Node childs[];////此处用数组实现,当然也可以map或list实现以节省空间
		private boolean isLeaf;///是否为单词节点
		public Node(){
			dumpli_num=0;
			prefix_num=0;
			isLeaf=false;
			childs=new Node[26];
		}
	}	

	private Node root;///树根
	public Trie_Tree(){
		///初始化trie 树
		root=new Node();
	}

	/**
	 * 插入字串,用循环代替迭代实现
	 * @param words
	 */
	public void insert(String words){
		insert(this.root, words);
	}
	/**
	 * 插入字串,用循环代替迭代实现
	 * @param root
	 * @param words
	 */
	private void insert(Node root,String words){
		words=words.toLowerCase();////转化为小写
		char[] chrs=words.toCharArray();

		for(int i=0,length=chrs.length; i<length; i++){
			///用相对于a字母的值作为下标索引,也隐式地记录了该字母的值
			int index=chrs[i]-'a';
			if(root.childs[index]!=null){
				////已经存在了,该子节点prefix_num++
				root.childs[index].prefix_num++;
			}else{
				///如果不存在
				root.childs[index]=new Node();
				root.childs[index].prefix_num++;
			}	

			///如果到了字串结尾,则做标记
			if(i==length-1){
				root.childs[index].isLeaf=true;
				root.childs[index].dumpli_num++;
			}
			///root指向子节点,继续处理
			root=root.childs[index];
		}

	}

	/**
	 * 遍历Trie树,查找所有的words以及出现次数
	 * @return HashMap<String, Integer> map
	 */
	public HashMap<String,Integer> getAllWords(){
//		HashMap<String, Integer> map=new HashMap<String, Integer>();

		return preTraversal(this.root, "");
	}

	/**
	 * 前序遍历。。。
	 * @param root		子树根节点
	 * @param prefixs	查询到该节点前所遍历过的前缀
	 * @return
	 */
	private  HashMap<String,Integer> preTraversal(Node root,String prefixs){
		HashMap<String, Integer> map=new HashMap<String, Integer>();

		if(root!=null){

			if(root.isLeaf==true){
			////当前即为一个单词
				map.put(prefixs, root.dumpli_num);
			}

			for(int i=0,length=root.childs.length; i<length;i++){
				if(root.childs[i]!=null){
					char ch=(char) (i+'a');
					////递归调用前序遍历
					String tempStr=prefixs+ch;
					map.putAll(preTraversal(root.childs[i], tempStr));
				}
			}
		}		

		return map;
	}

	/**
	 * 判断某字串是否在字典树中
	 * @param word
	 * @return true if exists ,otherwise  false
	 */
	public boolean isExist(String word){
		return search(this.root, word);
	}
	/**
	 * 查询某字串是否在字典树中
	 * @param word
	 * @return true if exists ,otherwise  false
	 */
	private boolean search(Node root,String word){
		char[] chs=word.toLowerCase().toCharArray();
		for(int i=0,length=chs.length; i<length;i++){
			int index=chs[i]-'a';
			if(root.childs[index]==null){
				///如果不存在,则查找失败
				return false;
			}
			root=root.childs[index];
		}

		return true;
	}

	/**
	 * 得到以某字串为前缀的字串集,包括字串本身! 类似单词输入法的联想功能
	 * @param prefix 字串前缀
	 * @return 字串集以及出现次数,如果不存在则返回null
	 */
	public HashMap<String, Integer> getWordsForPrefix(String prefix){
		return getWordsForPrefix(this.root, prefix);
	}
	/**
	 * 得到以某字串为前缀的字串集,包括字串本身!
	 * @param root
	 * @param prefix
	 * @return 字串集以及出现次数
	 */
	private HashMap<String, Integer> getWordsForPrefix(Node root,String prefix){
		HashMap<String, Integer> map=new HashMap<String, Integer>();
		char[] chrs=prefix.toLowerCase().toCharArray();
		////
		for(int i=0, length=chrs.length; i<length; i++){

			int index=chrs[i]-'a';
			if(root.childs[index]==null){
				return null;
			}

			root=root.childs[index];

		}
		///结果包括该前缀本身
		///此处利用之前的前序搜索方法进行搜索
		return preTraversal(root, prefix);
	}

}

以下是测试类:

package com.algorithm.test;

import java.util.HashMap;

import com.algorithms.Trie_Tree;

public class Trie_Test {

	 public static void main(String args[])  //Just used for test
	    {
	    Trie_Tree trie = new Trie_Tree();
	    trie.insert("I");
	    trie.insert("Love");
	    trie.insert("China");
	    trie.insert("China");
	    trie.insert("China");
	    trie.insert("China");
	    trie.insert("China");
	    trie.insert("xiaoliang");
	    trie.insert("xiaoliang");
	    trie.insert("man");
	    trie.insert("handsome");
	    trie.insert("love");
	    trie.insert("chinaha");
	    trie.insert("her");
	    trie.insert("know");

	    HashMap<String,Integer> map=trie.getAllWords();

	    for(String key:map.keySet()){
	    	System.out.println(key+" 出现: "+ map.get(key)+"次");
	    }

	    map=trie.getWordsForPrefix("chin");

	    System.out.println("\n\n包含chin(包括本身)前缀的单词及出现次数:");
	    for(String key:map.keySet()){
	    	System.out.println(key+" 出现: "+ map.get(key)+"次");
	    }

	    if(trie.isExist("xiaoming")==false){
	    	System.out.println("\n\n字典树中不存在:xiaoming ");
	    }

	    }
}

运行结果:

love 出现: 2次

chinaha 出现: 1次

her 出现: 1次

handsome 出现: 1次

know 出现: 1次

man 出现: 1次

xiaoliang 出现: 2次

i 出现: 1次

china 出现: 5次

包含chin(包括本身)前缀的单词及出现次数:

chinaha 出现: 1次

china 出现: 5次

字典树中不存在:xiaoming

总结:在实现的时候,主要是想好如何设计每个节点的结构,这里针对单词总共26个,使用了一个字符数组来记录,其实完全可以用list或其他的容器来实现,这样也就可以容纳更复杂的对象了!另外一个方面就是,一个节点的prefix_num属性实际上是指到该节点经过的路径(也就是字串)的重复数,而不是到该节点的重复数(因为一个节点的child域并不是指某个单词,这样prefix_num对该节点本身没意义)。最后,遍历使用了前序遍历的递归实现。相信对学过一点数据结构的不难。。。

时间: 2025-01-07 09:27:39

java实现的Trie树数据结构的相关文章

java trie树 压缩空间版本

最近一直在加强自己在数据结构和算法的理解,这不,最近碰到了一个帖子,收藏起来. 收藏自:http://www.hankcs.com/program/java/双数组trie树doublearraytriejava实现.html 双数组Trie树(DoubleArrayTrie)是一种空间复杂度低的Trie树,应用于字符区间大的语言(如中文.日文等)分词领域. 双数组Trie (Double-Array Trie)结构由日本人JUN-ICHI AOE于1989年提出的,是Trie结构的压缩形式,仅

【数据结构】Trie树的应用:查询IP地址的ISP(Java实现)

查询IP地址的ISP 给定一个IP地址,如何查询其所属的ISP,如:中国移动(ChinaMobile),中国电信(ChinaTelecom),中国铁通(ChinaTietong)? 现在网上有ISP的IP地址区段可供下载,比如中国移动的IP地址段 103.20.112.0/22 103.21.176.0/22 111.0.0.0/10 112.0.0.0/10 117.128.0.0/10 120.192.0.0/10 183.192.0.0/10 211.103.0.0/17 211.136.

【数据结构】Trie树

1.Trie树简介 Trie树,又称字典树.前缀树,被用于信息检索(information retrieval)的数据结构.Trie一词便来自于单词retrieval.基本思想:用字符串的公共前缀降低查询时间.比如,在最优的查询二叉树中查询关键字的时间复杂度为M * log N,M是字符串最大长度,N为字符串数量:而用Trie树时,只需O(M)时间. [1] 中给出一个简单Trie树例子,蓝色表示一个单词结尾:该Trie树存储的单词为the, their, there, a, any, answ

Trie 树 及Java实现

来源于英文“retrieval”.   Trie树就是字符树,其核心思想就是空间换时间. 举个简单的例子.   给你100000个长度不超过10的单词.对于每一个单词,我们要判断他出没出现过,如果出现了,第一次出现第几个位置.这题当然可以用hash来,但是我要介绍的是trie树.在某些方面它的用途更大.比如说对于某一个单词,我要询问它的前缀是否出现过.这样hash就不好搞了,而用trie还是很简单. 现在回到例子中,如果我们用最傻的方法,对于每一个单词,我们都要去查找它前面的单词中是否有它.那么

数据结构之Trie树

1. 概述 Trie树,又称字典树,单词查找树或者前缀树,是一种用于快速检索的多叉树结构,如英文字母的字典树是一个26叉树,数字的字典树是一个10叉树. Trie一词来自retrieve,发音为/tri:/ "tree",也有人读为/tra?/ "try". Trie树可以利用字符串的公共前缀来节约存储空间.如下图所示,该trie树用10个节点保存了6个字符串tea,ten,to,in,inn,int: 在该trie树中,字符串in,inn和int的公共前缀是&qu

双数组Trie树(DoubleArrayTrie)Java实现

http://www.hankcs.com/program/java/%E5%8F%8C%E6%95%B0%E7%BB%84trie%E6%A0%91doublearraytriejava%E5%AE%9E%E7%8E%B0.html 双数组Trie树(DoubleArrayTrie)是一种空间复杂度低的Trie树,应用于字符区间大的语言(如中文.日文等)分词领域. 双数组Trie (Double-Array Trie)结构由日本人JUN-ICHI AOE于1989年提出的,是Trie结构的压缩

HihoCoder Trie树 java实现

太晚知道知道这个平台了,还是接到MS的笔试通知后才得知,平台真不错. 言归正传,问题描述: 1014 : Trie树 时间限制:10000ms 单点时限:1000ms 内存限制:256MB 描述 小Hi和小Ho是一对好朋友,出生在信息化社会的他们对编程产生了莫大的兴趣,他们约定好互相帮助,在编程的学习道路上一同前进. 这一天,他们遇到了一本词典,于是小Hi就向小Ho提出了那个经典的问题:"小Ho,你能不能对于每一个我给出的字符串,都在这个词典里面找到以这个字符串开头的所有单词呢?" 身

Trie树的java实现

leetcode 地址: https://leetcode.com/problems/implement-trie-prefix-tree/description/ 难度:中等 描述:略 解题思路: Trie树 也就是字典查找树,是一种能够实现在一个字符串集中实现快速查找和匹配的多叉树结构,关于Trie树的深入分析我就不展开了,因为我自己也理解的不深刻^_^,这里只给出Trie树的定义,以及常用的应用场景,然后给出一个简单的java实现,当然代码简洁性和性能上有很大的优化空间. 首先,Trie树

看数据结构写代码(60 ) 键树的多重链表表示(Trie树)

trie树,是用 树的 多重链表来表示 树的.每个节点 有 d 个指针域.若从键树中的某个节点到叶子节点的路径上每个节点都只有一个孩子,则可以把 路径上的所有节点压缩成一个叶子节点,且在叶子节点中 存储 关键字 以及 根关键字相关的信息. 当节点的度 比较大时,选择 Trie树,要比 双链表树更为合适. tire树的 数据 压缩 是 挺与众不同的. 下面 给出 具体的 代码: 源代码工程文件网盘地址:http://pan.baidu.com/s/1cyTg6 // TrieTree.cpp :