trie树

来源:互联网 发布:东非大裂谷 知乎 编辑:程序博客网 时间:2024/06/05 05:01

                (1)概述

                          trie树,又称字典树或前缀树,是一种用于快速检索的多叉树结构,如英文字母的字典树是26叉树,数字的字典树是10叉树。

                (2)构建

                          如果我们有and,as,at,cn,com这些关键词,如何构建trie树呢?


                         

                          从图中,我们可以看出以下几点特性:

                          1.所有节点都包含一个字符(有些地方根节点不保存字符,其实都一样)

                          2.从根到某一节点,经过路径上的字符连接起来,就是该节点对应的字符串

                          3.各个节点的公共前缀都作为一个节点来保存


                (3)插入数据

                          首先先定义节点,因为共26个字母,所以为26叉树,所以申请26个Node类型的数组,通过下标来判断是哪个字符(如下标0代表‘a’,下标2代表‘c’,如果不为空,则说明就是该字母)

private class Node{private Node[] nodes;private boolean isEnd;//判断是否是一个单词的结尾public Node() {this.isEnd = false;this.nodes = new Node[26];}}

               插入一个字符串的时候,先判断第一个字符是否在trie树种存在,如果存在,则找到该节点指向的节点,然后在查找第二个字符;如果不存在,则创建新的节点

public class Tire {private Node root;public Tire() {this.root = new Node();}public void insert(String str){Node t = root;for(int i=0; i<str.length(); i++){if(t.nodes[str.charAt(i)-'a'] == null){t.nodes[str.charAt(i)-'a'] = new Node();}t = t.nodes[str.charAt(i)-'a'];}t.isEnd = true;//一个字符串结束之后,用来标记是一个单词}}

                     例:当插入ab和at时,实际的存储结构为:

                                             

                (4)查找数据

                          循环变量要查找的字符串的各个字符,在trie树种查找,找到后查找下一个字符,并且将指向的节点下移,直到字符串变量完毕,然后判断一下是否是一个单词的结尾(通过插入时候设置isEnd),如果是,则说明能够找到,否则其中任意一个字符找不到,则说明不存在

public boolean find(String str){Node t = root;for(int i=0; i<str.length()&&t!=null; i++){if(t.nodes[str.charAt(i)-'a'] == null)//有一个字符找不到,则说明不存在return false;t = t.nodes[str.charAt(i)-'a'];}return t.isEnd;//如果是一个单词的结尾,则说明找到了;否则说明只是某个单词的前缀}


                (5)trie树应用

                          1.字符串检索

                             事先将已知的一些字符串(如字典)相关信息保存到trie树种,查找另一些未知字符串是否出现过。(即trie树的查找功能

                          2.词频统计

                             可能有人会说了,词频统计可以使用hash来做,但是如果空间有限,就不能这么做了。我们这里可以使用trie树来压缩空间,因为所有公共前缀都是用一个节点来保存的

                           方法:在Node中添加一个count字段,用来统计单词出现的次数(必须与isEnd一起使用,也就是单词的结束的时候再count++,否则就相当于前缀出现的次数)

                           在Node添加新的属性

private class Node{private Node[] nodes;private boolean isEnd;private int count;//统计单词出现次数public Node() {this.isEnd = false;this.count = 0;this.nodes = new Node[26];}}
                             修改插入时的代码

public void insert(String str){Node t = root;for(int i=0; i<str.length(); i++){if(t.nodes[str.charAt(i)-'a'] == null){t.nodes[str.charAt(i)-'a'] = new Node();}t = t.nodes[str.charAt(i)-'a'];}t.isEnd = true;t.count++;}
                            查找出要统计次数的字符串在trie树种的最后一个节点

public Node findCount(String str){Node t = root;for(int i=0; i<str.length()&&t!=null; i++){if(t.nodes[str.charAt(i)-'a'] == null)//如果其中一个字符找不到,则说明该字符串不存在return null;t = t.nodes[str.charAt(i)-'a'];}if(t.isEnd)  //如果是一个单词的结尾return t;elsereturn null;//如果不是结尾,则说明只是前缀}
                            测试:

Tire tire = new Tire();String[] str = {"a", "to", "tea", "ted", "ten","ten", "i", "in", "inn"};for(String s:str)tire.insert(s);if(tire.findCount("ten") != null)System.out.println(tire.findCount("ten").count);elseSystem.out.println("this string does not exist in trie tree");
                             结果为:

2

                          3.前缀匹配

                            统计具有特定公共前缀的单词有多少个,如查找{"a", "to", "tea", "ted", "ten","ten", "i", "in", "inn"}中具有公共前缀te的单词有多少个。

                            先找到存储前缀最后一个字符的节点,则其所有子树的单词都是以te为前缀的,然后分治统计其各个子节点:

                            1>如果节点p为null,则返回0

                            2>否则返回26个子树所有单词数量并相加(注意,当前节点可能就是一个单词,所以还要加上当前节点的单词)

public int  prefix(String str){Node cur = root;for(int i=0; i<str.length(); i++)               //用来找到指向所求前缀的最后一个字符的节点{if(cur.nodes[str.charAt(i)-'a'] == null)return 0;cur = cur.nodes[str.charAt(i)-'a'];} return prefix(cur);}private int prefix(Node p) {if(p == null)              //如果为null,直接返回0return 0;else{int count = 0;for (int i = 0; i < p.nodes.length; i++) {count += prefix(p.nodes[i]);       //将所有子树的单词相加}if (p.isEnd)                               //因为该节点本身就是个单词,所以再加上count += p.count;return count;}}
                          测试:

public static void main(String[] args) {String[] str = {"a", "a","t","to", "tea", "ted", "ten","ten", "i", "in", "inn"};Trie trie = new Trie();for(String s:str)trie.insert(s);System.out.println(trie.prefix("te"));}
                         结果为:

4


                          4.字符串字典顺序排序

                             在节点中定义一个字段存储单词,如果只是前缀,那么为null。建立trie树,先序遍历即可。

                             定义节点:

class Node{private boolean isEnd;private Node [] nodes = null;private int count;private String word;      //保存单词,如果为前缀则为nullpublic Node(){super();this.isEnd = false;this.nodes = new Node[26];this.count = 0;this.word = null;}}
                            在一个单词插入结束时,将单词保存

public void insert(String str){Node cur = root;for(int i=0; i<str.length(); i++){if(cur.nodes[str.charAt(i)-'a'] == null){cur.nodes[str.charAt(i)-'a'] = new Node();}cur = cur.nodes[str.charAt(i)-'a'];}cur.isEnd = true;cur.count++;cur.word = str;  //单词结束则保存}
                            先序遍历

public void preTraverse(Node p){if(p.isEnd)             //如果是一个单词的结尾{for(int i=0; i<p.count; i++)   //单词可能有重复,全部输出System.out.print(p.word + " ");}for(int i=0; i<p.nodes.length; i++){if(p.nodes[i] != null)           //如果为null,则说明不存在,就不用递归了preTraverse(p.nodes[i]);}}

                         测试:

public static void main(String[] args) {String[] str = {"a", "a","t","to", "tea", "ted", "ten","ten", "i", "in", "inn"};Trie trie = new Trie();for(String s:str)trie.insert(s);trie.preTraverse(trie.root);}
                       结果为:

a a i in inn t tea ted ten ten to 


0 0