字典树 / Trie树

来源:互联网 发布:js动态添加div属性值 编辑:程序博客网 时间:2024/06/04 20:07

字典树又称单词查找树,Trie树,是一种树形结构,是一种哈希树的变种。典型应用是用于统计,排序和保存大量的字符串(但不仅限于字符串),所以经常被搜索引擎系统用于文本词频统计。它的优点是:利用字符串的公共前缀来节约存储空间,最大限度地减少无谓的字符串比较,查询效率比哈希表高。

字典树与字典很相似,当你要查一个单词是不是在字典树中,首先看单词的第一个字母是不是在字典的第一层,如果不在,说明字典树里没有该单词,如果在就在该字母的孩子节点里找是不是有单词的第二个字母,没有说明没有该单词,有的话用同样的方法继续查找.字典树不仅可以用来储存字母,也可以储存数字等其它数据。

package com.xj.test;import java.io.BufferedReader;import java.io.File;import java.io.FileInputStream;import java.io.FileNotFoundException;import java.io.IOException;import java.io.InputStreamReader;import java.util.HashMap;import java.util.Map;public class Trie{    private int SIZE = 26;    private TrieNode root;// 字典树的根    class TrieNode // 字典树节点    {        private int num;// 有多少单词通过这个节点,即由根至该节点组成的字符串模式出现的次数        private TrieNode[] son;// 所有的儿子节点        private boolean isEnd;// 是不是最后一个节点        private char val;// 节点的值        TrieNode()        {            num = 1;            son = new TrieNode[SIZE];            isEnd = false;        }    }    Trie() // 初始化字典树    {        root = new TrieNode();    }    // 建立字典树    public void insert(String str) // 在字典树中插入一个单词    {        if (str == null || str.length() == 0)        {            return;        }        TrieNode node = root;        char[] letters = str.toCharArray();//将目标单词转换为字符数组        for (int i = 0, len = str.length(); i < len; i++)        {            int pos = letters[i] - 'a';            if (node.son[pos] == null)  //如果当前节点的儿子节点中没有该字符,则构建一个TrieNode并复值该字符            {                node.son[pos] = new TrieNode();                node.son[pos].val = letters[i];            }             else   //如果已经存在,则将由根至该儿子节点组成的字符串模式出现的次数+1            {                node.son[pos].num++;            }            node = node.son[pos];        }        node.isEnd = true;    }    // 计算单词前缀的数量    public int countPrefix(String prefix)    {        if(prefix==null||prefix.length()==0)        {            return-1;        }        TrieNode node=root;        char[]letters=prefix.toCharArray();        for(int i=0,len=prefix.length(); i<len; i++)        {            int pos=letters[i]-'a';            if(node.son[pos]==null)            {                return 0;            }            else            {                node=node.son[pos];            }        }        return node.num;    }    // 打印指定前缀的单词    public String hasPrefix(String prefix)    {        if (prefix == null || prefix.length() == 0)        {            return null;        }        TrieNode node = root;        char[] letters = prefix.toCharArray();        for (int i = 0, len = prefix.length(); i < len; i++)        {            int pos = letters[i] - 'a';            if (node.son[pos] == null)            {                return null;            }            else            {                node = node.son[pos];            }        }        preTraverse(node, prefix);        return null;    }    // 遍历经过此节点的单词.    public void preTraverse(TrieNode node, String prefix)    {        if (!node.isEnd)        {            for (TrieNode child : node.son)            {                if (child != null)                {                    preTraverse(child, prefix + child.val);                }            }            return;        }        System.out.println(prefix);    }    // 在字典树中查找一个完全匹配的单词.    public boolean has(String str)    {        if(str==null||str.length()==0)        {            return false;        }        TrieNode node=root;        char[]letters=str.toCharArray();        for(int i=0,len=str.length(); i<len; i++)        {            int pos=letters[i]-'a';            if(node.son[pos]!=null)            {                node=node.son[pos];            }            else            {                return false;            }        }        //走到这一步,表明可能完全匹配,可能部分匹配,如果最后一个字符节点为末端节点,则是完全匹配,否则是部分匹配        return node.isEnd;    }    // 前序遍历字典树.    public void preTraverse(TrieNode node)    {        if(node!=null)        {            System.out.print(node.val+"-");            for(TrieNode child:node.son)            {                preTraverse(child);            }        }    }    public TrieNode getRoot()    {        return this.root;    }    public static void main(String[]args) throws IOException    {        Trie tree=new Trie();        String[] dictionaryData= {"hello","student","computer","sorry","acm","people","experienced","who","reminds","everyday","almost"};        //构建字典        for(String str:dictionaryData)        {            tree.insert(str);        }        String filePath="C:\\Users\\Administrator\\Desktop\\sourceFile.txt";        File file=new File(filePath);        if(file.isFile() && file.exists())        {             InputStreamReader read = new InputStreamReader(new FileInputStream(file));            BufferedReader bufferedReader = new BufferedReader(read);            String lineTxt = null;            Map<String,Integer> countMap=new HashMap<String,Integer>();            while((lineTxt = bufferedReader.readLine())!= null)            {                if(tree.has(lineTxt))                {                    if(countMap.containsKey(lineTxt))                    {                        countMap.put(lineTxt, countMap.get(lineTxt)+1);                    }                    else                    {                        countMap.put(lineTxt, 1);                    }                }                else                {                    System.out.println(lineTxt+"不在字典中!");                }            }            for(String s:countMap.keySet())            {                System.out.println(s+"出现的次数"+countMap.get(s));            }            read.close();        }    }   }
原创粉丝点击