Trie树的两种实现 - hiho一下

来源:互联网 发布:淘宝怎么避免虚假交易 编辑:程序博客网 时间:2024/05/23 14:15

问题的引出

如果有一个字符串的词典,那么对于每一个额外给出的字符串,能否快速地在这个词典里面统计出以这个字符串开头的所有单词的数目呢?

最暴力的方案是用这个字符串去和字典里的每个单词比较,判断是否是字典里的单词的前缀。显然,对于每个额外给出的字符串,都要重新查满一次字典,这太慢了。

经典的解决就是用Trie树这种数据结构。

Trie树是什么

Trie树就是字典树,以一颗树的形式表示整个字典。引用hiho一下的例子和图片。树的边代表了每个字母,树的节点用来做统计等额外的工作。当字典中有app,apple,add三个单词时,所构造出来的trie树如下:

这里写图片描述

当要添加一个单词时,先按顺序访问已经有的节点直到不能访问为止,然后将剩余部分的每个字符新建节点,按顺序添加到trie树中。例如,我们要添加单词apart,则先访问a和p,发现不能继续访问了。于是按顺序创建a,r,t三个节点。

这里写图片描述

使用Trie树时,则按顺序在树中进行访问即可。我们这里的问题,额外需要做的数据结构是在每个节点中添加一个记录访问次数的统计量cnt。创建单词访问节点的同时,将统计量+1。查询单词访问节点的时候,读出该统计量就是以当前字符串为前缀的单词的数量。

Trie树的基本逻辑

我们不妨先假设Trie树的节点已经设计好了,先来看看Trie树的创建基本逻辑addString,以及使用的基本逻辑search。

class Trie{private:    TrieNode * root;public:    Trie(){        root = new TrieNode();    }    void addString(const string & str){        TrieNode * cur = root;        for (int i = 0; i < str.size(); ++i){            //or char j = str[i]; when use hashtable.            int j = str[i] - 'a';            if(!cur -> hasChild(j))                cur -> setChild(j, new TrieNode());            cur = cur -> getChild(j);            cur -> addOne();        }    }    int search(const string & str){        TrieNode * cur = root;        for (int i = 0; i < str.size(); ++i){            //or char j = str[i]; when use hashtable.                   int j = str[i] - 'a';            if(!cur -> hasChild(j))                return 0;            cur = cur -> getChild(j);        }        return cur -> getCnt();    }    ~Trie(){        delete root;    }};

Trie树节点的存储方法-固定数组大小

接下来,设计TrieNode的数据结构。第一种,浪费空间争取时间,查询儿子时间O(1)。对每个结点开一个字母集大小的数组,对应的下标是儿子所表示的字母,内容则是这个儿子对应在大数组上的位置:

class TrieNode{private:    TrieNode * next[26];    int cnt;public:    TrieNode(){        memset(next, 0, sizeof(next));        is_word = false;        cnt = 0;    }    bool hasChild(const int i){        return next[i] != NULL;    }    TrieNode * getChild(const int i){        return next[i];    }    void setChild(const int i, TrieNode * const o){        next[i] = o;    }    void addOne(){        ++cnt;    }    int getCnt(){        return cnt;    }    ~TrieNode(){        for(int i = 0; i < 26; ++i)            if(next[i])                delete next[i];    }};

Trie树节点的存储方法-Map

第二种,省空间,浪费查询时间,查询儿子时间O(log(儿子数)).
对每个结点挂一个map,只有儿子存在的时候才加入该节点。

class TrieNode{private:    map<char, TrieNode *> next;    int cnt;public:    TrieNode(){        clear();        cnt = 0;    }    bool hasChild(const char c){        return next.count(c) != 0;    }    TrieNode * getChild(const char c){        return next[c];    }    void setChild(const char c, TrieNode * const o){        next[c] = o;    }    void addOne(){        ++cnt;    }    int getCnt(){        return cnt;    }    void clear(){        for(map<char, TrieNode *>::iterator it = next.begin(); it != next.end(); ++it){            it -> second -> clear();        }        next.clear();    }    ~TrieNode(){        clear();    }};
0 0
原创粉丝点击